• Nenhum resultado encontrado

3) A SIGNIFICÂNCIA ESTATÍSTICA E A PRÁTICA ECONÔMICA

3.1. Resgatando o debate na ciência econômica

3.1.3. O livro de Ziliak e McCloskey e o “culto” na German Economic Review

O último trabalho de Ziliak e McCloskey (2008a) compila os dois estudos anteriores realizados na AER bem como os argumentos utilizados em outros artigos. O livro traz, ainda, exemplos e referências de como aparece o problema da significância estatística em outras áreas das ciências sociais e biomédicas, e também busca identificar as origens históricas do ritual estatístico atualmente adotado, encontrando suas origens em Fisher, que se sobrepôs aos métodos sugeridos por Gosset, Neyman, Pearson e Wald. Tendo em vista tudo que já foi exposto no capítulo anterior, não é necessário adentrar em detalhes da obra. Cabe, aqui, apenas mencionar os comentários de Aris Spanos (2008) e Tom Engsted (2009) ao livro, bem como reportar os resultados do artigo de Walter Kramer (2011), que fez análise recente do problema na German Economic Review (GER). Engsted (2009 p.395) concorda com o ponto principal de Ziliak e McCloskey e no início do texto o autor faz questão de frisar o ponto:

[...] eu gostaria de afirmar, desde o início, que eu concordo plenamente com o ponto de McCloskey e Ziliak de que (in)significância estatística não implica necessariamente em (in)significância econômica, e que uma boa pesquisa empírica em economia deve discutir o significado econômico de uma maneira ou de outra [...] não há método objetivo ou padrão (como o nível de significância de 5%) que por si mesmo pode decidir por nós.

Na verdade, o principal objetivo do texto de Engsted é chamar a atenção para áreas da ciência econômica em que os pesquisadores, reconhecendo as limitações e o caráter aproximado e inerentemente mal especificado de seus modelos, não se respaldam em testes de significância para avaliá-los. Tais áreas seriam a de modelos de equilíbrio geral dinâmico estocástico (DSGE), ciclos reais de negócios (RBC) e modelos de expectativa racional linear (LRE). Nestes campos, é explicitamente reconhecido que os modelos não pretendem ser replicações da realidade e que testes de significância seriam pouco ou quase nada informativos. Engsted defende, diga-se, com certa propriedade, essas linhas de estudo, afirmando que fazem exatamente o que recomendam Ziliak e McCloskey. O argumento do autor é, portanto, que não seria verdade que “quase todos” os economistas confundem significância econômica com significância estatística. Apesar da validade de chamar a atenção para estes campos – que abandonaram os testes de significância, pois, como já afirmou Sargent, a significância estatística estaria rejeitando muitos bons modelos – a discussão de Engsted tem pouco sentido empírico para esta dissertação, uma vez que desconsidera a existência do problema onde ela foi

apontada (nos estudos econométricos aplicados, que representam cerca de 70% de todos os trabalhos publicados na RBE, por exemplo) e não realizou qualquer levantamento para quantificar o problema.

Já Aris Spanos (2008) reconhece que a questão dos testes de significância foi levantada na economia tardiamente e dá a Ziliak e McCloskey crédito por fazerem disto um problema na área. Spanos, todavia, preocupa-se com o tom e o modo como a discussão foi trazida, que, em suas palavras, “[...] ofusca as questões envolvidas” (SPANOS, 2008, p. 156). O autor afirma que, de fato, os métodos de Fisher e de Neyman-Pearson são muito suscetíveis às falácias de aceitação e de rejeição, mas não acredita que os métodos vez ou outra pincelados por Ziliak e McCloskey sejam adequados para resolver o problema74. Spanos sugere, por conseguinte, a análise da severidade dos testes a que as hipóteses são submetidas (tratada sucintamente na seção 2.2.5.). Outro ponto levantado é com relação ao uso dos testes de significância para abordar problemas de especificação, alegando, inclusive, serem modelos mal especificados problema pior do que as falácias de aceitação e de rejeição75. Em suas palavras,

[...] o problema de má especificação estatística não é apenas mais fundamental, mas os pesquisadores sabem, há algum tempo, como lidar com ele usando os testes de má especificação e reespecificação. Além disso, testes de significância de Fisher desempenham um papel crucial na validação do modelo [...] na verdade, me pergunto quantos artigos aplicados publicados na

American Economic Review, nos últimos 30 anos, são suscetíveis de passar

nos testes de adequação estatística; eu arriscaria um palpite de menos de 1% [...] (SPANOS, 2008, p.163).

Não obstante, vale lembrar que mesmo testes de especificação não têm como fugir das falácias de aceitação e de rejeição sem uma métrica de quão grande é um desvio em relação à hipótese nula. Ademais, se os autores dos textos analisados por Ziliak e McCloskey fizeram inferência estatística em seus modelos, supõe-se que fizeram porque achavam que poderiam fazer, isto é, porque achavam que seus modelos eram estatisticamente adequados. Deste modo, um erro não justificaria o outro, e se os pesquisadores além de confundirem significância estatística com significância

74 É interessante notar que o livro de Ziliak e McCloskey não é um livro técnico, e tem um caráter informal de prosa. Dessa forma, realmente não há no livro qualquer desenvolvimento de método para solução dos problemas apontados, apenas referências sobre onde buscá-las, inclusive referências ao próprio Spanos.

econômica, o fizeram em um contexto em que qualquer teste seria inerentemente falho, a situação seria, na verdade, muito pior.

Por fim, cabe discutir o trabalho mais recente encontrado na área, de Walter Kramer (2011). Kramer analisou todos os artigos publicados na GER desde seu lançamento em 2000, totalizando 258 trabalhos. Destes, 110 utilizaram testes de significância, e foram objeto de análise mais detalhada. Kramer (2011, p. 462) confirma os resultados encontrados por Ziliak e McCloskey na AER – 56,4%, isto é, mais da metade dos artigos cometeram a falácia da rejeição, bem como 28,2% cometeram a falácia da aceitação. Além disso, 20,4% adicionaram ou excluíram variáveis do modelo com base unicamente na significância estatística. Kramer enfatiza também a questão da falta de discussão acerca da adequação estatística do modelo utilizado. Mais de 70% dos artigos não discutiram o fato de que a “significância” dos resultados depende da especificação correta dos modelos. Além disso, 57,1% sequer deram uma justificativa, seja teórica ou por meio de testes de diagnóstico, para a especificação utilizada. Assim, Kramer conclui “[...] que as intermináveis tabelas de valores que adornam a maioria dos trabalhos empíricos de hoje são de fato o que Ziliak e McCloskey as denominam - um desperdício desnecessário de tempo e espaço (KRAMER, 2011, p. 466)”. Kramer finaliza com a ressalva de que não se deveria abandonar por completo o uso dos testes de significância, e sim utilizá-los principalmente para verificar se os modelos estão corretamente especificados, sem, contudo, perder de vista que, como não existe um modelo exatamente correto, também seria necessária “[...] uma distinção entre "incorreção" no sentido estatístico e no sentido econômico” (KRAMER, 2011, p. 469).

Tabela 04 – O culto da significância estatística na American Economic Review

Décadas de 1990 e 1980 – Percentual de “sim”

O artigo… AER

(90's) (80's) AER

Q8 - Menciona o poder do teste? 8,0 4,4

Q6 - Evita reportar todos os testes quando irrelevantes? 9,6 8,3 Q16 - Considera mais do que a significância estatística para um argumento

decisivo do ponto de vista empírico?

20,9 29,7

Q11 - Evita a "econometria do sinal"? 21,9 46,7

Q14 - Evita escolher variáveis para o modelo unicamente por meio de significância estatística?

27,3 68,1

Q15 - Após o ponto principal, evita usar a significância estatística como o critério de importância científica?

27,8 40,7

Q10 - Evita a "econometria do asterisco"? 31,0 74,7 Q17 - Utiliza "simulação" para verificar se os coeficientes são razoáveis? 32,6 13,2 Q19 - Evita utilizar a palavra significante com sentidos ambíguos? 37,4 41,2 Q7 - Quando no primeiro uso, considera a significância estatística como apenas um

entre outros critérios de importância?

39,6 47,3

Q9 - Caso mencione o poder do teste, faz algo em relação a isso? 44,0 16,7 Q13 - Discute a "conversa científica" na qual um parâmetro seria considerado

grande ou pequeno?

53,5 28,0

Q18 - Nas conclusões ou considerações finais, separa significância estatística de significância econômica, política ou científica?

56,7 30,1

Q2 - Apresenta estatísticas descritivas? 66,3 32,4

Q1 - Utiliza amostra pequena? 71,1 85,7

Q12 - Discute o tamanho dos coeficientes? 78,1 80,2

Q5 - Interpreta cuidadosamente os coeficientes? 81,0 44,5

Q4 - Fez a hipótese nula adequada? 83,9 97,3

Q3 - Apresenta coeficientes em formas economicamente interpretáveis? 86,9 66,5 Fonte: todos os artigos completos publicados na American Economic Review nas décadas de 1980 e