• Nenhum resultado encontrado

2) O QUE (NÃO) É A SIGNIFICÂNCIA ESTATÍSTICA

2.2. P-valor como evidência, erro real e diferença substantiva

2.2.3. Erro amostral ou erro real

Como expuseram Ziliak e McCloskey (2008a, p. 07), “[...] a significância estatística não está preocupada com nenhuma de uma longa lista de fontes de erros não amostrais”; entretanto, parece haver uma constante busca por resultados “estatisticamente significativos” – não é incomum o pesquisador rodar várias regressões com várias especificações e covariadas diferentes até obter o “asterisco” na variável de interesse – como se isso fosse validar o resultado empírico encontrado. Ocorre que todas as demais fontes de erros que possam estar sendo ignoradas talvez sejam mais importantes do que os erros decorrentes da variação amostral.

Leamer (1983) trata de maneira intuitiva este ponto. Poderíamos decompor a variabilidade de um estimador ̂ em dois componentes, um decorrente da variação amostral , e outro decorrente dos demais erros, como a má especificação do modelo . Isto é:

( ̂) (14)

Para grande, quando a incerteza amostral ( se torna pequena comparada com a incerteza da especificação ( ), seria hora de o pesquisador buscar outras formas de evidência. O autor traz uma analogia simples e ilustrativa (1983, p.33 -34):

[...] suponha que eu esteja interessado em medir a largura de uma moeda e eu entregue réguas para uma sala de voluntários. Após cada voluntário reportar sua medida, eu calculo a média e o desvio padrão, e concluo que a moeda tem largura de 1,325 milímetros com erro padrão de 0,013. Uma vez que esta quantidade de incerteza não me agrada, eu proponho encontrar três outras salas cheias de voluntários, multiplicando assim a amostra por quatro e dividindo o erro padrão pela metade. Isso é uma forma tola de conseguir uma medida mais precisa, porque já alcancei o ponto em que a incerteza amostral

é pequena comparada com a incerteza da má-especificação Se eu quero aumentar a verdadeira precisão da minha estimativa, é hora de considerar o uso de um micromêtro.

Tragamos alguns casos da teoria econômica. Leamer, ainda em seu texto de 1983, cita o exemplo do efeito de penas de morte sobre a taxa de homicídios. O autor listou 14 variáveis dependentes que poderiam ser utilizadas como controles, sendo incluídas ou não na regressão a depender das crenças prévias do econometrista. Combinações diferentes das covariadas poderiam resultar desde uma estimativa de que uma execução adicional deteria, na média, quase 29 homicídios, até uma estimativa de que uma

execução adicional aumentaria, na média, 12 homicídios. Diante disto, o autor concluiu

que “[...] qualquer inferência, com estes dados, sobre o efeito dissuasivo da pena de morte é muito frágil para ser acreditada” (LEAMER, 1983, p. 42).

Mais recentemente, estudos continuaram divergindo com relação ao efeito dissuasivo da pena de morte. Alguns têm encontrado efeitos altos, enquanto outros, nenhum ou, ainda, efeitos ambíguos55. Trabalho recente de Durlauf, Fu e Navarro (2012) busca, deste modo, verificar como a incerteza quanto ao modelo conduz a estes resultados

conflitantes. Reproduzimos aqui uma figura apresentada pelos autores, que exibe de maneira clara o quão discrepantes os resultados podem ser a depender do modelo utilizado.

No caso apresentado, a escolha entre um modelo linear ou logístico, com coeficientes fixos ou individuais para cada estado dos Estados Unidos, faz com que as estimativas variem desde -98,5 (o que indicaria que penas capitais aumentam a criminalidade56) até 31,5 (o que indicaria que penas capitais diminuem a criminalidade), com o mesmo conjunto de dados.

55 Dezhbakhsh, Rubin e Shepherd (2003), Zimmerman (2004), Donohue e Wolfers (2005), Durlauf, Navarro e Rivers (2010) e Shepherd (2005).

56 Como os próprios Durlauf, Fu e Navarro (2012, p.21) explicam, este resultado pode ser abrangido pela teoria econômica de decisão racional. Um indivíduo que sabe que enfrentará a pena máxima por um assassinato não teria incentivos para reduzir a violência e poderia racionalmente escolher matar as testemunhas ou outras pessoas envolvidas no crime. Outra explicação para este resultado pode ser o efeito “brutalidade”, em que a pena capital de certo modo legitimaria o assassinato, tornando-o moralmente menos custoso.

Figura 1 – Incerteza nos efeitos dissuasivos da pena de morte

Fonte:Durlauf, Fu e Navarro (2012, p. 28)

Percebe-se que a incerteza com relação ao modelo suplanta – e muito – uma possível incerteza com relação à variação amostral. A bem da verdade, para poder se avaliar com segurança a variabilidade amostral, seria preciso primeiramente se acordar em relação a um modelo razoavelmente satisfatório. Em uma situação como essa, procurar um modelo que resulte em estimativas “estatisticamente significativas” com “sinais corretos” seria, decerto, algo fora de propósito. É importante deixar claro que não se quer dizer aqui que o erro amostral deva ser ignorado; a questão é que, como expôs Leamer (2010, p. 37), “[...] uma cultura que insiste em estimativas estatisticamente significativas não é, naturalmente, receptiva a outra razão pela qual os nossos dados não são informativos”.

Outro exemplo que podemos trazer é o debate em torno dos determinantes da diferença de renda entre países, cujo principal artigo talvez seja o de Acemoglu, Johnson e Robinson (2001). A discussão na literatura gira em torno da comparação de diferentes aspectos, como institucionais, culturais, geográficos, de política econômica, de capital humano – entre outros – para explicar a disparidade de renda cross-section observada

no mundo57. Em geral, a significância estatística da variável de interesse figura como um dos principais argumentos empíricos, chegando a afirmações ousadas como: “[...] nós apresentamos evidência de uma regressão que mostrou que, uma vez controlado o efeito das instituições econômicas sobre o PIB per capita, variáveis geográficas [...] não têm qualquer poder explicativo para a prosperidade atual” (ACEMOGLU, JOHNSON, ROBINSON, 2004, p.28, grifo nosso).

A evidência a que os autores se referem trata-se de uma regressão linear por variáveis instrumentais em que o coeficiente de um índice que representaria as instituições se mostrou estatisticamente significante enquanto os coeficientes de variáveis geográficas, como a incidência de malária, não. Será que é realmente plausível que fatores geográficos tenham exatamente nenhum efeito direto sobre o desempenho econômico?

E será que os dados fornecem respaldo a essa afirmativa? Discutiremos isto logo a seguir, na próxima seção. Antes, contudo, cabe ressaltar que há outras fontes de erro que são negligenciadas – e que talvez sejam mais sérias – como erros de especificação, a dependência de resultados assintóticos e, até mesmo, a própria definição das variáveis utilizadas. Quanto a este último ponto, Glaeser et alii (2004, p.13) ao analisarem as medidas que representariam “instituições” concluem que estas

[...] não podem ser usadas para estabelecer causalidade. Essas medidas não são construídas para refletir restrições nos governos ou características permanentes do cenário político. Ao invés disto, elas são altamente voláteis e revertem à média. São pouco correlacionadas com as medidas objetivas disponíveis de restrições constitucionais aos governos. Ainda assim, são essas as variáveis utilizadas para mostrar que instituições causam crescimento.

Em um cenário como este, é difícil entender a ênfase na significância estatística como argumento empírico, a não ser se derivada de uma incompreensão sobre seu real significado. Estes exemplos ressaltam a pertinência do posicionamento de Deming,

[...] na minha prática, eu prontamente me recuso a calcular ou discutir a interpretação do erro padrão quando grandes erros operacionais não amostrais estão obviamente presentes [...] é possível que um resultado seja útil e ainda possua um amplo erro padrão. Um resultado obtido por definições e técnicas que têm sido elaboradas com cuidado, e realizada por entrevista e supervisão excelentes, pode ter um amplo erro padrão porque a amostra era pequena; todavia, esse resultado pode ser bem preferível a outro obtido com uma maior amostra, com um menor erro padrão, mas cujas definições, técnicas e entrevistas estavam fora de linha com as melhores práticas e conhecimento do assunto (DEMING, 1961, p. 55-57).

57 Por exemplo, Acemoglu, Johnson e Robinson (2001), Easterly e Levine (2003), Rodrik, Subramanian e Trebbi (2002), Sachs (2003), Gundlach e Carstensen (2006).