HEURÍSTICAS E VIESES - DADOS DE COPYRIGHT

10

Um estudo da incidência de câncer renal nos 3.141 condados dos Estados Unidos revela um padrão notável. Os condados onde a incidência de câncer renal é menor são na maior parte rurais, esparsamente povoados e localizados em estados tradicionalmente republicanos no Meio-Oeste, no Sul e no Oeste. Que conclusão você tira disso?

Sua mente ficou bastante ativa nos últimos segundos e foi principalmente uma operação do Sistema 2. Você deliberadamente procurou na memória e formulou hipóteses. Algum esforço esteve envolvido; suas pupilas dilataram e seus batimentos cardíacos aumentaram de modo mensurável. Mas o Sistema 1 não ficou ocioso: a operação do Sistema 2 dependia dos fatos e sugestões recuperados da memória associativa. Você provavelmente rejeitou a ideia de que políticos republicanos proporcionam proteção contra o câncer renal. Muito provavelmente, acabou se concentrando no fato de que os condados com baixa incidência de câncer são na maior parte rurais. Os perspicazes estatísticos Howard Wainer e Harris Zwerling, de quem peguei esse exemplo, comentaram: “É tão fácil quanto tentador inferir que os baixos índices de câncer dos condados estão diretamente ligados ao modo de vida puro do meio rural — livre da poluição do ar, da poluição da água, com acesso a alimento fresco e sem aditivos.¹” Isso faz perfeito sentido.

Agora considere os condados em que a incidência de câncer de rim é mais elevada. Esses condados atingidos tendem a ser na maior parte rurais, esparsamente povoados e localizados em estados tradicionalmente republicanos no Meio-Oeste, no Sul e no Oeste. Ironicamente, Wainer e Zwerling comentam: “É fácil inferir que suas elevadas taxas de câncer podem ser diretamente devidas à pobreza do estilo de vida rural — sem acesso a bons cuidados médicos, com dieta rica em gordura, excesso de álcool e tabaco.” Alguma coisa está errada, é claro. O estilo de vida rural não pode explicar ao mesmo tempo uma incidência muito alta e muito baixa de câncer renal.

O fator-chave não é que os condados sejam rurais ou predominantemente republicanos. É que condados rurais têm populações pequenas. E a principal lição a ser aprendida não é sobre epidemiologia, mas sobre o difícil relacionamento entre nossas mentes e as estatísticas. O Sistema 1 é altamente proficiente numa forma de pensamento — automaticamente e sem esforço ele identifica ligações causais entre eventos, às vezes mesmo quando a ligação é espúria. Quando recebeu a informação sobre os condados com elevada incidência, você imediatamente presumiu que esses condados são diferentes de outros condados por um motivo, que deve haver uma causa que explique a diferença. Como veremos, contudo, o Sistema 1 é inepto quando confrontado com fatos “meramente estatísticos”, que mudam a probabilidade de resultados, mas não faz com que aconteçam.

Um evento aleatório, por definição, não se presta a explicação, mas grupos de eventos aleatórios de fato se comportam de um modo altamente regular. Imagine uma grande urna cheia

de bolas de gude. Metade das bolinhas são vermelhas, metade, brancas. A seguir, imagine uma pessoa muito paciente (ou um robô) que cegamente tira quatro bolinhas da urna, registra o número de bolas vermelhas na amostra, joga as bolas de volta na urna e depois faz isso de novo, várias vezes. Se você sintetiza os resultados, vai descobrir que o resultado “duas vermelhas, duas brancas” ocorre (quase exatamente) seis vezes tão frequentemente quanto o resultado “quatro vermelhas” ou “quatro brancas”. Essa relação é um fato matemático. Você pode prever o resultado da amostragem repetida de uma urna quase com o mesmo grau de confiança com que prevê o que vai acontecer se bater num ovo com um martelo. Você não pode prever cada detalhe de como a casca vai quebrar, mas pode ter certeza sobre a ideia geral. Há uma diferença: a gratificante percepção de causalidade que você sente quando pensa num martelo atingindo um ovo está completamente ausente quando você pensa em amostragem. Um fato estatístico relacionado é relevante para o exemplo do câncer. Na mesma urna, dois contadores de bolinhas de gude muito pacientes se revezam. Jack tira quatro bolinhas em cada tentativa, Jill tira sete. Ambos registram cada vez que observam uma amostra homogênea — todas brancas ou todas vermelhas. Se prosseguirem por tempo suficiente, Jack vai observar esses resultados extremos com mais frequência do que Jill — por um fator de oito (as porcentagens esperadas são 12,5% e 1,56%). Mais uma vez, nenhum martelo, nenhuma causalidade, mas um fato matemático: amostras de quatro bolinhas produzem resultados extremos com mais frequência do que amostras de sete bolinhas o fazem.

Agora imagine a população dos Estados Unidos como bolinhas de gude numa urna gigante. Algumas bolinhas estão marcadas CR, para câncer renal. Você extrai amostras de bolinhas e povoa cada condado por vez. Amostras rurais são menores do que outras amostras. Assim como no jogo de Jack e Jill, resultados extremos (taxas de câncer muito elevadas e/ou muito baixas) têm maior probabilidade de serem encontrados em condados esparsamente povoados. Essa é a única conclusão a se tirar do caso.

Começamos por um fato que pede uma causa: a incidência de câncer renal varia amplamente de condado para condado e as diferenças são sistemáticas. A explicação que ofereci é estatística: resultados extremos (tanto altos como baixos) têm maior probabilidade de serem encontrados em amostras pequenas do que nas grandes. Essa explicação não é causal. A população pequena de um condado não causa nem previne câncer; meramente permite que a incidência de câncer seja muito mais elevada (ou muito menor) do que numa população maior. A verdade mais profunda é que não há nada para explicar. A incidência de câncer não é verdadeiramente mais baixa ou mais elevada do que o normal num condado com uma população pequena, apenas parece ser assim num ano particular devido a um acidente de amostragem. Se repetirmos a análise no ano seguinte, vamos observar o mesmo padrão geral de resultados extremos nas amostras pequenas, mas os condados onde o câncer era comum no ano anterior não necessariamente terão uma incidência alta nesse ano. Se esse é o caso, as diferenças entre condados densos e rurais não contam realmente como fatos: são o que os cientistas chamam de artefatos, observações que são produzidas inteiramente por algum

aspecto do método de pesquisa — nesse caso, pelas diferenças no tamanho da amostra.

A história que eu contei talvez o tenha surpreendido, mas não foi uma revelação. Você já sabe faz tempo que os resultados de grandes amostras merecem mais confiança do que amostras menores, e mesmo pessoas que são ignorantes de conhecimentos estatísticos já ouviram falar nessa lei dos grandes números. Mas “saber” não é um negócio sim-não, e talvez você descubra que as seguintes afirmações se aplicam a você:

• A característica “esparsamente povoado” não se sobressaiu imediatamente como relevante quando você leu o histórico epidemiológico.

• Você ficou no mínimo razoavelmente surpreso com o tamanho da diferença entre amostras de quatro e amostras de sete.

• Mesmo agora, você deve empregar algum esforço mental para perceber que as duas seguintes afirmações significam exatamente a mesma coisa:

• Amostras grandes são mais precisas do que amostras pequenas.

• Amostras pequenas fornecem resultados extremos com mais frequência do que amostras grandes o fazem.

A primeira afirmação soa claramente como verdadeira, mas, até que a segunda versão faça sentido intuitivamente, você não compreendeu realmente a primeira.

A questão principal é: sim, você sabia de fato que os resultados de grandes amostras são mais precisos, mas talvez agora perceba que não sabia muito bem. Você não está sozinho. O primeiro estudo que Amos e eu fizemos juntos mostrou que mesmo pesquisadores sofisticados têm intuições fracas e uma compreensão incerta de efeitos de amostragem.

A LEI DOS PEQUENOS NÚMEROS

Minha colaboração com Amos no início dos anos 1970 começou com uma discussão da alegação de que pessoas que não possuem treinamento em estatística são bons “estatísticos intuitivos”. Ele contou a meus alunos e a mim sobre pesquisadores da Universidade de Michigan que se mostravam de um modo geral otimistas acerca de estatística intuitiva. Eu tinha uma opinião formada sobre essa alegação, que tomei pelo lado pessoal: recentemente, descobrira não ser um bom estatístico intuitivo, e não acreditava que fosse pior do que os outros.

Para um psicólogo pesquisador, variação de amostragem não é uma curiosidade; é um inconveniente e um obstáculo custoso, que transforma o empreendimento de todo projeto de pesquisa numa aposta. Suponha que você deseje confirmar a hipótese de que o vocabulário médio das meninas de 6 anos é maior do que o vocabulário médio dos meninos da mesma idade. A hipótese é verdadeira na população geral; o vocabulário médio das meninas é de fato maior. Meninas e meninos variam um bocado, entretanto, e pelo mero acaso você poderia selecionar uma amostra em que a diferença é inconclusiva, ou mesmo uma em que os meninos exibam na verdade uma nota mais elevada. Se você é o pesquisador, esse resultado sai caro para você, porque você gastou tempo e esforço, e não conseguiu confirmar uma hipótese que

era de fato verdadeira. Usar uma amostra suficientemente grande é o único modo de reduzir o risco. Pesquisadores que pegam uma amostra pequena demais se põem à mercê do acaso da amostragem.

O risco de erro pode ser estimado para qualquer dado tamanho de amostra mediante um procedimento razoavelmente simples. Tradicionalmente, porém, os psicólogos não usam cálculos para decidir sobre um tamanho de amostra. Eles usam seu julgamento, que comumente é falho. Um artigo que li pouco antes do debate com Amos demonstrava o equívoco que os pesquisadores cometiam (ainda cometem) com uma observação dramática. O autor comentava que os psicólogos comumente escolhem amostras tão pequenas que expõem a si próprios a um risco de 50% de fracasso² na confirmação de suas verdadeiras hipóteses! Nenhum pesquisador em sã consciência aceitaria tal risco. Uma explicação plausível era de que as decisões dos psicólogos sobre o tamanho da amostra refletiam enganos intuitivos predominantes sobre a extensão da variação de amostragem.

O artigo me deixou chocado, pois explicava alguns problemas que eu enfrentara em minha própria pesquisa. Como a maioria dos psicólogos pesquisadores, eu rotineiramente escolhera amostras que eram pequenas demais e muitas vezes obtivera resultados que não faziam sentido. Agora eu sabia por quê: os resultados inesperados eram na verdade artefatos de meu método de pesquisa. Meu engano era particularmente embaraçoso porque eu dava aula de estatística e sabia como calcular o tamanho de amostra que reduziria o risco de fracasso a um nível aceitável. Mas eu nunca escolhera um tamanho de amostra por cálculo. Como meus colegas, confiara na tradição e em minha intuição ao planejar meus experimentos e nunca pensara seriamente sobre a questão. Quando Amos visitou meu grupo de alunos pesquisadores, eu já chegara à conclusão de que minhas intuições eram deficientes e, no decorrer do seminário, rapidamente concordamos que os otimistas de Michigan estavam errados.

Amos e eu resolvemos examinar se eu era o único tolo ou membro de uma maioria de tolos, testando se pesquisadores destacados por sua perícia matemática cometeriam erros similares. Elaboramos um questionário que descrevia situações de pesquisa realistas, incluindo a reprodução de experimentos bem-sucedidos. Pedi aos pesquisadores para escolher tamanhos de amostras, avaliar os riscos de fracasso ao qual suas decisões os expunham e fornecer conselhos a alunos de graduação hipotéticos que estivessem planejando sua pesquisa. Amos reuniu as respostas de um grupo de participantes sofisticados (incluindo autores de dois livros de estatísticas) em uma reunião da Society of Mathematical Psychology. Os resultados foram inequívocos: eu não era o único tolo. Cada um dos erros que eu cometera foi compartilhado por uma vasta maioria de nossos colaboradores no questionário. Estava evidente que até os especialistas prestavam atenção insuficiente ao tamanho da amostra.

Amos e eu intitulamos nosso primeiro artigo conjunto de “Belief in the Law of Small Numbers”³ (Crença na lei dos pequenos números). Explicamos de modo irônico que “intuições sobre amostragem aleatória parecem satisfazer a lei dos pequenos números, que

afirma que a lei dos grandes números se aplica aos números pequenos também”. Também incluímos uma recomendação veemente de que os pesquisadores encarassem suas “intuições estatísticas com a devida desconfiança e substituíssem a formação de impressões, pelo cálculo sempre que possível”⁴.

UMA TENDÊNCIA A CONFIAR EM VEZ DE DUVIDAR

Em uma pesquisa por telefone com trezentas pessoas da terceira idade, 60% apoiam o presidente.

Se você tivesse de resumir a mensagem dessa frase em exatamente três palavras, como seria? Quase certamente você optaria por “velhos apoiam presidente”. Essas palavras fornecem a essência da história. Os detalhes omitidos da pesquisa, que foi feita por telefone com uma amostra de trezentas pessoas, não apresentam interesse em si mesmos; eles dão informação de background que chama pouca atenção. Seu resumo seria o mesmo se o tamanho da amostra tivesse sido diferente. Claro, um número completamente absurdo teria chamado sua atenção (“uma pesquisa por telefone com seis eleitores, ou 60 milhões de eleitores, da terceira idade…”). A menos que você seja um profissional, talvez não reaja muito diferentemente a uma amostra de 150 e a uma de 3 mil. Esse é o significado da afirmação de que “as pessoas não são adequadamente sensíveis ao tamanho da amostra”.

A mensagem sobre a pesquisa contém informação de dois tipos: a notícia e a fonte da notícia. Naturalmente, você se concentra mais na notícia do que na confiabilidade dos resultados. Quando a confiabilidade é obviamente baixa, porém, a mensagem será desacreditada. Se lhe disserem que “um grupo partidário realizou uma pesquisa incorreta e tendenciosa para mostrar que pessoas mais velhas apoiam o presidente…”, você sem dúvida rejeitará os dados da pesquisa, e eles não se tornarão parte daquilo em que você acredita. Em vez disso, a pesquisa facciosa e seus falsos resultados vão se tornar uma nova notícia sobre mentiras políticas. Você pode decidir não acreditar na mensagem em casos óbvios assim. Mas será que você discrimina suficientemente entre “Eu li no New York Times…” e “Ouvi dizer no escritório…”? Seu Sistema 1 consegue distinguir graus de crença? O princípio do WYSIATI17

sugere que não.

Como descrevi antes, o Sistema 1 não é propenso a duvidar. Ele suprime a ambiguidade e espontaneamente constrói histórias que são tão coerentes quanto possível. A menos que a mensagem seja imediatamente desaprovada, a associação que ela evoca se espalhará como se a mensagem fosse verdadeira. O Sistema 2 é capaz de duvidar, pois consegue manter possibilidades incompatíveis ao mesmo tempo. Entretanto, sustentar uma dúvida é um trabalho mais árduo do que passar suavemente a uma certeza. A lei dos pequenos números é a manifestação de um viés geral que favorece a certeza sobre a dúvida, que vai aparecer sob inúmeros disfarces nos capítulos seguintes.

O forte viés em acreditar que amostras pequenas se parecem muito com a população da qual são extraídas também é parte de uma história maior: tendemos a exagerar a consistência e

a coerência do que vemos. A fé exagerada dos pesquisadores no que pode ser aprendido de umas poucas observações relaciona-se estreitamente com o efeito halo, a sensação que muitas vezes temos de conhecer e compreender uma pessoa sobre a qual na verdade sabemos muito pouco. O Sistema 1 se antecipa aos fatos ao construir uma imagem rica com base em fragmentos de evidência. Uma máquina de tirar conclusões precipitadas agirá como se acreditasse na lei dos pequenos números. De modo mais geral, vai produzir uma representação da realidade que faz sentido demais.

CAUSA E ACASO

O maquinário associativo procura causas. A dificuldade que temos com as regularidades estatísticas é que elas pedem uma abordagem diferente. Em vez de se concentrar no modo como o evento em questão veio a acontecer, o modo de ver estatístico o relaciona com o que poderia ter acontecido em lugar dele. Nada em particular ocasionou o acontecimento do que acontece — o acaso seleciona o evento dentre as alternativas que se apresentam.

Nossa predileção pelo pensamento causal nos expõe a graves enganos ao estimar a aleatoriedade de eventos verdadeiramente aleatórios. Por exemplo, pegue o sexo de seis bebês nascidos em sequência num hospital. A sequência de meninos e meninas é obviamente aleatória; os eventos são independentes uns dos outros, e o número de meninos e meninas que nasceram no hospital nas últimas horas não tem qualquer efeito sobre o sexo do bebê seguinte. Agora considere três sequências possíveis:

As três sequências são igualmente prováveis? A resposta intuitiva — “claro que não!” — é falsa. Como os eventos são independentes e como os resultados MENINO ( ) e MENINA ( ) são (aproximadamente) igualmente prováveis, então qualquer sequência possível de seis nascimentos é tão provável quanto qualquer outra. Mesmo agora que você sabe que essa conclusão é verdadeira, ela permanece contraintuitiva, pois apenas a terceira sequência parece aleatória. Como esperado, é avaliado como muito mais provável do que as outras duas sequências. Somos ávidos por padrões, temos fé em um mundo coerente, em que as regularidades (tal como a sequência de seis meninas) não aparece por acidente, mas como resultado de uma causalidade mecânica ou da intenção de alguém. Não esperamos ver a regularidade produzida por um processo aleatório, e quando detectamos o que parece ser uma regra, rapidamente rejeitamos a ideia de que o processo seja verdadeiramente aleatório. Processos aleatórios produzem muitas sequências que convencem as pessoas de que o processo afinal de contas não é aleatório. Você pode perceber por que a pressuposição de causalidade teria apresentado vantagens evolutivas. Ela é parte da vigilância geral que herdamos de nossos ancestrais. Estamos automaticamente em busca da possibilidade de que o

ambiente tenha mudado. Leões podem aparecer na planície em ocasiões aleatórias, mas seria mais seguro notar e reagir a um aparente aumento na taxa de aparecimento de bandos de leões, mesmo que isso na verdade seja devido a flutuações no processo aleatório.

A percepção amplamente equivocada da aleatoriedade às vezes tem consequências significativas. Em nosso artigo sobre representatividade, Amos e eu citamos o estatístico William Feller, que ilustrou a facilidade com que as pessoas veem padrões onde eles não existem. Durante o intenso bombardeio de Londres na Segunda Guerra Mundial, havia uma crença geral de que o bombardeio não podia ser aleatório porque um mapa dos locais atingidos revelava lacunas óbvias. Alguns suspeitaram que espiões alemães⁵ estivessem escondidos nas áreas não atingidas. Uma análise estatística cuidadosa revelou que a distribuição de locais atingidos era típica de um processo aleatório — e típica também ao evocar uma forte impressão de que não era aleatório. “Para o olho não treinado”, observa Feller, “a aleatoriedade se apresenta como regularidade ou tendência de agrupamento”.

Não demorou para que eu tivesse oportunidade de aplicar o que aprendera com Feller. A Guerra do Yom Kippur estourou em 1973, e minha única contribuição significativa para o esforço de guerra foi aconselhar oficiais de alta patente na Força Aérea Israelense a interromper uma investigação. A guerra no ar inicialmente correu muito mal para Israel, devido ao inesperado bom desempenho dos mísseis terra-ar egípcios. As perdas foram elevadas, e pareciam desigualmente distribuídas. Fiquei sabendo de dois esquadrões que partiam de uma mesma base, sendo que um perdera quatro aviões, enquanto o outro não perdera nenhum. Uma investigação foi iniciada com a esperança de descobrir o que o desafortunado esquadrão estava fazendo de errado. Não havia nenhum motivo prévio para acreditar que um dos esquadrões fosse mais eficiente que o outro, e nenhuma diferença operacional foi identificada, mas é claro que as vidas dos pilotos diferiam de muitas maneiras aleatórias, incluindo, eu me lembro, com que frequência voltavam para casa entre uma missão e outra e algo sobre a condução de interrogatórios. Minha sugestão foi de que o comando aceitasse que os diferentes resultados deviam-se ao acaso cego e que os inquéritos com os pilotos cessassem. Argumentei que o acaso era a resposta mais provável, que uma busca aleatória por uma causa não aparente era algo impossível e que nesse meio-tempo os pilotos