20. Algumas considerações sobre a inferência estatística

(1)

20. Algumas considerações sobre a inferência estatística

Lisbeth Kaiserlian Cordani

Centro Universitário do Instituto Mauá de Tecnologia lisbeth@maua.br

O século XX assistiu ao desenvolvimento de uma das ferramentas mais utilizadas hoje em dia pelos cientistas, analistas econômico-sociais, profissionais liberais, jornalistas etc.: a

Estatística. Enaltecida por uns e odiada por outros, não há como negar a sua importância para a

tomada de decisão em vários campos do saber, principalmente nos dias de hoje, com o acúmulo de informações disponíveis. Se bem utilizada, ela pode ser uma aliada importante para contribuir na compreensão de fenômenos sociais, científicos e mesmo políticos, além de funcionar como memória de povos e nações, ajudando diferentes sociedades na construção de seu futuro.

A palavra Estatística deriva da palavra latina status, que pode significar estado e também situação e foi usada com propósitos ligados à área de economia a partir do século XVIII, embora desde a Antiguidade fosse usada, principalmente para fins políticos, a quantificação de dados referentes a populações (nascimento e morte), colheitas, desastres, comércio etc.

De Platão (século V a.C.) a Bacon (século XVII) havia o domínio da chamada filosofia natural. A partir do Empirismo de Bacon e do Racionalismo de Descartes o mundo intelectual vivenciou a separação entre a filosofia e a ciência, cujas conquistas tornaram-se cada vez mais independentes da própria filosofia. O século XX, com a apologia do método científico, viveu com uma crença muito forte na força explicativa das teorias científicas. Nesse contexto entra a Estatística, que começa a ser vista como uma ferramenta indispensável ao progresso da própria ciência e ao avanço do conhecimento.

Como seria a contribuição da Estatística? Além da parte descritiva, que trata do resumo de dados através de gráficos e/ou medidas resumo, esperava-se que ela pudesse resolver o “velho” problema da indução, no sentido de achar um procedimento que permitisse passar do particular (amostra/experiência) para o geral (população). Isto porque a Estatística dificilmente trabalha com dados censitários, que corresponderiam a toda a população, pela dificuldade de obtenção dos mesmos, além do alto custo envolvido; na verdade é feita uma coleta de dados ou através de experimentos controlados, na área chamada de planejamento de experimentos ou através de estudos observacionais, usando técnicas da área de amostragem.

(2)

O século XX foi o berço da chamada Estatística Matemática, embora o desenvolvimento teórico da Estatística tenha se baseado em tratados de probabilidades de séculos anteriores. Esta teorização deu muita esperança a vários segmentos, que buscavam na ciência a verdade absoluta.

Partindo da premissa de sua necessidade, o ensino da Estatística deveria estar presente em todos os níveis da escala curricular, desde as primeiras reformas do século XX, mas o que vimos foi a sua inserção somente nos diferentes cursos superiores (exatas, biológicas e humanas). Além da entrada tardia para alunos que já tinham como certo um mundo determinístico, dadas as abordagens sobre ciência geralmente apresentadas no ensino pré-universitário, o nível apresentado era muito teórico, desvinculado de aplicações de interesse, com os cursos sendo preparados por matemáticos obrigados a fazê-lo, sem muita motivação. Esta situação caracterizou uma situação de descrédito em relação à utilidade da Estatística por parte da maioria dos alunos e a conseqüência é a alta repetência na disciplina e mesmo a evasão. Este é um cenário internacional, e já há iniciativas para mudança desta situação, com textos mais diretamente ligados às áreas de concentração dos alunos bem como propostas interdisciplinares.

Neste começo de século assiste-se a uma tímida proposta da inserção da Estatística em níveis pré-universitários, através de propostas curriculares veiculadas por órgãos governamentais ligados à educação. Por um lado, esta expansão certamente melhorará o conhecimento dos alunos com relação ao tema. Por outro lado ela suscita imediatamente questões ligadas não só ao ensino propriamente dito, como também à interpretação dos resultados obtidos através de análises de dados, dada a expectativa de se encontrar a “verdade” com este instrumental.

Um dos gargalos do ensino da Estatística é certamente o tópico de inferência, ligado ao fato de estarmos tratando com amostras para tirar conclusões sobre populações. O procedimento utiliza a abordagem de testar uma hipótese com base em uma coleta de dados. Com pouca ou nenhuma iniciação na própria área de estudo (pois a disciplina de Estatística é oferecida nos primeiros anos do curso escolhido) e muito menos em aspectos epistemológicos associados naturalmente ao desenvolvimento do tema, o aluno é exposto a uma teoria pragmática, sem saber nem o que seria uma hipótese científica em sua área e em como transformá-la em uma hipótese Estatística. Grosso modo, podemos dizer que os ingredientes iniciais apresentados são:

H: hipótese D : dados experimentais

Como tratar o par (H, D) convenientemente?

A inferência é um processo que permite tirar conclusões a partir de um certo número de premissas. Se estas premissas contêm a conclusão, a inferência será chamada de dedutiva. Por

(3)

exemplo, a partir das duas premissas (frases grifadas) pode-se inferir a conclusão (frase em itálico), sem sombra de dúvida, uma vez que a conclusão está contida nas frases anteriores:

Todos os homens são mortais João é homem

Logo, João é mortal.

Quando a conclusão extrapola as premissas, tem-se a chamada inferência indutiva. Um dos tipos de indução é o que é chamada de simples enumeração:

Na circunstância 1 foram vistos somente cisnes brancos Na circunstância 2 foram vistos somente cisnes brancos Na circunstância 3 foram vistos somente cisnes brancos Na circunstância 4 foram vistos somente cisnes brancos ...

Conclusão: em qualquer circunstância os cisnes são brancos

A indução por enumeração é semelhante à analogia, só que com uma conclusão mais geral. Este exemplo mostra a debilidade de uma conclusão a partir de raciocínio indutivo, pois um simples cisne preto (que de fato existe) servirá para invalidá-la. Um outro exemplo poderia ser o seguinte:

Há muitos ladrões em São Paulo

Não encontro meu carro no 1o. subsolo do estacionamento do Shopping Logo, meu carro foi roubado.

Esta conclusão, embora plausível, não é necessariamente correta (posso não ter achado o carro por outros motivos, por exemplo, porque deixei em outro subsolo).

Quando o elemento de ligação entre as premissas e a conclusão é de natureza probabilística, dizemos estar diante da inferência estatística. O par (H,D) apresentado acima passa a ter importância nesse contexto, uma vez que o experimento ou a amostra forneceria os dados (D) que serviriam de apoio para tirar conclusões sobre a população (representada pela hipótese H). O problema é a expectativa de que a conclusão, através da Estatística, permita tornar as proposições como algo universal e verdadeiro: isto é esperar da Estatística mais do que ela pode oferecer.

Aparentemente influenciado pelo espírito da época, onde florescia o Positivismo, sir Ronald Fisher (1890-1962), um estatístico inglês, que muitos consideram o mais famoso estatístico de todos os tempos, propôs um método inferencial, que ele pretendia indutivo, chamado teste de significância, que seria usado para falsear uma hipótese (idéia semelhante à de Popper). A

(4)

ferramenta proposta está diretamente ligada ao raciocínio da lógica condicional. Nesta área são normalmente trabalhados dois tipos de raciocínio: um deles conhecido como modus ponens (argumento de raciocínio direto) e outro como modus tollens (argumento de raciocínio por contradição).

Por exemplo, um raciocínio do tipo modus ponens seria:

Se uma hipótese H for verdadeira (p)

Então os dados se comportam de certa maneira Q (q) A hipótese H é verdadeira (p)

Então os dados se comportam da maneira Q (q).

Na notação da lógica temos: Se p então q

p

Logo q.

Como exemplo do raciocínio modus tollens temos:

Se uma hipótese H for verdadeira (p)

Então os dados se comportam de certa maneira Q (q) Os dados não se comportaram da maneira Q (não q) Então a hipótese não é verdadeira (não p).

Na notação da lógica temos: Se p então q

não q logo não p.

A teoria de Fisher usava o processo modus tollens para levar a efeito uma racional e bem definida posição contra a aceitação de uma hipótese a ser testada. Já se opondo ao Bayesianismo (do qual falaremos a seguir) ele defendia o uso de métodos que não levavam a nenhuma afirmação probabilística sobre o mundo real. Como, segundo muitos teóricos da época, a teoria de Fisher “não levava a lugar nenhum”, os famosos estatísticos J. Neyman e E. Pearson, em meados do século XX, criaram o que chamaram de comportamento indutivo através da criação dos testes de hipóteses. Esta teoria tomou conta de todas as áreas de pesquisa, pois se acreditava que através dela poder-se-ia caminhar em direção à verdade através de experimentos científicos. Sua teoria é conhecida como teoria clássica e pode ser verificado que seu método é, na verdade, de natureza dedutiva. A grande diferença entre as duas técnicas, a de teste de significância de Fisher

(5)

e a de teste de hipótese de Neyman Pearson é que na primeira há uma hipótese H (chamada de hipótese nula) para pôr à prova, hipótese esta que sendo rejeitada tantas vezes quantas for posta à prova, daria subsídios para a teoria em questão. Na segunda há duas hipóteses que se complementam e que são usadas para tomada de decisão: as chamadas hipótese nula e a hipótese alternativa – ao se rejeitar a hipótese nula, toma-se a ação na direção da hipótese alternativa. Hoje em dia há um comportamento híbrido na área de Educação Estatística, onde a proposta é usar a abordagem de Neyman Pearson com um dos ingredientes de Fisher (p-value).

Uma das alternativas à teoria clássica é a teoria Bayesiana, derivada do Teorema de Bayes, enunciado no século XVII pelo Rev. Bayes, e publicado postumamente. Esta área causou muita controvérsia no mundo “bem estabelecido” da Estatística clássica (e causa ainda hoje). O teorema em si não apresenta nenhum motivo para controvérsias, sendo aceito em todas as áreas quando visto sob a perspectiva unicamente probabilística. O que causa problemas é seu uso na estatística, pois através dele, informalmente falando, é possível atualizar o valor de uma probabilidade inicial através de observações experimentais, sendo que a mencionada probabilidade inicial é quase sempre colocada de acordo com a experiência ou feeling do pesquisador. Em contraposição à área clássica, que se pretende objetiva, esta é, sem sombra de dúvida, uma área de abordagem subjetiva.

O uso da teoria Bayesiana em Estatística começou a crescer a partir da década de 60 (século XX), principalmente com os avanços computacionais, mas ainda continua “soterrado” pela quantidade de publicações que somente levam em conta o raciocínio clássico. Esta mesma situação pode ser observada no plano do ensino da Estatística, onde as ementas contemplam, quase sempre, somente a vertente clássica, e podemos ver aí uma pressão de natureza econômica devido às milhares de publicações em estoque. Há uma outra pressão também, que é a dos aplicativos computacionais, que em sua grande maioria somente apresentam versões inferenciais não Bayesianas.

A estatística clássica usa a lógica condicional com o raciocínio modus tollens, ou seja, trabalha com raciocínio dedutivo, da seguinte forma:

Se a hipótese H for verdadeira, os dados devem se distribuir em determinada região Os dados não se distribuem naquela região (ou melhor, a probabilidade de

os dados se distribuírem na determinada região é pequena) Logo, a hipótese H não é verdadeira

Isto é a única possibilidade que o teste de hipótese na inferência clássica proporciona. Seria uma falácia, por exemplo, e há livros didáticos que a cometem, concluir que a hipótese H é

(6)

verdadeira se os dados se distribuírem na determinada região (isto é a sentença se p então q não permite deduzir p se observarmos q!). Então a proposta deste tipo de inferência, que não foi usada como se fosse indução por seus criadores (e sim como comportamento indutivo como já dito anteriormente), usa na verdade um raciocínio dedutivo e permite rejeitar ou não rejeitar uma hipótese posta à prova, segundo um risco medido através de probabilidade.

O teorema de Bayes trata o par (H,D) definindo algumas quantidades:

P(H): probabilidade a priori - quantifica a opinião sobre a probabilidade da hipótese H P(D): verossimilhança dos dados (obtida a partir da coleta)

P(H|D): probabilidade a posteriori - modifica a opinião inicial, a partir da coleta D.

Estas quantidades são relacionadas do seguinte modo no teorema:

P(H|D) = [P(H) . P(D|H)] / P(D)

Isto significa que a probabilidade P(H) será revista à luz dos dados D, originando [P(H|D)]. Ou seja, os dados tendem a corrigir a informação inicial, embora essa idéia não significa necessariamente que a informação estivesse equivocada: ela poderia estar incompleta – é o indivíduo que aos poucos vai incorporando mais e mais informação, a ponto de ir mudando de opinião para tirar suas conclusões.

Um dos pontos geradores da polêmica entre clássicos e Bayesianos reside justamente na atribuição das probabilidades a priori. Em nome do “objetivismo” na ciência, um pesquisador jamais poderia fornecer uma opinião sobre uma característica de seu experimento, pois isto seria anti-científico, ou então, no jargão usual, contrário aos preceitos do método científico! Ainda sob o aspecto polêmico, a estatística clássica é rígida quanto ao papel de um parâmetro (característica de uma população) – ele é considerado fixo, enquanto na teoria Bayesiana ele é considerado variável (na verdade é o seu conhecimento sobre o parâmetro que é modelado, e não o próprio!).

Enquanto a teoria Bayesiana tenta quantificar P(H|D), os elementos de que a clássica dispõe permitem calcular P(D|H), ou seja, a teoria clássica não se propõe a quantificar a probabilidade da hipótese de nenhum pesquisador, enquanto que a Bayesiana tem isto com produto.

A teoria Bayesiana oferece ao pesquisador uma probabilidade associada a uma

hipótese e deixa o pesquisador avaliar o seu problema probabilisticamente. A teoria clássica, no

(7)

cálculo: ela oferece a tomada de ação entre duas afirmações (hipótese nula / hipótese alternativa) apresentando uma medida de risco, geralmente mal interpretada. Na percepção dos alunos (também encontrada em diversos textos) a interpretação clássica é erroneamente dada segundo uma interpretação Bayesiana, ou seja como se fosse permitido associar probabilidades a hipóteses.

Neste contexto a teoria Bayesiana é considerada por seus seguidores como sendo indutiva. Na opinião de De Finetti (1974, Theory of Probability) a lógica indutiva é reduzida em essência ao teorema de Bayes pois, para ele,

Raciocinar por indução significa simplesmente aprender a partir da experiência.

Como no mundo científico há uma tendência de superestimar a razão, o que eleva o raciocínio dedutivo ao posto de sistema predominante, a teoria clássica teve grande aceitação pelas áreas de aplicação como biologia, psicologia, dentre outras. O raciocínio indutivo conforme a teoria Bayesiana seria considerado no mínimo suspeito pelos clássicos, dada a subjetividade a ele inerente. Cada área tem a sua filosofia e ambas estão disponíveis para serem usadas dentro das possibilidades oferecidas. A Estatística não é um fim e sim um meio para tomada de decisão: há que se aliar aos resultados análises consistentes e coerentes subjacentes à área de interesse.

Retomando o problema do ensino, não é praxe apresentar esta discussão em disciplinas básicas de estatística, no ensino universitário: daí a dificuldade de se ensinar a técnica pela técnica em aplicações da Estatística nas diversas áreas do conhecimento. Considerações de natureza epistemológica e lógica devem ser discutidas com os alunos bem como devem ser oferecidas a eles as diferentes abordagens disponíveis para tratar problemas de natureza científica.