• Nenhum resultado encontrado

Monografia

N/A
N/A
Protected

Academic year: 2021

Share "Monografia"

Copied!
47
0
0

Texto

(1)

Instituto de Matemática, Estatística e Computação Matemática – IMECC

Universidade Estadual de Campinas – UNICAMP

Monografia PIBIC/CNPq

INFERÊNCIA BAYESIANA COMO UM PROCEDIMENTO

DE DECISÃO

Mayara Caroline Maioli RA 118152

Orientadora: Prof.ª Dr.ª Laura Leticia Ramos Rifo

(2)

Sumário

1. Introdução ... 1

2. Probabilidade ... 1

2.1. Axiomas da probabilidade ... 1

2.2. Interpretação subjetivista de probabilidade ... 2

2.3. Interpretação clássica ... 2

2.4. Interpretação frequentista ... 3

3. Conceitos de teoria da informação... 3

3.1. Entropia ... 3 3.2. Entropia Relativa ... 4 3.3. Informação Mútua ... 4 4. Teoria da decisão ... 5 4.1. Função de perda ... 6 4.2. Procedimento de decisão ... 6 4.3. Função de risco ... 7 4.4. Utilidade ... 9 5. Inferência bayesiana ... 10

5.1. Teoria da decisão sob a ótica bayesiana ... 13

5.2. Distribuições a priori ... 14 5.3. Inferência preditiva ... 22 6. Comparação de modelos ... 24 6.1. BIC ... 24 6.2. DIC ... 24 7. Aplicação ... 25 7.1. Objetivo ... 25

7.2. Descrição dos dados ... 25

7.3. Análises iniciais ... 27

7.4. Definindo a distribuição a priori. ... 31

7.5. Comparação das probabilidades de acerto dos artigos definidos e indefinidos ... 37

7.6. Comparação da probabilidade de acerto do artigo definido em cada grupo ... 40

7.7. Comparação entre os grupos DA, DEL e SD com relação ao artigo definido ... 41

7.8. Conclusão ... 43

(3)

1

1. Introdução

A inferência bayesiana é uma metodologia estatística baseada na definição de probabilidade como um grau de informação. Apresenta como principal característica a capacidade de poder combinar novas evidências com conhecimentos anteriores através do uso da regra de Bayes.

No presente trabalho, analisamos os aspectos teóricos da teoria de decisão sob o ponto de vista bayesiano. Primeiramente revisamos os conceitos de perda, risco e utilidade, além de conceitos relacionados à probabilidade e entropia. Sequencialmente, introduzimos os conceitos básicos da inferência bayesiana e discutimos os possíveis métodos de escolha da distribuição a priori. Estudamos uma classe de prioris definidas por misturas de distribuições e discutimos a escolha de modelos através do critério BIC (Bayesian Information Criterion) e DIC (Deviance Information Criterion).

Para aplicação dos conhecimentos adquiridos, utilizamos um estudo feito na área linguística que trata da análise de compreensão e uso de artigos, uma das dez classes gramaticais. Através de um experimento aplicado em crianças do Estado de São Paulo, utilizamos a inferência bayesiana, sob o ponto de vista de escolha de modelo e teste de hipóteses, para analisar se crianças com patologias de linguagem apresentam dificuldade na compreensão e uso de artigos.

2. Probabilidade

O conceito de probabilidade não é único no universo científico. Existem variadas interpretações deste conceito que ainda hoje é motivo de muita controvérsia. No entanto, cada uma destas definições podem ser úteis na resolução de problemas práticos que envolvam a teoria de probabilidade. Adiante, será explicada as teorias frequentista, subjetiva e clássica.

2.1. Axiomas da probabilidade

Seja A um evento no espaço amostral 𝑆, definimos 𝑃(𝐴) um valor denominado probabilidade de 𝐴. Tal valor deve satisfazer os seguintes axiomas:

1) Uma probabilidade deve estar entre os valores 0 e 1 0 ≤ 𝑃(𝐴) ≤ 1

(4)

2

𝑃(𝑆) = 1

3) Para cada sequência de eventos mutuamente disjuntos 𝐴1, 𝐴2, … (isto é, 𝐴𝑖

𝐴𝑗 = ∅ para 𝑖 ≠ 𝑗) 𝑃 (⋃ 𝐴𝑖 ∞ 𝑖=1 ) = ∑ 𝑃(𝐴𝑖) ∞ 𝑖=1

2.2. Interpretação subjetivista de probabilidade

A teoria subjetiva apresenta a probabilidade como o grau de crença em uma proposição baseada em todas as informações disponíveis. Berger (1985) explica que uma probabilidade subjetiva é uma medida sobre o grau de crença que um indivíduo possui. Assim, uma outra pessoa pode ter um grau de crença diferente sobre a mesma proposição e portanto terá uma probabilidade distinta.

Mesmo podendo gerar diferentes probabilidades de acordo com cada indivíduo, uma probabilidade subjetiva assim como as outras, deve obedecer os axiomas de probabilidade. Paulino, Turkman and Murteira (2003) destacam que uma das características da probabilidade subjetiva é poder ser aplicada a situações não repetitivas. Só em termos subjetivos podemos, por exemplo, avaliar a probabilidade da taxa de crescimento do PIB estar entre 2 e 3%.

2.3. Interpretação clássica

A teoria clássica está baseada no conceito de resultados igualmente prováveis. DeGroot and Schervish (2012) exemplificam tal interpretação quando pensamos na probabilidade das faces “cara” e “coroa” de uma moeda. Dado que uma moeda possui apenas dois possíveis resultados e usando o fato de que a soma das probabilidades deve ser 1, então de acordo com o conceito da probabilidade clássica, as probabilidades de cara e coroa são igualmente prováveis, ou seja, ambas devem ser 1/2.

A mesma lógica se estende para o caso em que um processo tem n diferentes saídas. Então, de acordo com a interpretação clássica, a probabilidade de uma destas saídas ocorrer é 1/n.

Observemos que esta interpretação é um caso particular da anterior quando subjetivamente assumimos condições de simetria no experimento realizado.

(5)

3

2.4. Interpretação frequentista

A interpretação frequentista é a definição de probabilidade no qual estão baseados os conceitos da inferência clássica. Por esse motivo, os estatísticos que a usam também são chamados de “frequentistas”. Esta teoria baseia-se na regularidade das frequências relativas. Ross (2009) explica tal conceito apresentado abaixo.

Suponhamos que um experimento seja realizado repetidamente mantidas as mesmas condições. Para cada evento 𝐴, contido no espaço amostral 𝑆 (𝐴 ⊆ 𝑆), definimos 𝑛(𝐴) o número de vezes que o evento 𝐴 ocorre nas 𝑛 repetições. Assim, definimos a probabilidade do evento A ocorrer como

𝑃(𝐴) = lim

𝑛→∞

𝑛(𝐴) 𝑛

Isto é, 𝑃(𝐴) é a frequência limite do evento A. Observemos que este caso é também um caso particular da interpretação subjetivista quando assumimos condições de permutabilidade nas diversas repetições do experimento. Este resultado foi provado originalmente nos anos 30 por DeFinetti, e estendido posteriormente nos trabalhos de Diaconis e Freedman, entre outros.

3. Conceitos de teoria da informação 3.1. Entropia

Para qualquer distribuição de probabilidade, definimos uma quantidade

chamada entropia que pode ser entendida como uma medida de incerteza de uma variável aleatória (ver por exemplo Cover and Thomas (2006)). No caso discreto, se 𝑋 é uma variável aleatória discreta definida em 𝒳 com distribuição de probabilidade definida em 𝑝(𝑥) = 𝑃{𝑋 = 𝑥} 𝑝𝑎𝑟𝑎 𝑥 𝜖 𝒳. A entropia 𝐻(𝑋) de uma variável 𝑋 é definida por

𝐻(𝑋) = − ∑ 𝑝(𝑥) log 𝑝(𝑥)

𝑥 𝜖 𝜒

sendo o log na base 2.

No caso contínuo, se 𝑋 é uma variável aleatória contínua definida em 𝒳 com densidade 𝑓. A entropia 𝐻(𝑋) de uma variável 𝑋 é definida por

𝐻(𝑋) = − ∫ 𝑓(𝑥) log 𝑓(𝑥)

𝑥 𝜖 𝜒

(6)

4

Exemplo 1: Seja X uma variável aleatória discreta com distribuição de probabilidade

𝑋 𝑃(𝑋 = 𝑥) 𝑥1 𝑥2 𝑝1 𝑝2 A entropia 𝐻(𝑋) é 𝐻(𝑋) = 𝑝1𝑙𝑜𝑔 1/ 𝑝1+ 𝑝2𝑙𝑜𝑔 1/ 𝑝2 Se 𝑝1 = 𝑝2 = 1/2 então 𝐻(𝑋) =1 2𝑙𝑜𝑔 2 + 1 2𝑙𝑜𝑔 2 = 1 3.2. Entropia Relativa

A entropia relativa ou distância de Kullback-Leiblerpode ser entendida como a

medida de distância entre duas distribuições de probabilidades 𝑝(𝑥) e 𝑞(𝑥). Pode também ser entendida como uma medida de ineficiência ao assumir que a distribuição é 𝑞 quando na verdade é 𝑝. Sendo assim, seja 𝑋 uma variável aleatória discreta definida em 𝒳. A entropia relativa entre duas distribuições 𝑝(𝑥) e 𝑞(𝑥) é definida como

𝐷(𝑝||𝑞) = ∑ 𝑝(𝑥) log𝑝(𝑥) 𝑞(𝑥) 𝑥 𝜖 𝜒 No caso contínuo, 𝐷(𝑝||𝑞) = ∫ 𝑝(𝑥) log𝑝(𝑥) 𝑞(𝑥) 𝑑𝑥 𝑥 𝜖 𝜒 3.3. Informação Mútua

A informação mútua é uma medida de quantidade de informação que uma variável aleatória contém sobre outra variável aleatória. Assim, seja X e Y variáveis aleatórias discretas com função de distribuição conjunta 𝑝(𝑥, 𝑦) e distribuições marginais 𝑝(𝑥) e 𝑞(𝑦). A informação mútua é a entropia relativa entre a distribuição conjunta e o produto das marginais, ou seja

𝐼(𝑋, 𝑌) = 𝐷(𝑝(𝑥, 𝑦)||𝑝(𝑥)𝑞(𝑦)) = ∑ ∑ 𝑝(𝑥, 𝑦) log 𝑝(𝑥, 𝑦)

𝑝(𝑥)𝑞(𝑦)

𝑦 𝜖 Υ 𝑥 𝜖 𝜒

Quando X e Y são variáveis aleatórias contínuas,

𝐼(𝑋, 𝑌) = ∫ ∫ 𝑝(𝑥, 𝑦) log 𝑝(𝑥, 𝑦)

𝑝(𝑥)𝑞(𝑦) 𝑑𝑦𝑑𝑥

𝑦 𝜖 Υ 𝑥 𝜖 𝜒

(7)

5

4. Teoria da decisão

Constantemente somos forçados a situações em que devemos tomar decisões, sem saber precisamente o custo ou consequência que isto refletirá no futuro. A incerteza aparece como um fator predominante em muitos problemas que exigem a tomada de ações. Para lidar com esses problemas de um modo racional foi desenvolvida a teoria da decisão. Tal teoria é um conjunto de procedimentos que nos levam a tomar uma certa decisão com o objetivo de minimizar uma perda ou maximizar um ganho. Os problemas de estimação pontual e intervalar e teste de hipóteses podem ser vistos como problemas de decisão.

Um problema de decisão é formado por:

ℱ: Família de distribuições: em geral, assumimos que a família é composta por distribuições parametrizáveis, ou seja, indexamos os elementos da família por

ℱ = {𝐹𝜃: 𝜃 𝜖 Θ}

Θ: Espaço paramétrico ou espaço de estados da natureza: espaço em que o parâmetro ou estado da natureza que indexa os elementos da família de distribuições está definido.

𝒜: Espaço de ações: conjunto de todas as ações, decisões ou afirmações que podemos fazer sobre a família de distribuições (modelo probabilístico). Denotaremos uma ação por 𝑎.

Exemplo 2: No caso de um teste de hipótese em que testamos

𝐻: 𝜃 𝜖 𝛩0

o espaço de ações é constituído de dois elementos, 𝒜 = {0,1}, em que 0 representa aceitar a hipótese. Então, podemos aceitar a hipótese ou rejeitá-la de acordo com um procedimento.

Exemplo 3: Em um problema de estimação pontual da proporção de itens defeituosos de

uma fábrica, temos que o espaço paramétrico pode ser 𝛩 = [0,1]. Assim, como queremos estimar esta proporção, nossa ação será um estimador que estará dentro do intervalo [0,1], ou seja, 𝒜 ≡ 𝛩 = [0,1].

(8)

6

4.1. Função de perda

Função que assume valores positivos para cada par de modelos e ações possíveis. É definida como

𝑙: ℱ 𝑥 𝒜 → ℝ+

Se ℱ for parametrizável, então

𝑙: Θ 𝑥 𝒜 → ℝ+

Podemos interpretar a função 𝑙(𝜃, 𝑎) como a perda sofrida ao tomar a decisão 𝑎 dado que o valor do parâmetro é 𝜃.

Podemos usar muitas funções de perdas. Bickel and Doksum (2001) indicam algumas mais utilizadas:

Perda quadrática: função de perda mais comum em problemas de estimação

𝑙(𝜃, 𝑎) = (𝜃 − 𝑎)²

Perda absoluta:

𝑙(𝜃, 𝑎) = |𝜃 − 𝑎|

Perda quadrática truncada:

𝑙(𝜃, 𝑎) = min {(𝜃 − 𝑎)2, 𝑑²}

Perda 0-1:

𝑙(𝜃, 𝑎) = {0 𝑠𝑒 |𝜃 − 𝑎| ≤ 𝑑1 𝑠𝑒 |𝜃 − 𝑎| > 𝑑 𝑑 ≥ 0

As perdas apresentadas aqui levam em consideração a distância entre o valor da ação 𝑎 com o valor do parâmetro 𝜃. Em particular, a perda quadrática penaliza mais desvios grandes, considerando que quanto maior esta distância pior é a decisão.

Em algumas situações, é útil utilizar funções de perda assimétrica. Por exemplo, pode-se utilizar a função 𝑙(𝜃, 𝑎) = 𝐼(𝜃 > 𝑎) que penaliza apenas a superestimação. Outras funções podem ser encontradas em Bickel and Doksum (2001).

Quando o estatístico usa dados para tomar decisões utilizamos na teoria de decisão o que chamamos de procedimento de decisão.

4.2. Procedimento de decisão

O procedimento ou regra de decisão é uma função 𝛿: 𝒳 → 𝒜

em que 𝒳 denota o espaço amostral. Adotar o procedimento 𝛿 significa que se observarmos a amostra 𝑿 = 𝒙 então tomaremos a decisão 𝛿(𝒙) ∈ 𝒜.

(9)

7

Exemplo 4: O estimador 𝜃̂ =∑𝑛𝑖=1𝑋𝑖

𝑛 = 𝑋̅ da proporção de itens defeituosos é um

procedimento de decisão, visto que a partir de uma amostra retorna um valor entre (0,1), sendo este o espaço de ações.

4.3. Função de risco

Quando usamos o procedimento 𝛿, 𝜃 é o verdadeiro valor do parâmetro e

utilizando a amostra (𝑋1, 𝑋2, … , 𝑋𝑛) = 𝑿 = 𝒙 = (𝑥1, 𝑥2, … , 𝑥𝑛) obtemos a função de

perda 𝑙(𝜃, 𝛿(𝒙)). No entanto, uma vez que o valor do parâmetro é desconhecido, a função de perda também é. Além disso, Bickel and Doksum (2001) também explicam que queremos procedimentos que possuam boas propriedades não apenas para uma amostra específica mas para todos as amostras possíveis. Portanto, calculamos a média da função perda sobre todo o espaço amostral. Ou seja, consideramos 𝑙(𝜃, 𝛿(𝒙)) como uma variável aleatória e calculamos a esperança desta variável, denominada função de risco. Logo

𝑅(𝜃, 𝛿(𝒙)) = 𝐸𝜃[ 𝑙(𝜃, 𝛿(𝑿))]

é considerada uma medida de desempenho da regra de decisão 𝛿.

Em problemas de estimação intervalar o procedimento de decisão 𝛿 é o estimador 𝜃̂ = 𝑇(𝑿). Utilizando a perda quadrática, temos que

𝑅(𝜃, 𝜃̂) = 𝐸𝜃[ 𝑙(𝜃, 𝑇(𝑿))] 𝐸𝜃[ (𝜃 − 𝑇(𝑿))²] = 𝐸𝜃(𝜃²) − 2𝐸𝜃(𝜃 ∗ 𝑇(𝑿)) + 𝐸𝜃(𝑇(𝑿)²) = 𝜃2− 2𝜃𝐸 𝜃(𝑇(𝑿)) + 𝐸𝜃(𝑇(𝑿)) 2 + 𝐸𝜃(𝑇(𝑿)2) − 𝐸 𝜃(𝑇(𝑿)) 2 = 𝑉𝑖é𝑠(𝑇(𝑿))2+ 𝑉𝑎𝑟(𝑇(𝑿)) onde 𝑉𝑖é𝑠(𝑇(𝑿)) = 𝐸𝜃(𝑇(𝑿)) − 𝜃

Quando utilizamos a perda quadrática, denominamos a função risco como o erro quadrático médio (EQM), sendo o EQM calculado como o viés do estimador ao quadrado somado com a variância do estimador. Tal medida é usada para comparação de estimadores. Quanto maior o risco que o estimador gera, pior ele é. Portanto, um método de escolha de estimadores é o EQM. Dentre um conjunto de estimadores de um mesmo parâmetro, se compararmos em termos de EQM, o melhor estimador é aquele que possui o menor erro quadrático médio.

(10)

8

Exemplo 5: Seja 𝑋 uma variável aleatória com distribuição 𝑁(𝜇, 𝜎2). Assumindo uma

amostra aleatória independente 𝑋1, 𝑋2, … , 𝑋𝑛, considere os estimadores da variância 𝜎²,

𝜎̂12 = 𝑆2 = 1

𝑛−1∑ (𝑋𝑖 − 𝑋̅)²

𝑛

𝑖=1 e 𝜎̂22 = 1𝑛∑𝑛𝑖=1(𝑋𝑖− 𝑋̅)²= 𝑛−1𝑛 𝑆2. Usando o fato de que

𝑛−1 𝜎² 𝑆

2~ 𝒳

𝑛−12 temos que

𝐸 (𝑛−1𝜎² 𝑆²) = 𝑛 − 1 e 𝑉𝑎𝑟 (𝑛−1𝜎2 𝑆2) = 2(𝑛 − 1)

Calculando o EQM de cada estimador temos

𝐸𝑄𝑀(𝜎̂12) = 𝑉𝑖é𝑠(𝜎̂ 12)2+ 𝑉𝑎𝑟(𝜎̂12) mas 𝑉𝑖é𝑠(𝜎̂12) = 𝐸(𝑆²) − 𝜎2 = 𝐸 (𝜎2 𝑛−1× 𝑛−1 𝜎2 𝑆2) − 𝜎2 = 𝜎2 𝑛−1× 𝑛 − 1 − 𝜎 2 = 0 e 𝑉𝑎𝑟(𝜎̂12) = 𝑉𝑎𝑟 (𝜎2 𝑛−1× 𝑛−1 𝜎2 𝑆2) = (𝜎2)² (𝑛−1)²× 2(𝑛 − 1) = 2𝜎4 𝑛−1, então 𝐸𝑄𝑀(𝜎̂12) = 2𝜎4 𝑛 − 1 E 𝐸𝑄𝑀(𝜎̂22) = 𝑉𝑖é𝑠(𝜎̂ 22)2+ 𝑉𝑎𝑟(𝜎̂22) mas 𝑉𝑖é𝑠(𝜎̂22) = 𝐸 (𝑛−1 𝑛 𝑆 2) − 𝜎2 = 𝐸 (𝜎2 𝑛−1 𝑛−1 𝑛 × 𝑛−1 𝜎2 𝑆2) − 𝜎2 = (𝑛−1)𝜎2 𝑛 − 𝜎² e 𝑉𝑎𝑟(𝜎̂22) = 𝑉𝑎𝑟 (𝑛−1 𝑛 𝑆 2) = 𝑉𝑎𝑟 (𝜎2 𝑛−1 𝑛−1 𝑛 × 𝑛−1 𝜎2 𝑆2) = 2𝜎4(𝑛−1) 𝑛² então 𝐸𝑄𝑀(𝜎̂22) =2𝜎4(𝑛 − 1) 𝑛² + ( (𝑛 − 1)𝜎2 𝑛 − 𝜎²) 2 = (2𝑛 − 1 𝑛2 ) 𝜎4

(11)

9

Comparando graficamente os EQM temos,

Em vermelho é apresentado o EQM do estimador 𝜎̂12 e em azul o EQM do estimador

𝜎̂22. É possível perceber que tanto para amostras pequenas (n=10) quanto para amostras

maiores o estimador 𝜎̂22 possui risco menor, embora seja possível observar que com o

aumento do tamanho amostral os dois estimadores possuem praticamente o mesmo valor de EQM. Fizemos esta comparação para apenas alguns valores de 𝜎² para ilustrar como escolhemos um estimador utilizando como critério o erro quadrático médio.

4.4. Utilidade

A função utilidade é definida como

𝑈: ℱ 𝑥 𝒜 → ℝ+

Se ℱ for parametrizável, então

𝑈: Θ 𝑥 𝒜 → ℝ+

Assim, 𝑈(𝜃, 𝑎) mede o ganho ao optar pela ação 𝑎 quando o valor do parâmetro é 𝜃. Ao contrário da escolha de uma ação utilizando o conceito de perda, quanto maior o ganho, ou seja, quanto maior 𝑈(𝜃, 𝑎), melhor é a ação 𝑎.

Neste texto, foi dado apenas uma introdução sobre a teoria da decisão. Mais informações e exemplos podem ser encontrados em Bickel and Doksum (2001).

(12)

10

5. Inferência bayesiana

O entendimento dos fundamentos da inferência bayesiana pode ser melhor compreendido quando confrontados com os preceitos de sua principal “concorrente”, a inferência clássica. Assim, primeiramente, será introduzido o conceito da inferência clássica.

A teoria clássica é baseada no conceito da possibilidade de infinitas repetições de um experimento mantendo as mesmas condições (ver Paulino et al (2003)). Nesta interpretação, definimos uma amostra como resultados de experimentos ou inquéritos repetidos em condições constantes ou aproximadamente constantes, enquanto que a população é entendida como o conjunto de todas as observações possíveis feitas em condições constantes.

Um aspecto importante na inferência clássica é que os dados observados formam apenas um dos muitos resultados possíveis considerando as mesmas circunstâncias. Portanto, na inferência, devemos levar em consideração a variabilidade que está presente de amostra em amostra. O modo como é feito isso é através da determinação de que os dados são provenientes de uma variável aleatória 𝑋 com

função de distribuição 𝐹0. Tal função representa a variabilidade na observação de 𝑋 e

é desconhecida, mas com base em experimentos passados ou conhecimentos teóricos

sobre o natureza do fenômeno podemos propor uma família ℱ de funções em que 𝐹0

esteja contida que melhor se ajusta ao problema.

A família ℱ muitas vezes pode ser parametrizável, ou seja, podemos indexar seus elementos por um parâmetro. Consideremos então uma família de distribuições ℱ indexadas pelo parâmetro 𝜃 definido no espaço paramétrico Θ. Sendo assim, definimos a família

ℱ = {𝐹𝜃: 𝜃 𝜖 Θ}

Do ponto de vista da inferência clássica, o parâmetro 𝜃 é desconhecido, mas é considerado fixo. Uma amostra aleatória de X é retirada a partir de uma população cuja

característica de interesse é modelada por 𝐹𝜃 e, com base nos valores observados são

feitas inferências sobre o parâmetro 𝜃. No entanto, em muitas situações, tal suposição não é conveniente. Sendo assim, é útil fazer inferências sobre 𝜃 sob o ponto de vista bayesiano.

(13)

11

Na inferência bayesiana 𝜃 pode ser pensado como a realização de uma variável aleatória 𝜃 cuja variabilidade pode ser descrita pela distribuição de probabilidade 𝜋(𝜃). Assim 𝜋(𝜃) representa a crença ou informação disponível a respeito do parâmetro antes de realizar o experimento. Ou seja, conseguimos incorporar todas as informações sobre o parâmetro vindas de um especialista ou de experimentos passados para resolver o problema atual.

A função 𝜋(𝜃) é denominada distribuição a priori. Em alguns casos, como será visto adiante, 𝜋(𝜃) não é uma distribuição de probabilidade. Deste modo, quando não atribuímos uma distribuição de probabilidade à 𝜋(𝜃), tal função é denominada simplesmente priori.

A partir de uma amostra retirada de uma população indexada por 𝜃 a informação sobre o parâmetro é atualizada com os dados desta amostra utilizando o teorema de Bayes. Assim seja 𝑓(𝒙|𝜃) a função de verossimilhança da variável aleatória 𝑋 condicionada a 𝜃.

Definimos:

𝜋(𝜃|𝒙) =𝑓(𝒙|𝜃)𝜋(𝜃)

𝑓(𝒙)

onde 𝑓(𝒙) = ∑ 𝑓(𝒙|𝜃)𝜋(𝜃)Θ se o espaço paramétrico de 𝜃 é discreto e

𝑓(𝒙) = ∫ 𝑓(𝒙|𝜃)𝜋(𝜃) 𝑑𝜃Θ se 𝜃 está definido no espaço paramétrico contínuo.

Denotamos 𝜋(𝜃|𝒙) por distribuição a posteriori. Tal distribuição incorpora a informação inicial sobre o parâmetro e a informação vinda dos dados (verossimilhança).

Assim, antes do experimento ser realizado, toda a informação disponível sobre o parâmetro é extraída da priori. Após a coleta de dados, atualiza-se esta informação utilizando a amostra resultando na distribuição a posteriori.

Exemplo 6: Em problemas de estimação de parâmetros, podemos omitir a constante de

normalização 𝑓(𝒙) no cálculo da posteriori, gerando a fórmula 𝜋(𝜃|𝒙) ∝ 𝑓(𝒙|𝜃)𝜋(𝜃)

Assim, basta a identificarmos como o núcleo de uma distribuição catalogada para sabermos que distribuição a posteriori possui. Daremos agora um exemplo que ilustra o que foi citado acima.

(14)

12

Sejam 𝑋1|𝜃, 𝑋2|𝜃, … , 𝑋𝑛|𝜃 variáveis aleatórias independentes dado 𝜃 com

distribuição 𝐸𝑥𝑝(𝜃) com média 𝐸(𝑋𝑖/𝜃) = 𝜃, ou seja,

𝑓(𝑥𝑖|𝜃) = 1

𝜃exp {−

𝑥𝑖

𝜃} 𝐼ℝ+(𝑥𝑖)

Então a verossimilhança será

𝑓(𝒙|𝜃) = ∏ 𝑓(𝑥𝑖|𝜃)

𝑛

𝑖=1

pois 𝑋1|𝜃, 𝑋2|𝜃, … , 𝑋𝑛|𝜃 são condicionalmente independentes dado 𝜃. Logo,

𝑓(𝒙|𝜃) = 𝜃−𝑛exp {−𝑛𝑥̅

𝜃}

Utilizando a priori

𝜋(𝜃) ∝ 𝜃−𝑎−1 𝑒𝑥𝑝 {−𝑏

𝜃} 𝐼ℝ+(𝜃)

que corresponde ao núcleo de uma distribuição Inversa-Gama(𝑎, 𝑏) (𝐼𝐺(𝑎, 𝑏)), obtemos a posteriori através da fórmula

𝜋(𝜃|𝒙) ∝ 𝑓(𝒙|𝜃)𝜋(𝜃) Assim, 𝜋(𝜃|𝒙) ∝ 𝜃−𝑛𝑒𝑥𝑝 {−𝑛𝑥̅ 𝜃} × 𝜃−𝑎−1 𝑒𝑥𝑝 {− 𝑏 𝜃} 𝐼ℝ+(𝜃) 𝜋(𝜃|𝒙) ∝ 𝜃−(𝑛+𝑎)−1𝑒𝑥𝑝 {−𝑛𝑥̅ + 𝑏 𝜃 } 𝐼ℝ+(𝜃)

que pode ser identificado como o núcleo de uma distribuição 𝐼𝐺(𝑛 + 𝑎, 𝑛𝑥̅ + 𝑏). Ou seja, 𝜃|𝒙 ~ 𝐼𝐺(𝑛 + 𝑎, 𝑛𝑥̅ + 𝑏)

A partir da distribuição a posteriori retiramos toda a informação necessária para fazer inferências a respeito do parâmetro. No entanto, a distribuição a posteriori é apenas uma fórmula matemática. Assim, de modo a expressar as informações contidas na posteriori de forma clara e facilmente compreendida, podemos usar medidas resumos, tais como média, mediana, moda, medidas de dispersão e assimetria. As inferências feitas com estas medidas são vistas em O’Hagan (1994). Assim como na inferência clássica, conseguimos realizar testes de hipóteses e selecionar os modelos mais adequados ao problema.

(15)

13

5.1. Teoria da decisão sob a ótica bayesiana

O problema de escolha de estimadores pontuais de acordo com a teoria da decisão também é visto com a abordagem bayesiana. Como já foi visto em 3.3, o melhor estimador, de acordo com o risco, é aquele que o minimiza. Na teoria bayesiana temos uma informação a priori sobre o parâmetro desconhecido que é contemplado pela distribuição 𝜋 ≡ 𝜋(𝜃). (Casella and Berger, 2002) Assim, definimos o Risco de Bayes como

𝑟(𝜋, 𝛿) = ∫ 𝑅(𝜃, 𝛿)𝜋(𝜃)𝑑𝜃

Θ

sendo definido como a perda média do risco frequentista, a priori, com relação a 𝜃. No entanto, dado que temos o resultado da observação 𝑿 = 𝒙 a única incerteza que temos é a respeito do estado da natureza 𝜃. Como anteriormente só tínhamos como única informação a priori 𝜋(𝜃), conseguimos atualizar nossa crença a respeito do parâmetro utilizando a amostra através da posteriori 𝜋(𝜃|𝒙). Logo, é mais interessante considerar o risco a posteriori de Bayes

𝑅𝐵(𝜋, 𝛿) = ∫ 𝑙(𝜃, 𝛿)𝜋(𝜃|𝒙)𝑑𝜃

Θ

= 𝐸𝜃|𝒙[𝑙(𝜃, 𝛿)]

Denominamos por estimador de Bayes o estimador bayesiano que minimiza

𝑅𝐵(𝜋, 𝛿).

Exemplo 7: Considerando a perda quadrática, o estimador de Bayes é aquele que

minimiza 𝑔(𝛿) = ∫ (𝜃 − 𝛿)2𝜋(𝜃|𝒙)𝑑𝜃 Θ = ∫ 𝜃2𝜋(𝜃|𝒙)𝑑𝜃 Θ − 2𝛿 ∫ 𝜃2𝜋(𝜃|𝒙)𝑑𝜃 Θ + 𝛿² ∫ 𝜋(𝜃|𝒙)𝑑𝜃 Θ = 𝐸(𝜃²|𝒙) − 2𝛿 𝐸(𝜃|𝒙) + 𝛿²

Derivando 𝑔(𝛿) em relação a 𝛿, igualando à zero e resolvendo-a em relação a 𝛿, temos que

𝑑𝑔(𝛿)

𝑑𝛿 = 0 ⇔ −2𝐸(𝜃|𝒙) + 2𝛿 = 0

⇔ 𝛿̂ = 𝜃̂𝐵𝑎𝑦𝑒𝑠 = 𝐸(𝜃|𝒙)

(16)

14

5.2. Distribuições a priori

A distribuição a priori é parte fundamental da inferência bayesiana (ver DeGroot and Schervish (2012)). Se não determinamos alguma priori específica, não conseguimos calcular a distribuição a posteriori e portanto a análise bayesiana fica comprometida. Em geral, para uma mesma verossimilhança, diferentes escolhas de prioris podem nos levar à resultados ligeiramente diferentes. Isso é verdade especialmente quando temos uma grande quantidade de dados ou quando as prioris que estão sendo comparadas são muito dispersas. O’Hagan (1994) exemplifica que na estatística clássica se uma variável aleatória X tem distribuição binomial, o melhor estimador para 𝜃, de acordo com algum critério, é X/n. Isto vale para todos os problemas em que podemos modelar a variável aleatória por uma distribuição binomial. No entanto, para a estatística bayesiana cada problema é único. De acordo com as informações disponíveis pelo especialista a distribuição a priori é formulada e, por incorporar o conhecimento do investigador, ela pode diferir em cada problema. Mesmo que a verossimilhança seja a mesma, ao se utilizar diferentes distribuições a priori, as distribuições a posteriores serão diferentes conduzindo assim a análises bayesianas distintas.

Para a escolha da priori deve ser levado em consideração alguns aspectos importantes, tais como:

 Estar definida no espaço paramétrico;

 Conduzir à uma posteriori integrável;

 Refletir, de modo adequado, o conhecimento sobre o parâmetro obtido pelo

especialista;

5.2.1. Prioris subjetivas

Existem situações em que temos informações sobre os parâmetros do modelo que nos permitem propor uma forma específica para a priori. No entanto, Paulino, Turkman and Murteira (2003) exploram um problema comumente encontrado no universo científico que abrange a dificuldade em obter e quantificar tais informações de modo que possa ser usada na inferência bayesiana. As principais ferramentas que auxiliam para determinar a priori são as medidas resumos. Muitas vezes, perguntar ao especialista sobre o quanto ele acredita que possa ser a média da distribuição a priori,

(17)

15

entre outras medidas, é essencial para conseguirmos determinar uma distribuição específica. O’Hagan (1994) exemplifica uma situação em que temos como informação a média e desvio-padrão do parâmetro 𝜃. Uma escolha natural seria uma distribuição normal com média e desvio-padrão já especificados ou, se soubermos que o parâmetro assume apenas valores positivos, podemos propor uma distribuição Gama.

5.2.1.1. Método do histograma

Esse método consiste em particionar Θ em k intervalos Θ = ⋃𝑘 Θ𝑗

𝑗=1 e perguntar

ao especialista a probabilidade que este considera razoável de que 𝜃 pertença a cada um dos intervalos. A partir disto é possível construir um histograma e com ele estimar uma densidade de probabilidade adequada. Tal histograma fornece uma distribuição aproximada que pode ser usada como um indicador de uma possível distribuição (Paulino, Turkman and Murteira, 2003).

5.2.1.2. Método preditivo de eliciação

Em geral o especialista tem informações precisas a respeito do processo em análise. Não necessariamente ele é capaz de informar ao estatístico características importantes a respeito do parâmetro. Assim, naturalmente é mais simples o especialista pensar em resultados do processo ou medidas resumos destas observações do que no parâmetro do modelo. Tal método é conhecido por método preditivo de eliciação.

O estatístico deve formular um modelo probabilístico (𝑓(𝑥|𝜃)) para o processo. O especialista então é questionado sobre observações do processo ou sobre estatísticas resumo. A distribuição sob a qual são feitas as questões é a marginal com respeito ao parâmetro de interesse, ou seja,

𝑓(𝑥) = ∫ 𝑓(𝑥|𝜃)𝜋(𝜃)𝑑𝜃

Θ

Como 𝜋(𝜃) é o que tentamos descobrir, devemos encontrar métodos para encontrar a priori de modo que o resultado da integral reflita adequadamente o conhecimento do especialista sobre 𝑓(𝑥). Paulino, Turkman and Murteira (2003) indicam vários métodos para resolver o problema e em particular exemplifica que

(18)

16

podemos determinar uma priori pertencente à família conjugada natural e então o problema se resume a encontrar os hiperparâmetros da priori (parâmetros da distribuição a priori).

5.2.1.3. Família conjugada

Muitas vezes o cálculo da distribuição a posteriori quando utilizamos algumas prioris pode ser exaustivo ou resultam em distribuições não catalogadas. Nesses casos podemos recorrer a métodos computacionais para resolver tais problemas. Podemos também fazer uso das prioris conjugadas cuja ideia é de que a priori e a posteriori pertençam a mesma classe de distribuições. Deste modo, a atualização do conhecimento se dá apenas com a mudança dos hiperparâmetros. (O’Hagan, 1994)

Definimos que uma classe de distribuições Π é conjugada à família de

distribuições amostrais ℱ = {𝑓(𝑥|𝜃): 𝜃 𝜖 Θ} se

𝜋(𝜃) ∈ Π ⇒ 𝜋(𝜃|𝑥) ∝ 𝜋(𝜃)𝑓(𝑥|𝜃) ∈ Π

Exemplo 8: Seja 𝑋1|𝜎², 𝑋2|𝜎², … , 𝑋𝑛|𝜎² uma amostra aleatória condicionalmente

independente com distribuição 𝑁(𝜇, 𝜎2) com 𝜇 conhecido. A função de verossimilhança

será 𝑓(𝒙|𝜎2) = ∏ 2𝜋−12(𝜎2)−12𝑒𝑥𝑝 {− 1 2𝜎2(𝑥𝑖 − 𝜇)²} 𝑛 𝑖=1 𝑓(𝒙|𝜎2) ∝ (𝜎2)−𝑛2𝑒𝑥𝑝 {− 1 2𝜎2∑(𝑥𝑖 − 𝜇)² 𝑛 𝑖=1 }

Podemos notar que o núcleo da verossimilhança corresponde ao núcleo de uma distribuição Inversa-Gama(a,b) quando a olhamos em função do parâmetro 𝜎². De fato, se 𝜎² tem distribuição 𝐼𝐺(𝑎, 𝑏) então

𝜋(𝜎2) ∝ 𝑒𝑥𝑝 {− 𝑏

𝜎2} (𝜎2)−𝑎−1𝐼(0,∞)(𝜎²)

Portanto, a família conjugada de prioris é a família 𝐼𝐺(𝑎, 𝑏). Podemos verificar que a posteriori também terá distribuição Inversa-Gama. Assim,

𝜋(𝜎2|𝒙) ∝ 𝑓(𝒙|𝜎2) × 𝜋(𝜎2) 𝜋(𝜎2|𝒙) ∝ (𝜎2)−𝑛2(𝜎2)−𝑎−1𝑒𝑥𝑝 {− 1 2𝜎2∑(𝑥𝑖 − 𝜇)² 𝑛 𝑖=1 } 𝑒𝑥𝑝 {− 𝑏 𝜎2} 𝐼(0,∞)(𝜎²)

(19)

17

𝜋(𝜎2|𝒙) ∝ (𝜎2)−(𝑛2+𝑎)−1𝑒𝑥𝑝 {−(

1

2 ∑𝑛𝑖=1(𝑥𝑖 − 𝜇)2+ 𝑏)

𝜎2 } 𝐼(0,∞)(𝜎²)

Logo, 𝜎2|𝒙 tem distribuição 𝐼𝐺 (𝑛

2+ 𝑎, 1 2∑ (𝑥𝑖 − 𝜇) 2 𝑛 𝑖=1 + 𝑏).

5.2.2. Prioris objetivas (não informativas)

Quando não existe ou é muito vaga a informação sobre a distribuição a priori vários estatísticos propuseram teorias que lidam com essa situação incorporando o que chamamos de priori não informativas. Tais distribuições dão a mínima informação possível sobre o parâmetro. Berger (1985) define uma priori não informativa como uma distribuição que não favorece nenhum valor específico de 𝜃 com relação a outros.

Estes tipos de distribuições, como Paulino, Turkman and Murteira (2003) advertem, podem desempenhar um papel de referência, no sentido de que podem ser úteis quando queremos encontrar uma distribuição a posteriori em situações em que o conhecimento disponível não é suficiente para propor uma distribuição subjetiva; ou se quisermos comparar os resultados com a teoria clássica; e por último, averiguar a influência de prioris subjetivas nas inferências quando confrontadas com as prioris de referência.

5.2.2.1. Priori de Jeffreys

A priori de Jeffreys se baseia no uso da medida de Informação de Fisher sobre 𝜃 definida como 𝐼(𝜃) = 𝐸 [(𝜕 ln 𝑓(𝑋|𝜃) 𝜕𝜃 ) 2 |𝜃] = −𝐸 [𝜕² ln 𝑓(𝑋|𝜃) 𝜕𝜃² |𝜃]

No caso de um vetor paramétrico 𝜽 = (𝜃0, 𝜃1, … , 𝜃𝑘),

𝐼(𝜽)𝑖𝑗 = 𝐸 [( 𝜕 ln 𝑓(𝑋|𝜽) 𝜕𝜃𝑖 ) ( 𝜕 ln 𝑓(𝑋|𝜽) 𝜕𝜃𝑗 ) |𝜽] 𝐼(𝜽)𝑖𝑗 = −𝐸 [𝜕² ln 𝑓(𝑋|𝜃) 𝜕𝜃𝑖𝜕𝜃𝑗 |𝜽]

A priori de Jeffreys é definida como

(20)

18

Exemplo 9: Considere uma única observação da distribuição Binomial-Poisson

𝑓(𝑥, 𝑦|𝛾, 𝜙) = (𝑦𝑥) 𝛾𝑥(1 − 𝛾)𝑦−𝑥𝑒−𝜙𝜙𝑦

𝑦! 𝐼{0,1,2,… }(𝑦)𝐼{0,1,… ,𝑦}(𝑥), 𝛾 ∈ (0,1), 𝜙 ∈ ℝ+ É possível perceber que 𝑋|𝑦, 𝛾, 𝜙 ~ 𝐵𝑖𝑛(𝑦, 𝛾) e 𝑌|𝛾, 𝑥, 𝑦 ~ 𝑃𝑜𝑖𝑠𝑠𝑜𝑛(𝜙). Calculando o logaritmo natural da verossimilhança temos

𝑙(𝛾, 𝜙) ∝ 𝑥 𝑙𝑛 𝛾 + (𝑦 − 𝑥) 𝑙𝑛(1 − 𝛾) − 𝜙 + 𝑦 𝑙𝑛 𝜙 Derivando 𝑙(𝛾, 𝜙) temos 𝜕𝑙(𝛾, 𝜙) 𝜕𝛾 = 𝑥 𝛾 − 𝑦 − 𝑥 1 − 𝛾 𝜕²𝑙(𝛾, 𝜙) 𝜕𝛾² = − 𝑥 𝛾²− 𝑦 − 𝑥 (1 − 𝛾)² 𝜕²𝑙(𝛾, 𝜙) 𝜕𝛾𝜕𝜙 = 0 𝜕𝑙(𝛾, 𝜙) 𝜕𝜙 = −1 + 𝑦 𝜙 𝜕2𝑙(𝛾, 𝜙) 𝜕𝜙2 = − 𝑦 𝜙2 𝜕²𝑙(𝛾, 𝜙) 𝜕𝜙𝜕𝛾 = 0 Como 𝐸(𝑌|𝛾, 𝜙) = 𝜙 e 𝐸(𝑋|𝛾, 𝜙) = 𝐸[𝐸[𝑋|𝑌, 𝛾, 𝜙]] = 𝐸[𝑌𝛾|𝛾, 𝜙] = 𝛾𝜙, então 𝐼𝐹(𝛾, 𝜙) = [ 𝜙 ( 1 𝛾(1 − 𝛾)) 0 0 1 𝜙] Logo, 𝜋(𝛾, 𝜙) ∝ |𝐼𝐹(𝛾, 𝜙)|12 𝜋(𝛾, 𝜙) ∝ 𝛾−12(1 − 𝛾)−12 𝐼(0,1)(𝛾)𝐼(0,∞)(𝜙)

a qual não é integrável, isto é, não é própria.

5.2.2.2. Priori de máxima entropia

Na classe das prioris não informativas destacamos em particular as prioris de máxima entropia cujo conceito foi extraído de Berger (1985). Frequentemente temos disponível uma informação atual sobre a priori, e ao mesmo tempo desejamos que a priori escolhida seja o mais não informativa possível. Para resolver esse problema fazemos uso do conceito de entropia.

Por exemplo, assuma que saibamos que Θ = {𝜃1, 𝜃2, 𝜃3, … , 𝜃𝑛}, ou seja, dispomos

(21)

19

sobre o espaço paramétrico discreto e finito. Suponha que 𝜋𝑖 = 𝜋(𝜃 = 𝜃𝑖) = 1 e 𝜋𝑘 =

𝑝(𝜃 = 𝜃𝑘) = 0 para 𝑘 ≠ 𝑖. Assim, a entropia de 𝜃 é

𝐻(𝜃) = − ∑ 𝜋𝑗log 𝜋𝑗

𝑛

𝑗=1

= 0

Ou seja, não temos incerteza alguma sobre o parâmetro 𝜃, uma vez que sabemos

que 𝜃 assume o valor 𝜃𝑖 com probabilidade 1.

Suponha agora que desejamos uma priori que seja o mais não informativa possível, ou seja, queremos encontrar uma distribuição a priori que maximize a

entropia respeitando a restrição ∑𝑛𝑗=1𝜋(𝜃𝑗) = 1.

Tem-se que

𝐻(𝜃) = − ∑ 𝜋𝑗log 𝜋𝑗

𝑛

𝑗=1

≤ log 𝑛

Prova: seja 𝑢(𝜃) =|Θ|1 a função de distribuição de probabilidade uniforme sobre o conjunto Θ. Calculando a entropia relativa entre 𝑢(𝜃) e 𝜋(𝜃), temos

𝐷(𝜋||𝑢) = ∑ 𝜋(𝜃) log𝜋(𝜃)

𝑢(𝜃) = ∑ 𝜋(𝜃) (log 𝜋(𝜃) + log(|Θ|)) = −𝐻(𝜃) + log (|Θ|)

e como 0 ≤ 𝐷(𝜋||𝑢) então

0 ≤ −𝐻(𝜃) + log (|Θ|) Como log(|Θ|) = log 𝑛,

𝐻(𝜃) ≤ log 𝑛

∎ Assim 𝑙𝑜𝑔 𝑛 é a máxima entropia que podemos encontrar para 𝜃. Ou seja,

definindo a distribuição 𝜋(𝜃𝑖) = 1/𝑛 para 𝑖 = 1, … , 𝑛 obtemos uma priori que contém

a máxima incerteza sobre o parâmetro. Podemos notar que tal priori é não informativa. Além disso, é importante notar que para este exemplo, partindo de uma informação inicial sobre o parâmetro, encontramos uma priori que seja o mais não informativa possível através da maximização da entropia.

5.2.2.3. Priori de Berger e Bernardo

A priori de Berger e Bernardo, ou priori de referência é baseada no conceito que na inferência bayesiana, assim como em outras áreas científicas, a escolha da priori deve ser escolhida por convenção, sendo um padrão de referência para os estatísticos.

(22)

20

De acordo com Paulino, Turkman and Murteira (2003), a priori de referência foi uma ideia de Bernardo que pensou em construir uma distribuição de referência, de modo que um investigador que utilizou-se de uma priori subjetiva, possa comparar a posteriori obtida com a posteriori de referência.

Berger, Bernardo and Sun (2009) nos mostram uma fórmula simples de como obter uma priori de referência. Seja um modelo com densidade 𝑓(𝒙|𝜃), onde 𝒙 =

(𝑥1, 𝑥2, … , 𝑥𝑛) e 𝜃 um parâmetro contínuo desconhecido, a fórmula para a priori 𝜋(𝜃)

é tal que 𝜋(𝜃) = lim 𝑘→∞ 𝑓𝑘(𝜃) 𝑓𝑘(𝜃0) e 𝑓𝑘(𝜃) = exp {∫ 𝑓(𝑥(𝑘)|𝜃) 𝑙𝑜𝑔[𝜋(𝜃|𝑥(𝑘))] 𝑑𝑥(𝑘)}

Onde 𝜃0 é um ponto interior do espaço paramétrico Θ, 𝑥(𝑘) = {𝑥1, 𝑥2, … , 𝑥𝑘} são k

replicações condicionalmente independentes de x, e 𝜋(𝜃|𝑥(𝑘)) é a distribuição a

posteriori correspondente a uma priori 𝜋∗(𝜃) fixa e arbitrária.

Walker and Peña (2011) tratam a escolha da priori de referência como um problema de decisão estatística que é mostrado abaixo.

Consideraremos o espaço de decisão como a classe 𝒞 de prioris paramétricas

definidas em Θ e Π∗ é uma medida de probabilidade representando a crença a respeito

de 𝑓.

Seja a função de utilidade

𝑈𝑛(𝜋, 𝜃) = 𝐷𝐾𝐿(𝑚(. ; 𝜋)||𝑓𝑛(. ))

onde 𝑓𝑛(𝒙) = 𝑓(𝑥1, 𝑥2, … , 𝑥𝑛) e 𝑚(. ; 𝜋) = ∫ 𝑓(𝒙|𝜃)𝜋(𝜃)𝑑𝜃. Lembrando da teoria da

informação 𝐷𝐾𝐿 é a entropia relativa entre 𝑚(. ; 𝜋) e 𝑓𝑛(. ). A função de utilidade mede

a discrepância entre a distribuição conjunta de 𝒙 e a distribuição preditiva conjunta de 𝒙 sob o modelo paramétrico dado pela priori 𝜋(𝜃). Pode ser interpretada também como uma medida de compatibilidade entre os dados e a priori. Assim, um valor baixo

de 𝑈𝑛(𝜋, 𝜃) representa pouca compatibilidade. Por se tratar de uma priori não

informativa, é desejável que esta compatibilidade seja a menor possível. Logo, a solução do problema de decisão é dada pela maximização da utilidade esperada

(23)

21

Quando assumimos que Π∗(. ) ≡ 𝜋(. ) então a utilidade esperada é

𝑈̅𝑛(𝑓) = ∫ 𝑈𝑛(𝜋, 𝜃)𝜋(𝜃)𝑑𝜃 𝑈̅𝑛(𝑓) = ∫ ∫ log ( 𝑓(𝒙|𝜃) 𝑚(𝒙; 𝜋)) 𝑓(𝒙|𝜃)𝑑𝒙 𝜋(𝜃)𝑑𝜃 𝑈̅𝑛(𝑓) = ∫ ∫ log ( 𝑓(𝒙|𝜃) 𝑚(𝒙; 𝜋)× 𝜋(𝜃) 𝜋(𝜃)) 𝑓(𝒙|𝜃)𝜋(𝜃) × 𝑚(𝒙; 𝜋) 𝑚(𝒙; 𝜋)𝑑𝒙 𝑑𝜃 𝑈̅𝑛(𝑓) = ∫ ∫ log (𝜋(𝜃|𝒙) 𝜋(𝜃) ) 𝜋(𝜃|𝒙) 𝑚(𝒙; 𝜋)𝑑𝜃𝑑𝒙 = 𝐼(𝒙; 𝜃)

sendo 𝐼(𝒙, 𝜃) a informação mútua entre 𝒙 e 𝜃.

Lembrando que 𝒙 = (𝑥1, 𝑥2, … , 𝑥𝑛) definimos a priori de referência como a

priori que maximiza

lim

𝑛→∞𝐼(𝒙; 𝜃)

Walker and Peña (2011) mostram que a priori de Berger e Bernardo é a solução da minimização de 𝑚(𝒙; 𝜋) e também é equivalente à maximização de

𝐷𝐾𝐿(𝑚(. ; 𝜋)||𝑚(. ; Π∗))

Então, a priori ótima é aquela que maximiza a entropia relativa entre a atual distribuição preditiva conjunta dos dados e a distribuição preditiva conjunta dos dados correspondente a priori 𝜋(∙).

Bernardo (2005) mostra que no caso uniparamétrico, a priori de referência coincide com a priori de Jeffreys. Portanto, a priori de Jeffreys é um caso particular da priori de referência, sob espaços unidimensionais.

5.2.3. Misturas de prioris

Em alguns problemas os dados são constituídos por grupos que apresentam comportamento distintos. Nestes, as distribuições a priori definidas anteriormente não são as mais adequadas, uma vez que não consideram que em cada grupo pode existir tal diferença de comportamento. Sendo assim é útil definir distribuições a prioris compostas por misturas de distribuições. Assim, seja um conjunto de dados composto por k grupos, definimos a priori

𝜋(𝜃) = ∑ 𝑤𝑖

𝑘

(24)

22

Com 𝑘 ≥ 1, 𝑤𝑖 > 0 com 𝑤1+ 𝑤2+ ⋯ + 𝑤𝑘 = 1 para 𝑗 = 1,2, … , 𝑘 e cada

𝜋𝑖(𝜃) > 0 𝑒 ∫ 𝜋𝜃 𝑖(𝜃)𝑑𝜃 = 1 para 𝑗 = 1,2, … , 𝑘. Dados que os pesos 𝑤𝑖 são

desconhecidos, definimos uma distribuição a priori para o vetor de pesos

𝒘 = (𝑤1, 𝑤2, … , 𝑤𝑘) como 𝒘 ~ 𝐷𝑖𝑟𝑖𝑐ℎ𝑙𝑒𝑡(𝛼1, 𝛼2, … , 𝛼𝑘).

5.3. Inferência preditiva

Na inferência frequentemente estamos interessados em fazer predições de observações após termos observados os dados. Este problema chamamos de inferência preditiva.

A inferência preditiva consiste em fazer inferências de uma observação futura 𝑌 por meio da distribuição a posteriori 𝜋(𝜃|𝒙) calculado com base na amostra 𝑿 = 𝒙. Tal predição é feita através da distribuição preditiva 𝑓(𝑦|𝒙), cujo cálculo é explicado abaixo.

Observamos que queremos a distribuição de 𝑌|𝒙 não interessando o parâmetro 𝜃, ou seja, devemos integrar no espaço paramétrico de 𝜃 para obter a distribuição de 𝑌|𝒙. Podemos utilizar a distribuição a priori ou a posteriori do parâmetro para obter a distribuição preditiva. Quando usamos a distribuição a priori,

𝑓(𝑦|𝒙) = ∫ 𝑓(𝑦|𝒙, 𝜃)𝜋(𝜃)𝑑𝜃

Θ

a denominamos por distribuição preditiva a priori.

No entanto, se temos a distribuição a posteriori é mais vantajoso usá-la ao invés da priori dado que a posteriori incorpora mais informações sobre o parâmetro. Assim,

𝑓(𝑦|𝒙) = ∫ 𝑓(𝑦|𝒙, 𝜃)𝜋(𝜃|𝒙)𝑑𝜃

Θ

sendo denominada distribuição preditiva a posteriori.

Nota-se ainda que se as observações forem condicionalmente independentes dado 𝜃 então 𝑝(𝑦|𝒙, 𝜃) = 𝑝(𝑦|𝜃). Logo, as distribuições preditivas serão

𝑓(𝑦|𝒙) = ∫ 𝑓(𝑦|𝜃)𝜋(𝜃)𝑑𝜃

Θ

𝑓(𝑦|𝒙) = ∫ 𝑓(𝑦|𝜃)𝜋(𝜃/𝒙)𝑑𝜃

(25)

23

Exemplo 10: Suponha que um investigador está interessado no estudo de fumantes em

uma população. Ele não sabe exatamente qual é a proporção de fumantes, mas acredita que possa ser modelada por uma distribuição Beta. Para conduzir o estudo, foi coletada uma amostra aleatória 𝑌1, 𝑌2, … , 𝑌𝑛 de tamanho 𝑛 e a variável 𝑋 = ∑𝑛 𝑌𝑖

𝑖=1 designa o

número de fumantes nesta amostra. Logo, 𝑋 pode ser modelada por uma distribuição Binomial. Então, a verossimilhança será

𝑓(𝑥|𝜃) = (𝑛𝑥) 𝜃𝑥(1 − 𝜃)𝑛−𝑥 𝐼

[0,1](𝜃) 𝐼{0,1,2,…,𝑛}(𝑥)

e a priori

𝜋(𝜃) = 1

𝐵(𝑎, 𝑏) 𝜃𝑎−1(1 − 𝜃)𝑏−1 𝐼[0,1](𝜃)

Então a posteriori será 𝜋(𝜃|𝑥) = (𝑛𝑥) 𝜃𝑥(1 − 𝜃)𝑛−𝑥 × 1 𝐵(𝑎, 𝑏) 𝜃𝑎−1(1 − 𝜃)𝑏−1 𝐼[0,1](𝜃) ∫ (𝑛𝑥) 𝜃𝑥(1 − 𝜃)𝑛−𝑥 × 1 𝐵(𝑎, 𝑏) 𝜃𝑎−1(1 − 𝜃)𝑏−1𝑑𝜃 1 0 𝜋(𝜃|𝑥) = (𝑛𝑥)𝐵(𝑎, 𝑏) 𝜃1 𝑥+𝑎−1(1 − 𝜃)𝑛−𝑥+𝑏−1 𝐼 [0,1](𝜃) (𝑛𝑥)𝐵(𝑎, 𝑏) ∫ 𝜃1 1 𝑥+𝑎−1(1 − 𝜃)𝑛−𝑥+𝑏−1𝑑𝜃 0 𝜋(𝜃|𝑥) = 𝜃 𝑥+𝑎−1(1 − 𝜃)𝑛−𝑥+𝑏−1 𝐼 [0,1](𝜃) 𝐵(𝑥 + 𝑎, 𝑛 − 𝑥 + 𝑏) Ou seja, 𝜃|𝑥 tem distribuição 𝐵𝑒𝑡𝑎(𝑥 + 𝑎, 𝑛 − 𝑥 + 𝑏).

Suponha agora que queremos predizer o resultado de um novo indivíduo, independente dos 𝑛 indivíduos selecionados na amostra. Assim,

𝜋(𝑦|𝜃) = 𝜃𝑦(1 − 𝜃)1−𝑦 𝐼 [0,1](𝜃) 𝐼{0,1}(𝑦) A distribuição preditiva é 𝑓(𝑦|𝑥) = ∫ 𝜃𝑦(1 − 𝜃)1−𝑦 𝜃𝑥+𝑎−1(1 − 𝜃)𝑛−𝑥+𝑏−1 𝐵(𝑥 + 𝑎, 𝑛 − 𝑥 + 𝑏) 1 0 𝑑𝜃 𝐼{0,1}(𝑦) 𝑓(𝑦|𝑥) = 1 𝐵(𝑥 + 𝑎, 𝑛 − 𝑥 + 𝑏)∫ 𝜃𝑦+𝑥+𝑎−1(1 − 𝜃)𝑛−𝑥+𝑏−𝑦 1 0 𝑑𝜃 𝐼{0,1}(𝑦) 𝑓(𝑦|𝑥) = 𝐵(𝑦 + 𝑥 + 𝑎, 𝑛 − 𝑥 + 𝑏 + 1 − 𝑦) 𝐵(𝑥 + 𝑎, 𝑛 − 𝑥 + 𝑏) 𝐼{0,1}(𝑦)

De acordo com Paulino, Turkman and Murteira (2003), se a inferência preditiva sobre Y é tratada como um problema de decisão utilizando a função perda 𝑙(𝑦, 𝑎), então

(26)

24

a ação 𝑎 a ser tomada, ou seja, a predição ótima deve minimizar a perda preditiva esperada

𝐸[𝑙(𝑌, 𝑎)|𝑥] = ∫ 𝑙(𝑦, 𝑎)𝑓(𝑦|𝑥)𝑑𝑦

6. Comparação de modelos

A diversidade de crenças a priori gera um conjunto de modelos candidatos ao problema em estudo, representados por

ℬ = {𝑓𝑖(𝑦|𝜃), 𝜋𝑖(𝜃), 𝑖 ∈ 𝐼}

Dado que são vários os modelos possíveis, alguns métodos bayesianos são capazes de escolher o melhor modelo de acordo com determinados critérios. Dentre eles podemos citar os critérios BIC (Bayesian Information Criterion) e DIC (Deviance Information Criterion).

6.1. BIC

A estatística BIC (Schwarz, 1978) é um critério para seleção de modelos definido como

𝐵𝐼𝐶 = −2 ln (𝑓(𝒙|𝜃̂)) + 𝑘𝑙𝑛 𝑛

em que 𝜃̂ é o estimador de máxima verossimilhança, k o número de parâmetros do modelo e n a quantidade de dados (Kadane and Lazar, 2004). Para comparação de modelos escolhemos aquele cuja estatística BIC seja menor.

6.2. DIC

Na inferência bayesiana, o método mais comum para escolha de modelos é critério Deviance Information Criterion (DIC), sendo uma generalização dos critérios frequentistas BIC e AIC. De acordo com Spiegelhalter et al. (2002), para um conjunto de dados 𝒙 e parâmetro do modelo 𝜃, a estatística Deviance é definida como

𝐷(𝒙, 𝜃) = −2ln (𝑓(𝒙|𝜃)) Sejam também

𝐷𝜃̅(𝑥) = 𝐷(𝒙, 𝜃̅)

𝐷̅(𝒙, 𝜃) = 𝐸(𝐷(𝒙, 𝜃)|𝒙)

(27)

25

o deviance calculado na média a posteriori (𝜃̅), deviance médio a posteriori e o número efetivo de parâmetros, respectivamente, calculamos o DIC como

𝐷𝐼𝐶 = 2𝐷̅(𝒙, 𝜃) − 𝐷𝜃̅(𝑥)

ou equivalentemente,

𝐷𝐼𝐶 = 𝐷𝜃̅(𝑥) + 2𝑝𝐷

Spiegelhalter et al. (2002) ainda definiram a estatística DIC em função da distância de Kullback-Leibler ao demonstrar que pD pode ser definido como

𝑝𝐷 = E𝜃|𝒙[𝐷𝐾𝐿(𝑓(𝒙|𝜃)||𝑓(𝒙|𝜃̅))]

Assim como o critério BIC, o melhor modelo, dentro de um conjunto de modelos possíveis em estudo, é aquele que possuir o menor valor de BIC.

7. Aplicação 7.1. Objetivo

A fim de aplicar os conhecimentos adquiridos nos itens anteriores e mostrar como a inferência bayesiana é utilizada para resolver os problemas em diversas áreas, utilizamos métodos bayesianos em um banco de dados referente a um estudo na área linguística. O presente estudo, cedido por Arvigo (2014) avalia crianças com patologias de linguagem: Dificuldade de Aprendizagem (DA), Déficit Específico de Linguagem (DEL) e Síndrome de Down (SD). O objetivo é analisar se tais grupos de crianças apresentam dificuldades na compreensão e uso de determinantes (artigos), principalmente com relação à definitude (artigo definido). Deseja-se também determinar se há diferenças entre os grupos com patologias de linguagem entre si e com relação ao grupo de controle.

7.2. Descrição dos dados

A pesquisa é composta por quatro grupos de crianças com dificuldades na aquisição da linguagem e um grupo controle composto por crianças típicas do estado de São Paulo que são apresentados abaixo:

(28)

26

Tabela 1 - Grupos avaliados na pesquisa

Grupo Descrição Tamanho da amostra

DEL Déficit Específico de Linguagem 9

DA Dificuldade de Aprendizagem 32

GC Controle – Desenvolvimento Típico 11

SD Síndrome de Down 10

As crianças selecionadas na amostra que compõem os grupos de patologias passaram por avaliação multidisciplinar específica para obtenção dos respectivos diagnósticos em clínicas e centros voltados para o diagnóstico e tratamento de cada patologia. Para a participação na pesquisa as crianças foram selecionadas via prontuário, sendo os critérios de inclusão/exclusão especificados a seguir:

 Ser diagnosticada com alguma das patologias envolvidas no estudo;

 Crianças com Espectro Autístico ou Síndrome de Down devem apresentar

oralidade, ou seja, devem ter adquirido linguagem oral com produção mínima de duas palavras ou sentenças simples.

 Para as crianças típicas que compõem o grupo controle os critérios eram não

apresentar qualquer dificuldade ou queixa referente à linguagem e não estar ou ter passado em algum momento da vida por atendimento fonoaudiológico. A pesquisa consiste de três experimentos que avaliam a compreensão e uso de artigos aplicados aos grupos descritos na Tabela 1. Os dados foram coletados por Arvigo (2014) nas cidades de Bauru-SP (crianças com DEL) e Jundiaí-SP (demais grupos).

7.2.1. Experimento I

O primeiro experimento têm como principal objetivo observar se as crianças conseguem compreender os determinantes. O experimento possui duas condições: determinante definido no plural e determinante definido no singular, além de duas situações controle compostas pelo determinante indefinido ‘um’ e por ‘todos os’. No total são 16 situações, sendo que em cada uma anota-se se a criança conseguiu ou não identificar corretamente o que é proposto pela sentença.

(29)

27

7.2.2. Experimento II

Esse experimento avalia se as crianças conseguem produzir corretamente os determinantes definidos e indefinidos dentro de uma situação. A criança deverá se referir a um objeto simples, fazendo uso de “o X”; e a um objeto dentro de um conjunto de objetos semelhantes, fazendo uso de “um X”. O experimento é composto por 12 inquisições, sendo que 6 empregam o determinante definido e 6 o indefinido. Assim como no experimento I, anota-se se a criança respondeu corretamente ou se ela errou.

7.2.3. Experimento III

O presente experimento avalia como as crianças produzem o determinante em narrativas. Nesse experimento são contadas histórias à criança que ao final é indagada sobre o desfecho em que ela deve selecionar o determinante definido ou indefinido, conforme o sugerido na narrativa. O experimento é composto por 10 histórias em que se alternam as condições para determinante definido e indefinido.

7.3. Análises iniciais

Primeiramente verificamos se os grupos eram homogêneos. Para tal verificação

definimos a variável 𝑋𝑖𝑗𝑘 como

𝑋𝑖𝑗𝑘 = {1 se criança i acertou sentença j do experimento k

−1 se errou

Para cada experimento 𝑘 = 1,2,3 avaliamos o comportamento da soma dos

acertos (∑ 𝑋𝑖 𝑖𝑗𝑘) de cada indivíduo envolvido no experimento através de um gráfico da

soma acumulada pela ordem das sentenças separados por grupo. Os gráficos obtidos são apresentados abaixo:

(30)

28

Através dos gráficos é possível perceber que os grupos possuem heterogeneidade. Tal característica é claramente perceptível no grupo DA no qual percebemos a presença de crianças com desempenhos ótimo, médio e ruim. Os outros grupos também aparentam ser heterogêneos nos três experimentos.

Sendo assim, para fazer a comparação dos grupos, optamos por dividi-los em subgrupos de modo que dentro de cada subgrupo os indivíduos apresentem desempenho semelhante. Propusemos, então, uma subdivisão baseada em quartis.

Temos que 𝑋𝑗𝑘 = ∑ 𝑋𝑖 𝑖𝑗𝑘 pode ser escrito como

𝑋𝑗𝑘 = 𝑆𝑗𝑘− 𝐹𝑗𝑘 em que 𝑆𝑗𝑘 = ∑ 𝑆𝑖 𝑖𝑗𝑘 onde 𝑆𝑖𝑗𝑘 = {1 𝑠𝑒 𝑐𝑟𝑖𝑎𝑛ç𝑎 𝑗 𝑎𝑐𝑒𝑟𝑡𝑎 𝑠𝑒𝑛𝑡𝑒𝑛ç𝑎 𝑖 𝑑𝑜 𝑒𝑥𝑝𝑒𝑟𝑖𝑚𝑒𝑛𝑡𝑜 𝑘0 𝑐𝑎𝑠𝑜 𝑐𝑜𝑛𝑡𝑟á𝑟𝑖𝑜 2 4 6 8 10 -1 0 0 5 10 DA Sentenças S o m a d a s r e s p o s ta s 2 4 6 8 10 -1 0 0 5 10 DEL Sentenças S o m a d a s r e s p o s ta s 2 4 6 8 10 -1 0 0 5 10 SD Sentenças S o m a d a s r e s p o s ta s 2 4 6 8 10 -1 0 0 5 10 Controle Sentenças S o m a d a s r e s p o s ta s Experimento III 2 4 6 8 10 12 -1 0 0 5 DA Sentenças S o m a d a s r e s p o s ta s 2 4 6 8 10 12 -1 0 0 5 DEL Sentenças S o m a d a s r e s p o s ta s 2 4 6 8 10 12 -1 0 0 5 SD Sentenças S o m a d a s r e s p o s ta s 2 4 6 8 10 12 -1 0 0 5 Controle Sentenças S o m a d a s r e s p o s ta s Experimento II

Figura 4 - Soma acumulada das sentenças no experimento II

5 10 15 -1 5 -5 5 15 DA Sentenças S o m a d a s r e s p o s ta s 5 10 15 -1 5 -5 5 15 DEL Sentenças S o m a d a s r e s p o s ta s 5 10 15 -1 5 -5 5 15 SD Sentenças S o m a d a s r e s p o s ta s 5 10 15 -1 5 -5 5 15 Controle Sentenças S o m a d a s r e s p o s ta s Experimento I

Figura 3 - Soma acumulada das sentenças no experimento I

(31)

29

e 𝐹𝑗𝑘 = 𝑛𝑘− 𝑆𝑗𝑘 em que 𝑛𝑘 é a quantidade total de sentenças no experimento 𝑘. Assim,

𝑆𝑗𝑘 é o total de sentenças acertadas pela criança 𝑗 no experimento 𝑘 e 𝐹𝑗𝑘 é a quantidade

de sentenças que a criança 𝑗 errou no experimento 𝑘.

Além disso, consideraremos que 𝑆𝑗𝑘| 𝜃 tem distribuição 𝐵𝑖𝑛𝑜𝑚𝑖𝑎𝑙(𝑛𝑘, 𝜃), sendo

𝜃 a probabilidade de acertar uma questão. Considerando que um indivíduo tem a mesma probabilidade de errar ou acertar, ou seja 𝜃 = 1/2, determinamos os

subgrupos de acordo com os quartis da distribuição 𝑆𝑗𝑘. Deste modo, o primeiro

subgrupo é composto por indivíduos cuja soma acumulada esteja abaixo do 1° quartil

de 𝑆𝑗𝑘| 𝜃; o segundo é composto por indivíduos que tenham a soma entre os 1° e 3°

quartis; e por fim, o terceiro subgrupo é composto pelas crianças cuja soma esteja acima do 3° quartil.

No experimento I, 𝑛1 = 16, então 𝑆𝑗1|𝜃~𝐵𝑖𝑛𝑜𝑚𝑖𝑎𝑙(16,1/2). O primeiro quartil

da distribuição é 7 e o terceiro quartil é 8. No experimento II, 𝑛2 = 12 e os primeiro e

terceiro quartis de 𝑆𝑗2 são 5 e 7, respectivamente. E por fim, no experimento III, 𝑛3 =

10 e portanto os primeiro e terceiro quartis são 4 e 6, respectivamente. Usando que

𝑋𝑗𝑘= 𝑆𝑗𝑘− (𝑛𝑘− 𝑆𝑗𝑘) = 2 ∗ 𝑆𝑗𝑘− 𝑛𝑘,

os subgrupos para todos os experimentos são

𝐺1: { 𝑗 | 𝑋𝑗𝑘 < −2 }

𝐺2: { 𝑗 | − 2 ≤ 𝑋𝑗𝑘 < 2 }

𝐺3: { 𝑗 |𝑋𝑗𝑘 > 2 }

Os gráficos das somas acumuladas feitos considerando a subdivisão dos subgrupos por quartis são apresentados abaixo:

(32)

30

Figura 7 - Soma acumulada das sentenças no experimento II Figura 6 - Soma acumulada das sentenças no experimento I

(33)

31

Alguns subgrupos não foram mostrados nas figuras acima pois nessa amostra não havia indivíduos com desempenho característico destes subgrupos. Analisando as Figuras 6,7 e 8 é possível notar que nos três experimentos os indivíduos com desempenho semelhante estão no mesmo subgrupo. Portanto, temos indício de que a classificação baseada em quartis é adequada.

7.4. Definindo a distribuição a priori.

Definimos a variável

𝑋𝑖𝑗𝑘𝑙 = {1 se criança i do grupo j acertou a sentença k do experimento l

0 se errou

em que 𝑋𝑖𝑗𝑘𝑙~𝐵𝑒𝑟𝑛𝑜𝑢𝑙𝑙𝑖(𝜃𝐴). Seja ainda 𝑋𝑖𝑘𝑙= ∑ 𝑋𝑗 𝑖𝑗𝑘𝑙 a quantidade de acertos da

criança 𝑖 do grupo 𝑙 no experimento 𝑘 e 𝑋𝑘𝑙 = ∑ 𝑋𝑖 𝑖𝑘𝑙, a soma total de acertos de todas

as crianças do grupo 𝑙 no experimento 𝑘. Considerando que as respostas das crianças

são independentes do resultado das outras, então 𝑋𝑖𝑘𝑙, 𝑖 = 1, … , 𝑛𝑙 formam uma

amostra independente e identicamente distribuída com distribuição 𝐵𝑖𝑛𝑜𝑚𝑖𝑎𝑙(𝑛𝑙 , 𝜃𝐴).

Inicialmente, propusemos distribuições a priori que não levam em consideração a divisão em subgrupos. Utilizamos a priori conjugada e a priori de Jeffreys. Para cada grupo temos que a verossimilhança será

(34)

32

𝑓(𝒙|𝜃𝐴) ∝ 𝜃𝐴𝑦𝑘(1 − 𝜃𝐴)𝑛𝑘−𝑦𝑘

em que 𝑦𝑘 é a soma dos acertos das sentenças de todos os membros do grupo no

experimento k=I,II,III e 𝑛𝑘 e o total de sentenças do grupo no experimento k. Podemos

reconhecer o núcleo da verossimilhança, em função de 𝜃𝐴, como o núcleo de uma

distribuição 𝐵𝑒𝑡𝑎(𝛼 , 𝛽). Portanto, a família conjugada é a família 𝐵𝑒𝑡𝑎(𝛼 , 𝛽). Assim, a priori conjugada é

𝜋(𝜃𝐴) = Γ(𝛼 + 𝛽)

Γ(𝛼)Γ(𝛽)𝜃𝐴𝛼−1(1 − 𝜃𝐴)𝛽−1Ι(0,1)(𝜃𝐴)

Se considerarmos uma priori não informativa, isto é, com 𝛼 = 1 e 𝛽 = 1, então

𝜃𝐴~𝐵𝑒𝑡𝑎(1,1). Neste caso, a distribuição a posteriori será uma 𝐵𝑒𝑡𝑎(1 + 𝑥𝑘𝑙, 𝑛𝑘 + 1 −

𝑥𝑘𝑙), em que 𝑛𝑘 é o número total de sentenças do experimento 𝑘, ou seja, 𝑛𝑘 = 𝑘𝑝∗ 𝑛𝑙,

onde 𝑘1 = 16, 𝑘2 = 12 𝑒 𝑘3 = 10 são os totais de sentenças nos experimentos I, II e III,

respectivamente.

Para calcular a priori de Jeffreys, calculamos primeiramente a informação de Fisher 𝑙(𝜃𝐴) = ln 𝑓(𝒙|𝜃𝐴) ∝ 𝑦𝑘ln 𝜃𝐴+ (𝑛𝑘− 𝑦𝑘)ln (1 − 𝜃𝐴) 𝜕𝑙(𝜃𝐴) 𝜕𝜃𝐴 = 𝑦𝑘 𝜃𝐴 − 𝑛𝑘− 𝑦𝑘 1 − 𝜃𝐴 Assim, 𝜕²𝑙(𝜃𝐴) 𝜕𝜃𝐴² = − 𝑦𝑘 𝜃𝐴²− 𝑛𝑘− 𝑦𝑘 (1 − 𝜃𝐴)² 𝐼(𝜃𝐴) = −𝐸 [− 𝑌𝑘 𝜃𝐴²− 𝑛𝑘− 𝑌𝑘 (1 − 𝜃𝐴)²|𝜃𝐴] = 𝐸 [𝑌𝑘 𝜃𝐴²|𝜃𝐴] + 𝐸 [ 𝑛𝑘− 𝑌𝑘 (1 − 𝜃𝐴)²|𝜃𝐴] Como 𝑌𝑘~𝐵𝑖𝑛𝑜𝑚𝑖𝑎𝑙(𝑛𝑘, 𝜃𝐴), então 𝐼(𝜃𝐴) = 𝑛𝑘𝜃𝐴 𝜃𝐴² + 𝑛𝑘− 𝑛𝑘𝜃𝐴 (1 − 𝜃𝐴)² = 𝑛𝑘( 1 𝜃𝐴(1 − 𝜃𝐴)) Logo, 𝜋𝐽(𝜃) ∝ 𝜃𝐴12(1 − 𝜃 𝐴) 1 2Ι(0,1)(𝜃𝐴)

(35)

33

Para analisar o impacto da distribuição a priori na distribuição a posteriori, propusemos diferentes valores para os hiperparâmetros da priori conjugada e os gráficos das posterioris obtidas são apresentados abaixo

Figura 9 – Distribuições a posterioris Beta(𝑎 + 𝑥𝑘𝑙, 𝑛𝑘 + 𝑏 − 𝑥𝑘𝑙) para diferentes valores de a e b

Analisando a figura 9, vemos que valores de hiperparâmetros entre 0 e 1, como é o caso da priori de Jeffreys, não modificam a posteriori. Isto porque em todos os experimentos a quantidade de dados é grande dado que para cada indivíduo temos 16 sentenças. Nota-se também que a medida que os valores dos hiperparâmetros

(36)

34

aumentam as distribuições a posteriori são mais influenciadas pela distribuição a priori considerada. Portanto, é importante escolher cuidadosamente tal distribuição para que se consiga um resultado mais preciso.

Dado que não temos informações adicionais sobre o estudo, consideramos a priori conjugada com hiperparâmetros a=1 e b=1 adequada para o problema em estudo, uma vez que a distribuição a posteriori não é afetada com tal distribuição.

Utilizando a subdivisão dos grupos baseadas em quartis calculamos a distribuição a posteriori da probabilidade de acerto nos experimentos. Considerando que cada grupo é dividido em três subgrupos propusemos a distribuição a priori

𝜃𝐴~ 𝑤1𝐵𝑒𝑡𝑎(𝑎1, 𝑏1) + 𝑤2𝐵𝑒𝑡𝑎(𝑎2, 𝑏2) + 𝑤3𝐵𝑒𝑡𝑎(𝑎3, 𝑏3)

Para cada componente da mistura, usaremos a priori não informativa, isto é,

𝑎𝑖 = 1, 𝑏𝑖 = 1 para 𝑖 = 1,2,3. Dado ainda que as proporções populacionais de cada

subgrupo 𝒘 = (𝑤1, 𝑤2, 𝑤3) são desconhecidas, definimos (𝑤1, 𝑤2, 𝑤3) ~ 𝐷𝑖𝑟(1,1,1) e

utilizamos a quantidade de indivíduos em cada subgrupo, cuja distribuição é 𝒏 =

(𝑛1, 𝑛2, 𝑛3) ~ 𝑀𝑢𝑙𝑡𝑖𝑛𝑜𝑚𝑖𝑎𝑙(𝑤1, 𝑤2, 𝑤3), para determinar a distribuição de

𝒘 | 𝑛1, 𝑛2, 𝑛3, sendo esta uma 𝐷𝑖𝑟(𝑛1+ 1, 𝑛2+ 1, 𝑛3+ 1).

Deste modo,

𝜃𝐴|𝒙 = 𝑤1|𝒏 𝐵𝑒𝑡𝑎(𝑐1, 𝑑1) + 𝑤2|𝒏 𝐵𝑒𝑡𝑎(𝑐2, 𝑑2) + 𝑤3|𝒏 𝐵𝑒𝑡𝑎(𝑐3, 𝑑3)

em que 𝑐𝑖 = 1 + ∑ 𝑥𝑗 𝑖𝑗 𝑒 𝑑𝑖 = 𝑛𝑖+ 1 − ∑ 𝑥𝑗 𝑖𝑗 𝑖 = 1,2,3.

Para obter tais distribuições a posteriori, simulamos 1000 valores de 𝒘 e para

cada vetor simulado, calculamos 𝑓(𝜃𝐴|𝒙). Para decidir qual distribuição a priori era

mais adequada para o problema, utilizamos o critério DIC. Assim, em cada grupo obtivemos as distribuições a posteriori utilizando as duas distribuições a priori definidas acima e, para cada uma, calculamos os valores da estatística DIC. Utilizamos a estatística DIC definida a partir da discrepância de Kullbak-Leibler (Spiegelhalter et al (2002)).

(37)

35

Figura 10 – Valores DIC no experimento I para a distribuição a posteriori considerando subgrupos e, em vermelho, o valor

DIC para o modelo sem considerar subgrupos.

Figura 11 -Valores DIC no experimento II para a distribuição a posteriori considerando subgrupos e, em

vermelho, o valor DIC para o modelo sem considerar subgrupos.

Os resultados obtidos são mostrados a seguir:

A partir da análise das Figuras 10, 11 e 12 notamos que o modelo que considera a subdivisão dentro dos grupos é mais adequada, uma vez que o valor da estatística DIC para o modelo sem subgrupos (em vermelho) é sempre superior aos valores da estatística DIC calculados para as 1000 simulações das distribuições a posteriori do modelo com subgrupos. Portanto, a distribuição a priori a ser utilizada será

𝜃𝐴~ 𝑤1𝐵𝑒𝑡𝑎(1,1) + 𝑤2𝐵𝑒𝑡𝑎(1,1) + 𝑤3𝐵𝑒𝑡𝑎(1,1)

Figura 12 -Valores DIC no experimento I para a distribuição a posteriori considerando subgrupos e, em vermelho, o valor

(38)

36

As distribuições a posteriori obtidas utilizando a distribuição a priori definida acima são mostradas abaixo:

Figura 13 - Distribuições a posteriori de 𝜃𝐴 para o experimento I

Referências

Documentos relacionados

2.1. Disposições em matéria de acompanhamento e prestação de informações Especificar a periodicidade e as condições. A presente decisão será aplicada pela Comissão e

[r]

2001, foi dada ênfase apenas ao alongamento dos músculos isquiotibiais, enquanto o tratamento por meio da RPG alongou todos os músculos da cadeia posterior e, por meio do

Sabendo-se que o tema de ensino, objeto de estudo para este trabalho, é a química do ensino médio e reconhecendo-se as vantagens do uso de objetos de aprendizado no ensino, tais

Desde 2012, um grupo de docentes, investigadores e alunos da Faculdade de Ciências Sociais e Humanas da Universidade Nova de Lisboa (NOVA FCSH) têm vindo a desenvolver

Considerando que a maioria dos dirigentes destas entidades constituem-se de mão de obra voluntária e na maioria das vezes sem formação adequada para o processo de gestão e tendo

Com vistas na eficiência das aplicações, na saúde do aplicador e nos impactos ocasionados ao meio ambiente, foram realizados levantamentos em equipamentos de aplicação

Entendendo que o envelhecimento é um fenômeno mundial, e que o crescimento da população de idosos nos remete à consciência de que a velhice é uma questão social, e que o