Inferência Estatística e Aplicações II. Edson Zangiacomi Martinez Departamento de Medicina Social FMRP/USP

(1)

Inferência Estatística e

Aplicações II

Edson Zangiacomi Martinez

Departamento de Medicina Social FMRP/USP

(2)

Métodos Bayesianos

Edson Zangiacomi Martinez

(3)

C iê nc ia H oj e, ju lh o de 2 00 6

(4)

Thomas Bayes

Thomas Bayes 1702 - 1761

(5)

Thomas Bayes

• Reverendo presbiteriano e matemático amador.

• Publicação, em 1763, “An essay towards solving a

problem in the doctrine of chances”,

Philosophical Transactions of the Royal Society of London.

• Texto apresentado por seu amigo Richard Price, que o encontrou entre os pertences de Bayes após a sua morte.

• Laplace (1774, 1781): desenvolvimentos

posteriores (talvez independentes) dos princípios Bayesianos.

(6)

Pensamento Bayesiano

• Softwares que filtram os nossos e-mails,

classificando-os como indesejados ou desejados.

• Mars Rovers são programados para “pensar

Bayesianamente” enquanto passeiam pelo planeta Marte.

• Economia, medicina e saúde, engenharia,

(7)

Pesquisa em saúde

• Filosofia dominante: – interpretação freqüentista. Modelo experimental Modelo

experimental DadosDados

Objetivos Hipóteses Amostra Inferência Estatística Inferência Estatística Testes de hipóteses Intervalos de confiança

(8)

Bayesianismo

Distribuição

a priori x Verossimilhança

Distribuição

a posteriori ∝

(9)

Bayesianismo como filosofia

x ∝ Distribuição a posteriori Distribuição a priori Verossimilhança

Inferência racional _{Subjetividade Experiência empírica}

(10)

(11)

(12)

(13)

(14)

Exemplo – método clássico

• Objetivo: estimar a taxa de prevalência (

θ

)

de uma doença

População

Amostra de

(15)

Exemplo – método clássico

• Modelo estatístico:

• Y_i = 1 se o i-ésimo indivíduo é portador

da doença

• Y_i = 0 se o i-ésimo indivíduo não é

portador da doença

• i = 1, 2, ..., n

(16)

Exemplo – método clássico

• Função de verossimilhança:

(

= θ

)

= θ y

(

1−θ

)

1−y ; _i = 0,1; 0 ≤ θ ≤1 i i y y Y P i i

( )

=

(

−

)

= ∑ =

(

−

)

−∑ = = −

∏

ni i n i i i i y n y n i y y L 1 1 1 1 1 1 θ θ θ θ θ _Y

(17)

Exemplo – método clássico

• Função de verossimilhança:

(

= θ

)

= θ y

(

1−θ

)

1−y ; _i = 0,1; 0 ≤ θ ≤1 i i y y Y P i i

( )

=

(

−

)

= ∑ =

(

−

)

−∑ = = −

∏

ni i n i i i i y n y n i y y L 1 1 1 1 1 1 θ θ θ θ θ _Y • Função de “log-verossimilhança”:

( )

θ _Y = ∑_in₌₁ y_i lnθ +

(

n − ∑_in₌₁ y_i

)

ln

(

1−θ

)

l

(18)

Exemplo – método clássico

• Estimador de máxima verossimilhança:

( )

θ = ∑ ₌₁ lnθ +

(

− ∑n₌₁

)

ln

(

1−θ

)

i i n i yi n y Y l = ∑ = = n y n i 1 i ˆ

θ Número de portadores da doença na amostra

(19)

Exemplo – método clássico

• Estimador de máxima verossimilhança:

= ∑ = = n y n i 1 i ˆ

θ Número de portadores da doença na amostra

Número de indivíduos na amostra Em uma amostra de 100 indivíduos, encontramos 18 portadores da doença % 18 100 18 ˆ ₌ ₌ θ

(20)

Método clássico

Modelo experimental

Modelo

experimental DadosDados

Objetivo: Estimar a prevalência da doença. Amostra: n = 100 18 portadores Inferência Estatística Inferência Estatística Estimativa: 18% Intervalo de confiança IC 95%: (10,4% ; 25,5%)

(21)

A prevalência da doença na população é cerca de 15% Probabilidade a priori Probabilidade a posteriori Método Bayesiano Dados amostrais experiê ncia profiss ional

(22)

A prevalência da doença na população é cerca de 15% Probabilidade a priori Probabilidade a posteriori Método Bayesiano Dados amostrais experiê ncia profiss ional

( )

= ∑= ( − ) −∑= n i i n i yi n y L θ Y θ 1 1 θ 1 ( )θ = p

( )

θ Y ( )θ

( )

θ Y π ∝ p L

(23)

A prevalência da doença na população é cerca de 15% Probabilidade a priori experiê ncia profiss ional A prevalência da doença na população não é menor que 1% A prevalência da doença na população não é maior que 40% 0.0 0.2 0.4 0.6 0.8 1.0 0 1 2 3 4 θ ~ Beta( 1,86 ; 10,55 )

(24)

( ) 1,86−1₍₁ ₎10,55−1 − ∝θ θ θ p θ ~ Beta( 1,86 ; 10,55 )

( )

= ∑= ( − ) −∑= n i i n i yi n y L θ Y θ 1 1 θ 1

( )

θ Y ( )θ

( )

θ Y π ∝ p L Distribuição a priori Distribuição a posteriori Método Bayesiano Dados amostrais n = 100 18 portadores 18 100 1 = ∑ = i i y

( )

θ _Y ~ Beta(19,86;92,55) π (priori conjugada)

(25)

0.0 0.2 0.4 0.6 0.8 1.0 0 2 4 6 8 10 Priori Priori Posteriori Posteriori

Seja a taxa de prevalência estimada pela média da distribuição a posteriori % 7 , 17 55 , 92 86 , 19 86 , 19 ˆ _≈ + = Bayes θ

( )

θ _Y ~ Beta(19,86;92,55) π

(26)

0.0 0.1 0.2 0.3 0.4 0 2 4 6 8 10 95%

Intervalos de credibilidade

ICr 95%: (11,2% ; 25,2%) ( )θ _Y ~ Beta(19,86;92,55) π

(27)

Priori “não informativa”

Eu tenho pouca informação sobre a prevalência da doença na população...

(28)

Priori “não informativa”

• Método de Bayes-Laplace

– Base no princípio da equiprobabilidade.

• Método de Jeffreys

– Invariância a transformações monótonas. – Base na medida de informação de Fisher. – No exemplo anterior, θ ~ Beta( 1/2 ; 1/2 ) e

( )

θ _Y ~ Beta(18,5;82,5) π % 3 , 18 5 , 82 5 , 18 5 , 18 ˆ _≈ + = Bayes θ

(29)

(30)

(31)

(32)

Y X

(33)

Y X

θ

Para cada Locus, i = 1,2,...,17, eu poderia considerar

(34)

Y X

θ

Para cada Locus, i = 1,2,...,17, eu poderia considerar

Y_i ~ Binomial(X_i ,θ_i)

Mas, como X é grande e θ é pequeno, posso considerar

(35)

Modelo

Y_i ~ Poisson(λ_i) onde λ_i = X_i θ_i

(

)

( ) ! , i y i i x i i i i y x e x y Y P i i i θ θ θ − = =

(36)

Modelo

Y_i ~ Poisson(λ_i) onde λ_i = X_i θ_i

(

)

( ) ! , i y i i x i i i i y x e x y Y P i i i θ θ θ − = = “Reparametrização”: θ_i = exp(α_i) Prioris: _α i ~ N(α; σα2) α ~ N(0;10000) σ_α2 ~ Gamma(0,1 ; 0,1)

(37)

(38)

0.0025 0.003461 0.001543 0.002433 0.0029 0.005065 0.001219 0.002624 0,002849 5 1755 0.0036 0.005705 0.001415 0.002977 0,003462 6 1733 0.0074 0.0103 0.003293 0.006064 0,007964 14 1758 0.0043 0.006796 0.001856 0.003653 0,004545 8 1760 0.0003 0.002819 2.777E-4 0.00119 0 0 1746 0.0011 0.003557 5.823E-4 0.001695 0,001135 2 1762 0.0048 0.005619 0.001433 0.002976 0,003454 6 1737 0.0005 0.00321 4.282E-4 0.001442 0,00057 1 1753 0.0038 0.005637 0.001426 0.002957 0,003405 6 1762 0.0020 0.00412 7.686E-4 0.001984 0,001701 3 1764 0.0010 0.004064 7.783E-4 0.001995 0,001712 3 1752 0.0005 0.003216 4.278E-4 0.001435 0,000578 1 1730 0.0029 0.005064 0.001184 0.002601 0,002838 5 1762 0.0015 0.003616 5.912E-4 0.001696 0,001136 2 1760 0.0031 0.005572 0.001397 0.002963 0,003438 6 1745 0.0041 0.007323 0.002121 0.004014 0,005125 9 1756 0.0029 0.006128 0.001603 0.003294 0,003984 7 1757 97.5% 2.5% median observados _artigo

(39)

(40)

Motivação

• Ruffino-Netto A. Cálculo do risco de

infecção tuberculosa levando em consideração pessoas perdidas de seguimento. Rev. Divisão Nac.

Tuberculose 1976; 20(80): 383-90.

(41)

Ruffino Netto, 1976

K R₀ reatores N₀ não reatores Prova tuberculínica

(42)

K R₀ reatores N₀ não reatores I reatores N não reatores Pn perdidos R reatores Pr perdidos

(43)

K R₀ reatores N₀ não reatores I reatores N não reatores Pn perdidos R reatores Pr perdidos Pressuposto:

A reversão tuberculínica é um fato cuja ocorrência, além de pouco freqüente, envolve alguns anos após o organismo previamente infectado conseguir esterilizar o bacilo de Kock nele existente.

(44)

Taxas de

Transferências

λ₃ K R₀ reatores N₀ não reatores I reatores N não reatores Pn perdidos R reatores Pr perdidos λ₁ P_i Reatores e perdidos λ₂ (assumimos λ₁ = λ₃)

(45)

Taxas de

Transferências

θ : taxa de infecção

K R₀ reatores N₀ não reatores I reatores N não reatores Pn perdidos R reatores Pr perdidos

(46)

Equações diferenciais

(

)

[

− λ +θ

]

= N₀ exp t ₁ N

(

)

[

]

(

)

{

t t

}

N I ₁ ₂ 1 2 0 _exp _λ _θ _exp _λ θ λ λ θ − − + − − − =

(

t

)

R R = ₀ exp − λ₂ (Ruffino Netto, 1976)

(47)

Proposta de um novo modelo

(Bayesiano)

(48)

Notação

K Pn + Pr I + R N Total R₀ Pr R 0 Reatores no início do estudo (T₀ = 1) N₀ Pn I N Não reatores no início do estudo (T₀ = 0) Total (S = 0) Reatores ao final do estudo (T₁ = 1) Não reatores ao final do estudo (T₁ = 0) Pessoas perdidas de seguimento Pessoas presentes ao final do

estudo (S = 1)

(49)

Modelo Bayesiano

• Taxa de infecção:

P(T1 = 1 | T0 = 0) = θ

• Probabilidades de perda de seguimento:

λ₁ = P( S = 0 | T₁ = 0, T₀ = 0) λ2 = P( S = 0 | T1 = 1)

• E ainda:

(50)

Modelo Bayesiano

P( S = 1 , T₁ = 1, T₀ = 0)

=P( S = 1 | T₁ = 1, T₀ = 0) P(T₁ = 1, T₀ = 0)

= P( S = 1 | T₁ = 1, T₀ = 0) P(T₁ = 1 | T₀ = 0) P(T₀ = 0)

(51)

Probabilidades

β λ₂ β (1 – λ₂) β 0 Reatores no início do estudo (T₀ = 1) 1 – β λ₂ θ (1 – β) + λ₁ (1 – θ) (1 – β) (1 – λ₂) θ (1 – β) (1 – λ₁) (1 – θ) (1 – β) Não reatores no início do estudo (T₀ = 0) Total (S = 0) Reatores ao final do estudo (T₁ = 1) Não reatores ao final do estudo (T₁ = 0) Pessoas perdidas de seguimento Pessoas presentes ao final do

estudo (S = 1)

(52)

Verossimilhança

( ) (1 ) (1 ) (1 ) (1 ) 0 2 2 1 1 N R Pr Pi Pn N Pi I R I Pi N Pi Pn L ξ = λ − − λ λ − λ + θ + −θ + − β + − β )' , , , (λ₁ λ₂ θ β ξ = onde

(53)

Indivíduos reatores ao final do

estudo e perdidos de seguimento (P

_i

)

      − − + − − ) 1 )( 1 ( ) 1 ( ) 1 ( , ~ , | 1 2 2 β θ λ β θ λ β θ λ ξ Binomial Pn Pn Pi

(54)

Distribuições a priori

• θ ~ Beta ( a_θ, b_θ )

• β ~ Beta ( a_β, b_β )

• λ₁ ~ Beta ( a₁, b₁) • λ₂ ~ Beta ( a₂, b₂)

(55)

Algoritmo de amostradores de Gibbs

• θ | I, N, Pn, P_i, a_θ, b_θ ~ Beta(I + P_i + a_θ, N + Pn – P_i + b_θ), • β | Pr, R, N₀, a_β, b_β ~ Beta(R₀ + a_β, N₀ + b_β), • λ₁ | N, Pn, P_i, a₁, b₁ ~ Beta(Pn – P_i + a₁, N + b₁) • λ₂ | I, R, P_i, a₂, b₂ ~ Beta(P_i + a₂, I + R + b₂)       − − + − − ) 1 )( 1 ( ) 1 ( ) 1 ( , ~ , | 1 2 2 β θ λ β θ λ β θ λ ξ Binomial Pn Pn Pi

(56)

Exemplo

K R₀ reatores N₀ não reatores I reatores N não reatores Pn perdidos R reatores Pr perdidos 1000 1000 100 100 1100 1100 880 880 10 10 110 110 90 90 10 10

(57)

Algoritmo Bayesiano

• θ ~ Beta ( 1/2, 1/2 )

• β ~ Beta ( 1/2, 1/2 )

• λ₁ ~ Beta ( 1/2, 1/2 )

• λ₂ ~ Beta ( 1/2, 1/2 )

• Geradas 10 mil amostras (burn-in samples)

• Geradas 500 mil amostras

• Saltos tamanho 10

• Convergência: Gelman e Rubin

(58)

(59)

Resultados

7,49% 10,91% 9,13% -β 0,57% 1,99% 1,17% 1,12 % θ 5,29% 17,12% 10,46% 10,54% λ 2 9,16% 13,07% 11,03% 11,66% λ 1 Intervalo de credibilidade 95% Estimativa a posteriori Modelo determinístico Parâmetro Modelo Bayesiano

(60)

Vantagens

• Incorporação da opinião de especialistas

sobre os parâmetros de interesse.

(61)

(62)

Desvantagens

• É necessário um bom entendimento teórico

para o uso de um método Bayesiano:

distribuições de probabilidade, cadeias de Markov, métodos Monte Carlo,

diagnósticos de convergência, etc...

• Uso de softwares como o WinBugs pode ser

um obstáculo ao usuário com poucos conhecimentos de linguagens de

(63)

Citações no MEDLINE

Busca pelo termo “bayesian”

0 200 400 600 800 1000 1200 1400 1600 1950 1960 1970 1980 1990 2000 2010 ano N úm er o de c ita çõ es

(64)

Citações no MEDLINE

Citações a cada 10 mil indexações

ano In ci dê nc ia ( ar tig os /1 0. 00 0) 0 5 10 15 20 25 1960 1970 1980 1990 2000 2010

(65)

Citações no MEDLINE

Citações a cada 10 mil indexações

ano In ci dê nc ia ( ar tig os /1 0. 00 0) 0 5 10 15 20 25 1960 1970 1980 1990 2000 2010

(66)

Citações a cada 10 mil indexações

y(ano) = 0,0169 exp [0,158 (ano – 1962)]

0 1000 2000 3000 4000 5000 6000 7000 8000 9000 10000 1950 1960 1970 1980 1990 2000 2010 2020 2030 2040 2050 2060 ano In ci dê nc ia ( ar tig os /1 0. 00 0) 2048 2048

(67)

Edson Zangiacomi Martinez

• Professor Associado do Departamento de Medicina Social, da Faculdade de Medicina de Ribeirão Preto (FMRP), Universidade de São Paulo (USP).

• Bacharel em Estatística (UNICAMP)

• Mestre em Estatística (UFSCar)

• Doutor em Ciências Médicas (UNICAMP)

• Livre-Docente (USP)

E-Mail: edson@fmrp.usp.br Métodos Bayesianos

Departamento de Medicina Social

Centro de Métodos Quantitativos (CEMEQ) Faculdade de Medicina de Ribeirão Preto Universidade de São Paulo (USP)

2010