• Nenhum resultado encontrado

Inferência Estatística e Aplicações II. Edson Zangiacomi Martinez Departamento de Medicina Social FMRP/USP

N/A
N/A
Protected

Academic year: 2021

Share "Inferência Estatística e Aplicações II. Edson Zangiacomi Martinez Departamento de Medicina Social FMRP/USP"

Copied!
67
0
0

Texto

(1)

Inferência Estatística e

Aplicações II

Edson Zangiacomi Martinez

Departamento de Medicina Social FMRP/USP

(2)

Métodos Bayesianos

Edson Zangiacomi Martinez

(3)

C iê nc ia H oj e, ju lh o de 2 00 6

(4)

Thomas Bayes

Thomas Bayes 1702 - 1761

(5)

Thomas Bayes

• Reverendo presbiteriano e matemático amador.

Publicação, em 1763, “An essay towards solving a

problem in the doctrine of chances”,

Philosophical Transactions of the Royal Society of London.

• Texto apresentado por seu amigo Richard Price, que o encontrou entre os pertences de Bayes após a sua morte.

• Laplace (1774, 1781): desenvolvimentos

posteriores (talvez independentes) dos princípios Bayesianos.

(6)

Pensamento Bayesiano

Softwares que filtram os nossos e-mails,

classificando-os como indesejados ou desejados.

Mars Rovers são programados para “pensar

Bayesianamente” enquanto passeiam pelo planeta Marte.

• Economia, medicina e saúde, engenharia,

(7)

Pesquisa em saúde

• Filosofia dominante: – interpretação freqüentista. Modelo experimental Modelo

experimental DadosDados

Objetivos Hipóteses Amostra Inferência Estatística Inferência Estatística Testes de hipóteses Intervalos de confiança

(8)

Bayesianismo

Distribuição

a priori x Verossimilhança

Distribuição

a posteriori ∝

(9)

Bayesianismo como filosofia

x ∝ Distribuição a posteriori Distribuição a priori Verossimilhança

Inferência racional Subjetividade Experiência empírica

(10)
(11)
(12)
(13)
(14)

Exemplo – método clássico

• Objetivo: estimar a taxa de prevalência (

θ

)

de uma doença

População

Amostra de

(15)

Exemplo – método clássico

• Modelo estatístico:

Yi = 1 se o i-ésimo indivíduo é portador

da doença

Yi = 0 se o i-ésimo indivíduo não é

portador da doença

i = 1, 2, ..., n

(16)

Exemplo – método clássico

• Função de verossimilhança:

(

= θ

)

= θ y

(

1−θ

)

1−y ; i = 0,1; 0 ≤ θ ≤1 i i y y Y P i i

( )

=

(

)

= ∑ =

(

)

−∑ = = −

ni i n i i i i y n y n i y y L 1 1 1 1 1 1 θ θ θ θ θ Y

(17)

Exemplo – método clássico

• Função de verossimilhança:

(

= θ

)

= θ y

(

1−θ

)

1−y ; i = 0,1; 0 ≤ θ ≤1 i i y y Y P i i

( )

=

(

)

= ∑ =

(

)

−∑ = = −

ni i n i i i i y n y n i y y L 1 1 1 1 1 1 θ θ θ θ θ Y • Função de “log-verossimilhança”:

( )

θ Y = ∑in=1 yi lnθ +

(

n − ∑in=1 yi

)

ln

(

1−θ

)

l

(18)

Exemplo – método clássico

• Estimador de máxima verossimilhança:

( )

θ = ∑ =1 lnθ +

(

− ∑n=1

)

ln

(

1−θ

)

i i n i yi n y Y l = ∑ = = n y n i 1 i ˆ

θ Número de portadores da doença na amostra

(19)

Exemplo – método clássico

• Estimador de máxima verossimilhança:

= ∑ = = n y n i 1 i ˆ

θ Número de portadores da doença na amostra

Número de indivíduos na amostra Em uma amostra de 100 indivíduos, encontramos 18 portadores da doença % 18 100 18 ˆ = = θ

(20)

Método clássico

Modelo experimental

Modelo

experimental DadosDados

Objetivo: Estimar a prevalência da doença. Amostra: n = 100 18 portadores Inferência Estatística Inferência Estatística Estimativa: 18% Intervalo de confiança IC 95%: (10,4% ; 25,5%)

(21)

A prevalência da doença na população é cerca de 15% Probabilidade a priori Probabilidade a posteriori Método Bayesiano Dados amostrais experiê ncia profiss ional

(22)

A prevalência da doença na população é cerca de 15% Probabilidade a priori Probabilidade a posteriori Método Bayesiano Dados amostrais experiê ncia profiss ional

( )

= ∑= ( − ) −∑= n i i n i yi n y L θ Y θ 1 1 θ 1 ( )θ = p

( )

θ Y ( )θ

( )

θ Y π ∝ p L

(23)

A prevalência da doença na população é cerca de 15% Probabilidade a priori experiê ncia profiss ional A prevalência da doença na população não é menor que 1% A prevalência da doença na população não é maior que 40% 0.0 0.2 0.4 0.6 0.8 1.0 0 1 2 3 4 θ ~ Beta( 1,86 ; 10,55 )

(24)

( ) 1,86−1(1 )10,55−1 − ∝θ θ θ p θ ~ Beta( 1,86 ; 10,55 )

( )

= ∑= ( − ) −∑= n i i n i yi n y L θ Y θ 1 1 θ 1

( )

θ Y ( )θ

( )

θ Y π ∝ p L Distribuição a priori Distribuição a posteriori Método Bayesiano Dados amostrais n = 100 18 portadores 18 100 1 = ∑ = i i y

( )

θ Y ~ Beta(19,86;92,55) π (priori conjugada)

(25)

0.0 0.2 0.4 0.6 0.8 1.0 0 2 4 6 8 10 Priori Priori Posteriori Posteriori

Seja a taxa de prevalência estimada pela média da distribuição a posteriori % 7 , 17 55 , 92 86 , 19 86 , 19 ˆ + = Bayes θ

( )

θ Y ~ Beta(19,86;92,55) π

(26)

0.0 0.1 0.2 0.3 0.4 0 2 4 6 8 10 95%

Intervalos de credibilidade

ICr 95%: (11,2% ; 25,2%) ( )θ Y ~ Beta(19,86;92,55) π

(27)

Priori “não informativa”

Eu tenho pouca informação sobre a prevalência da doença na população...

(28)

Priori “não informativa”

• Método de Bayes-Laplace

– Base no princípio da equiprobabilidade.

• Método de Jeffreys

– Invariância a transformações monótonas. – Base na medida de informação de Fisher. – No exemplo anterior, θ ~ Beta( 1/2 ; 1/2 ) e

( )

θ Y ~ Beta(18,5;82,5) π % 3 , 18 5 , 82 5 , 18 5 , 18 ˆ + = Bayes θ

(29)
(30)
(31)
(32)

Y X

(33)

Y X

θ

Para cada Locus, i = 1,2,...,17, eu poderia considerar

(34)

Y X

θ

Para cada Locus, i = 1,2,...,17, eu poderia considerar

Yi ~ Binomial(Xii)

Mas, como X é grande e θ é pequeno, posso considerar

(35)

Modelo

Yi ~ Poisson(λi) onde λi = Xi θi

(

)

( ) ! , i y i i x i i i i y x e x y Y P i i i θ θ θ − = =

(36)

Modelo

Yi ~ Poisson(λi) onde λi = Xi θi

(

)

( ) ! , i y i i x i i i i y x e x y Y P i i i θ θ θ − = = “Reparametrização”: θi = expi) Prioris: α i ~ N(α; σα2) α ~ N(0;10000) σα2 ~ Gamma(0,1 ; 0,1)

(37)
(38)

0.0025 0.003461 0.001543 0.002433 0.0029 0.005065 0.001219 0.002624 0,002849 5 1755 0.0036 0.005705 0.001415 0.002977 0,003462 6 1733 0.0074 0.0103 0.003293 0.006064 0,007964 14 1758 0.0043 0.006796 0.001856 0.003653 0,004545 8 1760 0.0003 0.002819 2.777E-4 0.00119 0 0 1746 0.0011 0.003557 5.823E-4 0.001695 0,001135 2 1762 0.0048 0.005619 0.001433 0.002976 0,003454 6 1737 0.0005 0.00321 4.282E-4 0.001442 0,00057 1 1753 0.0038 0.005637 0.001426 0.002957 0,003405 6 1762 0.0020 0.00412 7.686E-4 0.001984 0,001701 3 1764 0.0010 0.004064 7.783E-4 0.001995 0,001712 3 1752 0.0005 0.003216 4.278E-4 0.001435 0,000578 1 1730 0.0029 0.005064 0.001184 0.002601 0,002838 5 1762 0.0015 0.003616 5.912E-4 0.001696 0,001136 2 1760 0.0031 0.005572 0.001397 0.002963 0,003438 6 1745 0.0041 0.007323 0.002121 0.004014 0,005125 9 1756 0.0029 0.006128 0.001603 0.003294 0,003984 7 1757 97.5% 2.5% median observados artigo

(39)
(40)

Motivação

• Ruffino-Netto A. Cálculo do risco de

infecção tuberculosa levando em consideração pessoas perdidas de seguimento. Rev. Divisão Nac.

Tuberculose 1976; 20(80): 383-90.

(41)

Ruffino Netto, 1976

K R0 reatores N0 não reatores Prova tuberculínica

(42)

K R0 reatores N0 não reatores I reatores N não reatores Pn perdidos R reatores Pr perdidos

(43)

K R0 reatores N0 não reatores I reatores N não reatores Pn perdidos R reatores Pr perdidos Pressuposto:

A reversão tuberculínica é um fato cuja ocorrência, além de pouco freqüente, envolve alguns anos após o organismo previamente infectado conseguir esterilizar o bacilo de Kock nele existente.

(44)

Taxas de

Transferências

λ3 K R0 reatores N0 não reatores I reatores N não reatores Pn perdidos R reatores Pr perdidos λ1 Pi Reatores e perdidos λ2 (assumimos λ1 = λ3)

(45)

Taxas de

Transferências

θ : taxa de infecção

K R0 reatores N0 não reatores I reatores N não reatores Pn perdidos R reatores Pr perdidos

(46)

Equações diferenciais

(

)

[

− λ +θ

]

= N0 exp t 1 N

(

)

[

]

(

)

{

t t

}

N I 1 2 1 2 0 exp λ θ exp λ θ λ λ θ − − + − − − =

(

t

)

R R = 0 exp − λ2 (Ruffino Netto, 1976)

(47)

Proposta de um novo modelo

(Bayesiano)

(48)

Notação

K Pn + Pr I + R N Total R0 Pr R 0 Reatores no início do estudo (T0 = 1) N0 Pn I N Não reatores no início do estudo (T0 = 0) Total (S = 0) Reatores ao final do estudo (T1 = 1) Não reatores ao final do estudo (T1 = 0) Pessoas perdidas de seguimento Pessoas presentes ao final do

estudo (S = 1)

(49)

Modelo Bayesiano

• Taxa de infecção:

 P(T1 = 1 | T0 = 0) = θ

• Probabilidades de perda de seguimento:

 λ1 = P( S = 0 | T1 = 0, T0 = 0)  λ2 = P( S = 0 | T1 = 1)

• E ainda:

(50)

Modelo Bayesiano

P( S = 1 , T1 = 1, T0 = 0)

=P( S = 1 | T1 = 1, T0 = 0) P(T1 = 1, T0 = 0)

= P( S = 1 | T1 = 1, T0 = 0) P(T1 = 1 | T0 = 0) P(T0 = 0)

(51)

Probabilidades

β λ2 β (1 – λ2) β 0 Reatores no início do estudo (T0 = 1) 1 – β λ2 θ (1 – β) + λ1 (1 – θ) (1 – β) (1 – λ2) θ (1 – β) (1 – λ1) (1 – θ) (1 – β) Não reatores no início do estudo (T0 = 0) Total (S = 0) Reatores ao final do estudo (T1 = 1) Não reatores ao final do estudo (T1 = 0) Pessoas perdidas de seguimento Pessoas presentes ao final do

estudo (S = 1)

(52)

Verossimilhança

( ) (1 ) (1 ) (1 ) (1 ) 0 2 2 1 1 N R Pr Pi Pn N Pi I R I Pi N Pi Pn L ξ = λ − − λ λ − λ + θ + −θ + − β + − β )' , , , (λ1 λ2 θ β ξ = onde

(53)

Indivíduos reatores ao final do

estudo e perdidos de seguimento (P

i

)

      − − + − − ) 1 )( 1 ( ) 1 ( ) 1 ( , ~ , | 1 2 2 β θ λ β θ λ β θ λ ξ Binomial Pn Pn Pi

(54)

Distribuições a priori

• θ ~ Beta ( aθ, bθ )

• β ~ Beta ( aβ, bβ )

• λ1 ~ Beta ( a1, b1 ) • λ2 ~ Beta ( a2, b2 )

(55)

Algoritmo de amostradores de Gibbs

• θ | I, N, Pn, Pi, aθ, bθ ~ Beta(I + Pi + aθ, N + Pn – Pi + bθ), • β | Pr, R, N0, aβ, bβ ~ Beta(R0 + aβ, N0 + bβ), • λ1 | N, Pn, Pi, a1, b1 ~ Beta(Pn – Pi + a1, N + b1) • λ2 | I, R, Pi, a2, b2 ~ Beta(Pi + a2, I + R + b2)       − − + − − ) 1 )( 1 ( ) 1 ( ) 1 ( , ~ , | 1 2 2 β θ λ β θ λ β θ λ ξ Binomial Pn Pn Pi

(56)

Exemplo

K R0 reatores N0 não reatores I reatores N não reatores Pn perdidos R reatores Pr perdidos 1000 1000 100 100 1100 1100 880 880 10 10 110 110 90 90 10 10

(57)

Algoritmo Bayesiano

• θ ~ Beta ( 1/2, 1/2 )

• β ~ Beta ( 1/2, 1/2 )

• λ1 ~ Beta ( 1/2, 1/2 )

• λ2 ~ Beta ( 1/2, 1/2 )

Geradas 10 mil amostras (burn-in samples)

• Geradas 500 mil amostras

• Saltos tamanho 10

• Convergência: Gelman e Rubin

(58)
(59)

Resultados

7,49% 10,91% 9,13% -β 0,57% 1,99% 1,17% 1,12 % θ 5,29% 17,12% 10,46% 10,54% λ 2 9,16% 13,07% 11,03% 11,66% λ 1 Intervalo de credibilidade 95% Estimativa a posteriori Modelo determinístico Parâmetro Modelo Bayesiano

(60)

Vantagens

• Incorporação da opinião de especialistas

sobre os parâmetros de interesse.

(61)
(62)

Desvantagens

• É necessário um bom entendimento teórico

para o uso de um método Bayesiano:

distribuições de probabilidade, cadeias de Markov, métodos Monte Carlo,

diagnósticos de convergência, etc...

• Uso de softwares como o WinBugs pode ser

um obstáculo ao usuário com poucos conhecimentos de linguagens de

(63)

Citações no MEDLINE

Busca pelo termo “bayesian”

0 200 400 600 800 1000 1200 1400 1600 1950 1960 1970 1980 1990 2000 2010 ano N úm er o de c ita çõ es

(64)

Citações no MEDLINE

Citações a cada 10 mil indexações

ano In ci dê nc ia ( ar tig os /1 0. 00 0) 0 5 10 15 20 25 1960 1970 1980 1990 2000 2010

(65)

Citações no MEDLINE

Citações a cada 10 mil indexações

ano In ci dê nc ia ( ar tig os /1 0. 00 0) 0 5 10 15 20 25 1960 1970 1980 1990 2000 2010

(66)

Citações a cada 10 mil indexações

y(ano) = 0,0169 exp [0,158 (ano – 1962)]

0 1000 2000 3000 4000 5000 6000 7000 8000 9000 10000 1950 1960 1970 1980 1990 2000 2010 2020 2030 2040 2050 2060 ano In ci dê nc ia ( ar tig os /1 0. 00 0) 2048 2048

(67)

Edson Zangiacomi Martinez

• Professor Associado do Departamento de Medicina Social, da Faculdade de Medicina de Ribeirão Preto (FMRP), Universidade de São Paulo (USP).

• Bacharel em Estatística (UNICAMP)

• Mestre em Estatística (UFSCar)

• Doutor em Ciências Médicas (UNICAMP)

• Livre-Docente (USP)

E-Mail: edson@fmrp.usp.br Métodos Bayesianos

Departamento de Medicina Social

Centro de Métodos Quantitativos (CEMEQ) Faculdade de Medicina de Ribeirão Preto Universidade de São Paulo (USP)

2010

Referências

Documentos relacionados

Cursos e eventos realizados em 2011 e 2012 pela RMPI: O professor Rodrigo Gava passou a palavra ao bolsista da RMPI Marcelo Garcia, que apresentou os cursos que foram

Este trabalho está voltado, especificamente, para análise de ferramentas de medição de desempenho que possam ser utilizadas por Instituições de Ensino Superior (IES) e nas

Como apontado no Relatório Anual dos Gastos Militares do SIPRI, “é improvável que o aumento das despesas militares na América do Sul resulte em uma guerra entre Estados, mas

A média de idade foi semelhante entre homens (70,3.. anos) e mulheres (70,9 anos), sem diferença estatística, o que sugere que os homens desse estudo não apresentaram menor

A intricada relação de crise que ocorre entre as duas esferas pública e privada expõe questões que de início nos pareceriam no- vas, porém, nas palavras de Arendt, não é

Os sistemas de cogeração para indústrias também estão com elevada demanda de instalação devido ao aumento de custos e riscos de fornecimento de energia elétrica, além

Os interessados em adquirir quaisquer dos animais inscritos nos páreos de claiming deverão comparecer à sala da Diretoria Geral de Turfe, localizada no 4º andar da Arquibancada

Acreditamos que o estágio supervisionado na formação de professores é uma oportunidade de reflexão sobre a prática docente, pois os estudantes têm contato