• Nenhum resultado encontrado

Modelos Dinâmicos e Estáticos de Sobrevivência com Fragilidade Espacial

N/A
N/A
Protected

Academic year: 2021

Share "Modelos Dinâmicos e Estáticos de Sobrevivência com Fragilidade Espacial"

Copied!
163
0
0

Texto

(1)

Universidade Federal do Rio de Janeiro

MODELOS DIN ˆ

AMICOS E ESTAT´ICOS DE

SOBREVIVˆ

ENCIA COM FRAGILIDADE

ESPACIAL

Leonardo Soares Bastos

(2)

UFRJ

Modelos Dinˆ

amicos e Est´

aticos de

Sobrevivˆ

encia com Fragilidade Espacial

Leonardo Soares Bastos

Disserta¸c˜ao de Mestrado submetida ao Programa de P´os-gradua¸c˜ao em Estat´ıstica do Instituto de Matem´atica da Universidade Federal do Rio de Janeiro como parte dos requisitos necess´arios para obten¸c˜ao do grau de Mestre em Ciˆencias Estat´ısticas.

Orientador: Dani Gamerman

Rio de Janeiro Dezembro de 2003

(3)

Modelos Dinˆ

amicos e Est´

aticos de

Sobrevivˆ

encia com Fragilidade Espacial

Leonardo Soares Bastos Orientador: Prof. Dani Gamerman

Disserta¸c˜ao de Mestrado submetida ao Programa de P´os-gra-dua¸c˜ao em Estat´ıstica do Instituto de Matem´atica da Universi-dade Federal do Rio de Janeiro como parte dos requisitos necess´arios para obten¸c˜ao do grau de Mestre em Ciˆencias Estat´ısticas.

Aprovada por :

Presidente, Prof. Dani Gamerman

Prof. H´elio S. Migon

Profa. Silvia Shimakura

Rio de Janeiro Dezembro de 2003

(4)

Bastos, Leonardo Soares

Modelos Dinˆamicos e Est´aticos de Sobrevivˆencia com Frag-ilidade Espacial / Leonardo Soares Bastos. - Rio de Janeiro: UFRJ/IM, 2003.

xi, 163f.: il.; 31cm.

Orientador: Dani Gamerman

Disserta¸c˜ao (mestrado) - UFRJ/IM/ Programa de P´os-gradua¸c˜ao em Estat´ıstica, 2003.

Referˆencias Bibliogr´aficas: f.137-142.

1. An´alise de Sobrevivˆencia. 2. Estat´ıstica Bayesiana. 3. Estat´ıstica Computacional. 4. Modelos Dinˆamicos I. Gamerman, Dani II. Universidade Federal do Rio de Janeiro, Instituto de Matem´atica. III. T´ıtulo.

(5)

Resumo

Modelos Dinˆ

amicos e Est´

aticos de

Sobrevivˆ

encia com Fragilidade Espacial

Leonardo Soares Bastos Orientador: Prof. Dani Gamerman

Resumo da Disserta¸c˜ao de Mestrado submetida ao Programa de P´os-gradua¸c˜ao em Estat´ıstica, Instituto de Matem´atica, da Universidade Fede-ral do Rio de Janeiro - UFRJ, como parte dos requisitos necess´arios para obten¸c˜ao do grau de Mestre em Ciˆencias Estat´ısticas.

Os Modelos de sobrevivˆencia com fragilidade espacial al´em de explicar qual ´e o efeito de covari´aveis no risco de um indiv´ıduo falhar, eles visam descrever a heterogeneidade n˜ao observada entre as unidades em estudo com alguma informa¸c˜ao espacial, introduzida no termo latente (fragilidade). A modelagem ser´a inicialmente baseada nos modelos de riscos proporcionais onde a fun¸c˜ao de risco de base ser´a ajustada de trˆes maneiras: supondo uma forma param´etrica, usando processos Gama e usando modelos dinˆamicos. Uma outra forma de modelagem ´e baseada em modelos dinˆamicos de so-brevivˆencia que sup˜oem covari´aveis dependentes do tempo. A fragilidade espacial ser´a modelada usando processos Gaussianos. As estimativas ser˜ao obtidas atrav´es de m´etodos computacionais baseados em MCMC. A aplica¸c˜ao ser´a feita a dois conjuntos de dados: um estudo de sobrevivˆencia de pessoas residentes na Inglaterra que sofrem de Leucemia e uma estudo do tempo no emprego nos munic´ıpios do Rio de Janeiro no setor industrial.

Palavras-chave: An´alise de sobrevivˆencia Bayesiana, Modelos de sobrevivˆencia dinˆamicos, Modelos Semiparam´etricos, Geoestat´ıstica.

(6)

Abstract

Spatial Frailty Dynamic and

Static Survival Models

Leonardo Soares Bastos Orientador: Prof. Dani Gamerman

Abstract da Disserta¸c˜ao de Mestrado submetida ao Programa de

P´os-gradua¸c˜ao em Estat´ıstica, Instituto de Matem´atica, da Universidade Fede-ral do Rio de Janeiro - UFRJ, como parte dos requisitos necess´arios para obten¸c˜ao do grau de Mestre em Ciˆencias Estat´ısticas.

Spatial frailty survival models besides explaining which is the covari-ates effect in the risk of an individual to fail, aim at describing non-observed heterogeneity between the units in the study with some spatial information, introduced in a latent term (frailty). The modeling will be initially based on proportional risk models where the baseline hazard function will be adjusted in three ways: assuming parametric form, using Gamma processes and using dynamic models. Another form of modeling is based on survival dynamic models, that assume that the covariates effect can change over time. The spatial frailty will be modeled using Gaussian processes. The estimates will be based on computational methods using MCMC. The models will be ap-plied to two data sets: a study of survival of residents in England who suffer from Leukemia and a study of the employment duration time in the indus-trial sector in the State of Rio de Janeiro.Key-words: Bayesian Survival Analysis, Dynamic Survival Models, Semiparametrics Models, Geostatistics.

(7)

Agradecimentos

Em primeiro lugar a Deus. (E aos seus santos tamb´em.) `

A Tha´ıs pelo apoio em todos os sentidos e por simplesmente ter apare-cido na minha vida.

Ao cl˜a dos Bastos, pelo apoio que eu sempre tive durante a minha caminhada meu pai (Francisco), minha m˜ae (Cleusa) e meu ´unico irm˜ao (Breno).

Gostaria de agradecer a todos os professores que me fizeram seguir por esse caminho. Principalmente ao professor Dani, que pra mim foi uma honra tˆe-lo como orientador durante o mestrado, e as professoras Rosangela e Cibele Queiroz da UFMG, que me orientaram durante a gradua¸c˜ao e eu serei eternamente grato a elas.

N˜ao poderia de deixar de agradecer aos meus amigos. Os amigos do bairro (Palmeiras-BH), dando um destaque para L´ucio (Sasaki Kojiro ou Lucin), Jason (Peacemaker), Gleison (Piledrivermaker), Val´eria (Val) e Fl´avia Komatsuzaki (Flavinha) que foram grandes companheiros e est˜ao quase sempre on-line. Aos amigos da UFMG, Cristiano (Neg˜ao), Inara, Paula (Paulete), Roseli (Aose), Leonardo (L´eo Giradi), Rafael e mais alguns que

(8)

estudaram comigo ou fizeram parte das horas de truco no centro de estudos, nas longas viagens pro ENESTE e nas festas e calouradas da Federal. E no Rio, eu destaco Aline, Cristiane, Rafael e o Zim, quero dizer o Gustavo, que s˜ao pessoas que eu admiro.

Outros fatos extremamente importantes nesse per´ıodo que passei cur-sando o mestrado foram: O Cruzeiro Esporte Clube, que no ano de minha defesa conseguiu a tr´ıplice coroa ganhando o campeonato estadual, a Copa do Brasil (pela quarta vez) e o campeonato brasileiro (t´ıtulo in´edito para o clube). O Metal que sempre foi o fundo musical durante o desenvolvimento dessa disserta¸c˜ao, algumas bandas eu posso destacar Nightwish, Sratovarius, Symphony X, Blind Guardian, Angra e Shaman. E para finalizar as revistas que li em sua grande maioria Mang´as que eu gostaria de destacar Samurai X, Cavaleiros do Zod´ıaco e Dragon Ball.

(9)

Sum´

ario

1 Introdu¸c˜ao 1 1.1 Conceitos B´asicos . . . 2 1.2 Especifica¸c˜ao da Verossimilhan¸ca . . . 4 1.3 Modelos de Regress˜ao . . . 5 1.4 Modelos de Fragilidade . . . 7 1.5 Sum´ario da disserta¸c˜ao . . . 8

2 Inferˆencia Bayesiana 11 2.1 Conceitos B´asicos . . . 12

2.2 Monte Carlo via Cadeias de Markov . . . 14

2.2.1 Amostrador de Gibbs . . . 15

2.2.2 Algoritmo de Metropolis-Hastings . . . 16

(10)

2.3 Modelos Dinˆamicos . . . 20

2.4 Geoestat´ıstica . . . 23

3 Modelos Est´aticos de Sobrevivˆencia 29 3.1 Defini¸c˜ao do Modelo . . . 30

3.2 Coeficientes de Regress˜ao . . . 31

3.3 Fun¸c˜ao de Risco de Base . . . 32

3.3.1 Processos Param´etricos . . . 33

3.3.2 Processos Gama . . . 35

3.3.3 Processos Correlacionados . . . 38

3.3.4 Outros processos a priori . . . 41

3.4 Estudo Simulado . . . 42

4 Modelos de Fragilidade Espacial 50 4.1 Por que usar modelos com Fragilidade Espacial? . . . 51

4.2 O Modelo . . . 52

4.3 Coeficientes de Regress˜ao . . . 54

4.4 Fun¸c˜ao de Risco de Base . . . 54

4.4.1 Processos Param´etricos . . . 55

(11)

4.4.3 Processos Correlacionados . . . 57 4.5 Fragilidade Espacial . . . 58 4.6 Estudo simulado . . . 60

5 Modelos Dinˆamicos de Sobrevivˆencia com e sem Fragilidade

Espacial 76

5.1 Modelo Dinˆamico de Sobrevivˆencia . . . 78 5.2 Modelo Dinˆamico de Fragilidade Espacial . . . 81 5.3 Estudo Simulado . . . 85

6 Aplica¸c˜ao a dados reais 96

6.1 Dados de Leucemia na Inglaterra . . . 97 6.2 Dados de tempo no emprego . . . 114

7 Conclus˜oes e Trabalhos Futuros 134

Referˆencias Bibliogr´aficas 137

(12)

Cap´ıtulo 1

Introdu¸c˜

ao

O objetivo desta disserta¸c˜ao ´e apresentar uma an´alise Bayesiana de modelos de sobrevivˆencia com fragilidade espacial. Esses modelos al´em de explicar o risco do indiv´ıduo de falhar sob o efeito de covari´aveis, como os modelos de regress˜ao em an´alise de sobrevivˆencia, visam descrever a heterogeneidade n˜ao observada entre as unidades em estudo levando em considera¸c˜ao alguma informa¸c˜ao espacial das observa¸c˜oes.

O modelo de fragilidade espacial ´e uma extens˜ao do modelo de frag-ilidade, proposto inicialmente por Clayton (1978), onde ao efeito aleat´orio introduzido na fun¸c˜ao de risco ser´a incorporado uma estrutura espacial. Essa estrutura ser´a modelada usando processos gaussianos utilizados em Geoestat´ıstica, onde a informa¸c˜ao espacial est´a contida na estrutura de cor-rela¸c˜ao dos dados. Os modelos de fragilidade espacial s˜ao bem mais recentes que os modelos de fragilidade, Carlin e Banerjee (2002) e Henderson et al. (2002) abordaram esse tema em seus trabalhos, os primeiros usando modelos Condicionais Autoregressivos (CAR) e os segundos usando modelos Gama

(13)

Multivariados. Extendendo os modelos de fragilidade espacial ser´a apresen-tada uma modelagem com parˆametros variando no tempo, usando modelos dinˆamicos.

Na Se¸c˜ao 1.1 ser˜ao descritos os conceitos b´asicos em an´alise de so-brevivˆencia. Na Se¸c˜ao 1.2 ser´a descrito como a fun¸c˜ao de verossimilhan¸ca ´e especificada. Na Se¸c˜ao 1.3 ser˜ao descritos os modelos de regress˜ao em an´alise de sobrevivˆencia e como s˜ao introduzidas as covari´aveis no modelo. Na Se¸c˜ao 1.4 ser´a feita uma breve apresenta¸c˜ao dos modelos de fragilidade onde ser´a mostrado como o efeito de fragilidade ´e incorporado ao modelo. Um sum´ario dessa disserta¸c˜ao ser´a apresentado na Se¸c˜ao 1.5 .

1.1

Conceitos B´

asicos

Os dados de sobrevivˆencia consistem no tempo at´e a ocorrˆencia de um de-terminado evento, que ser´a chamado de morte ou falha. Uma caracter´ıstica desse tipo de dado ´e a possibilidade da n˜ao observa¸c˜ao do evento de interesse em algumas observa¸c˜oes, que pode ser uma censura ou um truncamento. Dados truncados s˜ao aqueles que para entrar no estudo foram sujeitos a um condicionamento. Dados censurados s˜ao divididos em trˆes tipos; censura `a direita, onde tudo que se sabe ´e que o evento ainda n˜ao ocorreu at´e o instante observado, censura `a esquerda, onde tudo o que se sabe ´e que o evento ocorreu em algum instante de tempo antes do in´ıcio do estudo, e censura intervalar, ´e aquela em que se sabe que o evento ocorreu dentro de um intervalo de tempo conhecido. Nesta disserta¸c˜ao apenas a modelagem com censura `a direita ser´a abordada. A ocorrˆencia ou n˜ao de censura ser´a indicada por uma vari´avel indicadora de falha, que vale 1 se a observa¸c˜ao falhou e 0 se foi censurada.

(14)

Al´em do tempo de sobrevivˆencia e da vari´avel indicadora de falha, os da-dos de sobrevivˆencia podem conter um conjunto de vari´aveis observ´aveis que podem estar relacionadas com estes tempos. Estas vari´aveis s˜ao conhecidas por covari´aveis ou vari´aveis explicativas. Quando os tempos de sobrevivˆencia est˜ao relacionados com as covari´aveis diz-se que a popula¸c˜ao ´e heterogˆenea. Caso contr´ario a popula¸c˜ao ´e dita homogˆenea.

Seja T uma vari´avel aleat´oria (v.a.) que representa o tempo de so-brevivˆencia de uma observa¸c˜ao com fun¸c˜ao de densidade f (t). A fun¸c˜ao de sobrevivˆencia, S(t), ´e definida por

S(t) = P r(T > t) (1.1)

onde T ´e uma vari´avel aleat´oria cont´ınua n˜ao negativa.

A formula¸c˜ao dos modelos de sobrevivˆencia ´e feita usualmente pela fun¸c˜ao de risco, h(t), definida por

h(t) = lim

∆→0+

P r(t < T < t + ∆|T > t)

∆ (1.2)

e a fun¸c˜ao de risco acumulada, H(t), ´e dada por

H(t) =

Z t

0 h(u)du, t > 0 (1.3)

Ser´a assumido que os tempos de sobrevivˆencia s˜ao vari´aveis aleat´orias absolutamente cont´ınuas. Portanto, a fun¸c˜ao de risco determina completa-mente a distribui¸c˜ao de probabilidade destes tempos. As principais rela¸c˜oes entre f , S e h s˜ao definidas a seguir. De (1.1), obt´em-se que

f (t) = −d dtS(t), (1.4) e de (1.2) tem-se que h(t) = lim ∆→0+ P r(t < T < t + ∆|T > t)

(15)

= 1 P r(T > t)∆→0lim+ P r(t < T < t + ∆) ∆ = f (t) S(t) (1.5)

Como T ´e uma v.a. positiva, h(t) = 0, t < 0. Substituindo (1.4) em (1.5) e resolvendo a equa¸c˜ao para S(t),

S(t) = exp ½ Z t 0 h(u)du ¾ = exp {−H(t)} . (1.6)

Note que a fun¸c˜ao de risco ´e suficiente para especificar a distribui¸c˜ao de probabilidade da vari´avel, pois pode-se escrever a fun¸c˜ao de densidade de probabilidade como fun¸c˜ao da fun¸c˜ao de risco, ou seja, usando (1.5) e (1.6) tem-se que f (t) = h(t) exp ½ Z t 0 h(u)du ¾ . (1.7)

1.2

Especifica¸c˜

ao da Verossimilhan¸ca

A contribui¸c˜ao para a fun¸c˜ao de verossimilhan¸ca para uma observa¸c˜ao que fal-hou ´e a fun¸c˜ao de densidade, mas se a observa¸c˜ao for censurada a informa¸c˜ao que se tem em m˜aos ´e que a observa¸c˜ao sobreviveu at´e aquele instante de tempo, portanto a contribui¸c˜ao para a fun¸c˜ao de verossimilhan¸ca de um in-div´ıduo que foi censurado ´e a fun¸c˜ao de sobrevivˆencia. A distin¸c˜ao entre falha e censura ´e feita atrav´es da vari´avel indicadora de falha, δ. Desta forma, a contribui¸c˜ao, p(t), para a fun¸c˜ao de verossimilhan¸ca de uma observa¸c˜ao ´e dada por:

p(t) = f (t)δS(t)1−δ. (1.8)

(16)

sup˜oe-se independˆencia e que as obsup˜oe-serva¸c˜oes sup˜oe-sejam provenientes de uma mesma popula¸c˜ao, homogˆenea ou n˜ao. A fun¸c˜ao de verossimilhan¸ca ´e dada por

L(t1, . . . , tn) = n Y i=1 p(ti) = n Y i=1 f (ti)δiS(ti)1−δi. (1.9)

Usando as rela¸c˜ao (1.5) e (1.6) em (1.9) a fun¸c˜ao de verossimilhan¸ca ´e reescrita por L(t1, . . . , tn) = n Y i=1 h(ti)δiexp ½ Z ti 0 h(u)d(u) ¾ . (1.10)

1.3

Modelos de Regress˜

ao

Frequentemente os dados de sobrevivˆencia s˜ao provenientes de popula¸c˜oes heterogˆeneas, implicando na observa¸c˜ao de um conjunto de covari´aveis jun-tamente com os tempos de sobrevivˆencia. Portanto, ´e interessante conhecer a influˆencia das covari´aveis nos tempos de sobrevivˆencia, justificando o in-teresse nos modelos de regress˜ao.

O efeito das covari´aveis em an´alise de sobrevivˆencia ´e expresso atrav´es da fun¸c˜ao de risco. Nesta disserta¸c˜ao, ser˜ao considerados apenas efeitos multiplicativos. O principal modelo multiplicativo ´e o modelo de riscos pro-porcionais ou modelo de Cox, (Cox, 1972), que ´e definido por

h(t|X, β) = h0(t)G(X; β) (1.11)

onde t ´e o tempo observado, X = (X1, . . . , Xp) ´e o vetor de covari´aveis. Os

co-eficientes β = (β1, . . . , βp)T s˜ao conhecidos por Coeficientes de Regress˜ao.

(17)

´e uma fun¸c˜ao positiva, usualmente G(X; β) = exp{Xβ} e que tamb´em ser´a a fun¸c˜ao utilizada nessa disserta¸c˜ao. Assim (1.11) ´e reescrito como

h(t|X, β) = h0(t) exp{Xβ}. (1.12)

Este modelo ´e chamado de modelo de riscos proporcionais, pois a raz˜ao das taxas de falha de dois indiv´ıduos ´e constante no tempo, isto ´e, a raz˜ao das fun¸c˜oes de risco para dois indiv´ıduos diferentes, i e j, ´e

h(t|Xi, β)

h(t|Xj, β)

= h0(t) exp{Xiβ}

h0(t) exp{Xjβ}

= exp{Xiβ − Xjβ}

que n˜ao depende do tempo. A fun¸c˜ao de verossimilhan¸ca para os modelos de regress˜ao de riscos proporcionais ´e obtida, aplicando (1.12) em (1.10)

L(β, h0) = n Y i=1 ³ h0(ti)eXiβ ´δi expn−H0(ti)eXiβi o (1.13) onde H0(ti) ´e a fun¸c˜ao de risco de base acumulada, i = 1, . . . , n.

Quando a fun¸c˜ao de risco de base, h0(t), ´e especificada, ou seja, a fun¸c˜ao

tem uma forma param´etrica conhecida, o modelo ´e chamado param´etrico. Mas quando a fun¸c˜ao h0(t) ´e n˜ao especificada, o modelo ´e dividido em duas

partes: uma param´etrica, associada aos coeficientes de regress˜ao e a outra n˜ao param´etrica, associada `a fun¸c˜ao de risco de base. Esse modelo ´e conhecido por semiparam´etrico.

O modelo de riscos proporcionais sup˜oe que as covari´aveis n˜ao de-pendem do tempo como extens˜ao para o modelo de Cox. Seja X(t) = (X1(t), . . . , Xp(t)) um conjunto de covari´aveis no tempo t, a vers˜ao do modelo

de Cox com vari´aveis dependentes do tempo ´e dada atrav´es da substitui¸c˜ao de X por X(t) em (1.12), ou seja,

(18)

Uma outra extens˜ao para os modelos de Cox com vari´aveis dependentes do tempo foi proposta por Gamerman (1991). Ele propˆos uma classe de modelos baseada em modelos dinˆamicos, que elimina o problema da suposi¸c˜ao de riscos proporcionais e faz com que o modelo de riscos proporcionais seja um caso particular, essa abordagem ser´a utilizada nessa disserta¸c˜ao.

Uma outra forma de incluir covari´aveis no modelo ´e usando modelos adi-tivos, onde o principal modelo ´e o modelo de Aalen (1980). Essa modelagem assim como, a classe de modelos de Gamerman(1991) e a classe extendida dos modelos de Cox (1972), aceita covari´aveis dependentes do tempo. A fun¸c˜ao de risco do modelo de Aalen ´e dada por

h(t|X(t)) = α0(t) + ζ(X(t)α(t)) (1.15)

onde α(t) = [α1(t), . . . , αp(t)]T e α0(t) s˜ao fun¸c˜oes n˜ao especificadas, X(t) =

(X1(t), . . . , Xp(t)) ´e o vetor de covari´aveis dependentes do tempo e ζ(.) ´e uma

fun¸c˜ao positiva usualmente ζ(x) = x.

1.4

Modelos de Fragilidade

Os modelos de fragilidade s˜ao caracterizados pela introdu¸c˜ao de um efeito aleat´orio na fun¸c˜ao de risco. Clayton (1978) e Vaupel, Manton e Vallard (1979) foram os primeiros a trabalhar com esta classe de modelos, o nome fragilidade foi introduzido no segundo trabalho. A forma usual de se intro-duzir a fragilidade no modelo de Cox ´e

h(t|X, β) = h0(t)u exp(Xβ) (1.16)

onde u ´e a fragilidade. Assume-se que u tem m´edia 1 e variˆancia descon-hecida, ξ. Usualmente assume-se tamb´em uma distribui¸c˜ao Gama para ξ.

(19)

Note que se u = 0 o modelo (1.17) se reduz ao modelo de riscos propor-cionais (1.12). Procedimentos de inferˆencia para esses modelos podem ser encontradas em Klein e Moeschberger (1997), sob um ponto de vista cl´assico, Clayton (1991) e Silva (2001) apresentam m´etodos bayesianos para estes modelos, o segundo autor tamb´em apresenta modelos aditivos de fragilidade.

Em algumas aplica¸c˜oes ´e conveniente escrever o modelo (1.16) como

h(t|X, β) = h0(t) exp(Xβ + w) (1.17)

onde w ´e a fragilidade, que segue uma distribui¸c˜ao com m´edia 0 e variˆancia σ2.

Note que se σ = 0 o modelo (1.17) se reduz ao modelo de risco proporcionais, (1.12). Supor que w tem distribui¸c˜ao normal ´e o mesmo que supor que u tem distribui¸c˜ao log-normal, pois w = log(u), e McGilchrist e Aisbett (1991) modelaram a fragilidade usando a distribui¸c˜ao log-normal.

1.5

Sum´

ario da disserta¸c˜

ao

Os resultados b´asicos em an´alise de sobrevivˆencia que ser˜ao utilizados nessa disserta¸c˜ao foram apresentados neste cap´ıtulo. O procedimento de inferˆencia ser´a apresentado no Cap´ıtulo 2, onde ser´a descrito de uma forma geral a inferˆencia Bayesiana, apresentando as defini¸c˜oes b´asicas, os m´etodos com-putacionais bayesianos com ˆenfase aos m´etodos de amostragem de Monte Carlo via Cadeias de Markov (MCMC), uma apresenta¸c˜ao breve sobre Mod-elos Dinˆamicos, Estatistica Espacial e m´etodos de compara¸c˜ao de modMod-elos.

No Cap´ıtulo 3 ser˜ao apresentados os procedimentos de inferˆencia para os Modelos Est´aticos de Sobrevivˆencia, ou modelos de Regress˜ao de Cox. O modelo em quest˜ao ´e modelo de Cox (1.12), que tem como quantidades

(20)

desconhecidas a fun¸c˜ao de risco de base e os coeficientes de regress˜ao. A fun¸c˜ao de risco de base ser´a abordada de trˆes maneiras distintas, a primeira usando uma modelagem param´etrica, a segunda usando processos gama, in-troduzidos em an´alise de sobrevivˆencia por Kalbfleish (1978) e, finalmente, usando processos correlacionados baseados em modelos dinˆamicos, introduzi-dos em an´alise de sobrevivˆencia por Gamerman (1991). Para os coeficientes de regress˜ao ser´a assumido uma distribui¸c˜ao a priori. Essa metodologia ser´a aplicada a dados simulados.

No Cap´ıtulo 4 ser˜ao apresentados os Modelos Est´aticos de Fragilidade Espacial e ser´a explicado como um efeito aleat´orio com uma estrutura es-pacial ´e incorporado aos Modelos Est´aticos. A fun¸c˜ao de risco de base e os coeficientes de regress˜ao ser˜ao abordados de maneira equivalente `a abor-dagem dos Modelos Est´aticos com o acr´escimo do termo da fragilidade. A Fragilidade Espacial ser´a abordada usando processos Gaussianos usados em Geoestat´ıstica, onde ser´a assumido alguma fun¸c˜ao de correla¸c˜ao espacial para explicar a rela¸c˜ao de dependˆencia espacial entre as observa¸c˜oes. Para encer-rar o cap´ıtulo ser´a feito um estudo simulado

No Cap´ıtulo 5, os Modelos Dinˆamicos em Sobrevivˆencia ser˜ao apre-sentados. Logo em seguida os Modelos Dinˆamicos em Sobrevivˆencia ser˜ao extendidos com a introdu¸c˜ao de uma estrutura espacial, resultando nos Mo-delos Dinˆamicos de Fragilidade Espacial. O procedimento de inferˆencia ser´a descrito, onde ser˜ao definidas distribui¸c˜ao a priori para os parˆametros descon-hecidos. Um estudo simulado ser´a desenvolvido para os Modelos Dinˆamicos com e sem Fragilidade Espacial.

No Cap´ıtulo 6, as metodologias dos Cap´ıtulos 3, 4 e 5 ser˜ao aplicadas a dados reais. O primeiro conjunto de dados ´e um banco de dados de pessoas

(21)

residentes no Noroeste da Inglaterra que sofrem de leucemia. Esse conjunto de dados foi utilizado no trabalho de Henderson et al. (2003), com dados cedidos pelo autor. O outro conjunto de dados cont´em o tempo m´edio no emprego em cada munic´ıpio do estado do Rio de Janeiro para os grandes se-tores de emprego definidos pelo Instituto Brasileiro de Geografia e Estat´ıstica (IBGE). Estes dados foram cedidos pelo Minist´erio do Trabalho e Emprego (MTE).

No Cap´ıtulo 7, ser˜ao apresentadas as conclus˜oes da disserta¸c˜ao, uma breve discuss˜ao computacional e propostas para trabalhos futuros. E em seguida, no Apˆendice ser˜ao apresentadas todas as distribui¸c˜oes a posteriori omitidas na disserta¸c˜ao.

(22)

Cap´ıtulo 2

Inferˆ

encia Bayesiana

Todos procedimentos de inferˆencia que ser˜ao utilizados nessa disserta¸c˜ao s˜ao completamente Bayesianos. Portanto, neste Cap´ıtulo ser˜ao descritos os con-ceitos necess´arios para se fazer inferˆencia Bayesiana. Na Se¸c˜ao 2.1 ser˜ao definidos a distribui¸c˜ao a priori de alguma quantidade desconhecida e como se atualiza essa distribui¸c˜ao, usando o Teorema de Bayes, a partir de um conjunto de dados observados relacionados com a quantidade desconhecida de interesse, para se obter a distribui¸c˜ao a posteriori. Na Se¸c˜ao 2.2 ser˜ao descritos m´etodos computacionais para o c´alculo da distribui¸c˜ao a posteri-ori, dando ˆenfase aos m´etodos de amostragem de Monte Carlo via Cadeias de Markov (MCMC). Outras t´ecnicas que ser˜ao utilizadas nessa disserta¸c˜ao ser˜ao apresentadas. Na Se¸c˜ao 2.3 ser˜ao descritos de forma resumida os Mo-delos Dinˆamicos, com uma ˆenfase nos moMo-delos dinˆamicos de primeira ordem. Na Se¸c˜ao 2.4 ser´a feita uma introdu¸c˜ao `a Estat´ıstica Espacial descrevendo as trˆes grandes subdivis˜oes da Estat´ıstica Espacial: Geoestat´ıstica, Dados de

´

(23)

2.1

Conceitos B´

asicos

Um problema de inferˆencia estat´ıstica ´e conhecer o comportamento de uma quantidade desconhecida, θ, que descreve o comportamento de uma determi-nada caracter´ıstica de uma certa popula¸c˜ao. A quantidade θ assume valores em um conjunto denotado por Θ, conhecido por espa¸co param´etrico.

Seja H a informa¸c˜ao inicial sobre o parˆametro de interesse. Essa informa¸c˜ao ser´a descrita em termos probabil´ısticos, podendo ser resumida atrav´es de p(θ|H). Se a informa¸c˜ao contida em H ´e suficiente para descrever o comportamento de θ, isto ´e tudo que se precisa.

Mas na maioria das vezes a informa¸c˜ao inicial H n˜ao ´e suficiente para descrever de forma razo´avel o comportamento do parˆametro. Portanto, ´e necess´ario obter mais informa¸c˜ao sobre θ. O que se faz usualmente ´e a ex-perimenta¸c˜ao, isto ´e, realiza-se um experimento com a popula¸c˜ao de interesse, uma amostragem dessa popula¸c˜ao. Observa-se quantidades aleat´orias, deno-tadas por X, que dependem do parˆametro θ. Antes de observar os valores de

X deve-se conhecer a distribui¸c˜ao amostral de X dada por p(x|θ, H). Ap´os

observar o valor de X, a informa¸c˜ao sobre θ foi aumentada, ou seja, mudou de H para H∗ = H ∩ {X = x}.

Agora a informa¸c˜ao sobre θ ´e resumida por p(θ|x, H). Em termos pro-babil´ısticos essa passagem de p(θ|H) para p(θ|x, H) ´e feita atrav´es do Teo-rema de Bayes1.

Teorema 2.1 (Teorema de Bayes) Seja p(θ|H) a distribui¸c˜ao inicial da

1O Teorema de Bayes foi introduzido pelo Reverendo Thomas Bayes em dois artigos em 1793 e 1794, publicados ap´os sua morte, como mencionado em Barnett (1973).

(24)

quantidade desconhecida θ e p(x|θ, H) a distribui¸c˜ao amostral de X dado θ. A distribui¸c˜ao atualizada para θ ´e

p(θ|x, H) = p(θ|H)p(x|θ, H) p(x|H) onde p(x|H) = Z θ∈Θp(θ|H)p(x|θ, H)dθ.

Como a fun¸c˜ao do denominador do Teorema de Bayes n˜ao depende de

θ, ele pode ser reescrito como

p(θ|x) ∝ p(θ)p(x|θ).

Note que a informa¸c˜ao inicial H foi omitida, mas apenas para simplificar a nota¸c˜ao, pois ´e um fator comum em todos os termos. O Teorema de Bayes ´e uma regra de atualiza¸c˜ao de probabilidades sobre θ, partindo de uma distribui¸c˜ao a priori p(θ) para a distribui¸c˜ao a posteriori p(θ|x) usando a informa¸c˜ao contida nos dados p(x|θ) conhecida por fun¸c˜ao de verossimilhan¸ca.

Toda inferˆencia ser´a feita com base na distribui¸c˜ao a posteriori, de onde obt´em-se as estat´ısticas necess´arias para resumir o comportamento de

θ. Dentre as principais estat´ısticas a posteriori pode-se citar: • a m´edia a posteriori, E(θ|x):

E(θ|x) = Z θ∈Θθp(θ|x)dθ • o quantil α a posteriori, Q(α): Q(α) = ( θ0 ∈ Θ : Z θ0 −∞p(θ|x)dθ = α ) , α ∈ (0, 1);

(25)

• o intervalo 100(1 − α)% de credibilidade a posteriori, (L, U ): (L, U ) = ( (L0, U0) ⊂ Θ2 : Z U0 L0 p(θ|x)dθ = 1 − α ) , α ∈ (0, 1);

se o intervalo ´e sim´etrico, ent˜ao L = Q(α/2) e U = Q(1 − α/2).

Para mais detalhes sobre aspectos te´oricos envolvendo inferˆencia sob o ponto de vista Bayesiano podem ser consultados os livros de Migon e Gamer-man (1999) e O’Hagan (1994).

Muitas vezes a distribui¸c˜ao a posteriori n˜ao tem forma fechada, pois a integral no denominador do Teorema de Bayes n˜ao possui solu¸c˜ao anal´ıtica. Portanto, a distribui¸c˜ao a posteriori tem que ser obtida atrav´es de m´etodos num´ericos. Na pr´oxima Se¸c˜ao ser´a apresentado um breve introdu¸c˜ao aos m´etodos de simula¸c˜ao de Monte Carlo via Cadeias de Markov (MCMC).

2.2

Monte Carlo via Cadeias de Markov

A difus˜ao da aplica¸c˜ao dos m´etodos Bayesianos esteve limitada at´e aos anos 90 pelo fato da distribui¸c˜ao a posteriori em muitas situa¸c˜oes pr´aticas serem analiticamente intrat´aveis. Nas ultimas d´ecadas v´arios m´etodos num´ericos foram propostos visando ultrapassar essa limita¸c˜ao, nomeadamente, os m´etodos baseados em aproxima¸c˜oes assint´oticas, aproxima¸c˜oes de Laplace, aprox-ima¸c˜oes via quadratura Gaussiana e m´etodos baseados em simula¸c˜ao es-toc´astica. Boas descri¸c˜oes desses m´etodos podem ser encontradas em Tan-ner (1996) e Gamerman (1997). Mas a aplica¸c˜ao dos m´edodos Bayesianos come¸cou realmente a se difundir ap´os a introdu¸c˜ao dos m´etodos de Monte Carlo via Cadeias de Markov, de onde destacam-se o amostrador de Gibbs e o algoritmo de Metropolis-Hastings.

(26)

2.2.1

Amostrador de Gibbs

Geman e Geman (1984) propuseram um esquema de amostragem uma dis-tribui¸c˜ao2 explorando as distribui¸c˜oes condicionais completas atrav´es de um

algoritmo iterativo que define uma cadeia de Markov. Embora esse trabalho fosse de conhecimento de parte da comunidade cient´ıfica estat´ıstica, este ar-tigo foi destinado `a ´area de processamentos de imagens e foi publicado em revista da ´area. Isso provavelmente levou ao atraso de sua apreens˜ao e com-prees˜ao pela comunidade como uma t´ecnica poderosa de abordagem de pro-blemas dos mais variados de estat´ıstica Bayesiana. Esse erro de desenvolvi-mento foi reparado pelo trabalho de Gelfand e Smith (1990) que comparam o amostrador de Gibbs com outros esquemas de simula¸c˜ao estoc´astica.

O amostrador de Gibbs, ( Geman e Geman, 1984), ´e essencialmente um esquema amostral de uma cadeia de Markov cujo n´ucleo de transi¸c˜ao ´e formado pelas condicionais completas. Para descrever o algoritmo, suponha que a distribui¸c˜ao de interesse ´e a distribui¸c˜ao a posteriori p(θ|x) com θ = 1, . . . , θS) e considere tamb´em que todas as condicionais completas a

pos-teriori p(θi|, θ−i, x) i = 1, . . . , n estejam dispon´ıveis e que sabe-se gerar

amostras de cada uma delas. Portanto, o esquema de amostragem ´e dado por:

2A distribui¸c˜ao que Geman e Geman estavam interessados chama-se distribui¸c˜ao de Gibbs, que d´a nome ao amostrador, usada em Mecˆanica Estat´ıstica e tem a seguinte forma f (x1, . . . , xn) ∝ exp · 1 kTE(x1, . . . , xn) ¸

onde k ´e uma constante positiva, T ´e a temperatura e E ´e a energia do sistema, fun¸c˜ao positiva.

(27)

Amostrador de Gibbs I - Inicialize θ(0) = (θ(0)

1 , . . . , θ(0)S ) e k = 1

II - Obtenha um novo valor para θ(k) a partir de θ(k−1) atrav´es de

sucessivas gera¸c˜oes de valores. Para i = 1 at´e S, fa¸ca: gere um valor para θi(k) de

θi(k)∼ p(θi|θ1(k), . . . , θ(k)i−1, θi+1(k−1), . . . , θ(k−1)S , x)

III - Fa¸ca k = k + 1 e volte para II e repita o procedimento at´e alcan¸car a convergˆencia.

A medida que o n´umero de itera¸c˜oes aumenta, a cadeia se aproxima da sua distribui¸c˜ao de equil´ıbrio. Assim, assume-se que a convergˆencia ´e atingida em uma itera¸c˜ao cuja a distribui¸c˜ao esteja pr´oxima da distribui¸c˜ao de equil´ıbrio, p(θ|x), e n˜ao no sentido formal e inating´ıvel do n´umero de itera¸c˜oes tendendo ao infinito.

2.2.2

Algoritmo de Metropolis-Hastings

O algoritmo de Metropolis foi apresentado inicialmente por Metropolis et

al. (1953) e generalizado por Hastings (1970) resultando no algoritmo de

Metropolis-Hastings. Esse m´etodo ´e usado geralmente quando ´e dif´ıcil gerar amostras da condicional completa a posteriori . Neste caso, gera-se valores do parˆametro a partir de uma distribui¸c˜ao proposta e esse ´e aceito ou n˜ao com uma certa probabilidade de aceita¸c˜ao.

(28)

distribui¸c˜ao a posteriori p(θ|x) com θ = (θ1, . . . , θS). Considere tamb´em que

todas as condicionais completas a posteriori p(θi|θ−i, x). i = 1, . . . , n estejam

dispon´ıveis mas n˜ao se sabe gerar amostras diretamente de cada uma e que amostras de um novo valor de θi ser˜ao geradas a partir de uma distribui¸c˜ao

proposta condicional ao valor atual de θi, q(θ(p)i |θ(a)i ), onde θ(p)i ´e o valor

proposto e θi(a) ´e o valor atual3, para i = 1, . . . , n. Portanto o esquema de

amostragem ´e dado por:

Algoritmo de Metropolis-Hastings I - Inicialize θ(0) = (θ(0)

1 , . . . , θ(0)S ) e k = 1

II - Obtenha um novo valor para θ(k)a partir de θ(k−1)atrav´es de

sucessivas gera¸c˜oes de valores. Para i = 1 at´e S, fa¸ca: (i) Gere uma proposta para θi(k) de

θ(p)i ∼ q(θi|θi(k−1))

(ii) Aceite a proposta com probabilidade de aceita¸c˜ao dada por α = min   1, p(θ(p)i i(a), x)q(θi(k−1)|θ(p)i ) p(θi(k−1)|θ(a)i , x)q(θ(p)i i(k−1))   

onde θ−i(a)= (θ(k)1 , . . . , θi−1(k), θ(k−1)i+1 , . . . , θS(k−1)).

III - Fa¸ca k = k + 1 e volte para II e repita o procedimento at´e alcan¸car a convergˆencia.

O algoritmo de Metropois-Hastings ´e bastante geral, e pode, pelo menos

3Entenda por valor atual o valor de θ exatamente antes da proposta ser gerada, ou seja, o valor atualizado da itera¸c˜ao anterior.

(29)

em princ´ıpio, ser implementado com qualquer distribui¸c˜ao condicional com-pleta a posteriori e para qualquer proposta. Entretanto sob o ponto de vista pr´atico, a escolha da proposta ´e crucial para o bom desenvolvimento do algoritmo, ou seja, para sua convergˆencia para a distribui¸c˜ao a posteriori. Algumas propostas mais comuns s˜ao:

Cadeias Sim´etricas:

Quando a distribui¸c˜ao proposta ´e sim´etrica em torno da itera¸c˜ao ante-rior, isto ´e, q(θ(p)i i(k−1)) = q(θi(k−1)|θ(p)i )

α = min   1, p(θ(p)i |θ(a)−i, x) p(θ(k−1)i |θ(a)−i, x)   

Dentre as cadeias sim´etricas destaca-se o passeio aleat´orio, θ(p)i =

θi(k−1)+ e, onde e tem um distribui¸c˜ao sim´etrica em torno zero. Cadeias independentes

Quando a proposta n˜ao depende do passo anteriori, ou seja, q(θ(p)i i(k−1)) =

q(θ(p)i ), e a probabilidade de aceita¸c˜ao ´e dada por

α = min   1, p(θ(p)i −i(a), x)q(θi(k−1)) p(θ(k−1)i −i(a), x)q(θi(p))   

Um caso particular de cadeias independentes ´e quando a distribui¸c˜ao proposta ´e a distribui¸c˜ao a priori para θi, neste caso a probabilidade

de aceita¸c˜ao ´e dado somente pela fun¸c˜ao de verossimilhan¸ca, isto ´e,

α = min   1, p(x|θ(p)i , θ−i(a)) p(x|θi(k−1), θ(a)−i)   

Um outro caso particular de cadeias independentes ´e quando a dis-tribui¸c˜ao proposta ´e a pr´opria condicional completa a posteriori, isto

(30)

´e, q(θ(p)i ) = p(θi(p)|θ(a)−i, x). Fazendo isto, a probabilidade de aceita¸c˜ao

´e igual a um. Gerar da condicional completa e aceitar sempre em um algoritmo iterativo ´e a defini¸c˜ao do amostrador de Gibbs, portanto o amostrador de Gibbs ´e um caso particular do algoritmo de Metropolis-Hastings.

Para maiores informa¸c˜oes veja em Gilks et al. (1996), onde s˜ao apre-sentados conceitos e resultados com aplica¸c˜oes dos m´etodos de simula¸c˜ao de Monte Carlo via Cadeias de Markov em inferˆencia Bayesiana e n˜ao-Bayesiana.

2.2.3

Verifica¸c˜

ao de Convergˆ

encia

Os m´etodo de MCMC s˜ao uma ´otima ferramenta para resolu¸c˜ao de muitos problemas pr´aticos na an´alise Bayesiana. Por´em, algumas quest˜oes rela-cionadas `a convergˆencia nestes m´etodos ainda merecem bastante pesquisa. Uma quest˜ao que pode surgir ´e “Quantas itera¸c˜oes deve ter o processo de simula¸c˜ao para garantir que a cadeia convergiu para o estado de equil´ıbrio?” A resposta definitiva para esta quest˜ao poder´a nunca ser dada, visto que a distribui¸c˜ao estacion´aria ser´a na pr´atica desconhecida, mas pode-se sempre avaliar a convergˆencia das cadeias detectando problemas fora do per´ıodo de aquecimento4. Para eliminar uma poss´ıvel auto-correla¸c˜ao das cadeias

sele-ciona a partir do burn-in a cada k itera¸c˜oes, o tamanho de k ser´a chamado de lag.

Uma an´alise de convergˆencia em m´etodos de simula¸c˜ao pode ser feita preliminarmente analisando os gr´aficos ou medidas descritivas dos valores

4O per´ıodo de aquecimento limitado superiormente pelo burn-in, onde burn-in ´e a itera¸c˜ao tal que acredita-se que a partir dela a cadeia convergiu.

(31)

simulados da quantidade de interesse, θ. Os gr´aficos mais frequentes s˜ao o gr´afico de θ ao longo das itera¸c˜oes e um gr´afico da estimativa da distribui¸c˜ao a posteriori de θ, por exemplo um histograma ou uma densidade kernel. As estat´ısticas usuais s˜ao a m´edia, o desvio padr˜ao e os quantis (2,5%; 50%; 97,5%).

Uma segunda fase de avalia¸c˜ao de convergˆencia em m´etodos de MCMC faz-se usando algumas t´ecnicas de diagn´ostico de convergˆencia. As t´ecnicas mais populares s˜ao: Geweke (1992) que usa resultados baseados em an´alise espectral, Heidelberger e Welch (1983) que tamb´em usa resultados baseados em an´alise espectral, Raftery e Lewis (1992) que permite calcular quantas itera¸c˜oes s˜ao necess´arias para uma cadeia atingir a distribui¸c˜ao estacion´aria atrav´es da estima¸c˜ao de quantis a posteriori com uma precis˜ao previamente fixada e Gelman e Rubin (1992) que usa resultados baseados na an´alise de variˆancia cl´assica para duas ou mais cadeias simuladas com valores inici-ais diferentes. Estes m´etodos e outros foram comparados no trabalho de Cowles e Carlin (1996), onde se chegou a conclus˜ao de que n˜ao se pode afirmar qual deles ´e o mais eficiente. As t´ecnicas de Geweke, Heidelberger-Welch, Raftery-Lewis, Gelman-Rubin e outras est˜ao implementadas no pa-cote CODA ( Cowles et al., 1997) execut´avel no freeware R.

2.3

Modelos Dinˆ

amicos

Nesta se¸c˜ao ser´a feita uma introdu¸c˜ao aos modelos dinˆamicos, uma ampla classe de modelos com parˆametros variando no tempo, adequados `a mode-lagem de s´eries temporais e regress˜ao.

(32)

Os modelos dinˆamicos foram apresentados por Harrison e Stevens (1976) e est˜ao bem estruturados em West e Harrison (1997).

Os modelos lineares dinˆamicos s˜ao caracterizados por duas equa¸c˜oes: a equa¸c˜ao de observa¸c˜ao dada por

Yt= Ftβt+ ²t, ²t∼ N(0, σt2) (2.1)

e pela equa¸c˜ao de sistema dada por:

βt= Gtβt−1+ ut, ut∼ N(0, Ut) (2.2)

onde no instante t, Yt denota a s´erie de observa¸c˜oes independentes

condi-cionalmente em θt e σ2t, Ft ´e um vetor de constantes conhecidas (vari´aveis

explicativas), βt = (β1t, . . . , βpt)T ´e um vetor-coluna com p coeficientes, Gt

´e uma matriz de termos conhecidos que define a evolu¸c˜ao sistem´atica dos parˆametros, ²t e ut s˜ao erros mutuamente independentes e, σ2t e Ut, as

variˆancias dos erros associados `a observa¸c˜ao e ao vetor de parˆametros, res-pectivamente. O modelo ´e completado com a seguinte distribui¸c˜ao a priori:

β1|D1 ∼ N(m1, C1), onde D0 ´e a informa¸c˜ao relevante a priori sobre β1.

Em resumo, um modelo linear dinˆamico fica completamente especifi-cado pela qu´adrupla {Ft, Gt, σt2, Ut}. Note que os modelos de s´eries

tempo-rais s˜ao caracterizados por Ft = F e Gt = G, ∀t e os modelos est´aticos de

regress˜ao s˜ao caracterizados por Gt= Ip e Ut= 0.

Uma das principais caracter´ısticas de um modelo linear dinˆamico ´e que a cada instante de tempo as informa¸c˜oes existentes s˜ao descritas pela distribui¸c˜ao a posteriori do vetor de estado βt. Em cada instante de tempo,

os seguintes passos s˜ao feitos: evolu¸c˜ao, previs˜ao e atualiza¸c˜ao. No modelo

(33)

Evolu¸c˜ao - De (2.1) tem-se que a distribui¸c˜ao a priori em t ´e:

βt|Dt−1 ∼ N(at, Rt) (2.3)

onde at = Gtmt e Rt= GtCt−1GTt + Ut.

Previs˜ao - De (2.3) chega-se que a distribui¸c˜ao preditiva um passo a frente ´e:

yt|Dt−1 ∼ N(ft, Qt) (2.4)

onde ft= Ftat e Qt = FtRtFT + σt2.

Atualiza¸c˜ao - Usando a verossimilhan¸ca (2.1), a priori (2.3) e o Teorema de Bayes tem-se que

βt|Dt ∼ N(mt, Ct) (2.5)

onde

Dt = {yt, Dt−1},

mt = at+ RtFtT(Qt+ Vt)−1(yt− ft),

Ct = Rt− RtFtT(Qt+ Vt)−1FtRtT.

Suponha que sejam feitas S observa¸c˜oes do experimento Y , isto ´e, Y = (Y1, . . . , YS). Suponha tamb´em o modelo {1, 1, σ2, U }, ou seja,

Yj = βj + ej, ej ∼ N(0, σ2), (2.6)

βj = βj−1+ uj, uj ∼ N(0, Uj), j = 2, . . . , S (2.7)

onde Uj = Ubj, bj ´e um valor conhecido e, completando o modelo β1

(34)

Desta forma a distribui¸c˜ao conjunta a priori pra β = (β1, . . . , βp)T ´e dada por p(β) = p(β1) S Y i=2 p(βi|βi−1) ∝ exp ½ 1 2(β − m) TΛ(β − m) ¾ (2.8) que ´e o n´ucleo da distribui¸c˜ao normal multivariada, ou S-variada, com m´edia

m e matriz de variˆancias Λ−1, denotada por

β ∼ NS(m, Λ−1) (2.9) onde m = (m, . . . , m)T e (2.10) Λ =                  1 C + b11U 1 b2U . . . 0 0 1 b2U 1 b2U + 1 b3U . . . 0 0 0 1 b3U . . . 0 0 ... ... ... ... 0 0 . . . 1 bS−1U + 1 bSU 1 bSU 0 0 . . . 1 bSU 1 bSU                  . (2.11)

2.4

Geoestat´ıstica

Com o crescimento das t´ecnicas de georeferenciamento, os bancos de da-dos mais atuais cont´em entre outras informa¸c˜oes a posi¸c˜ao espacial das ob-serva¸c˜oes. Esta posi¸c˜ao espacial pode ser cont´ınua, com a posi¸c˜ao exata de cada indiv´ıduo, onde se tem as suas coordenadas geogr´aficas ou a posi¸c˜ao espacial, determinada por alguma regi˜ao que contenha esse indiv´ıduo, por exemplo bairro, mun´ıcipio, estado, etc. Esta informa¸c˜ao espacial em

(35)

deter-minados estudos ´e relativamente barata de ser obtida. Por exemplo, em uma pequisa m´edica saber o endere¸co do paciente ´e bastante simples.

Dados com informa¸c˜ao espacial vem sendo amplamente estudados em problemas de estat´ıstica aplicada (Cressie, 1993), pois em muitas situa¸c˜oes a posi¸c˜ao espacial pode influenciar o resultado do evento de interesse. Os mo-delos que incorporam alguma informa¸c˜ao espacial visam explicar de alguma forma essa “influˆencia” no resultado do evento de interesse. O conjunto de t´ecnicas estat´ısticas para modelar dados com informa¸c˜ao espacial ´e conhecido por Estat´ıstica Espacial.

A Estat´ıstica Espacial considera os valores amostrais como sendo real-iza¸c˜oes de fun¸c˜oes aleat´orias com distribui¸c˜ao no espa¸co e, nesse caso, o valor de um ponto ´e fun¸c˜ao da sua posi¸c˜ao na regi˜ao de estudo. Outro fator que tamb´em ´e levado em considera¸c˜ao na estat´ıstica espacial ´e a posi¸c˜ao relativa dos pontos amostrados. Assim, a similaridade entre valores amostrais ´e quan-tificada em fun¸c˜ao da distˆancia entre amostras, representando tal rela¸c˜ao o fundamento desse campo especial da estat´ıstica aplicada.

Segundo Cressie (1993), existem trˆes grandes subdivis˜oes da estat´ıstica espacial: Geoestat´ıstica, dados de ´area e padr˜ao de pontos. Em Geoes-tat´ıstica se tem interesse em conhecer o comportamento de algum processo que varia continuamente na regi˜ao de estudo. Nos Dados de ´Area, assim com em Geoestat´ıstica, se tem interesse em conhecer o comportamento de algum processo, mas os dados est˜ao distribu´ıdos discretamente sob regi˜ao de interesse, ou seja, os pontos observados pertencem a sub-regi˜oes que estao contidas na regi˜ao de interesse. E no Padr˜ao de Pontos, diferente da duas abordagens anteriores, se tem interesse em conhecer a posi¸c˜ao espacial na qual um evento ir´a ocorrer. Nessa disserta¸c˜ao o interesse ´e em descrever

(36)

o comportamento de um processo que pode ocorrer em qualquer lugar no espa¸co. Portanto, ser´a utilizado apenas t´ecnicas de Geoestat´ıstica e Dados de ´Area, dando uma ˆenfase `a primeira abordagem, pois esta abordagem ser´a adotada na inferˆencia para o termo de fragilidade espacial.

A id´eia b´asica de Geoestat´ıstica ´e que observa¸c˜oes pr´oximas tem com-portamento similar e, `a medida que a distˆancia entre as observa¸c˜oes aumenta, essa similaridade tende a diminuir. Os objetivos da an´alise de Geoestat´ıstica s˜ao: estima¸c˜ao e previs˜ao. A estima¸c˜ao refere-se `a inferˆencia de parˆametros do processo gerador das observa¸c˜oes. A previs˜ao ou interpola¸c˜ao refere-se a inferˆencia em locais n˜ao-observados.

Defini¸c˜ao 2.1 (Processos Gaussianos) A fun¸c˜ao W (.) assumindo valores

w(s) para s ∈ D, segue um Processo Gaussiano com fun¸c˜ao de m´edia m(.) e fun¸c˜ao de variˆancia C(., .) denotado por

W (.) ∼ P G (m(.), C(., .)) .

Se para todo s1, s2, . . . , sn ∈ D e n = 1, 2, . . ., a distribui¸c˜ao conjunta de

W (s1), W (s2), . . . , W (sn) ´e normal multivariada com parˆametros dados por

E(W (si)) = m(si) e

Cov(W (si), W (sj)) = C(si, sj).

Seja W (.) um processo espacial Gaussiano estacion´ario isotr´opico5 com

m´edia zero, mais podem ser encontrados em Cressie (1993), ou seja,

W (.) ∼ N(0, R(., .)) (2.12)

5Um processo ´e dito isotr´opico quando a estrutura de correla¸c˜ao depende apenas da distˆancia entre as observa¸c˜oes e ´e a mesma em qualquer dire¸c˜ao.

(37)

para s1, s2, . . . , sn ∈ D, R(si, sj) = σ2ρ(dij), onde ρ(dij) ´e a fun¸c˜ao de

cor-rela¸c˜ao espacial e dij = ||si− sj|| ´e a distˆancia entre si e sj, ∀i, j.

As principais fun¸c˜oes de correla¸c˜ao espacial usadas em Geoestat´ıstica s˜ao: Esf´erica, Gaussiana, exponencial, exponencial potˆencia e a Mat´ern. A fun¸c˜ao de correla¸c˜ao esf´erica ´e dada por

ρ(d; φ) =      1 −3 2 ³ d φ ´ 1 2 ³ d φ ´3 0 < d < φ 0 d > φ , φ > 0. (2.13)

Note que o parˆametro φ trunca a correla¸c˜ao espacial.

A fun¸c˜ao de correla¸c˜ao ´e Exponencial Potˆencia ´e dada por

ρ(d; φ, κ) = exp ( Ã d φ !κ) , φ > 0, κ ∈ (0, 2]. (2.14) Essa fun¸c˜ao ´e bastante popular pois ela tem como casos particulares as fun¸c˜ao Exponencial, quando κ = 1, e Gaussiana, quando κ = 2.

A fun¸c˜ao de correla¸c˜ao Mat´ern ´e dada por

ρ(d; φ, κ) =n2κ−1Γ(κ)o−1 Ã d φ !κ Ã d φ ! , φ > 0, κ > 0, (2.15) onde Kκ(.) denota a fun¸c˜ao Bessel de terceiro tipo de ordem κ.

Seja W = (W (s1), W (s2), . . . , W (sn)) uma amostra de observa¸c˜oes de

um processo pertecente a uma regi˜ao D, onde si indica a posi¸c˜ao espacial

do indiv´ıduo i na regi˜ao D e W (si) o valor do processo observado para o

indiv´ıduo i, i = 1, . . . , n. Como a inferˆencia para os parˆametros do processo ser´a feita sob o ponto de vista Bayesiano, tem-se que:

W |Σ ∼ Nn(0, Σ) (2.16)

onde Σ = σ2R, R

ij = ρ(dij; θ) i, j = 1, . . . , n e θ depende da fun¸c˜ao de

(38)

A distribui¸c˜ao a posteriori dos parˆametros do processo gerador de W ´e obtida atrav´es do Teorema de Bayes combinando uma distribui¸cao a priori

p(σ2, θ) com a verossimilhan¸ca (2.16): p(σ2, θ|W ) ∝ p(σ2, θ)(σ2)−n2 |R|− 1 2 × exp ½ 1 2W TR−1W ¾ (2.17) onde |A| ´e o determinante da matriz A e p(σ2, θ) ´e a distribui¸c˜ao a priori dos

parˆametros da estrutura espacial.

Prever valores n˜ao observados a partir dos dados observados ´e um dos objetivos da Geoestat´ıstica. Krige (1951) foi o pioneiro em previs˜ao de valores distribu´ıdos no espa¸co. Portanto a t´ecnica de prever valores n˜ao observados no espa¸co recebeu o nome de Krigagem. Sob o ponto de vista Bayesiano a Krigagem ´e feita a partir da distribui¸c˜ao preditiva.

Seja W(obs) = (W (s

1), . . . , W (sn) uma amostra observada no espa¸co e

W(prev) = (W (s

n+1), . . . , W (sn+P) o conjunto de valores que se deseja prever.

Ser´a assumido que W (.) segue um processo Gaussiano Estacion´ario Isotr´opico com m´edia 0. Logo o par (W(obs), W(prev))T tem distribui¸c˜ao normal

multi-variada com m´edia 0 e matriz de variancias Σ = σ2R, R

ij = ρ(dij; θ), {i, j} = 1, . . . , n + P , com dij = ||si− sj||, ou seja,    W (obs) W(prev)   ∼ Nn+P       0 0   , σ2    R (obs) R(obs),(prev) R(prev),(obs) R(prev)   ,    (2.18) onde R(obs) = R ij, {i, j} = 1, . . . , n, R(obs)(prev) = Rij, i = 1, . . . , n, j =

n + 1, . . . , n + P , R(prev)(obs) = [R(obs)(prev)]T e R(prev) = R

ij, {i, j} = n +

1, . . . , n + P .

Logo, usando uma propriedade da distribui¸c˜ao normal multivariada a distribui¸c˜ao condicional de W(prev)dado a amostra observada e os parˆametros

(39)

da estrutura espacial (σ2, θ), ´e dada por W(prev)|W(obs) ∼ N P ³ µ(prev)|(obs), Σ(prev)|(obs)´ (2.19) onde

µ(prev)|(obs) = R(prev),(obs)R(obs)−1W(obs)

e

(40)

Cap´ıtulo 3

Modelos Est´

aticos de

Sobrevivˆ

encia

Neste Cap´ıtulo ser˜ao apresentados os procedimentos de inferˆencia sob o ponto vista Bayesiano para o modelo de Cox. A fun¸c˜ao risco do modelo de Cox se divide em um produto de outras duas fun¸c˜oes, uma que depende apenas do tempo de falha, a fun¸c˜ao de risco de base, e a outra fun¸c˜ao que depende apenas das covari´aveis, ou vari´aveis explicativas, isto ´e, vari´aveis que n˜ao dependem do tempo. Al´em disso, mais adiante ser˜ao apresentados mode-los de sobrevivˆencia dinˆamicos, onde o efeito das covari´aveis pode variar no tempo. Portanto, o modelo de Cox ser´a chamado de Modelo Est´atico de Sobrevivˆencia por n˜ao ter coeficientes dependentes do tempo. Na Se¸c˜ao 3.1 o Modelo Est´atico de Sobrevivˆencia ser´a formalmente apresentado, explici-tando suas quantidades desconhecidas: os coeficientes de regress˜ao e a fun¸c˜ao de risco de base. Ser˜ao descritos para este modelo, na Se¸c˜ao 3.2, os proce-dimentos de inferˆencia para os coeficientes de regress˜ao, onde ser´a assumida

(41)

uma distribui¸c˜ao a priori. A fun¸c˜ao de risco de base, por ser uma fun¸c˜ao cont´ınua no tempo, n˜ao permite elicitar diretamente a distribui¸c˜ao a priori. Desta forma, na Se¸c˜ao 3.3, a fun¸c˜ao de risco de base ser´a abordada usando trˆes formula¸c˜oes distintas, a primeira usando uma modelagem param´etrica, a segunda usando processos Gama, introduzidos em an´alise de sobrevivˆencia por Kalbfleish (1978) e, finalmente, usando processos correlacionados basea-dos em modelos dinˆamicos, introduzibasea-dos em an´alise de sobrevivˆencia por Gamerman (1991). Finalizando, na Se¸c˜ao 3.4 ser´a feito um estudo simulado para o Modelo Est´atico de Sobrevivˆencia.

3.1

Defini¸c˜

ao do Modelo

O Modelo Est´atico de Sobrevivˆencia, ou Modelo de Cox, vem sendo ampla-mente utilizado em estat´ıstica aplicada, principalampla-mente na ´area biom´edica. Ele foi proposto por Cox (1972). Este modelo j´a foi apresentado anterior-mente e sua fun¸c˜ao de risco ´e dada em (1.12), onde se tem interesse na fun¸c˜ao de risco de base, h0, e nos coeficientes de regress˜ao, β.

A distribui¸c˜ao a posteriori para β e h0 ´e dada atr´aves da atualiza¸c˜ao da

distribui¸c˜ao a priori via Teorema de Bayes com a fun¸c˜ao de verossimilhan¸ca (1.13): p(β, h0|[dados]) ∝ p(β, h0) n Y i=1 ³ h0(ti)eXiβ ´δi expn−H0(ti)eXiβ o . (3.1)

Ser´a assumido que β e h0s˜ao independentes a priori. Portanto, p(β, h0) =

p(β)p(h0). Essas distribui¸c˜oes a priori ser˜ao exploradas a seguir. Outro

de-talhe importante, a distribui¸c˜ao a posteriori (3.1) n˜ao possui forma anal´ıtica fechada portando um esquema de amostragem via MCMC ser´a utilizado.

(42)

Nas pr´oximas se¸c˜oes ser´a descrito como obter as condicionais completas a posteriori de β e h0.

3.2

Coeficientes de Regress˜

ao

Os coeficientes de regress˜ao ser˜ao modelados com a suposi¸c˜ao de que eles n˜ao dependam do tempo, esta ´e uma imposi¸c˜ao do pr´oprio modelo. A distribui¸c˜ao a priori para os coeficientes de regress˜ao ´e dada por

p(β) ∝ exp ½ 1 2(β − m) TV−1(β − m) ¾ (3.2) onde p(β) ´e o n´ucleo da fun¸c˜ao de densidade da distribui¸c˜ao Normal com m´edia m e variˆancia V . Os hiperparˆametros m e V s˜ao valores conhecidos que descrevem o conhecimento subjetivo que se tem a priori do comportamento dos coeficientes. Uma priori n˜ao informativa ´e dada quando aumenta-se as variˆancias da priori indefinidamente.

A condicional completa dos coeficientes de regress˜ao ´e obtida atrav´es da combina¸c˜ao da priori (3.2) com a verossimilhan¸ca (1.10) usando o Teorema de Bayes p(β| · · ·) ∝ exp ½ 1 2(β − m) TV−1(β − m) ¾ × exp ( n X i=1 h Xiβδi − H0(ti)eXiβ i) (3.3)

onde p(θ| · · ·) define a distribui¸c˜ao condicional completa a posteriori do parˆametro

θ.

Note que a distribui¸c˜ao (3.3) n˜ao ´e uma distribui¸c˜ao conhecida, isto ´e, n˜ao se sabe gerar amostras diretamente dela. Portanto, os coeficientes ser˜ao

(43)

gerados conjuntamente atrav´es do seguinte passeio aleat´orio como proposta

β(p) = β(a)+ u, u ∼ N(0, V

β), (3.4)

onde β(p) ´e o vetor de coeficientes propostos, β(a) ´e o vetor coeficientes da

itera¸c˜ao atual. O valor proposto ser´a aceito ou n˜ao de acordo com a pro-babilidade de aceita¸c˜ao dada pelo m´ınimo entre 1 e a raz˜ao das condicionais completas, (3.3), de β(p) e β(a).

3.3

Fun¸c˜

ao de Risco de Base

Como a fun¸c˜ao h0 ´e uma fun¸c˜ao cont´ınua, n˜ao ´e poss´ıvel especificar uma

distribui¸c˜ao diretamente para ela. Logo se faz necess´ario o uso de t´ecnicas indiretas para estimar a fun¸c˜ao de risco de base. Essas t´ecnicas podem ser param´etricas que visam diminuir o n´umero de parˆametros a ser estimados para que a fun¸c˜ao de risco de base fique bem especificada ou n˜ao-param´etricas que visam dar mais flexibilidade ao modelo, sendo desnecess´ario supor a dis-tribui¸c˜ao dos tempos de falha. Na abordagem param´etrica ser´a utilizada a distribui¸c˜ao Weibull, por ser simples e mais flex´ıvel que a distribui¸c˜ao exponencial. A abordagem n˜ao-param´etrica ´e mais flex´ıvel que a abor-dagem param´etrica, consequentemente ´e mais robusta. Nessa aborabor-dagem ser˜ao utilizados os processos Gama com incrementos independentes. Uma terceira abordagem que ´e uma mistura entre as abordagens param´etrica e n˜ao-param´etrica, pois ´e especificada uma distribui¸c˜ao Exponencial por Partes para o tempo de base, como na abordagem param´etrica. Por ser uma dis-tribui¸c˜ao onde o n´umero de parˆametros pode ser muito grande, essa aprox-ima¸c˜ao para a fun¸c˜ao de risco pode ser tamb´em considerada uma abordagem n˜ao-param´etrica.

(44)

Quando se usa uma modelagem n˜ao-param´etrica para a fun¸c˜ao de risco de base e para os coeficientes de regress˜ao uma modelagem param´etrica, o modelo ´e dito semi-param´etrico. Uma boa revis˜ao de modelos semi-param´etricos para v´arios tipos de dados de sobrevivˆencia pode ser encontrada em Sinha e Dey (1997).

3.3.1

Processos Param´

etricos

Os processos param´etricos s˜ao aqueles onde se conhece a distribui¸c˜ao de base, ou seja, conhece-se a forma da fun¸c˜ao de risco de base, esta depende de um conjunto finito de parˆametros que precisam ser estimados. Dentre as distribui¸c˜oes usuais, tem-se a distribui¸c˜ao exponencial cuja fun¸c˜ao de risco ´e dada por

h(t) = λ, λ > 0. (3.5)

Note que a distribui¸c˜ao exponencial tem fun¸c˜ao de risco constante. ´E a fun¸c˜ao mais simples em termos matem´aticos, mas em contra-partida n˜ao se adequa bem a situa¸c˜oes pr´aticas.

Um distribui¸c˜ao mais flex´ıvel que a distribui¸c˜ao exponencial ´e a dis-tribui¸c˜ao Weibull, proposta por Weibull (1951) em estudos de tempo de falha devido a fadiga de metais. Ela tem a propriedade da fun¸c˜ao de risco ser mon´otona, isto ´e, ela ´e crescente, decrescente ou constante. Logo a dis-tribui¸c˜ao exponencial ´e um caso particular. A fun¸c˜ao de risco da log-normal ´e dada por

h(t) = αλtα−1, {α, λ} > 0. (3.6)

Se α = 1 tem-se a distribui¸c˜ao exponencial com parˆametro λ.

(45)

utilizada para descrever tempo de vida de produtos e indiv´ıduos. A fun¸c˜ao de risco n˜ao tem forma anal´ıtica fechada, mas o comportamento da fun¸c˜ao risco ´e que `a medida que aumenta o tempo a fun¸c˜ao de risco cresce, atinge um valor m´aximo e depois decresce.

Por ser mais flex´ıvel que a distribui¸c˜ao exponencial e ter forma fechada, ser´a assumido que o tempo de base segue uma distribui¸c˜ao Weibull com parˆametros α e λ, forma e escala respectivamente. Vale lembrar que nada impede o uso de outras distribui¸c˜oes como exponencial, log-normal ou qual-quer outra distribui¸c˜ao param´etrica. Portanto, a fun¸c˜ao de risco de base ´e dada por

h0(t) = αλtα−1, {α, λ} > 0. (3.7)

Substituindo (3.7) em (1.13) temos que

L(α, λ, β) = n Y i=1 ³ αλtα ieXiβ ´δi expn−λtα ieXiβ o . (3.8)

Ser´a assumido a priori que os parˆametros da distribui¸c˜ao Weibull seguem a seguinte distribui¸c˜ao

α ∼ Gama(aα, bα) (3.9)

λ ∼ Gama(aλ, bλ), (3.10)

onde X ∼ Gama(a, b), significa que X tem distribui¸c˜ao Gama com parˆametros

a > 0 e b > 0, tal que E(X) = a

b e V (X) = ba2 e o n´ucleo da fun¸c˜ao de

densi-dade ´e dado por p(x) ∝ xa−1exp{−bx}. Os hiperparˆametros da distribui¸c˜ao

a priori, (aα, bα, aλ, bλ), s˜ao escolhidos de acordo com o conhecimento que se

tem a priori sobre α e λ.

(46)

do Teorema de Bayes tem-se a seguinte condicional completa: p(α, λ| · · ·) ∝ αaα−1e−bααλaλ−1e−bλλ n Y i=1 (αλtα i) δiexpn−λtα ieXiβ o . (3.11)

Desta forma, a condicional completa de λ ´e dada por

p(λ| · · ·) ∝ λaλ+ Pn i=1δi−1exp ( −λ Ã + n X i=1 ieXiβ !) ,

que ´e o n´ucleo da distribui¸c˜ao Gama. A condicional completa de α ´e dada por p(α| · · ·) ∝ αaα−1e−bαα n Y i=1 (αλtαi)δiexpn−λtα ieXiβ o . (3.12)

A distribui¸c˜ao (3.12) n˜ao ´e uma distribui¸c˜ao conhecida. Portanto, α ser´a gerado da seguinte forma

log(α(p)) = log(α(a)) + u, u ∼ N(0, V

α), (3.13)

onde a fun¸c˜ao de densidade de α(p) dado α(a) ´e

p(α(p)|α(a)) ∝ exp ½ 1 2Vα (α(p)− α(a))2 ¾ 1 α(p).

O valor proposto para α ser´a aceito com probabilidade dada pelo m´ınimo entre 1 e p, onde p ´e dado por

p = p(α (p)| · · ·)p(α(a)(p)) p(α(a)| · · ·)p(α(p)(a)) = p(α (p)| · · ·)α(a) p(α(a)| · · ·)α(p). (3.14)

3.3.2

Processos Gama

Nesta se¸c˜ao ser´a apresentada uma aproxima¸c˜ao n˜ao-param´etrica para a fun¸c˜ao

(47)

e diz que a priori H0(t) ´e um processo que

E(H0(t)) = H∗(t), uma fun¸c˜ao positiva conhecida,

V (H0(t)) =

H∗(t)

c ,

e os incrementos dH0(t) s˜ao independentes e seguem uma distribui¸c˜ao Gama

com parˆametros de forma e escala cdH∗(t) e c, respectivamente. Ou seja,

dH0(t) ∼ Gama(cdH∗(t), c),

onde a fun¸c˜ao dH∗(t) e a constante c s˜ao escolhidos a priori descrevendo o

conhecimento inicial do processo. Note que Menores valores de c maior a variabilidade do processo H0(t) a priori.

Teorema 3.1 Se dX(t) ∼ Gama(dQ(t), r), ∀t ∈ (a, b) ent˜ao

Z b

a dX(t) ∼ Gama

ÃZ b

a dQ(t), r

!

Prova: Usando a fun¸c˜ao geradora de momentos e a suposi¸c˜ao de que os incrementos s˜ao independentes tem-se que

MRb

adX(t)

(u) = Pt∈(a,b)MdX(t)(u)

onde P ´e denominado integral produto1 definido como limite de produtos

finitos, analogamente ao usual operador R, que ´e definido como o limite de somas finitas. Como dX(t) tem distribui¸c˜ao Gama ent˜ao

MRb adX(t) (u) = Pt∈(a,b) µ r r − udQ(t) = µ r r − u ¶Rb adQ(t)

1O uso do operador P foi introduzido em an´alise de sobrevivˆencia no trabalho de Gill e Johansen (1990).

(48)

que ´e a fun¸c˜ao geradora de momentos da distribui¸c˜ao Gama com parˆametros

Rb

adQ(t) e r. 2

Portanto, o processo a priori para H0(t) ´e dado por

p(dH0(t)) ∝ dH0(t)cdH

(t)−1

e−cdH0(t) (3.15)

com dH0(t) e dH0(u) independentes ∀(t, u) > 0, com t 6= u.

Esse processo ´e conhecido por Processo Gama com incrementos inde-pendentes. Aqui ser´a chamado apenas por Processo Gama. Usando o fato que h0(ti) = dHdt0(t)

¯ ¯ ¯

t=ti a fun¸c˜ao de verossimilhan¸ca (1.13) pode ser reescrita

por L(h0) ∝ n Y i=1 Ã dH0(ti) dt !δi exp ½ Z ti 0 dH0(u)e Xiβ ¾ . (3.16)

Note que os termos que dependem somente de β foram considerados con-stantes e omitidos. Combinando a priori (3.15) com a verossimilhan¸ca (3.16) tem-se que no instante de falha ti a condicional completa para dH0(ti), i =

1, . . . , n ´e p(dH0(ti)| · · ·) ∝ dH0(ti)cdH (t i)+δi−1 × exp   −dH0(ti)(c + X j∈R(ti) eXjβ)    (3.17)

e para o instante t ∈ (ti−1, ti), i = 1, . . . , n a condicional completa de dH0(t)

´e p(dH0(t)| · · ·) ∝ dH0(t)cdH (t)−1 × exp   −dH0(t)(c + X j∈R(ti) eXjβ)   . (3.18)

Note que (3.17) e (3.18) s˜ao o n´ucleo de duas distribui¸c˜oes Gama com parˆametros (cdH∗(t i) + δi, c + P j∈R(ti)e Xjβ) e (cdH∗(t), c +P j∈R(ti)e Xjβ),

(49)

respectivamente. Como (3.18) ´e valido para todo t no intervalo (ti−1, ti)

ent˜ao usando o Teorema 3.1 tem-se que

Z ti ti−1 dH0(t)| · · · ∼ Gama  c Z ti ti−1 dH∗(t), c + X j∈R(ti) eXjβ   (3.19)

onde R(t) ´e o conjunto de ´ındices das observa¸c˜oes sob risco, ou seja, ´e o conjunto de ´ındices das observa¸c˜oes que ainda n˜ao falharam ou n˜ao foram censuradas no instante de tempo t.

Note que a posteriori o processo que governa H0(t) n˜ao ´e mais cont´ınuo

como assumido a priori e os pontos de descontinuidade s˜ao os instantes de falha, ou seja, o processo a posteriori para H0(t) ´e um processo discreto com

probabilidade 1, com pontos de descontinuidade dados pelos instantes de falha. Essa observa¸c˜ao foi feita por Burridge (1981).

3.3.3

Processos Correlacionados

Esta especifica¸c˜ao foi usada por Gamerman (1987) e aproxima a distribui¸c˜ao dos tempos de falha usando a distribui¸c˜ao exponencial por partes. Esta utiliza uma parti¸c˜ao do eixo do tempo, ou seja, um conjunto pr´e-especificado de grupos de intervalos dados por

Ii =              [0, a1], i = 1, (ai−1, ai], i = 2, . . . , J (aJ, ∞), i = J + 1 (3.20)

com 0 < a1 < . . . < aJ < ∞, a seguinte fun¸c˜ao de risco

Referências

Documentos relacionados

O fabricante não vai aceitar nenhuma reclamação dos danos causados pela não observação deste manual ou por qualquer mudança não autorizada no aparelho.. Favor considerar

Acredita-se que as pes- soas especiais devem estar presentes não só como ouvintes, mas como agentes que possam estar envolvidos nas discussões e decisões sobre uma

Encierra en un círculo una respuesta por cada oración.. continúa al reverso de esta

• Quando o navegador não tem suporte ao Javascript, para que conteúdo não seja exibido na forma textual, o script deve vir entre as tags de comentário do HTML. &lt;script Language

Nos tempos atuais, ao nos referirmos à profissão docente, ao ser professor, o que pensamos Uma profissão indesejada por muitos, social e economicamente desvalorizada Podemos dizer que

O valor p-value da análise de T-student inferiores a 0,05 estão realçados a negrito e a amarelo ...26 Tabela 3.3.1 - Valores médios e respetivos desvio padrão de razões espectrais

Por meio da estimação do modelo da regressão linear múltipla, verificou-se que os fatores determinantes dos custos per capita de resíduos sólidos urbanos de municípios paranaenses

Corporate Control and Policies Page 12 UNIVERSIDAD DE PIURA UNIVERSIDAD DEL PACÍFICO UNIVERSIDAD ESAN UNIVERSIDAD NACIONAL AGRARIA LA MOLINA UNIVERSIDAD NACIONAL