Testes em modelos weibull na forma estendida de Marshall-Olkin

(1)

UNIVERSIDADE FEDERAL DO RIO GRANDE DO NORTE CENTRO DE CIˆENCIAS EXATAS E DA TERRA

PROGRAMA DE P ÓS-GRADUAÇ ÃO EM MATEM ÁTICA APLICADA E ESTATÍSTICA

Testes em Modelos Weibull na Forma Estendida de Marshall-Olkin

FELIPE HENRIQUE ALVES MAGALH ˜AES

Orientador

_{: Prof}

a

_{. Dra. Dione Maria Valen¸ca}

(2)

UNIVERSIDADE FEDERAL DO RIO GRANDE DO NORTE CENTRO DE CIˆENCIAS EXATAS E DA TERRA

PROGRAMA DE P ÓS-GRADUAÇ ÃO EM MATEM ÁTICA APLICADA E ESTATÍSTICA

Testes em Modelos Weibull na Forma Estendida de Marshall-Olkin

FELIPE HENRIQUE ALVES MAGALH ˜AES

Disserta¸c˜ao de Mestrado apresentada ao Programa de P´

os-Gradua¸c˜ao em Matem´atica Aplicada e Estat´ıstica da

Uni-versidade Federal do Rio Grande do Norte

(PPGMAE-UFRN) como parte dos requisitos necess´arios para obten¸c˜ao

do t´ıtulo de Mestre em Matem´atica Aplicada e Estat´ıstica.

(3)

(4)

(5)

“Para Aurino Alves (In Memorian),

Paulo Vitor (In Memorian)

(6)

Agradecimentos

A Deus, acima de tudo. `

A minha fam´ılia que me apoiou em toda a minha trajetória. Em especial ao meu pai Le-andro, minha mãe Fátima, minha irmã Aline, por serem exemplos de vida e determina¸cão, e a Nega Peta. As minhas avós: De Assis, Lourdes. Aos meus tios e tias: Bel, Cristina,

Francisco, Gra¸ca, Jair, João, Netinha, Rosário, Socorro, Verônica. A Ada, Cei¸ca,

J´unior,M´arcia,Marcos,Meire,Normandia. Aos meus primos e primas: Adolfo,Alioxa,

Anaxágoras,Daniel,Daniel (miserável), Daniele, Décio,Diego, Diego (telebahia), Jen-derson, Kionara, Lucas, Luiz, Micaela, Moisés, Parizot, Pedro, Pepeu, Pitagoras,

Rˆomulo,Sandra,Sinara,Uliana,Wendell e Weskley.

Ao programa de pós gradua¸cão PPGMAE. Em especial à professora e orientadoraDione

que me acolheu como uma mãe e que me inspira por ser tão dedicada. Aos professoresAndré,

Antˆonio Roberto,Claudemir, Gurgel,Julia,Marcelo Gomes,Nir,Ronaldo,Rubens

do departamento de matemática. Aos professoresAndré Pinho,Bernardo,Carla,Damião,

Formiga,Jeanetedo departamento de estat´ıstica. AoFredy (UFMG) eJuvêncio (UFC). Aos colegas de curso. Em especial a Alysson, Francinário (Nerim), Kaline, Julianne e os demais não mencionados. Aos colegas e ex-colegas de trabalho que me apoiaram: Aldeci,

Alcinéia, Berginaldo, Celismar, Concei¸cão, Elias, Freud, Francesco, George, José Roberto,Liziane,Lúcia,Márcio,Marlene,Miriam,Pedro,Renereide,Simone,Solange,

Vane´ıse,Walker e aos demais n˜ao mencionados.

Aos amigos: Anderson, Andr´e (Dezito), An´ızio, Arthur, Carol, Carol Loureiro,

Carol Barreto, C´esar, Clara, Cacau, Daniel, Danilo, Dona Net, Elvis, Evanimek,

Fabiano, Filipe, Flávio, George, Giovani, Hélio, Hérica, Jéssica, João Paulo, Júnior Xavier, Ju Jales,Júlio, Karol, Kruell,Leila,Leo,Leó,Levi, Lucas, Manel, Marcosa,

Marquinhos, Myrna,Moisés, Natália, Parcelli,Rafa e Pablo,Raphael Teta,Renato Portnoy,Ricardo,Rosaly,Tiago Viana,Ulisses,Winston, a galera das peladas do satélite e da UFRN.

(7)

Amadurecer nada mais ´e do que

(8)

Resumo

Em análise de sobrevivência, a variável resposta é, geralmente, o tempo até a ocorrência de um

evento de interesse, denominado tempo de falha, e a principal caracter´ıstica de dados de

sobre-vivência é a presen¸ca de censura, que é a observa¸cão parcial da resposta. Associados a essas

informa¸cões, alguns modelos ocupam uma posi¸cão de destaque por sua comprovada adequa¸cão a

várias situa¸cões práticas, entre os quais é poss´ıvel citar o modelo Weibull. Distribui¸cões na forma

estendida de Marshall-Olkin oferecem uma generaliza¸cão de distribui¸cões básicas que permitem

uma flexibilidade maior no ajuste de dados de tempo de vida. Este trabalho apresenta um

estudo de simula¸c˜ao que compara duas estat´ısticas de teste, a da Raz˜ao de Verossimilhan¸cas e a

Gradiente, utilizando a distribui¸c˜ao Weibull em sua forma estendida de Marshall-Olkin. Como

resultado, verifica-se apenas uma pequena vantagem para estat´ıstica da Raz˜ao de

Verossimil-han¸cas.

(9)

Abstract

In survival analysis, the response is usually the time until the occurrence of an event of interest,

called failure time. The main characteristic of survival data is the presence of censoring which

is a partial observation of response. Associated with this information, some models occupy an

important position by properly fit several practical situations, among which we can mention

the Weibull model. Marshall-Olkin extended form distributions offer a basic generalization that

enables greater flexibility in adjusting lifetime data. This paper presents a simulation study that

compares the gradient test and the likelihood ratio test using the Marshall-Olkin extended form

Weibull distribution. As a result, there is only a small advantage for the likelihood ratio test.

(10)

Sum´

ario

1 Introdu¸c˜ao 1

1.1 Objetivos . . . 2

2 Conceitos Básicos de Análise de Sobrevivência 4 2.1 Introdu¸cão . . . 4

2.2 Distribui¸c˜ao do tempo de vida . . . 5

2.2.1 Fun¸c˜ao densidade de probabilidade . . . 5

2.2.2 Fun¸c˜ao de sobrevivˆencia . . . 5

2.2.3 Fun¸c˜ao de risco . . . 5

2.2.4 Fun¸c˜ao de risco cumulativo . . . 6

2.3 Rela¸c˜oes entre as fun¸c˜oes . . . 6

2.4 Censura . . . 6

2.4.1 Censura tipo I . . . 7

2.4.2 Censura tipo II . . . 7

2.4.3 Censura tipo aleat´orio . . . 7

3 Distribui¸c˜ao de Marshall-Olkin 8 3.1 Introdu¸c˜ao . . . 8

3.2 Defini¸c˜ao . . . 9

3.3 Principais fun¸c˜oes . . . 9

3.3.1 Propriedades . . . 10

3.4 Fun¸c˜ao de Verossimilhan¸ca . . . 11

3.5 Distribui¸c˜ao Weibull na Forma Estendida . . . 13

(11)

4 Testes de Hip´oteses 19

4.1 Introdu¸c˜ao . . . 19

4.2 Hip´oteses simples . . . 19

4.2.1 Teste da Raz˜ao de Verossimilhan¸cas . . . 19

4.2.2 Teste Gradiente . . . 20

4.3 Hip´oteses compostas . . . 22

4.3.1 Estat´ısticas para o modelo Marshall-Olkin . . . 23

5 Simula¸c˜ao 25 5.1 Introdu¸c˜ao . . . 25

5.2 A Simula¸c˜ao . . . 25

5.3 Resultados da Simula¸c˜ao . . . 26

5.3.1 Distribui¸c˜ao Exponencial . . . 26

5.3.2 Distribui¸c˜ao Weibull . . . 27

6 Considera¸cões Finais e Recomenda¸cões 37 Referências bibliográficas 39

(12)

Cap´ıtulo 1

Introdu¸

c˜

ao

A análise de sobrevivência, de acordo com vários autores (Colosimo e Giolo, 2006; dentre

outros), é uma das áreas da Estat´ıstica que mais cresceu nas últimas duas décadas do século

passado. Os dados coletados ao se aplicar esse tipo de estudo, cont´em, no m´ınimo, o tempo

até a ocorrência de um evento e a observa¸cão se, de fato, o evento de interesse ocorreu. Assim,

algumas distribui¸cões são clássicas na análise de dados de sobrevivência. Dentre elas podemos

destacar a exponencial, Gamma, log-normal e a Weibull.

Os objetivos de uma análise estat´ıstica envolvendo dados de sobrevivência estão geralmente

relacionados, em medicina, à identifica¸cão de fatores de prognóstico para uma certa doen¸ca ou

`

a compara¸c˜ao de tratamentos em um estudo cl´ınico, enquanto controlado por muitos fatores.

V´arios exemplos podem ser encontrados na literatura m´edica (Botelho, Silva, Cruz, 2009).

De maneira geral e utilizando-se de métodos paramétricos, nem sempre é poss´ıvel ajustar

os dados de maneira precisa. Dessa forma, inserir parˆametros proporciona um ajuste mais

adequado aos dados.

Marshall e Olkin (1997) prop˜oem uma nova forma de introduzir um parˆametro para expandir

e ampliar uma fam´ılia de distribui¸cões, fornecendo novas extensões das distribui¸cões exponencial

e Weibull fazendo com que, por exemplo, a distribui¸c˜ao exponencial torne-se concorrente das

fam´ılias comumente usadas de dois parˆametros, fam´ılias como a Weibull, Gamma e log-normal.

O método é aplicado para criar uma nova distribui¸cão Weibull com três parâmetros, com mais

flexibilidade nas fun¸c˜oes de densidade, sobrevivˆencia e risco. O modelo de Marshall-Olkin

(13)

1.1 Objetivos 2

numa fun¸cão de sobrevivência determinada,S, que será apresentada a seguir:

H(S(x), α) =SM O(x;α)

sendoα >0,x >0 eH é uma transforma¸cão que associa cada fun¸cão de sobrevivência de uma distribui¸cão conhecida à uma nova fun¸cão de sobrevivência com um parâmetro adicional α.

Considerando o fato de que o novo parˆametro foi inserido, ´e natural que se queira testar se

os dados se ajustam bem numa distribui¸c˜ao conhecida ou numa forma estendida da mesma.

No século passado, três estat´ısticas clássicas surgiram e possuem destaque: a estat´ıstica de

teste da raz˜ao de verossimilhan¸cas (Neyman e Pearson, 1928), a de Wald (Wald, 1943) e a Score

de Rao (Rao, 1947). O teste da raz˜ao de verossimilhan¸ca ´e, geralmente, o mais usado para se

testar hipóteses relativas a um único parâmetro, considerando-se a hipótese nula simples. O

teste Score foi constru´ıdo utilizando a fun¸c˜ao escore que corresponde ao logaritmo da fun¸c˜ao

de verossimilhan¸ca referida na literatura como log-verossimilhan¸ca e avaliada sob a restri¸c˜ao da

hipótese nula, (Rao, 1947). Estas três estat´ısticas, sob a hipótese nula e condi¸cões de regularidade

tˆem aproximadamente uma distribui¸c˜ao de qui-quadrado.

Terrell (2002) trouxe uma proposta de uma nova estat´ıstica, derivada das estat´ısticas Score

de Rao e Wald modificada (Hayakawa e Puri, 1985). Essa estat´ıstica, chamada de estat´ıstica

gradiente, apresenta a vantagem de n˜ao envolver c´alculo matricial com produto de inversa de

matrizes. Esta estat´ıstica tamb´em tem, aproximadamente, uma distribui¸c˜ao qui-quadrado sob

a hip´otese nula.

Em um trabalho recente, Caroni (2010) apresenta uma compara¸c˜ao por meio de um estudo

de simula¸c˜ao entre as estat´ısticas da Raz˜ao de Verossimilhan¸ca, Wald e Score de Rao para o

parâmetro que distingue a distribui¸cão estendida de uma básica. Como resultado verificou-se

que o teste da raz˜ao de verossimilhan¸ca mostrou-se superior aos outros.

1.1 Objetivos

O principal objetivo deste trabalho ´e comparar por meio de simula¸c˜ao as estat´ısticas de teste

da razão de verossimilhan¸ca e gradiente para testar o parâmetro que distingue a distribui¸cão

estendida da b´asica. Al´em disso descrevem-se caracter´ısticas e propriedades do modelo Weibull

(14)

1.1 Objetivos 3

O trabalho contempla seis cap´ıtulos, incluindo este. S˜ao apresentados noCap´ıtulo 2 alguns

conceitos básicos de análise de sobrevivência, noCap´ıtulo 3 a distribui¸cão de Marshall-Olkin

e as express˜oes da distribui¸c˜ao Weibull na forma estendida de Marshall-Olkin, no Cap´ıtulo

4 as estat´ısticas do teste da raz˜ao de verossimilhan¸cas e gradiente e no Cap´ıtulo 5 algumas

simula¸cões. Por fim, no Cap´ıtulo 6 encontram-se as conclusões e algumas sugestões para

(15)

Cap´ıtulo 2

Conceitos B´

asicos de An´

alise de

Sobrevivˆ

encia

2.1 Introdu¸

c˜

ao

Análise de Sobrevivência é a expressão utilizada para designar a análise estat´ıstica de dados

quando a vari´avel em estudo representa o tempo desde um instante inicial bem definido at´e a

ocorrˆencia de determinado acontecimento de interesse (Lawless, 2003). Assim sendo, a vari´avel

em estudo ´e n˜ao negativa.

O evento de interesse normalmente é chamado de falha. Dessa forma, uma variável aleatória

representa tempo até a falha, que pode ser por exemplo: dura¸cão de uma greve, de uma fia¸cão

de uma rede elétrica, da vida de um indiv´ıduo, da vida útil de equipamento ou até do tempo de

estudo até a aprova¸cão em concurso público. As observa¸cões resultantes são chamadas tempos

de vida.

Uma caracter´ıstica fundamental em Análise de Sobrevivência é a existência de censura, ou

seja, é quando não é poss´ıvel observar o evento de interesse para determinados indiv´ıduos no

per´ıodo em que estão em observa¸cão. Outro aspecto importante é que não podemos assumir

nor-malidade pelo fato de geralmente os dados apresentarem uma distribui¸c˜ao assim´etrica positiva.

(16)

2.2 Distribui¸c˜ao do tempo de vida 5

Neste cap´ıtulo especifica-se alguns aspectos de Análise de Sobrevivência como: a distribui¸cão

do tempo de vida, a fun¸cão densidade de probabilidade, a fun¸cão de distribui¸cão, a fun¸cão de

sobrevivência, a fun¸cão risco, a fun¸cão risco cumulativo, as rela¸cões entre suas fun¸cões e a

censura.

2.2 Distribui¸

c˜

ao do tempo de vida

Seja T uma variável aleatória (v.a.) não negativa, absolutamente cont´ınua, com fun¸cão de distribui¸cãoF, que representa o tempo de vida de um indiv´ıduo e que possui as seguintes fun¸cões associadas:

2.2.1 Fun¸

c˜

ao densidade de probabilidade

Chama-se a fun¸c˜ao densidade de probabilidade,f, a fun¸c˜ao definida por:

f(t) = lim

∆t→0

P(t≤T < t+ ∆t)

∆t ,0≤t <∞.

Esta pode ser interpretada como a probabilidade da falha ocorrer em um indiv´ıduo no intervalo

(t, t+ ∆t), em que ∆t→0.

2.2.2 Fun¸

c˜

ao de sobrevivˆ

encia

A fun¸cão sobrevivência é definida da seguinte forma:

S(t) =P(T > t),0≤t <∞.

Essa fun¸cão representa a probabilidade da ocorrência da falha após o instante t. Na prática é a probabilidade de um indiv´ıduo sobreviver além do instantet. Note que S(t) = 1−F(t).

2.2.3 Fun¸

c˜

ao de risco

A fun¸cão de risco é também chamada de fun¸cão de taxa de falha e é definida da seguinte

forma:

r(t) = lim

∆t→0

P(t≤T < t+ ∆t|T ≥t)

(17)

2.3 Rela¸c˜oes entre as fun¸c˜oes 6

e representa a taxa instantˆanea de morte de um indiv´ıduo no instantet, sabendo que sobreviveu at´e esse instante.

2.2.4 Fun¸

c˜

ao de risco cumulativo

Essa fun¸cão também é chamada de fun¸cão de taxa de falha acumulada e é definida da seguinte

forma:

R(t) =

Z t

0

r(u)du

R mede o risco de ocorrˆencia do acontecimento de interesse at´e o instantet.

2.3 Rela¸

c˜

oes entre as fun¸

c˜

oes

SejaT uma (v.a.), cont´ınua e n˜ao-negativa, tem-se:

r(t) = f(t) S(t) =−

d(lnS(t))

dt (2.1)

R(t) =

Z t

0

r(u)du=−lnS(t) (2.2)

S(t) = exp{−R(t)}= exp

− Z t 0 r(u)du (2.3)

2.4 Censura

A censura, já mencionada acima, é justamente quando não se sabe se ocorre o evento de

interesse em algum elemento em observa¸c˜ao. Isso se deve a alguns fatores como, por exemplo: se

a morte do indiv´ıduo ocorrer fora do per´ıodo de estudo, ou ainda ocorrendo dentro do per´ıodo,

mas por outra causa diferente do que ´e definido como falha. Dependendo de como esta ´e definida,

podemos ter censura à direita, à esquerda ou intervalar. A censura à direita ocorre quando o

tempo de vida ´e maior que o tempo observado.

(18)

2.4 Censura 7

2.4.1 Censura tipo I

A censura tipo I se caracteriza pelo fato da data do fim do estudo ser pr´e-determinada. Neste

caso, s´o podemos saber o tempo de vida de um indiv´ıduo se a morte ocorrer antes do instante

pré-definido. Sendo assim, o número de falhas observadas é aleatório.

2.4.2 Censura tipo II

S˜ao colocados em estudo n indiv´ıduos, mas o estudo termina quando se der a r-´esima

ocorrência do evento de interesse, sendo r um número pré-definido (1 ≤ r ≤ n) . A amostra obtida consiste nas r primeiras falhas, isto é, t1 ≤, ...,≤tr, e os restantes n - r indiv´ıduos são

censurados no instante tr . Neste caso, o tempo de dura¸cão do estudo é uma variável aleatória.

2.4.3 Censura tipo aleat´

orio

O mecanismo de censura aleatória é aquele em que os tempos de censura são variáveis

aleat´orias mutuamente independentes e ainda independentes dos tempos de vida. Observa-se

este tipo de censura quando um indiv´ıduo ´e retirado do estudo por uma causa alheia ao pr´oprio

(19)

Cap´ıtulo 3

Distribui¸

c˜

ao de Marshall-Olkin

3.1 Introdu¸

c˜

ao

A distribui¸c˜ao exponencial tem um papel central em an´alise de tempo de vida ou em dados de

sobrevivˆencia, pela coveniente teoria estat´ıstica, sua importante propriedade “falta de mem´oria”

e sua taxa de risco constante. Em certas circunstˆancias onde a fam´ılia de distribui¸c˜ao exponencial

uniparamétrica não é suficientemente ampla, um número maior de fam´ılias de distribui¸cão como

Gamma, Weibull e Gompertz s˜ao usadas. Essas fam´ılias e sua utilidade s˜ao descritas em Cox

e Oakes (1984), Kalbfleisch e Prentice (2002), Lawless (2003) dentre outros. Um tratamento

completo de cada distribui¸c˜ao ´e dado em Johnson, Kotz e Balakrishnan (1994).

Por vários métodos, novos parâmetros podem ser introduzidos para expandir as fam´ılias de

distribui¸cões pela flexibilidade adicionada sendo o método de Marshall-Olkin um destes. Várias

fam´ılias são clássicas na área de análise de sobrevivência, dentre elas a familia Weibull (Weibull,

1951). A distribui¸c˜ao exponencial ´e um caso particular da Weibull dependendo dos valores dos

parˆametros.

São exibidos neste cap´ıtulo além da defini¸cão proposta por Marshall-Olkin (1997), as

ex-pressões das suas principais fun¸cões na forma estendida, as principais propriedades das fun¸cões

de distribui¸cão e sobrevivência no novo modelo, assim como a fun¸cão de verossimilhan¸ca e alguns

(20)

3.2 Defini¸c˜ao 9

3.2 Defini¸

c˜

ao

Seja T uma variável aleatória (v.a.) cont´ınua, f sua fun¸cão densidade, F sua fun¸cão de distribui¸cão,rsua fun¸cão risco eS sua fun¸cão de sobrevivência. A forma estendida de Marshall-Olkin correspondente tem fun¸cão de sobrevivência,SM O =H(S(t), α), dada por:

SM O(t;α) =

αS(t) 1−αS(t) =

αS(t)

F(t) +αS(t), (3.1) em que t > 0, α > 0, α = 1−α. Marshall e Olkin (1997) apresentam toda a constru¸c˜ao da forma estendida parat∈ ℜ. Este trabalho se restringe ao caso em que tpositivo.

N˜ao h´a dificudades em obter a igualdade (3.1), de fato:

SM O(t;α) =

αS(t) 1−αS(t) =

αS(t)

1−(1−α)S(t) =

αS(t) 1−S(t) +αS(t). ComoF(t) = 1−S(t), segue que

SM O(t;α) =

αS(t) F(t) +αS(t).

3.3 Principais fun¸

c˜

oes

Define-se as fun¸c˜oes de densidade e de risco, respectivamente, como:

g(t;α) = αf(t)

(1−αS(t))2, (3.2)

e

h(t;α) = r(t)

(1−αS(t)), (3.3)

com t >0,α >0,α= 1−α.

A fim de demonstrar a express˜ao (3.2), temos

(21)

3.3 Principais fun¸c˜oes 10

sendoG a fun¸c˜ao de probabilidade na forma estendida de Marshall-Olkin. Derivando ambas as parcelas em rela¸c˜ao at, segue

∂G(t;α) ∂t =−

∂SM O(t;α)

∂t =

αf(t) (1−αS(t))2,

Portanto,

g(t;α) = αf(t) (1−αS(t))2.

Já para a demostra¸cão da expressão (3.3), partimos da rela¸cão dada em (2.1)

h(t;α) = g(t;α) SM O(t;α) =

αf(t)/(1−αS(t))2 αS(t)/(1−αS(t)) =

f(t) S(t)(1−αS(t)),

portanto,

h(t;α) = r(t) (1−αS(t)).

Seα= 1 a forma estendida de uma distribui¸cão conhecida é a propria distribui¸cão conhecida, ou seja, g(t; 1) =f(t),SM O(t; 1) =S(t) eh(t; 1) =r(t).

3.3.1 Propriedades

Serão mencionadas quatro propriedades. As três primeiras são comuns a qualquer fun¸cão

de distribui¸c˜ao para uma v.a. e ´e encontrada em livros de probabilidade, por exemplo, James

(2010). O intuito deste tópico é mostrar que uma fun¸cão de distribui¸cão na forma estendida de

Marshall-Olkin também possui as respectivas propriedades. Além dessas, a outra em sequência

(G4) ´e uma propriedade exclusiva da forma estendida, Marshall e Olkin (1997).

SejaT uma v.a. cont´ınua na forma estendida de Marshall-Olkin de acordo com (3.1). Suas fun¸cões de distribui¸cão Ge de sobrevivência SM O gozam das seguintes propriedades:

G1. Se x≤y, ent˜ao G(x;α)≤G(y;α) G2. Se xn↓x, ent˜aoG(xn;α)↓G(x;α)

(22)

3.4 Fun¸c˜ao de Verossimilhan¸ca 11

G4.(Propriedade da Estabilidade): Seja H a transforma¸cão de Marshall-Olkin de uma fun¸cão de sobrevivência S, ou seja

H(SM O(t;αk−1);α) =SM O(t;αk) = α k_S(t)

1−αk_S(t), (3.4) em que SM O(t;α) =H(S(t);α), αk_{= 1}₋_αk_,_{α >}_0, _{t >}_0.

Pode-se ent˜ao mostrar que:

H(H(S(t);αk_);_{α) =}_H(S(t);_αk+1₎

Demonstra¸c˜ao:

As demonstra¸c˜oes das propriedades G1, G2 e G3 encontra-se no apˆendice A.

A demonstra¸c˜ao da propreidade G4 ´e a seguinte:

Aplicando (3.4) em (3.1) tem-se

H(H(S(t);αk);α) = αH(S(t);α k₎

1−αH(S(t);αk₎ =

=

α αkS(t)

1−αk_S₍_t₎

1−α αkS(t)

1−αk_S₍_t₎

= α

k+1_S(t)

1−αk_S(t)

!

1−αk_S(t)

1−(αk_)S(t)₋_(ααk_)S(t)

!

=

= α

k+1_S(t)

1−h(αk_{) + (α)α}ki_S(t) =

αk+1_S(t)

1−αk+1_S(t) =H(S(t);α

k+1_).

c.q.d.

Note que a expressão (3.4) é uma generaliza¸cão da (3.1). Quandok = 1, em (3.4), tem-se a expressão (3.1) e além disso, para uma sobrevivênciaS dada, se for aplicada a transforma¸cão (3.1)k vezes obtemos como resultado uma expressão semelhante à aplica¸cão da transforma¸cão uma única vez, no caso, a expressão (3.4), mas com um valor diferente para α. O valor de k informa quantas vezes a transforma¸cão foi aplicada.

3.4 Fun¸

c˜

ao de Verossimilhan¸

ca

Sabe-se que existem alguns mecanismos de censura j´a mencionados no cap´ıtulo anterior.

(23)

3.4 Fun¸c˜ao de Verossimilhan¸ca 12

i um tempo de vida Ti e um tempo de censura Ci, em que Ti e Ci são v.a.’s cont´ınuas e independentes e suas respectivas fun¸cões de sobrevivência sãoST(t, θ) eSC(t). Neste caso, todos os tempos de vida e de censura são mutualmente independentes. Além disso, considera-se que

a distribui¸cão da censura não depende de parâmetros desconhecidos (censura não informativa).

Para i= 1, ..., n, os tempos observ´aveis s˜ao dados por:

ti= min(Ti, Ci). Definimos tamb´em as indicadoras

δi =I{Ti≤Ci}, parai= 1, ..., n.

Os dados referentes a nindiv´ıduos consistem em pares (ti, δi),i= 1, ..., n. Assim, a fun¸c˜ao de verossimilhan¸ca ´e dada por:

L(θ;D) = n

Y

i=1

[fT(ti;θ)]δi

[ST(ti;θ)]1−δi

,

em que D= (n,t, δ), sendot= (t1, ..., tn)T e δ = (δ1, ..., δn)T.

Seja SM O a fun¸cão de sobrevivência e g a densidade resultantes da transforma¸cão (3.1). Assim a fun¸cão de verossimilhan¸ca associada ao novo modelo é dada por:

L(α, θ;D) = n

Y

i=1

(g(ti;α, θ))δi_{(SM O}_(ti;_{α, θ))}1−δi _(3.5)

ou ainda

L(α, θ;D) = n

Y

i=1

(h(ti;α, θ))δi(SM O(ti;α, θ)). (3.6)

Relacionando (3.6) com as fun¸cões de densidadef e sobrevivência S que originaram a extensão de Marshall-Olkin temos:

L(α, θ;D) = n

Y

i=1

α(r(ti;θ))δi_S(ti;_θ)

(1−αS(ti;θ))δi+1. (3.7)

Assim, o logar´ıtmo da fun¸c˜ao de verossimilhan¸ca ´e dada por:

l(α, θ;D) =nlnα+ n

X

i=1

δilnr(ti;θ) + n

X

i=1

lnS(ti;θ)−

n

X

i=1

(24)

3.5 Distribui¸c˜ao Weibull na Forma Estendida 13

3.5 Distribui¸

c˜

ao Weibull na Forma Estendida

SejamT1, ..., Tnuma amostra aleatória de tamanhonda variável aleatóriaT com distribui¸cão Weibull(γ, λ). Segue que a fun¸cão densidade de probabilidade é dada por:

fT(t;γ, λ) = γ λγt

γ−1_exp

− t λ γ

, t >0, (3.9)

sendo γ >0 eλ >0 .

Para essa distribui¸cão, as fun¸cões de sobrevivência e de risco são, respectivamente,

ST(t;γ, λ) = exp

− t λ γ (3.10) e

rT(t;γ, λ) = γ λγt

γ−1_. _(3.11)

Dessa forma, aplicando (3.10) em (3.1), tem-se

SM O(t;α, γ, λ) = αexp{−(t/λ) γ

}

1−αexp{−(t/λ)γ}, (3.12)

que é a fun¸cão de sobrevivência da Weibull na forma estendida de Marshall-Olkin. Assim, as

fun¸c˜oes de densidade e risco da Weibull na forma estendida s˜ao dadas, respectivamente, por:

g(t;α, γ, λ) = αγt

γ−1_{exp [}₋_(t/λ)γ_]

λγ_{₁₋_α_{exp [}₋_(t/λ)γ_]_}2 (3.13)

e

h(t;α, γ, λ) = γt γ−1

λγ_{₁₋_α_{exp [}₋_(t/λ)γ_]_}. (3.14) As fun¸c˜oes de verossimilhan¸ca e a de log-verossimilhan¸ca s˜ao dadas, pois, pelas seguintes

express˜oes, respectivamente

L(α, γ, λ;D) = n

Y

i=1

αγtγ_i−1δiexp [−(ti/λ)γ] λγδi(1−αexp [−(ti/λ)γ])δi+1

(3.15)

(25)

3.6 Gr´aficos 14

l(α, γ, λ;D) = nlnα+ n

X

i=1

δilnγ−

n

X

i=1

δiγlnλ+ n

X

i=1

δi(γ−1) lnti−

n

X

i=1

(ti/λ)γ+

−

n

X

i=1

(δi+ 1) ln{1−αexp [−(ti/λ)γ]} (3.16)

3.6 Gr´

aficos

Nesta se¸cão alguns gráficos são apresentados para que fique claro o comportamento de acordo

com seus respectivos parâmetros. Os gráficos das fun¸cões de densidade, de sobrevivência, e risco

da distribui¸c˜ao Weibull na forma mais simples (λ = 1) s˜ao apresentados respectivamente nas

figuras 3.1, 3.2(a) e 3.2(b).

Figura 3.1: Gr´aficos da fun¸c˜ao de densidade da Weibull(γ,1) com os valores{0,5; 1; 5}atribu´ıdos aγ .

As Figuras 3.1 e 3.2 (a) e (b) mostram os gr´aficos da fun¸c˜ao de densidade Weibull(γ,1), da

(26)

3.6 Gr´aficos 15

Figura 3.2: (a) Gráficos da fun¸cão de sobrevivência da Weibull(γ,1); (b) Gráficos da fun¸cão de risco da Weibull(γ,1)

.

eγ serem conhecidos como de escala e forma, respectivamente. Já no caso em que 0< γ <1 as curvas tem caracteristicas da exponencial. A varia¸cão dos valores deγ neste último caso implica na varia¸cão de inclina¸cões, quanto mais próximo de 1 mais suave a curva se apresenta.

As Figuras 3.3 e 3.4 mostram gráficos das fun¸cões de densidade e de sobrevivência da Weibull

na forma estendida de Marshall-Olkin com os parˆametros mais simples. Observa-se as leves

al-tera¸cões em seus gráficos de acordo com os parâmetros definidos, curvas semelhantes, monótonas,

mais suaves para valores deα >1.

São exibidas abaixo os gráficos das fun¸cões de densidade, sobrevivência e risco da distribui¸cão

Weibull na forma estendida com ênfase aos gráficos da fun¸cão risco, utilizando para isso os

parâmetros λ = 1 e γ = {0,5; 1; 2}. As Figuras 3.5, 3.6 e 3.7 mostram as fun¸cões risco da distribui¸cão Weibull na forma estendida de Marshall-Olkin. A Figura 3.7 mostra casos em

que podemos ter fun¸c˜oes crescentes convexas, crescentes cˆoncavas e um caso enfatizado por

Marshall e Olkin (1997) que ´e uma curva que possui intervalos crescentes e intervalos decrescentes

tornando-a não monótona(efeito proporcionado pelo novo parâmetro α).

A Figura 3.7 mostra o maior interesse de inserir o novo parâmetro. Quandoα é pequeno a fun¸cão risco possui uma curva interessante pelo fato de possuir intervalos crescentes e

(27)

3.6 Gr´aficos 16

Figura 3.3: Gr´aficos da fun¸c˜ao Densidade da Weibull(1,1) na forma estendida de Marhall-Olkin com α={0,5; 0,2; 1; 5; 10}

(28)

3.6 Gr´aficos 17

Figura 3.5: Gr´aficos da fun¸c˜ao Risco da Weibull(1,1) na forma estendida de Marhall-Olkin com α=

{0,5; 0,2; 1; 2; 5}

(29)

3.6 Gr´aficos 18

Figura 3.7: Gr´aficos da fun¸c˜ao Risco da Weibull(2,1) na forma estendida de Marhall-Olkin com α=

(30)

Cap´ıtulo 4

Testes de Hip´

oteses

4.1 Introdu¸

c˜

ao

Neste cap´ıtulo são apresentadas as defini¸cões das estat´ısticas de teste da razão de

verossim-ilhan¸cas (Neyman e Pearson, 1928) e do teste gradiente (Terrel, 2002) para testar hip´oteses

simples e hipóteses compostas. Além disso, exibe-se a constru¸cão da estat´ıstica gradiente no

caso mais simples. Constru¸cões e considera¸cões mais gerais e completas são dados, por exemplo,

em Lemonte e Ferrari (2010). Mostra-se tamb´em as express˜oes das estat´ısticas supondo que os

dados tenham distribui¸c˜ao Weibull na forma estendida de Marshall-Olkin.

4.2 Hip´

oteses simples

4.2.1 Teste da Raz˜

ao de Verossimilhan¸

cas

Considere θ um vetor param´etrico de dimens˜ao p em queθ = (θ1, ..., θp)T. Suponha que se

quer testar as seguintes hip´oteses:

H0 :θ=θ0 versusH1 :θ6=θ0.

SuponhaT1, ..., Tnuma amostra aleatória, de tamanhon, da variável aleatóriaT com fun¸cão

(31)

4.2 Hip´oteses simples 20

O teste da razão de verossimilha¸cas é baseado na fun¸cão de verossimilhan¸ca e envolve a

compara¸c˜ao entre os valores do logaritmo da fun¸c˜ao de verossimilhan¸ca maximizada e sob H0,

ou seja, a compara¸c˜ao de logL(θ) e logb L(θ0). A estat´ıstica de teste ´e dada por:

ξRV =−2 log

"

L(θ0)

L(θ)b

#

= 2[logL(θ)b −logL(θ0)]. (4.1)

Sob H0, esta estat´ıstica segue aproximadamente uma distribui¸c˜ao qui-quadrado compgraus de

liberdade. Para amostras grandes,H0é rejeitada, a um n´ıvel de significânciaυ, seξRV > χ2p,1−υ. O valor χ2_p,₁₋_υ denota o quantil 1−υ de uma variável aleatória qui-quadrado com p graus de liberdade, isto éP(W > χ2_p,₁₋_υ) =υ, sendo W→Dχ2_p.

4.2.2 Teste Gradiente

Este teste ´e obtido com base na estat´ıstica proposta por Terrell (2002) e denominada

es-tat´ıtica gradiente. Ela foi derivada a partir das estat´ısticas escore de Rao e Wald modificada

(Hayakawa e Puri, 1985). A combina¸c˜ao destas duas estat´ısticas resulta em uma estat´ıstica

muito simples, n˜ao envolvendo, por exemplo, nenhum c´alculo matricial como produto e inversa

de matrizes.

Consideremos as mesmas suposi¸c˜oes feitas para o teste da raz˜ao de verossimilhan¸ca que no

caso são: T1, ..., Tnuma amostra aleatória, de tamanhon, da variável aleatóriaT com as fun¸cões

g(t;θ),SM O(t;θ) eh(t;θ) associadas, θbcomo sendo o estimador de m´axima verossimilhan¸ca em Θ.

Considere l(θ) a fun¸cão de log-verossimilhan¸ca eθ= (θ1, ..., θp)T. A fun¸cão escore é definida

como U(θ) = ∂l_∂θ(θ).

A matriz informa¸c˜ao de Fisher ´e definida da seguinte forma:

IF(θ) =E[U(θ)U(θ)T]. Queremos testar

H0 :θ=θ0 versusH1 :θ6=θ0.

As estat´ısticas de Wald (ξW), Score de Rao (ξS) podem ser escritas da seguinte forma:

ξW = (θb−θ0)

T

(32)

4.2 Hip´oteses simples 21

ξS =U(θ0)TIF(θ0)U(θ0).

Uma proposta foi dada por Hayakawa e Puri (1985), denominada estat´ıstica de Wald

modi-ficada ( ˜ξW). Ela ´e definida da seguinte forma:

˜

ξW = (θb−θ0)TIF−1(θ0)(θb−θ0).

Estat´ıstica Gradiente

Defini¸c˜ao (Terrell, 2002): A estat´ıstica gradiente,ξG, para testar H0 :θ=θ0 versusH1:θ6=θ0

´e da forma

ξG=U(θ0)T(θb−θ0). (4.2)

A fim de exibir a constru¸c˜ao da estat´ıstica gradiente proposta por Terrell (2002), considere que

sobH0 as estat´ısticasξS e ˜ξW podem ser escritas como

ξS =U(θ0)TIF(θ0)−1U(θ0) e ˜ξW = (θb−θ0)TIF(θ0)(θb−θ0).

A proposta de Terrel ´e como segue: Considere B, uma matriz quadradap×p invert´ıvel, de tal maneira queBT_B ₌_I

F(θ), ondeIF(θ) ´e a informa¸c˜ao de Fisher. Dessa forma as estat´ısticas ξS e ˜ξW podem ser reescritas como segue

ξS =

(B−1₎T_U_(θ

0)T(B−1)TU(θ0) e ˜ξW =

h

B(θb−θ0)

iT

B(θb−θ0).

Pelo fato de ξS e ˜ξW convergirem em distribui¸cão para uma qui-quadrado com p graus de liberdade, então é de se notar que

(B−1₎T_U_(θ

0) eB(θb−θ0)

possuem aproximadamente uma distribui¸c˜aoNp(0, Ip), onde Ip denota uma matriz identidade de ordem p.

Logo

ξG=

(B−1₎T_U_(θ

0)TB(bθ−θ0) =U(θ0)TB−1B(θb−θ0),

tamb´em possui aproximadamente distribui¸c˜ao qui-quadrado compgraus de liberdade. Portanto

(33)

4.3 Hip´oteses compostas 22

4.3 Hip´

oteses compostas

Considere θ um vetor param´etrico pertencente a Θ ⊂ ℜp _{particionado da seguinte forma} θ= (α, φ)T _{de tal maneira que a dim(α) = 1 e dim(φ) =}_p₋_{1. Suponha que se quer testar as}

seguintes hip´oteses:

H0:α=α0 versusH1 :α6=α0.

Considere tamb´em θbe θb0, respectivamente, os estimadores de m´axima verossimilhan¸ca deθ

e sob H0, ondeθb= (α,b φ),b θb0= (α0,cφ0).

Note que seα= 1 em (3.1) não há forma extendida da distribui¸cão básica, poisH(S(t),1) = S(t). Cosiderando que neste caso α > 0, significa que α = 1 é um ponto interior do espa¸co paramétrico. Assim, o teste baseado na verossimilhan¸ca para (3.1) deve ter comportamento

regular.

Pode-se testar H0 contra H1 usando o teste da raz˜ao de verossimilhan¸cas que ´e dada por:

ξRV = 2nl(α,_b φ)b −l(α0,φb0)

o

(4.3)

em que φb0 é o estimador de máxima verossimilhan¸ca de φ sobre a hipótese nula e α,b φb são

estimadores de máxima verossimilhan¸ca em rela¸cão a todo o espa¸co paramétrico Θ.

A fun¸c˜ao escore neste caso ´e da forma

U(α, φ)T= [Uα(α, φ), Uφ(α, φ)],

sendo Uα(α, φ) = ∂l(_∂αα,φ) e Uφ= ∂l(_∂φα,φ).

A estat´ıstica gradiente sob as mesmas condi¸c˜oes definidas acima ´e dado por

ξG=U(α0,φb0)

Th

(α,_b φ)b −(α0,cφ0)

i

.

Assim como a estat´ıstica da raz˜ao de verossimilhan¸cas, a estat´ıstica gradiente possui uma

(34)

4.3.1 Estat´ısticas para o modelo Marshall-Olkin

As express˜oes das estat´ısticas de teste da raz˜ao de verossimilhan¸cas e da gradeinte utilizadas

s˜ao dadas, respectivamente, pela express˜ao (4.3) e por:

ξG = Uα(α0,φc0) [αb−α0] +Uφ(α0,cφ0)

h b

φ−cφ0

i = 1 α0 n X i=1 n

1−SM O(α0,cφ0) [1 +δi]

o

[α_b−α0], (4.4)

em que Uφ(α0,φc0) = 0.

A constru¸cão da expressão (4.4) é como segue:

Inicialmente faz-se uma simplifica¸cão de nota¸cão, para diminuir a densidade de variáveis, da

seguinte maneira: h=h(D;α, φ) e SM O =SM O(D;α, φ), em queh e SM O são as fun¸cões risco e de sobrevivência na forma estendida de Marshall-Olkin eD={n,t, δ}. Além disso a derivada dessas fun¸cões é dif´ıcil de ser obtida. No caso, ∂h_∂α = −hSM O

α e ∂SM O

∂α = SM O

α (1−SM O). Assim a express˜ao

ξG = Uα(α0,cφ0) [αb−α0] +Uφ(α0,cφ0)

h b

φ−φc0

i

nada mais ´e do que

ξG = Uα(α, φ) [αb−α]

com (α, φ) = (α0,cφ0). Dessa forma

ξG = Uα(α, φ) [αb−α] =

∂l(α, φ)

∂α [αb−α]

= ∂

( _n X

i=1

(δilnh+lnSM O)

)

∂α [αb−α] = n X i=1 δi1 h ∂h ∂α + 1 SM O

∂SM O ∂α

[α_b−α]

= n X i=1 δi1 h

(−hSM O)

α +

1 SM O

SM O

α (1−SM O)

[αb−α]

= 1 α

n

X

i=1

(35)

(36)

Cap´ıtulo 5

Simula¸

c˜

ao

5.1 Introdu¸

c˜

ao

Neste cap´ıtulo s˜ao exibidos resultados de simula¸c˜oes feitas em amostras de dados simulados

de sobrevivˆencia geradas pelo software R, vers˜ao 2.12.2, e impondo uma porcentagem de

cen-sura para cada n´ıvel de significância. Utiliza-se também as distribui¸cões exponencial e Weibull

na forma estendida de Marshall-Olkin, respectivamente, e as estat´ısticas de teste da raz˜ao de

verossimilhan¸ca e gradiente.

5.2 A Simula¸

c˜

ao

As simula¸c˜oes foram realizadas no software livre R 2.12.2 e o pacote reliaR foi utilizado

para obten¸cão das expressões das fun¸cões de densidade, sobrevivência e risco das distribui¸cões

exponencial e Weibull na forma estendida de Marshall-Olkin (ver apˆendice A). V´arios tamanhos

de amostra são considerados. Assim, para cada, considerando alguns parâmetros pré-definidos

e esquema de censura de 10% ou 15%, 10.000 simula¸c˜oes de amostras s˜ao geradas. O esquema

de censura atribu´ıdo foi o de censura `a direita do tipo aleat´orio. Como existe a presen¸ca de

(37)

5.3 Resultados da Simula¸c˜ao 26

BFGS, ´e utilizado por meio do comando optim, do pacote b´asico, dosoftware R para encontrar

por um processo numérico o valor de máxima verossimilhan¸ca. Testa-se a seguinte hipótese

H0 : α = 1, dessa forma os parˆametros da distribui¸c˜ao conhecida foram fixados ou um deles

foi atribu´ıdo como de pertuba¸c˜ao na sua estima¸c˜ao. Tendo as 10.000 estimativas, calcula-se os

10.000 valores de cada estat´ıstica e defini-se uma fun¸c˜ao indicadora que associa 1 a rejei¸c˜ao de

H0 e 0 no caso contrário. Calculando a propor¸cão de vezes em que H0 é rejeitada, a melhor

estat´ıstica ´e aquela que mais se aproximar ao n´ıvel nominal.

5.3 Resultados da Simula¸

c˜

ao

5.3.1 Distribui¸

c˜

ao Exponencial

As Figuras 5.1, 5.2, 5.3 e 5.4 mostram simula¸c˜oes feitas com dois testes considerando a

hipótese nula α = 1 utilizando a distribui¸cão exponencial na forma estendida, aos n´ıveis de significância de 5 e 1 % da χ2

1 de amostras com presen¸ca de censura e variando de 5 at´e 150

observa¸cões de 5 em 5. Ao n´ıvel de 5 % os testes ξRV e ξG tem bastante precisão para n≥20 a 10% de censura, mas o teste ξG apresenta uma precisão menor até n = 35 quando consider-amos 15% de censura. Então, ambos parecem satisfatórios mas o teste ξRV apresenta uma leve vantagem.

A Figura 5.5 mostra o caso em que se testa a hipóteseα= 1 e o parâmetroλé tido como um parâmetro de pertuba¸cão na estima¸cão. As amostras simuladas foram geradas com distribui¸cão

exponencial com parâmetro de escalaλ= 1. Nos outros casos, utilizando o modelo exponencial mostram a tendência deste. Neste usa-se 15% de censura a um n´ıvel de significância de 5%.

Têm-se que para todo n a estat´ıstica gradiente se mostra liberal e a estat´ıstica da razão de verossimilhan¸cas se mostra mais conservadora. Para n < 60 a estat´ıstica gradiente se mostra bem liberal, rejeitando em até 17% onde espera-se valores próximos de 5%. A partir den= 60 a estat´ıstica gradiente estabiliza-se mas continua levemente liberal. A maior porcentagem de

rejei¸cão da estat´ıstica da razão de verossimilhan¸cas é próxima da menor porcentagem de rejei¸cão

da gradiente. Dessa forma, observa-se que a estat´ıstica gradiente utilizando a distribui¸c˜ao

ex-ponencial na forma estendida de Marshall-Olkin se mostra inferior necessitando um pouco de

cautela em rela¸c˜ao as conclus˜oes que pode-se gerar ao usa-la em algum conjunto de dados nas

(38)

Figura 5.1: Tamanhos de amostra nsimulados ao n´ıvel de 5% para ξRV, ξG e a hip´otese nulaα= 1

considerada, utilizando a distribui¸c˜ao exponencial na forma estendida de Marshall-Olkin com 10% de

censura. O valor do parˆametro da exponencial ´eλ= 1.

5.3.2 Distribui¸

c˜

ao Weibull

O estudo de simula¸c˜ao da distribui¸c˜ao Weibull na forma estendida de Marshall-Olkin foi

realizado de maneira análoga como para a distribui¸cão exponencial também na forma estendida.

Os parametros de escala e forma foram escolhidos como sendo 1 e {0,5; 1; 2} respectivamente.

Da mesma forma na estima¸cão existe um caso em que o parâmetro de forma da distribui¸cão

conhecida ´e considerado como de pertuba¸c˜ao.

As Figuras 5.6 e 5.7 mostram amostras de tamanhos 5 at´e 150 de 5 em 5 simulados, com

parâmetro de forma γ = 1, de dois testes baseado na verossimilhan¸ca da distribui¸cão Weibull na forma estendida, utilizando 10% de censura. Os parâmetros foram fixados, sendo estimado

somente o novo parˆametro da forma estendida. Os n´ıveis nominais utilizados s˜ao de 5% e 1%,

respectivamente. O teste gradiente é bem conservativo até o tamanhon= 50 en >100. O teste da razão de verossimilhan¸ca oscila de maneira satisfatória para todos os tamanhos de amostra

(39)

para os tamanhos de amostra n. A performace do teste gradiente é inferior nestes dois casos. As Figuras 5.8 e 5.9 são simula¸cões, de tamanhos de 10 até 150 de 10 em 10, feitas a um

n´ıvel de 5% com 15% de censura e possui varia¸cões em rela¸cão ao parâmetro de forma, no caso

0,5 e 2 respectivamente. A Figura 5.8 mostra que o teste gradiente compete melhor que no caso

do modelo exponencial. As diferen¸cas entre as porcentagens de rejei¸cão não são muito grandes

até n= 60 e quandon >60 as diferen¸cas são m´ınimas de forma que um teste ajustado com o modelo desta simula¸cão pode fornecer resultados confiáveis para qualquer uma das estat´ısticas.

´

E de se notar que a medida que o modelo se torna menos simples, pela escolha dos parˆametros,

o teste gradiente se comporta de maneira evolutiva em seus resultados no sentido de ser

concor-rente da estat´ıstica da razão de verossimilhan¸ca. É notável também que o teste gradiente teve

o pior comportamento quando o parˆametro de escala foi tido como de perturba¸c˜ao no modelo

exponencial apresentado pela Figura 5.5. Agora, a Figura 5.10 ´e a de maior interesse nesse

trabalho pelo fato de estar considerando as mesmas condi¸c˜oes apresentadas pela simula¸c˜ao da

(40)

per-5.3 Resultados da Simula¸c˜ao 29

tuba¸cão na estima¸cão e o parâmetro de escala está sendo fixado como λ= 1. Nota-se que para n <40 existem pequenas diferen¸cas entre as duas estat´ısticas, por volta de 0,0053. Os valores m´ınimos entre as duas estat´ısticas, assim como os valores máximos possuem diferen¸ca inferior

a 0,0016. O teste da raz˜ao de verossimilhan¸cas ainda possui uma leve vantagem, mas o teste

(41)

(42)

(43)

considerada, utilizando a distribui¸c˜ao Weibull na forma estendida de Marshall-Olkin com 10% de censura.

(44)

(45)

(46)

(47)

Figura 5.10: Tamanhos de amostransimulados ao n´ıvel de 5% para ξRV, ξG e a hip´otese nula α= 1

(48)

Cap´ıtulo 6

Considera¸

c˜

oes Finais e

Recomenda¸

c˜

oes

Este trabalho teve como objetivo, al´em de explorar e descrever caracter´ıstaras e propriedades

do modelo Weibull na forma estendida de Marshall-Olkin, comparar por meio de um estudo de

simula¸c˜ao o desempenho das estat´ısticas de teste da raz˜ao de verossimilhan¸ca e gradiente para

testar o parâmetroα, que distingue a distribui¸cão estendida da básica.

Com base no estudo apresentado no Cap´ıtulo 3, verificou-se que, al´em da flexibilidade, a

forma estendida de Marshall-Olkin tamb´em possui a importante propriedade da estabilidade,

ou seja, se a transforma¸cão for aplicada várias vezes obtemos como resultado uma expressão

semelhante à aplica¸cão da transforma¸cão uma única vez, mas com um valor diferente para

o parâmetro extra. Além disso, dependendo do valor do parâmetro, a distribui¸cão estendida

pode ter uma fun¸cão risco não monótona, que representa uma caracter´ıstica que a distribui¸cão

Weibull, por exemplo, n˜ao possui.

Formas estendidas podem representar op¸cões adequadas em situa¸cões reais de análise de

dados de sobrevivˆencia nas quais modelos usuais n˜ao se ajustam muito bem. Assim, tomando

como ponto de partida o ajuste de um modelo na forma estendida de Marshall-Olkin, um

interesse natural que surge é testar a necessidade da extensão. Uma motiva¸cão para estudar a

estat´ıstica gradiente ao inv´es das estat´ısticas cl´assicas de Wald e Score se referem ao fato de que a

este, que possui também uma distribui¸cão assintótica qui-quadrado, não apresentava matrizes em

(49)

38

a ocorrência de censura impossibilita em muitas situa¸cões a obten¸cão da matriz de informa¸cão

esperada.

Os resultados das simula¸c˜oes apresentados no cap´ıtulo 5, que representam a contribui¸c˜ao

original deste trabalho, mostram claramente que os testes da raz˜ao da verossimilhan¸ca e

gradi-ente são suficigradi-entemgradi-ente precisos para testar o parâmetro extra α nas distribui¸cões exponencial e Weibull na forma estendida de Marshall-Olkin em amostras finitas. A estat´ısitica gradiente

apresentou em geral, uma leve desvantagem, principalmente em amostras muito pequenas e

cen-suradas. Esta desvantagem ocorre pelo fato deste teste apresentar o tamanho empirico do teste

maior que o n´ıvel nominal considerado (1% ou 5%). O pior resultado para a estat´ıstica gradiente

ocorreu no caso apresentado na Figura 5.5, em que o parˆametro da distribui¸c˜ao exponencial foi

considerado como de perturba¸c˜ao. Por outro lado quando o parˆametro de forma da Weibull foi

considerado de perturba¸c˜ao (Figura 5.10) observou-se o melhor resultado para esta estat´ıstica,

que mostrou resultados equivalentes aos obtidos pela estat´ıstica da raz˜ao de verossimilhan¸ca.

N˜ao foram verificadas diferen¸cas nos resultados das simula¸c˜oes para diferentes percentuais de

censura, provavelmente pelo fato da simula¸c˜ao considerar apenas pequenos percentuais de

cen-sura (10% e 15%). Notou-se que o comando optim interrompeu diversas vezes o processo de

simula¸c˜ao ao se encontrar alguma irregularidade (falta de convergˆencia para alguma amostra).

Para trabalhos futuros deseja-se inicialmente aperfei¸coar e ampliar o estudo de simula¸c˜ao.

Este estudo apresentou limita¸c˜oes pelo fato de usar o pacote ReliaR(Apˆendice A), que permite

apenas o uso da distribui¸cão Weibull com o parâmetro de escala fixado como sendo λ = 1. Implementar a equa¸cão (3.16) tornaria a simula¸cão mais abrangente pois teria parâmetros

pr´e-fixados. Dessa forma a simula¸c˜ao poderia ser ampliada para avaliar o desempenho do teste

gradiente na presen¸ca de parˆametros de perturba¸c˜ao, assim como em amostras com maiores

percentuais de censura. Al´em disso, poderia ser realizado um estudo comparativo do poder dos

(50)

Referˆ

encias Bibliogr´

aficas

[1] BASTOS, J; ROCHA, C. Análise de sobrevivência : Conceitos Básicos. Arquivos de Medicina, vol.20, no.5-6, p.185-187, set. 2006.

[2] BOLFARINE, H; SANDOVAL, MC. Introdu¸cão à inferência estat´ıstica. Cole¸cão Matemática Aplicada. Sociedade Brasileira de Matemática (SMB), 2001.

[3] BOTELHO, F; SILVA, C; CRUZ, F. Epidemiologia Explicada - Análise de Sobre-vivência. Acta Urológica, 26; 4:33-38, 2009.

[4] CARONI, C. Testing for the Marshall-Olkin extended form of the Weibull dis-tribution. Statistical Papers 51:325-336. 2010.

[5] COLOSIMO, EA; GIOLO, SR. Análise de Sobrevivência Aplicada. São Paulo: Edi-tora Blucher (Projeto Fisher, ABE), 2006.

[6] COX, DR; OAKES, D. Analysis of Survival Data. London: Chapman and Hall. 1984. [7] GHITANY, M.E; AL-HUSSAINI, E.K; AL-JARALLAH, R.A. Marshall-Olkin Ex-tended Weibull Distribution and its Aplication to Censored Data. Journal of Applied Statistics. vol.32, no.10, p.1025-1034, 2005.

[8] HAYAKAWA, T; PURI, ML.Asymptotic expansions of the distributions of some test statistics. Annals of the Institute of Statisticals Mathematics. A 37, 95-108. 1985. [9] JAMES, BR. Probabilidade: Um curso de N´ıvel Intermedi´ario. 3.ed. Rio de

Janeiro:IMPA, 2010.

(51)

Referˆencias Bibliogr´aficas 40

[11] LAWLESS, JF. Statistical Models and Methods for Lifetime Data. John Wiley, New York. 2003.

[12] LEE, E.T; WANG, J.W.Statistical methods for survival data analisys. Wiley, Hobo-ken, NJ, 3rd edn, 2003.

[13] LEMONTE, AJ; FERRARI, SLP. The local power of the gradient test. Annals of the Institute of Statisticals Mathematics, 2010.

[14] MARSHALL AW; OLKIN, I. A new method of adding a parameter to a fam-ily of distributions with application to the exponential and Weibull families. Biometrika 84:641-652. 1997.

[15] NEYMAN, J.; PEARSON, ES. On the use and interpretation of certain test cri-teria for purposes of statistical inference. Biometrika 20A(1/2), 175-240. 1928. [16] PHAM, H; LAI, C.D.On recent generalizations of the Weibull distribution. IEEE

Transactions on Reliability 56:454-458. 2007.

[17] RAO, CR. Large sample tests of statistical hypotheses concerning several pa-rameters with applications to problems of estimation. Mathematical Proceedings of the Cambridge Philosophical Society. 44(01), 50-57. 1948.

[18] SEVERINI, TA. Likelihood Methods in Statistics. Oxford University Press. 2000. [19] TERRELL, GR.The Gradient Statistic. Computing Science and Statistics 34, 206-215.

2002.

[20] WALD, A. Tests of statistical hypotheses concerning several parameters when the number of observations is large. Transactions of the American Mathematical Society 54(3), 426-482. 1943.

[21] WEIBULL, W. A Statistical distribution function of wide applicability. Journal of Applied Mechanics, 292-297. 1951.

(52)

Referˆencias Bibliogr´aficas 41

(53)

Apˆ

endice A

Neste apêndice são colocadas algumas demonstra¸cões para diminuir a densidade teórica do

texto e tornar a leitura mais agradável. De fato, as demonstra¸cões das três propriedades G1,

G2, G3 a seguir exigem alguns passos de tal maneira que a sua omiss˜ao pode tornar algumas

implica¸cões inválidas, mas vamos usar de um certo abuso de nota¸cão que é o uso dos simbolos

(⇒,⇔) para que as mesmas n˜ao fiquem muito extensas.

Considera-se inicialmente alguns lemas que s˜ao suporte para algumas demonstra¸c˜oes a saguir:

L1. F(xn) ↓F(x) para xn ↓x e ∀xi₁, xi₂, tal que xi₁ ≥xi₂;∀i1, i2; i1 ≤i2 tem-se F(xi1) ≥ F(xi₂) elimn→∞F(xn) =F(x).

De fato essas são as condi¸cões para que uma sequência monótona decrescente seja

conver-gente, isso torna o lema L1 com carater axiom´atico.

L2. Por L1,F(xi₁)≥F(xi₂) para∀i1, i2em quei1 ≤i2ea∈ ℜ, ent˜aoa+F(xi1)≥a+F(xi2) Pela seguinte propriedade: Dados a, b∈ ℜde forma quea≤b, assim c+a≤c+b,∀c∈ ℜ. L3. Por L1 mais uma vezF(xi₁)≥F(xi₂) para∀i1, i2em quei1 ≤i2, logobF(xi1)≥bF(xi2), seb >0 ebF(xi₁)≤bF(xi₂), se b <0.

A propriedade que justifica esse item ´e a seguinte: suponhaa, b, c∈ ℜ, em quea≤b, dessa forma ac≤bc, sec >0 eac≥bc, sec <0.

L4. F(xn)↓F(x) quandoxn↓x, dessa forma _F₍1_x_n₎ ↑ _F₍1_x₎.

Pela propriedade seguinte justifica-se L4: seja a, b∈ ℜ,a < b, ent˜ao 1_a > 1_b

Demonstra¸c˜ao: G1.

(54)

43

F(x)≤F(y)⇐⇒ −L3 F(y)≤ −F(x)⇔L2 1−F(y)≤1−F(x)⇔S(y)≤S(x)

Considerando α >0 e αS(y)αS(x) =αS(x)αS(y) ´e f´acil ver que

αS(y)≤αS(x)

e al´em disso

αS(y)−αS(y)αS(x)≤αS(x)−αS(x)αS(y).

Logo

αS(y)(1−αS(x)) =αS(x)(1−αS(y)).

Dividindo ambas as parcelas por (1−αS(x))(1−αS(y))>0 chega-se que

αS(y) 1−αS(y) ≤

αS(x)

1−αS(x) ⇔SM O(y;α)≤SM O(x;α).

Portanto

G(x;α)≤G(y;α).

c.q.d.

Demonstra¸c˜ao: G2.

Suponha quexn↓x, segue que

F(xn)↓F(x)⇐⇒ −L3 F(xn)↑ −F(x)⇐⇒L2 1−F(xn)↓1−F(x)⇔S(xn)↑S(x)⇐⇒L4

L4 ⇐⇒ 1 S(xn) ↓ 1 S(x) L2 ⇐⇒ 1

S(xn)−α↓ 1

S(x) −α⇔ 1 S(xn) − αS(xn) S(xn) ↓ 1 S(x)− αS(x) S(x) . Logo

1−αS(xn) S(xn) ↓

1−αS(x) S(x)

L4

⇐⇒ S(xn)

1−αS(xn) ↑

S(x) 1−αS(x)

L3

⇐⇒ αS(xn)

1−αS(xn) ↑

αS(x) 1−αS(x)

que equivale a

SM O(xn;α)↑SM O(x;α).

(55)

44

G(xn;α)↓G(x;α)

aplicando L2 e L3 com a= 1 eb=−1.

c.q.d.

Demonstra¸c˜ao: G3

Prova-se inicialmente que se xn↓ −∞ent˜aoG(xn, α)↓0. Se xn↓ −∞´e garantido que

F(xn)↓0 ⇔ 1−S(xn)↓0⇔1−S(xn)↓1−1⇐⇒ −L2 S(xn)↓ −1⇐⇒L3 S(xn)↑1⇐⇒L3

L3

⇐⇒αS(xn)↑α ⇐⇒L4 1

αS(xn)

↓ 1

α ⇔ 1 αS(xn)

↓ α+α

α ⇔

1 αS(xn)

−α

α ↓1

e ainda pode-se escrever

1 αS(xn)

−αS(xn)

αS(xn)

↓1⇔ 1−αS(xn)

αS(xn)

↓1⇐⇒L4 αS(xn)

1−αS(xn)

↑1⇔SM O(xn;α)↑1

Portanto

G(xn;α)↓0.

c.q.d.

Para fazer as simula¸c˜oes foram utilizadas express˜oes do pacote reliaR do software livre R,

as expressões são da distribui¸cão de Marshall-Olkin na forma estendida. Respectivamente as

fun¸c˜oes de densidade das distribui¸c˜oes exponencial e Weibull na forma extendida de

Marshall-Olkin do pacote reliaR s˜ao exibidas a seguir

f(x;α, λ) =αλexp(−λx)/(1−(1−α)exp{−λx})2 ;x >0, λ >0, α >0

e

f(x) =λαxα−1exp(−xα)/n{1−(1−λ)exp(−xα)}2o;x >0, λ >0, α >0.

Note que o parâmetro inserido na forma estendida não é o mesmo nas duas expressões. Para

(56)

45

127.0.0.1:18158/library/reliaR/html/MOEE.html

e

127.0.0.1:18158/library/reliaR/html/MOEW.html.

A programa¸cão utilizada na simula¸cão é a seguinte:

1) Para a distribui¸c˜ao exponencial na forma estendida de Marshall-Olkin

################################################################################

#Pacote das fun¸c~oes do MarshallOlkin

library(reliaR)

#Fun¸c~ao de Verossimilhan¸ca para alpha_hat e lambda_hat

lmoee=function(par,t,c){

alpha=par[1]

lambda=par[2]

if (alpha>0 & lambda>0) sum(c*log(hmoee(t,alpha,lambda))+

log(smoee(t, alpha, lambda))) else NA

}

#Fun¸c~ao de Verossimilhan¸ca para lambda0_hat

lmoee2=function(lambda,t,c,alpha){

if (alpha>0 & lambda>0) sum(c*log(hmoee(t,alpha,lambda))+

log(smoee(t, alpha, lambda))) else NA

}

#Valores iniciais

alpha0=lambda0=1

names(alpha0)=’alpha0_hat’

names(lambda0)=’lambda0_hat’

inicial=c(1,1)

(57)

46

#Simula¸c~ao

#Permuta¸c~oes

N=Y=y=Z=z=NULL

for (n in seq(5,150,5)){

for (i in 1:10000) {

#Gerando valores

T=rmoee(n, 1, 1) #MarshallOlkin

C=rexp(n,1/5.5) #Censura

t=pmin(T,C) #Tempo observado

c=rep(0,n);for (k in 1:n){if (T[k]<C[k]) c[k]=1} #vetor de censura

#Estimando numericamente lambda0_hat

resposta_l=optim(lambda0,fn=lmoee2,t=t,c=c,alpha=1,method="BFGS",

control=list(fnscale=-1))

#Estimando numericamente alpha_hat e lambda_hat

resposta=optim(inicial,fn=lmoee,t=t,c=c,method="BFGS",

#TRV

TRV=2*(lmoee(resposta$par,t,c)-lmoee2(alpha0,t,c,resposta_l$par))

#TG

TG=(1/alpha0)*sum(1-smoee(t, alpha0,resposta_l$par)*(1+c))*

(resposta$par[1]-alpha0)

#Propor¸c~ao

if (1-pchisq(TRV,1)<0.05) y=c(y,1)

(58)

47

}

Y=c(Y,(sum(y)/10000))

Z=c(Z,(sum(z)/10000))

N=c(N,n)

z=y=NULL

#Gerando os gr´aficos

plot(N,Y,type=’l’,ylim=c(0,.6),col=’blue’,lty=1,xlab=’Tamanho de amostra n’,

ylab=’%’)

lines(N,Z,type=’l’,col=’red’,lty=5)

abline(h=.05,lty=3)

legend(’topright’, c(’TRV’,’TG’), col=c(’blue’,’red’),

text.col = c(’blue’,’red’),lty = c(1,5), merge = F, bg = ’gray90’)

}

2) Para distribui¸c˜ao Weibull na forma estendida de Marshall-Olkin

################################################################################

#Pacote das fun¸c~oes do MarshallOlkin

library(reliaR)

require(survival)

#Fun¸c~ao de Verossimilhan¸ca para alpha_hat e lambda_hat

lmoew=function(par,t,c){

alpha=par[1]

lambda=par[2]

if (alpha>0 & lambda>0) sum(c*log(hmoew(t,alpha,lambda))+

log(smoew(t, alpha, lambda))) else NA

}

#Fun¸c~ao de Verossimilhan¸ca para lambda0_hat

lmoew2=function(lambda,t,c,alpha){

(59)

48

log(smoew(t, alpha, lambda))) else NA

}

#Valores iniciais

alpha0=lambda0=1

names(alpha0)=’alpha0_hat’

names(lambda0)=’lambda0_hat’

inicial=c(1,1)

names(inicial)=c(’alpha_hat’,’lambda_hat’)

#Simula¸c~ao

#Permuta¸c~oes

N=Y=y=Z=z=NULL

for (n in seq(5,150,5)){

for (i in 1:10000) {

#Gerando valores

T=rmoew(n, 1, 1) #MarshallOlkin

C=rexp(n,1/5.5) #Censura

t=pmin(T,C) #Tempo observado

c=rep(0,n);for (k in 1:n){if (T[k]<C[k]) c[k]=1} #vetor de censura

#Estimando numericamente alpha0_hat

resposta_a=optim(alpha0,fn=lmoew2,t=t,c=c,lambda=1,method="BFGS",

ajuste=survreg(Surv(t,c)~1,dist="weibull")

l.restrito=ajuste$log[2]

#Estimando numericamente alpha_hat e lambda_hat

(60)

49

#TRV

#TRV=2*(lmoew(resposta$par,t,c)-lmoew2(lambda0,t,c,resposta_a$par))

TRV=2*(lmoee(resposta$par,t,c)-l.restrito)

#TG

TG=(1/lambda0)*sum(1-smoew(t, resposta_a$par,lambda0)*(1+c))*

(resposta$par[2]-lambda0)

#Propor¸c~ao

if (1-pchisq(TRV,1)<0.05) y=c(y,1)

if (1-pchisq(TG,1)<0.05) z=c(z,1)

}

Y=c(Y,(sum(y)/10000))

Z=c(Z,(sum(z)/10000))

N=c(N,n)

z=y=NULL

#Gerando os gr´aficos

plot(N,Y,type=’l’,ylim=c(0,.3),col=’blue’,lty=1,xlab=’Tamanho de amostra n’,

ylab=’%’)

lines(N,Z,type=’l’,col=’red’,lty=5)

abline(h=.05,lty=3)

legend(’topright’, c(’TRV’,’TG’), col=c(’blue’,’red’),

text.col = c(’blue’,’red’),lty = c(1,5), merge = F, bg = ’gray90’)