Intervalos de Conança para os Parâmetros do
Modelo Geométrio om Inação de Zeros
C.G. CARRASCO 1
, Unidade Universitária de Ciênias Exatas e Tenológias,
UniversidadeEstadualdeGoiás,UEG,75132-903Anápolis,GO,Brasil.
M.H. TUTIA 2
, Fauldade de Tenologia de Ourinhos, FATEC - Ourinhos,
19910-206Ourinhos,SP,Brasil.
E.Y. NAKANO 3
, Departamento de Estatístia, Universidade de Brasília -
UnB,70910-900Brasília,DF,Brasil.
Resumo. PropomosnestetrabalhoautilizaçãodomodeloGeométrioomina-
çãodezeros,queéumageneralizaçãodomodeloGeométrio,naanálisededados
desobrevivêniaeonabilidade. Ouso destemodelo sefazneessárioprinipal-
mente quando os dados apresentam um número exessivo de zeros. Estimativas
demáximaverossimilhançadosparâmetrosdomodeloforamobtidas,assimomo
seusintervalosdeonançabaseadosnateoriaassintótia. Ademais,usamosaté-
niadereamostragembootstrapomoumproedimentoalternativoadequadopara
onstrução deintervalos deonança para os parâmetrosdo modelo Geométrio
ominaçãodezeros.
Palavras-have. Estimaçãointervalar,probabilidadedeobertura,téniaboots-
trap.
1. Introdução
A distribuição Geométria [7℄ é utilizada para ontar o número de fraassosque
preedemoprimeirosuesso, eamesmapodeservista omouma versãodisreta
dadistribuição Exponenial [11℄. Em partiular, naanálise deonabilidade, po-
demosestarinteressadosnonúmerode impatostermo-elétriosreebidosporum
equipamentoeletrnio antes domesmofalhar. Nosasosonde,ahane defalha
desse equipamento noprimeiroimpatoémuitoalta,podemoster umaoorrênia
muitograndedenúmeroszerosnesseonjuntodedados. Nesta situação,omodelo
Geométrioominaçãodezeros(ZIG)serámaisapropriadodoqueomodeloGeo-
métriopadrãoparaoajustedessesdados. Osmodelosominaçãodezerosomo
omodeloBinomialNegativoouPoissonominaçãodezerosjáforamamplamente
disutidospor[2℄e[8℄.
1
leber.arrasoueg.br
2
marelo.tutiafate.sp.gov.br
3
nakanounb.br
Neste artigo,propomos trabalharom adistribuiçãoGeométria ominação
de zeros na análise de dados de sobrevivênia e onabilidade, aqual é uma ge-
neralizaçãoda distribuiçãoGeométria. Oobjetivo deste trabalhoé apresentar a
téniadereamostragembootstrap [3℄omo umproedimentoalternativonaons-
truçãodeintervalosdeonançapara osparâmetrosdomodeloZIG,umavezque
osproedimentosusuaispodemnãoserválidos[1℄.
EssaténiadereamostragemfoipropostaprimeiramenteporEfron[5℄,evisaa
obtençãodeestimativasintervalaresempíriasparaosestimadoresdosparâmetros
deinteressepormeiodareamostragemdoonjuntodedadosoriginal. Existembasi-
amente doistiposdebootstrap: oparamétrio,noqualosestimadoresdemáxima
verossimilhança (EMV) são obtidos atravésdo modelo ajustado, isto é, geramos
dadosdomodeloajustadoomosvaloresdosparâmetrosxadosnosEMVobtidos
daamostraoriginal;eobootstrapnãoparamétrio,ondeosEMVsãobaseadosem
Breamostrasomreposiçãoobtidasdaamostraoriginal.
Osparâmetros do modelo ZIG são estimados atravésdo logaritmo da função
de verossimilhança, utilizando-se de um algoritmodo tipoNewton implementado
nafunçãonlm (non linear minimization) dopaote statsdisponívelno softwareR
[4℄. Do mesmo modo, intervalos de onançasão onstruídos para osparâmetros
do modeloZIG atravésda teoriaassintótia usual, utilizando-se das propriedades
assintótiasdosestimadoresdemáximaverossimilhança. Tambémsãoonstruídos
intervalos de onança bootstrap para os parâmetros do modelo ZIG omo uma
alternativaadequadaaosmétodosusuaisdeestimaçãointervalar. Paraompararos
proedimentosdeonstruçãodeintervalosdeonança,alulamosaprobabilidade
deoberturaeasamplitudesmédiasdessesintervalos.
Parailustrarmosametodologiaadotadanestetrabalho,geramosnosoftwareR
umonjuntodedadosommuitoszerose,aessesdados,ajustamososmodelosZIG
eGeométrioatravésdassuasrespetivasfunçãodesobrevivênia,omparando-as
omasestimativasdeKaplan-Meier.
2. Desenvolvimento
AdistribuiçãoGeométriaominaçãodezeroséumageneralizaçãodadistribuição
Geométria, onde temos uma ombinação da distribuição Geométria om uma
distribuiçãoujaprobabilidadedezeroéiguala1. Adistribuiçãodeprobabilidades
domodeloZIGpodeserexpressadaseguinteforma
f(x) = θ(1 − θ) x ρ + (1 − ρ)I ( x ) {0} = (θρ + (1 − ρ)) I ( x ) {0} (θ (1 − θ) x ρ) 1− I (x) {0} (2.1)
onde
x = 0, 1, 2, . . .
;0 ≤ θ ≤ 1
é o parâmetro da distribuição Geométria que representa a probabilidade instantânea do evento de interesse e,0 ≤ ρ ≤ 1
é oparâmetrodemisturadadistribuiçãoGeométriaomumadistribuiçãodegenerada
em
x = 0
quemodelaosexessosdezerosnãoexpliadospelomodelogeométrio.I (x) {0}
éumafunçãoindiadora,quevaleumquandox = 0
ezeroparax > 0
.Empartiularse
ρ = 1
,omodelo(2.1)sereduzaomodeloGeométrio.Asfunçõesdesobrevivêniaederisopodemseresritas,respetivamentepor
S(x) = P (X > x) = ρ (1 − θ) x−1
e
h(x) = (θ + (1 − ρ) (1 − θ)) I (x) {0} θ ( 1−I (x) {0} ) =
θ + (1 − ρ) (1 − θ) , se x = 0 θ, se x > 0
SejaXumavariávelaleatóriaomfunçãodensidadedeprobabilidadedadaem
(2.1), então na ausênia de ensuras, os parâmetros do modelo ZIG podem ser
estimadosatravésdamaximizaçãodafunçãodeverossimilhançadenidaomo[9℄
L(X | ρ, θ) =
n
Y
i=1
(θρ + (1 − ρ)) I ( xi ) {0} (θ (1 − θ) x i ρ) 1−I ( xi ) {0}
Ologaritmodafunçãodeverossimilhançapodeserapresentadopor
l (X | ρ, θ) = n 0 log (θρ + (1 − ρ)) + (n − n 0 ) (log (ρ) + log (θ)) + log (1 − θ)
∞
X
x =1
n x x
(2.2)onde
n xéonúmerodeoorrêniasdovalorx
naamostra,x = 1, 2, . . .
Empartiular,
n 0 éonúmerodezerosnaamostra. NotequeP n
P n
i=1 x i = P ∞ x=1 n x x.
OsestimadoresdemáximaverossimilhançadosparâmetrosdomodeloZIGpo-
dem ser obtidos diretamente através da maximização do logaritmo da função de
verossimilhança(2.2)pormétodosnumérios.
Ovetorgradiente dasderivadaspariaisde(2.2)éobtidoatravésde
▽l (X | ρ, θ) =
∂l(X|ρ,θ)
∂ρ
∂l(X|ρ,θ)
∂θ
!
=
n−n 0
ρ − θρ+(1−ρ) n 0 (1−θ)
n 0 ρ
θρ+(1−ρ) + n−n θ 0 − P ∞
x=1 n x x 1−θ
eamatrizJaobiana omasderivadassegundas édadapor
▽ 2 l (X | ρ, θ) =
∂ 2 l(X|ρ,θ)
∂ρ 2
∂ 2 l(X|ρ,θ)
∂ρ∂θ
∂ 2 l(X|ρ,θ)
∂θ 2
!
=
=
− [θρ+(1−ρ)] n 0 (1−θ) 2 2 − n−n ρ 2 0 n 0
θρ+(1−ρ) + [θρ+(1−ρ)] n 0 (1−θ)ρ 2
− [θρ+(1−ρ)] n 0 ρ 2 2 − n−n θ 2 0 − P ∞
x=1 n x x (1−θ) 2
Note que
n i ∼ Binomial (n, P (X = i))
, assim,E(n i ) = nP (X = i)
. Dessaforma,temos
E (n 0 ) = nP (X = 0) = n (θρ + 1 − ρ)
e
E
∞
X
x=1
n x x
!
= n
∞
X
x=1
xP (X = x) = nρ(1 − θ)
θ
Logo,éfáilveriarmosque
E (▽l (X | ρ, θ)) =
E ∂l(X|ρ,θ)
∂ρ
E ∂l(X|ρ,θ)
∂θ
= 0
0
AmatrizdeinformaçãodeFisher
I n (ρ, θ)
,édadaporI n (ρ, θ) = E − ▽ 2 l (X | ρ, θ)
=
E
− ∂ 2 l(X|ρ,θ) ∂ρ 2
E
− ∂ 2 l(X|ρ,θ) ∂ρ∂θ E
− ∂ 2 l(X|ρ,θ) ∂θ 2
=
=
n(1−θ)
ρ(θρ+1−ρ) − θρ+1−ρ n
nρ ( θ+(1−ρ)(1−θ) 2 )
θ 2 (1−θ)(θρ+1−ρ)
InvertendoamatrizdeinformaçãodeFisherobtemos
I n −1 (ρ, θ) =
ρ(1−ρ)
n + n(1−θ) θρ 2 θ 2 n(1−θ)
θ 2 nρ
!
Portanto,temosque
ρ ˆ θ ˆ
≈ N ormal 2
ρ θ
, I n −1 (ρ, θ)
(2.3)
Assim,osintervalosde
100 (1 − α) %
deonançaparaosparâmetrosdomodeloZIG(2.1)sãodadosrespetivamentepor
ˆ
ρ ± z ( 1− α 2 )
s ρ (1 − ρ)
n + θρ
n (1 − θ) 2
(2.4)
e
θ ˆ ± z ( 1− α 2 ) s
θ 2
nρ
(2.5)onde
z ( 1− α 2 )
éoquantil1 − α 2
deumadistribuiçãoNormalPadrão. Noteque
θ
eρ
emgeralsãoparâmetrosdesonheidos,dessaforma,podemossubstituí-lospelos seusestimadoresθ ˆ
eρ ˆ
,respetivamente em(2.4)e(2.5).Autilização de(2.3)é direionadapelo tamanho daamostra,que devesersu-
ientemente grande. No entanto, em análise de sobrevivênia e onabilidadeé
omum termos amostraspequenas ou moderadas, onde aaproximação(2.3) pode
nãoserválida[1℄. Nestesasosumapossibilidadeéautilizaçãodaténiaderea-
mostragembootstrapparamétriae/ounãoparamétrianaonstruçãodeintervalos
deonança,atravésdareamostragemdoonjuntodedadosoriginal[3℄.
Consideremos
θ
omo o parâmetrode interessedomodeloZIG. Para ada re-amostra da amostra original, alulamos o EMV para
θ
e temos no nal de Breamostragens,
θ ˆ 1 < . . . < θ ˆ B valoresdosEMVordenados. Utilizamos então
θ ˆ (B) ( α 2 ) e θ ˆ (B) ( 1− α 2 )
(2.6)omoos limites inferioresesuperioresdointervalo
100(1 − α)%
deonançaparaθ
,ondeα
éoníveldesigniânia. NestetrabalhoutilizamosB = 1000
. Intervalosde onançaperentis bootstrap
100(1 − α)%
para oparâmetroρ
do modelo ZIGpodemserobtidosdemaneiraanáloga.
Quandoareamostra forobtida de um modelo probabilístio,utilizando omo
parâmetrosdeste modelo as estimativasdos mesmos aluladas atravésda amos-
tra original, temos o bootstrap paramétrio. Agora, se a reamostra for feita om
reposição diretamentedaamostraoriginal,temos obootstrap nãoparamétrio. No
bootstrap paramétrio é feita suposição sobre a distribuição dos dados que gerou
a amostra original, isto é, neessita supor ou onheer a distribuição que gerou
a amostra original. No aso do bootstrap não paramétrio não preisa supor ou
onheer essa distribuição. Em ambosos asos, é neessário que a amostra seja
representativadapopulação. Maioresdetalhessobre essaténiapodem servistos
em[3℄.
Para ompararmosos proedimentos de onstrução de intervalosde onança
paraosparâmetrosdeumadistribuição,éusualoálulodasprobabilidadesdeo-
berturaedasamplitudesmédiasdessesintervalos[10℄. Aprobabilidadedeobertura
édeterminadarepetindooproedimentodeonstruçãodointervalodeonançaD
vezes,nasquaisveriamosem adaumaseoverdadeirovalordoparâmetroper-
teneounãoaointervalodeonançaobtido. Assim,aprobabilidadedeobertura
paraumintervalodeonançapodeseraluladapor
1 − P D
j=1 ψ(vp / ∈ IC j )
D
(2.7)onde
ψ(.)
éuma funçãoindiadoraquevale umsevp / ∈ IC j ezeroasoontrário,
vp
é o verdadeiro valor do parâmetro eIC j é o j-ésimo intervalo de onança
onstruído. Nestetrabalhoutilizamos
D = 1000
.Aamplitudedeumintervalodeonançaéoutroritériopara omparaçãode
intervalos deonança. Comamesmaprobabilidade deobertura,proedimentos
de intervalos deonança quepossuemmenores amplitudes são onsideradosme-
lhores[6℄. Proedimentos deintervalosde onançaonservativostendematerem
maioresamplitudesdoqueosproedimentosnãoonservativos.
3. Resultados e Disussões
A metodologia adotadaneste trabalho é apliada aum onjunto dedados de ta-
manho50geradonosoftwareRatravésdomodeloZIGomosparâmetrosxados
em
θ = 0, 15
eρ = 0, 4
. Otamanho da amostrafoi denido de forma aser su-iente pararepresentarbemoexessodezerosepequenoobastantepara evitara
normalidadeassintótia dasestimativas. Nesteexemploestamosonsiderandoque
essesdadossãoreferentesatolerâniadeumequipamentoeletrnioaonúmerode
impatos termo-elétrios onde, pelas araterístiasde fabriação,sabemos que o
primeiro impato éo maisfatal para oequipamento, isto é, ahane de falhano
20, 0,2,0,0,2,0,0,0,1,0,0,2,0,0,0,0,0,17, 4,0,0,0,0,4,0,11,0,0,0,0,
0,2,0,15,0,0,14,5,0,0,0,11,0,5,19e9.
AFigura1apresentaasurvasdesobrevivêniadosmodelosZIGeGeométrio
juntamente om a urva de Kaplan-Meier, observa-se que o modelo Geométrio
ominação dezerosse ajustamelhor aesse onjunto dedadosdo queomodelo
Geométriosimples, oqueera esperado devidoaoexesso de zerosontidonesses
dados.
0 5 10 15 20
0.0 0.2 0.4 0.6 0.8 1.0
Impactos
Função de Sobre viv ência
Figura1: Curvasde sobrevivêniadosmodelosZIG (ontínua),Geométrio(pon-
tilhada) edeKaplan-Meier(esada).
Asestimativasdemáximaverossimilhançaparaosparâmetros
θ
eρ
domodeloZIG, aluladasatravésdamaximizaçãode (2.2)utilizando afunçãonlm dosoft-
wareR, sãorespetivamente
θ ˆ = 0, 1189
eρ ˆ = 0, 3859
. Osintervalosde onançaparaosparâmetrosdomodeloZIGonstruídosutilizandoateoriaassintótiausual
(2.4)e(2.5),eaténiabootstrap(2.6)estãoondensadosnaTabela1,quetambém
apresentaasvariâniaseosvíiosdosestimadoresobtidospelosmétodosdesritos
neste trabalho. ObservandoaTabela1perebemosque osintervalosde onança
estão próximos, sendoque ointervalovia téniabootstrap não paramétria apre-
sentaumamenoramplitudeevariâniaem relaçãoaobootstrapparamétrio. Este
fato tambémoorreentre os víiosdosestimadores, ondenovamente osintervalos
nãoparamétriosapresentam-semenores.
AFigura2apresentaoshistogramaseosqq-plotsdasdistribuiçõesempíriasdos
EMV obtidosviabootstrap paramétrioe nãoparamétrio,ondeháumindiativo
de nãonormalidadedosEMV, empartiular paraosestimadoresde
θ
, sugerindo,nesteaso,queateoriausualdeverossimilhança(2.3)podenãopropiiarresultados
Tabela 1: IntervalosdeonançaparaosparâmetrosdomodeloZIG.
IntervalodeConança Parâmetro IC(95%) Variânia Víio
Assintótio
[0, 0658 ; 0, 1719] 0, 0007 −
BootstrapParamétrio
θ [0, 0785 ; 0, 1964] 0, 0010 0, 0592
BootstrapNão Param.
[0, 0876 ; 0, 1842] 0, 0007 0, 0468
Assintótio
[0, 2351 ; 0, 5367] 0, 0059 −
BootstrapParamétrio
ρ [0, 2460 ; 0, 5408] 0, 0060 0, 0049
BootstrapNão Param.
[0, 2578 ; 0, 5410] 0, 0055 0, 0060
OsresultadosdaTabela2mostramqueasprobabilidadesdeoberturaestima-
das dosproedimentos de intervalo de onançaaluladasatravésde (2.7) estão
próximasdaprobabilidadedeoberturanominalxadaem0,95,exetoparaopa-
râmetro
θ
dointervalo bootstrapnão paramétrio (0,895) e, queosproedimentos deonstrução dosintervalosdeonançasãonão onservativos,poisasprobabili-dadesdeoberturaestimadasestãoabaixodaprobabilidadedeoberturanominal
(0,95). Comrelaçãoàsamplitudesmédias,aTabela2apresentaamplitudesmédias
próximasentreosproedimentosdeintervalodeonança.
Tabela 2: Probabilidade de obertura e amplitude média para os parâmetrosdo
modeloZIG.
IntervalodeConança ProbabilidadedeCobertura Amplitude Média
Parâmetros
θ ρ θ ρ
Assintótio
0, 944 0, 945 0, 139 0, 316
BootstrapParamétrio
0, 937 0, 945 0, 156 0, 318
BootstrapNão Paramétrio
0, 895 0, 942 0, 148 0, 317
4. Conlusões
PodemosutilizaromodeloGeométrioominaçãodezerosemdadosdesobrevi-
vêniaeonabilidade,noentanto,épreisoteruidadonaonstruçãodeintervalos
deonançaparaosparâmetrosdesse modelo,uma vezqueosproedimentosusu-
aispodem nãoserválidos,empartiular paraamostraspequenas. Nesteontexto,
a ténia de reamostragem bootstrap paramétria e/ou não paramétria utilizada
apresenta-se omo um proedimento alternativo de estimação intervalar para os
parâmetrosdestemodelo,possibilitandoaobtençãodeintervalosdeonançaade-
quados. Para o onjunto de dados simulados, destaamos o intervalo bootstrap
paramétrio,queapresentouumaprobabilidade deoberturapróxima danominal
emaiordoqueobootstrapnãoparamétrio,alémdeumaamplitudemédiapróxima
Bootstrap Paramétrico
Theta
Frequência
0.05 0.15 0.25
0 50 100 150 200 250
−3 −1 1 2 3
0.10 0.15 0.20 0.25 0.30
Bootstrap Paramétrico
Quantis Teóricos
Quantis Amostr ais
Bootstrap Paramétrico
Rho
Frequência
0.1 0.3 0.5 0.7
0 50 100 150 200 250
−3 −1 1 2 3
0.1 0.2 0.3 0.4 0.5 0.6 0.7
Bootstrap Paramétrico
Quantis Teóricos
Quantis Amostr ais
Bootstrap Não Paramétrico
Theta
Frequência
0.10 0.20
0 100 200 300
−3 −1 1 2 3
0.10 0.15 0.20 0.25
Bootstrap Não Paramétrico
Quantis Teóricos
Quantis Amostr ais
Bootstrap Não Paramétrico
Rho
Frequência
0.1 0.3 0.5
0 50 100 150 200
−3 −1 1 2 3
0.2 0.3 0.4 0.5 0.6
Bootstrap Não Paramétrico
Quantis Teóricos
Quantis Amostr ais
Figura 2: QQ-plotsehistogramasdasdistribuiçõesempíriasdosestimadoresdos
parâmetrosdomodeloZIGviabootstrapparamétrioenãoparamétrio.
Abstrat. We propose inthis paperthe use of zero-inated Geometri model,
whihisageneralization oftheGeometri model,intheanalysisofreliability and
survivaldata.Theuseofthismodelisneessaryespeiallywhenthedatapresents
anexessivenumberofzeros. Maximumlikelihood estimates ofparameters were
obtained,evenastheirondeneintervalsbasedonasymptotitheory.Inaddition,
weusethebootstrapresamplingtehniqueasanappropriatealternativeproedure
toonstrutondeneintervalsofparametersofzero-inatedGeometrimodel.
Keywords. Intervalarestimation,overageprobability,bootstrappingtehnique.
Referênias
[1℄ C.G.Carraso,F.Louzada-Neto,Estimaçãointervalarpara osparâmetrosdo
modelopoly-log-logístio,Rev.Mat. Estat., 21,No.1(2003),85-95.
[2℄ A.C.Cohen,Estimationofmixturesofdisretedistributions.em"Proeedings
oftheInternationalSymposiumonDisreteDistributions",pp.373-378,Mon-
treal,Quebe.1963.
[3℄ A.C.Davison,D.V.Hinkley,BootstrapMethodsandtheirAppliation,Cam-
[4℄ R Development Core Team (2011). R: A language and environment for sta-
tistialomputing. RFoundationforStatistialComputing,Vienna, Austria.
ISBN3-900051-07-0,URLhttp://www.R-projet.org/.
[5℄ B.Efron,Bootstrapmethods: anotherlookatthejaknife,AnnalsofStatistis,
7(1979),126.
[6℄ S.L.Jeng,W.Q.Meeker,Comparisonsofapproximateondeneintervalpro-
eduresfortypeIensoreddata,Tehnometris,42(1999),135-148.
[7℄ N.L.Jonhson,S.Kotz,A.W.Kemp,UnivariateDisreteDistributions,seond
edition,JohnWileyandSons,NewYork,1992.
[8℄ N.L.Jonhson,S. Kotz,A.W.Kemp, Disrete Distributions: Distributions in
Statistis.JohnWileyandSons,NewYork,1969.
[9℄ J.F.Lawless,StatistialModelsandMethods forLifetimeData,JohnWiley
andSons,NewYork,1982.
[10℄ F.Louzada-Neto,G.C.Perdoná,C.G.Carraso,TheBi-log-logistiModel-A
omparison studyof someapproximateondene intervalproedures,JSTA
-Journal ofStatistial Theory andAppliations,8,No.4(2009),478-492.
[11℄ E.Y.Nakano,C.G.Carraso,Umaavaliaçãodousodeummodeloontínuona
análisededadosdisretosdesobrevivênia,TEMA-Tend.Mat.Apl.Comput.,
7,No1(2006),91-100.