• Nenhum resultado encontrado

Modelos de regressão beta retangular heteroscedásticos aumentados em zeros e uns

N/A
N/A
Protected

Academic year: 2021

Share "Modelos de regressão beta retangular heteroscedásticos aumentados em zeros e uns"

Copied!
180
0
0

Texto

(1)

Ana Roberta dos Santos Silva

Modelos de regressão beta retangular

heteroscedásticos aumentados em zeros e uns

CAMPINAS 2015

(2)
(3)
(4)

Ficha catalográfica

Universidade Estadual de Campinas

Biblioteca do Instituto de Matemática, Estatística e Computação Científica Maria Fabiana Bezerra Muller - CRB 8/6162

Silva, Ana Roberta dos Santos,

Si38m SilModelos de regressão beta retangular heteroscedásticos aumentados em zeros e uns / Ana Roberta dos Santos Silva. – Campinas, SP : [s.n.], 2015.

SilOrientador: Caio Lucidius Naberezny Azevedo.

SilDissertação (mestrado) – Universidade Estadual de Campinas, Instituto de Matemática, Estatística e Computação Científica.

Sil1. Inferência bayesiana. 2. Inferência estatística. 3. Distribuição

(Probabilidades). 4. Modelos lineares generalizados. 5. Dados de proporção. I. Azevedo, Caio Lucidius Naberezny,1979-. II. Universidade Estadual de Campinas. Instituto de Matemática, Estatística e Computação Científica. III. Título.

Informações para Biblioteca Digital

Título em outro idioma: Zero-one augmented heteroscedastic rectangular beta regression

models

Palavras-chave em inglês:

Bayesian inference Statistical inference

Distribution (Probability theory) Generalized linear models Proportional data

Área de concentração: Estatística Titulação: Mestra em Estatística Banca examinadora:

Caio Lucidius Naberezny Azevedo [Orientador] Víctor Hugo Lachos Dávila

Jorge Luis Bazán Guzmán

Data de defesa: 26-02-2015

Programa de Pós-Graduação: Estatística

(5)
(6)
(7)

Abstract

In this work we developed the zero-one augmented rectangular beta distribution, as well as a correspondent zero-one augmented rectangular beta regression model to analyze limited-augmented data (represented by mixed random variables with limited support), which present outliers. We develop inference tools under the Bayesian and frequentist approaches. Regarding to the Bayesian inference, due the impossibility of obtaining analytically the posterior distributions of interest, we used MCMC algorithms. Concerning the frequentist estimation, we use the EM algorithm. We develop techniques of residual analysis, by using the randomized quantile residuals, under both frequentist and Bayesian approaches. We also developed influence measures, only under the Bayesian approach, by using the measure of Kullback Leibler. In addition, we adapt methods of posterior predictive checking available in the literature, to our model, using appropriate discrepancy measures. For model selection, we use the criteria commonly employed in the literature, such as AIC, BIC and DIC. We performed several simulation studies, considering some situations of practical interest, in order to compare the Bayesian and frequentist estimates, as well as to evaluate the behavior of the developed diagnostic tools. A psychometric real data set was analyzed to illustrate the performance of the developed tools.

Keywords: Augmented rectangular beta distribution, Bayesian inference, frequentist

infe-rence, generalized linear models, diagnostic analysis.

Resumo

Neste trabalho desenvolvemos a distribuição beta retangular aumentada em zero e um, bem como um correspondente modelo de regressão beta retangular aumentado em zero e um para analisar dados limitados-aumentados (representados por variáveis aleatórias mistas com suporte limitado), que apresentam valores discrepantes. Desenvolvemos ferramentas de inferência sob as abordagens bayesiana e frequentista. No que diz respeito à inferência bayesiana, devido à impos-sibilidade de obtenção analítica das posteriores de interesse, utilizou-se algoritmos MCMC. Com relação à estimação frequentista, utilizamos o algoritmo EM. Desenvolvemos técnicas de análise de resíduos, utilizando o resíduo quantil aleatorizado, tanto sob o enfoque frequentista quanto bayesi-ano. Desenvolvemos, também, medidas de influência, somente sob o enfoque bayesiano, utilizando

(8)

a medida de Kullback Leibler. Além disso, adaptamos métodos de checagem preditiva à posteriori existentes na literatura, ao nosso modelo, utilizando medidas de discrepância apropriadas. Para a comparação de modelos, utilizamos os critérios usuais na literatura, como AIC, BIC e DIC. Reali-zamos diversos estudos de simulação, considerando algumas situações de interesse prático, com o intuito de comparar as estimativas bayesianas com as frequentistas, bem como avaliar o comporta-mento das ferramentas de diagnóstico desenvolvidas. Um conjunto de dados da área psicométrica foi analisado para ilustrar o potencial do ferramental desenvolvido.

Palavras-chave: Distribuição beta retangular aumentada, inferência bayesiana, inferência

(9)

Sumário

Dedicatória xi Agradecimentos xiii 1 Introdução e Motivação 1 1.1 Introdução . . . 1 1.2 Motivação . . . 2 1.3 Organização da dissertação . . . 4

2 Modelo de regressão Beta Retangular Aumentado em 0 e 1 7 2.1 Introdução . . . 7

2.2 Distribuição Beta . . . 8

2.3 Distribuição Beta Retangular . . . 8

2.4 Uma reparametrização da distribuição Beta Retangular . . . 9

2.5 Distribuição Beta Retangular Aumentada em zero e um . . . 10

2.6 Modelo de Regressão Beta Retangular Aumentado em zero e um . . . 14

3 Estimação, análise de diagnóstico e seleção de modelos 17 3.1 Introdução . . . 17

3.2 Inferência bayesiana . . . 17

3.2.1 Distribuições à priori . . . 18

3.2.2 Apresentação da posteriori e das condicionais completas . . . 18

3.2.3 Desenvolvimento do algoritmo MCMC . . . 20

3.3 Estimação por máxima verossimilhança via algoritmo EM . . . 21

3.3.1 Estimação dos parâmetros do componente discreto do modelo . . . 24

3.3.2 Estimação dos parâmetros do componente contínuo do modelo . . . 25

3.3.3 Obtenção dos erros-padrão . . . 28

3.4 Análise de diagnóstico e seleção de modelos . . . 30

3.4.1 Resíduos quantis aleatorizados . . . 30

3.4.2 Critérios de comparação de modelos . . . 32

3.4.3 Influência bayesiana . . . 34

(10)

4 Estudos de Simulação 37

4.1 Introdução . . . 37

4.2 Estudo de convergência dos algoritmos MCMC . . . 37

4.3 Estudos de replicação . . . 50

4.3.1 Modelo de regressão beta retangular . . . 53

4.3.2 Modelo de regressão beta retangular aumentado em zero . . . 53

4.3.3 Modelo de regressão beta retangular aumentado em um . . . 59

4.3.4 Modelo de regressão beta retangular aumentado em zero e um . . . 59

4.4 Estudos de replicação transformando os dados . . . 67

4.5 Resultados da análise de diagnóstico e seleção de modelos . . . 74

4.5.1 Análise dos resíduos . . . 74

4.5.2 Análise de influência . . . 88

4.5.3 Seleção de modelos sob as abordagens bayesiana e frequentista . . . 91

4.5.4 Validação de modelos sob a ótica bayesiana . . . 93

5 Aplicação a dados reais 95 5.1 Introdução . . . 95

5.2 Análise Inferencial . . . 96

5.3 Aplicação I . . . 97

5.3.1 Modelos de regressão beta e beta retangular . . . 98

5.3.2 Modelos de regressão beta retangular aumentado em zero e um e beta au-mentado em zero e um . . . 106

5.3.3 Conclusões . . . 115

5.4 Aplicação II . . . 115

5.4.1 Modelos de regressão beta retangular e beta . . . 118

5.4.2 Modelos de regressão beta retangular aumentado em zero e um e beta au-mentado em zero e um . . . 127 5.4.3 Conclusões . . . 137 6 Conclusões 139 6.1 Considerações finais . . . 139 6.2 Trabalhos futuros . . . 140 Referências Bibliográficas 141 A Estimação por máxima verossimilhança 147 A.1 Componente discreto do modelo . . . 147

A.2 Componente contínuo do modelo . . . 150

B Obtenção da distribuição conjunta 155

C Detalhes do Algoritmo MCMC 157

(11)
(12)
(13)

Agradecimentos

Nossos esforços para a construção deste trabalho teriam sido em vão se, ao final, não pudéssemos agradecer aos que ajudaram a construí-lo. Dessa forma, gostaríamos de expressar nossos sinceros reconhecimentos, pedindo desculpas antecipadas a quem foi involuntária e injustamente omitido.

Agradeço primeiramente a Deus, por sempre ter iluminado meu caminho com saúde, vivacidade e pessoas de grande valor, que me ofereceram seu apoio com entusiasmo, inspiração, generosidade e competência.

Agradeço à pessoa mais importante da minha vida, a quem devo tudo que sou hoje: Vicentina, minha mãe, minha amiga, minha heroína. Obrigada por todo o amor, carinho, dedicação, força, paciência, segurança, tranquilidade, pelos conselhos, ensinamentos, sempre mostrando o que é certo e errado, e por sempre incentivar, confiar e acreditar em mim, mesmo nos momentos mais difíceis. A senhora é a grande responsável por tudo de maravilhoso que acontece na minha vida. Eu te amo minha Mãe!

À meu orientador, Caio Azevedo, que com paciência esperou pela conclusão deste trabalho, sou grata pelo apoio, confiança e compreensão, em especial nos momentos difíceis. Obrigada pela oportunidade de ser sua orientanda, pela competente orientação, pela segurança, tranquilidade e força transmitidos nesses dois anos, e principalmente durante a elaboração deste trabalho. O conhecimento que ganhei trabalhando perto do senhor, realmente é imenso.

Ao professor Jorge Luis Bazán Guzmán, pela enorme experiência emprestada para a construção do presente trabalho.

Ao professor Juvêncio, meu primeiro orientador, pelos valiosos ensinamentos dados, pela con-fiança e pelo acompanhamento, sempre contribuindo com orientações, sugestões e correções ao longo dessa trajetória.

Aos professores do Instituto de Matemática, Estatística e Computação Científica da Universi-dade Estadual de Campinas, que ajudaram na minha formação acadêmica, em especial ao professor Victor Hugo Lachos que lecionou com maestria a disciplina de métodos computacionais em estatís-tica, disciplina esta que pude aprender todo o ferramental que me auxíliou na parte computacional deste trabalho.

Ao professor Raydonal Ospina da Universidade Federal de Pernambuco, agradeço pela atenção e disponibilidade em esclarecer as minhas dúvidas prontamente.

Aos professores do Departamento de Estatística e Matemática Aplicada, em especial ao pro-fessor Maurício, um grande mestre e amigo.

À Nathalia, obrigada pela compreensão, paciência, companheirismo, força e apoio destinados em todos os momentos. Agradeço pela sua presença constante em minha vida, pelos puxões de

(14)

orelha (rsrs), pelas inúmeras palavras de conforto, pelo inestimável auxílio em diversas atividades realizadas, pelos sonhos e principalmente pela confiança e amizade. Obrigada por tudo!

Aos membros participantes da banca examinadora pelas sugestões.

A você leitor, que depois de tudo, é a principal motivação deste trabalho.

Por fim, agradeço a FAPESP pelo apoio financeiro a este projeto, por meio de uma bolsa de Mestrado, processo nº 2013/07850-0.

(15)

Lista de Ilustrações

1.1 Histograma referente ao risco de submter-se a um teste genético que avalia se a

pessoa tem predisposição à doenças cardíacas. . . 3

1.2 A divergência K-L aplicada ao conjunto de dados da aplicação 1 para os modelos: (a)beta aumentado em zero e um ; (b)beta retangular aumentado em zero e um. . . 4

2.1 Densidades beta para diferentes valores de 𝜇 e 𝜑: 𝜇 = 0, 3 (linha sólida), 𝜇 = 0, 5 (linha tracejada), 𝜇 = 0, 6 (linha pontilhada) e 𝜇 = 0, 8 (linha tracejada e pontilhada). 9 2.2 Distribuições BRAZU para diferentes valores de 𝛾, 𝜑 e 𝛼: 𝛼 = 0 (linha sólida), 𝛼 = 0, 2 (linha tracejada), 𝛼 = 0, 4 (linha pontilhada) e 𝛼 = 0, 6 (linha tracejada e pontilhada); 𝑝0 = 0, 3 e 𝑝1 = 0, 3. . . . 13

3.1 Descrição do método de checagem preditiva à posteriori (Sinharay et al., 2006). . . . 36

4.1 Gráficos de trajetórias e gráficos das autocorrelações do modelo de regressão beta retangular. . . 39

4.2 Critério de Gelman-Rubin para o modelo de regressão beta retangular. . . 40

4.3 Gráficos de autocorrelações para o modelo de regressão beta retangular. . . 41

4.4 Gráficos de trajetórias e gráficos das autocorrelações do modelo de regressão beta retangular aumentado em zero e um. . . 45

4.5 Critério de Gelman-Rubin para o modelo de regressão beta retangular aumentado em zero e um. . . 47

4.6 Gráficos de autocorrelações para o modelo de regressão beta retangular aumentado em zero e um. . . 49

4.7 Gráficos dos resíduos para o cenário C1 sob a abordagem frequentista. . . 76

4.8 Gráficos dos resíduos para o cenário C2 sob a abordagem frequentista. . . 77

4.9 Gráficos dos resíduos para o cenário C3 sob a abordagem frequentista. . . 78

4.10 Gráficos dos resíduos para o cenário C4 sob a abordagem frequentista. . . 79

4.11 Gráficos dos resíduos para o cenário C1 sob a abordagem bayesiana. . . 80

4.12 Gráficos dos resíduos para o cenário C2 sob a abordagem bayesiana. . . 81

4.13 Gráficos dos resíduos para o cenário C3 sob a abordagem bayesiana. . . 82

4.14 Gráficos dos resíduos para o cenário C4 sob a abordagem bayesiana. . . 83

4.15 Gráficos dos resíduos ajustando o modelo de regressão beta retangular aumentado em zero e um sob a abordagem frequentista. . . 85

(16)

4.16 Gráficos dos resíduos ajustando o modelo de regressão beta aumentado em zero e um sob a abordagem frequentista. . . 86 4.17 Gráficos dos resíduos ajustando o modelo de regressão beta retangular aumentado

em zero e um sob a abordagem bayesiana. . . 87 4.18 Gráficos dos resíduos ajustando o modelo de regressão beta aumentado em zero e

um sob a abordagem bayesiana. . . 88 4.19 A divergência K-L aplicada ao conjunto de dados simulado para os modelos: (a)beta

aumentada em zero e um; (b)beta retangular aumentada em zero e um. . . 89 4.20 A calibração da divergência K-L aplicada ao conjunto de dados simulado para os

modelos: (a)beta aumentada em zero e um; (b)beta retangular aumentada em zero e um. . . 90 4.21 A divergência K-L aplicada ao conjunto de dados simulado para os modelos: (a)beta

aumentada em zero e um; (b)beta retangular aumentada em zero e um. . . 90 4.22 A calibração da divergência K-L aplicada ao conjunto de dados simulado para os

modelos: (a)beta aumentada em zero e um; (b)beta retangular aumentada em zero e um. . . 91 5.1 Boxplots da variável resposta em função das variáveis categóricas etnia, gênero e

wvcat (a)-(c) e Gráfico de dispersão da variável resposta em função da variável idade (d). . . 98 5.2 Gráficos dos resíduos associados ao modelo de regressão beta sob a abordagem

frequentista. . . 102 5.3 Gráficos dos resíduos associados ao modelo de regressão beta sob a abordagem

bayesiana. . . 103 5.4 Gráficos dos resíduos associados ao modelo de regressão beta retangular sob a

abor-dagem frequentista. . . 104 5.5 Gráficos dos resíduos associados ao modelo de regressão beta retangular sob a

abor-dagem bayesiana. . . 105 5.6 A divergência K-L aplicada ao conjunto de dados para os modelos: (a)beta ; (b)beta

retangular. . . 106 5.7 A calibração da divergência K-L aplicada ao conjunto de dados para os modelos:

(a)beta; (b)beta retangular. . . 106 5.8 Gráficos dos resíduos ajustando o modelo de regressão beta aumentado em zero e

um sob a abordagem frequentista. . . 110 5.9 Gráficos dos resíduos ajustando o modelo de regressão beta aumentado em zero e

um sob a abordagem bayesiana. . . 111 5.10 Gráficos dos resíduos ajustando o modelo de regressão beta retangular aumentado

em zero e um sob a abordagem frequentista. . . 112 5.11 Gráficos dos resíduos ajustando o modelo de regressão beta retangular aumentado

em zero e um sob a abordagem bayesiana. . . 113 5.12 A divergência K-L aplicada ao conjunto de dados para os modelos: (a)beta

(17)

5.13 A calibração da divergência K-L aplicada ao conjunto de dados para os modelos: (a)beta aumentado em zero e um ; (b)beta retangular aumentado em zero e um. . . 114 5.14 Boxplots da variável resposta em função das variáveis categóricas etnia, gênero e

wvcat (a)-(c) e Gráfico de dispersão da variável resposta em função da variável idade (d). . . 116 5.15 Boxplots da variável resposta binária em função da variável idade. . . 118 5.16 Gráficos dos resíduos ajustando o modelo de regressão beta sob a abordagem

fre-quentista. . . 122 5.17 Gráficos dos resíduos ajustando o modelo de regressão beta sob a abordagem bayesiana.123 5.18 Gráficos dos resíduos ajustando o modelo de regressão beta retangular sob a

abor-dagem frequentista. . . 124 5.19 Gráficos dos resíduos ajustando o modelo de regressão beta retangular sob a

abor-dagem bayesiana. . . 125 5.20 A divergência K-L aplicada ao conjunto de dados para os modelos: (a)beta ; (b)beta

retangular. . . 126 5.21 A calibração da divergência K-L aplicada ao conjunto de dados para os modelos:

(a)beta; (b)beta retangular. . . 127 5.22 Gráficos dos resíduos ajustando o modelo de regressão beta aumentado em zero e

um sob a abordagem frequentista. . . 132 5.23 Gráficos dos resíduos ajustando o modelo de regressão beta aumentado em zero e

um sob a abordagem bayesiana. . . 133 5.24 Gráficos dos resíduos ajustando o modelo de regressão beta retangular aumentado

em zero e um sob a abordagem frequentista. . . 134 5.25 Gráficos dos resíduos ajustando o modelo de regressão beta retangular aumentado

em zero e um sob a abordagem bayesiana. . . 135 5.26 A divergência K-L aplicada ao conjunto de dados para os modelos: (a)beta

aumen-tada em zero e um ; (b)beta retangular aumentado em zero e um. . . 136 5.27 A calibração da divergência K-L aplicada ao conjunto de dados para os modelos:

(18)
(19)

Lista de Tabelas

3.1 Prioris usuais associadas aos parâmetros do modelo . . . 18 4.1 Cenários dos estudos de replicação . . . 50 4.2 Resultados de simulação referentes ao modelo 1.1 - 𝛽0 = −1, 5, 𝛽1 = 1, 5, 𝜑 = 50 e

𝛼 = 0, 5 . . . 54

4.3 Resultados de simulação referentes ao modelo 1.2 - 𝛽0 = −1, 5, 𝛽1 = 1, 5, 𝛿0 = −3, 0, 𝛿1 = −1, 8 e 𝛼 = 0, 5 . . . 55 4.4 Resultados de simulação referentes ao modelo 2.1 - 𝑝0 = 0, 2, 𝛽0 = −1, 5, 𝛽1 =

1, 5, 𝜑 = 50 e 𝛼 = 0, 5 . . . 56 4.5 Resultados de simulação referentes ao modelo 2.2 - 𝑝0 = 0, 2, 𝛽0 = −1, 5, 𝛽1 =

1, 5, 𝛿0 = −3, 0, 𝛿1 = −1, 8 e 𝛼 = 0, 5 . . . 57 4.6 Resultados de simulação referentes ao modelo 2.3 - 𝜌0 = −1, 8, 𝜌1 = 1, 5, 𝛽0 =

−1, 5, 𝛽1 = 1, 5, 𝛿0 = −3, 0, 𝛿1 = −1, 8 e 𝛼 = 0, 5 . . . 58 4.7 Resultados de simulação referentes ao modelo 3.1 - 𝑝1 = 0, 2, 𝛽0 = −1, 5, 𝛽1 =

1, 5, 𝜑 = 50 e 𝛼 = 0, 5 . . . 61 4.8 Resultados de simulação referentes ao modelo 3.2 - 𝑝1 = 0, 2, 𝛽0 = −1, 5, 𝛽1 =

1, 5, 𝛿0 = −3, 0, 𝛿1 = −1, 8 e 𝛼 = 0, 5 . . . 62 4.9 Resultados de simulação referentes ao modelo 3.3 - 𝜓0 = −1, 8, 𝜓1 = 1, 5, 𝛽0 =

−1, 5, 𝛽1 = 1, 5, 𝛿0 = −3, 0, 𝛿1 = −1, 8 e 𝛼 = 0, 5 . . . 63 4.10 Resultados de simulação referentes ao modelo 4.1 - 𝑝0 = 0, 2, 𝑝1 = 0, 2, 𝛽0 =

−1, 5, 𝛽1 = 1, 5, 𝜑 = 50 e 𝛼 = 0, 5 . . . 64 4.11 Resultados de simulação referentes ao modelo 4.2 - 𝑝0 = 0, 2, 𝑝1 = 0, 2, 𝛽0 =

−1, 5, 𝛽1 = 1, 5, 𝛿0 = −3, 0, 𝛿1 = −1, 8 e 𝛼 = 0, 5 . . . 65 4.12 Resultados de simulação referentes ao modelo 4.3 - 𝜌0 = −1, 8, 𝜌1 = 1, 5, 𝜓0 =

−1, 8, 𝜓1 = 1, 5, 𝛽0 = −1, 5, 𝛽1 = 1, 5, 𝛿0 = −3, 0, 𝛿1 = −1, 8 e 𝛼 = 0, 5 . . . 66 4.13 Resultados de simulação referentes aos modelos de regressão beta retangular e beta

retangular aumentado em zero e um - 𝑝0 = 𝑝1 = 1% (percentuais de zeros e uns),

𝛽0 = −1, 5, 𝛽1 = 1, 5, 𝜑 = 50 e 𝛼 = 0, 5 . . . 70 4.14 Resultados de simulação referentes aos modelos de regressão beta retangular e beta

retangular aumentado em zero e um - 𝑝0 = 5% e 𝑝1 = 3% (percentuais de zeros e uns), 𝛽0 = −1, 5, 𝛽1 = 1, 5, 𝜑 = 50 e 𝛼 = 0, 5 . . . 71 4.15 Resultados de simulação referentes aos modelos de regressão beta retangular e beta

retangular aumentado em zero e um - 𝑝0 = 10% e 𝑝1 = 8% (percentuais de zeros e uns), 𝛽0 = −1, 5, 𝛽1 = 1, 5, 𝜑 = 50 e 𝛼 = 0, 5 . . . 72

(20)

4.16 Resultados de simulação referentes aos modelos de regressão beta retangular e beta retangular aumentado em zero e um - 𝑝0 = 𝑝1 = 20% (percentuais de zeros e uns),

𝛽0 = −1, 5, 𝛽1 = 1, 5, 𝜑 = 50 e 𝛼 = 0, 5 . . . 73

4.17 Cenários dos resíduos . . . 75

4.18 Média dos critérios de seleção - Primeira situação . . . 92

4.19 Média dos critérios de seleção - Segunda situação . . . 93

4.20 Resultados do p-valor bayesiano - Situação 1 . . . 94

4.21 Resultados do p-valor bayesiano - Situação 2 . . . 94

5.1 Níveis das variáveis categóricas . . . 96

5.2 Número de observações . . . 97

5.3 Estimativas dos parâmetros e seus respectivos erros-padrão, intervalos de confiança e de credibilidade para o modelo de regressão beta. . . 100

5.4 Estimativas dos parâmetros e seus respectivos erros-padrão, intervalos de confiança e de credibilidade para o modelo de regressão beta retangular. . . 100

5.5 Critérios para seleção de modelos e p-valor bayesiano. . . 101

5.6 Estimativas dos parâmetros e seus respectivos erros-padrão, intervalos de confiança e de credibilidade para os modelos de regressão beta aumentado em zero e um e beta retangular aumentado em zero e um. . . 108

5.7 Critérios para seleção de modelos e p-valor bayesiano. . . 109

5.8 Número de observações . . . 115

5.9 Número de observações zeros e uns de acordo com a variável gênero . . . 117

5.10 Número de observações zeros e uns de acordo com a variável etnia . . . 117

5.11 Número de observações zeros e uns de acordo com a variável wvcat . . . 117

5.12 Estimativas dos parâmetros e seus respectivos erros-padrão, intervalos de confiança e de credibilidade para o modelo de regressão beta. . . 120

5.13 Estimativas dos parâmetros e seus respectivos erros-padrão, intervalos de confiança e de credibilidade para o modelo de regressão beta retangular. . . 120

5.14 Critérios para seleção de modelos e p-valor bayesiano. . . 121

5.15 Estimativas dos parâmetros e seus respectivos erros-padrão, intervalos de confiança e de credibilidade para o modelo de regressão beta aumentado em zero e um. . . 130

5.16 Estimativas dos parâmetros e seus respectivos erros-padrão, intervalos de confiança e de credibilidade para o modelo de regressão beta retangular aumentado em zero e um. . . 130

(21)

Capítulo 1

Introdução e Motivação

1.1 Introdução

Cada vez mais, em diversas áreas do conhecimento, surgem conjuntos de dados na forma de taxas e proporções, por exemplo, taxas de mortalidade, taxas de infecção de doenças e proporção de indivíduos que admitem ter intenção de voto por um candidato em particular, etc. Se a variável resposta é uma proporção medida de forma contínua no intervalo (0,1) é comum o uso de uma transformação nos dados para que esses assumam valores na reta real ou no conjunto dos números reais positivos. Entre as transformações mais usuais para esse tipo de dados temos: a transformação logito, 𝑔(𝑦) = log{𝑦/(1 − 𝑦)}, a transformação probito, 𝑔(𝑦) = Φ−1(𝑦), onde Φ(·) representa a função de distribuição acumulada de uma variável aleatória Normal padrão, a transformação log-log complementar, 𝑔(𝑦) = log-log{− log-log(1 − 𝑦)}, a transformação log-log-log-log, 𝑔(𝑦) = − log-log{− log-log(𝑦)}, a transformação angular 𝑔(𝑥) = sin−1(√𝑦), entre outras. A utilização dessas e outras transformações

para dados de proporções encontram-se descrita em Atkinson (1985).

Os modelos de regressão linear, no século 𝑋𝐼𝑋, e posteriormente os modelos lineares generali-zados, no início da década de 70, utilizam-se de algumas suposições que limitam sua aplicação, por exemplo em situações que a variável resposta é restrita ao intervalo unitário (0,1). Nesses casos, os valores ajustados para a variável resposta obtidos através dos modelos de regressão linear podem exceder os limites desse intervalo, para detalhes veja Charnet et al. (2008). Mesmo nos modelos lineares generalizados, há algumas suposições que também limitam sua aplicação, por exemplo o fato da distribuição da variável resposta 𝑦 necessariamente pertencer a alguma distribuição da família exponencial. Paula (2004) mostra detalhes dos modelos lineares generalizados.

Nos últimos anos surgiu uma nova classe de modelos de regressão conhecida como modelos aditivos generalizados para localização, escala e forma. Rigby e Stasinopoulos (2005) o definiram como GAMLSS, do termo inglês generalized additive models for location, scale and shape. Essa classe de modelos permitiu uma exploração mais ampla de diversas distribuições para a variável resposta. Entre essas distribuições temos a beta, beta inflacionada em zero e/ou um.

Ferrari e Cribari-Neto (2004) propuseram um modelo de regressão para situações em que a variável resposta 𝑦 é medida de forma contínua no intervalo (0,1). O modelo proposto é baseado na suposição que a resposta tem distribuição beta, utilizando uma parametrização da família beta que é indexada pela média e seu parâmetro de dispersão.

(22)

Frequentemente, dados na forma de taxas ou proporções apresentam zeros e/ou uns. Com exceção da transformação angular, as transformações mencionadas acima não estão definidas para

𝑦 = 0 ou 𝑦 = 1, isto é, proporções observadas com o valor zero ou um. Piepho (2003) propõe

uma transformação alternativa, que permite modelar dados de proporções com presença de zeros ou uns. Esta transformação baseia-se numa extensão da transformação exponencial dada por Manly (1976). Contudo, as transformações a dados na forma de frações ou proporções modificam a natureza real dos dados e não possibilitam a interpretação direta dos parâmetros envolvidos no modelo.

Ospina e Ferrari (2012) apresentaram um modelo de regressão inflacionados de zeros ou uns baseado na distribuição beta inflacionada, proposta por Ospina e Ferrari (2010). Esse modelo permite a presença de zeros e/ou uns, atribuindo uma certa probabilidade de se observar dados. Na verdade, o que temos nesse caso é uma modelagem de dados provenientes de uma mistura finita das distribuições beta e Bernoulli.

O interesse nos modelos de regressão beta inflacionados é crescente na última década. Pereira (2010) apresenta várias aplicações do modelo de regressão beta inflacionado. Wieczorek e Hawala (2011) mostram uma aplicação em dados de taxas de pobreza em municípios dos Estados Unidos. Além disso, Pereira (2012) introduz o modelo de regressão beta inflacionados truncados, em que é utilizado em situações onde os dados são provenientes de uma distribuição que é uma mistura de uma distribuição beta no intervalo (𝑐, 1) e uma distribuição trinomial que assume valores zero, um e 𝑐.

Bayes et al. (2012) propuseram um modelo de regressão beta retangular com uma alternativa robusta para modelar dados de proporções. A parametrização que eles utilizam permite modelar de forma direta a média usando um preditor linear e uma função de ligação geral, sendo essa especificação similar à dos modelos lineares generalizados (McCullagh e Nelder, 1989).

O principal objetivo deste trabalho é a modelagem estatística de dados distribuídos de forma contínua no intervalo (0,1), mas que incluem observações em ambos os extremos. A ideia consiste em assumir que a distribuição dos dados é uma mistura entre a distribuição beta retangular e a distribuição Bernoulli, a qual atribui probabilidades aos inteiros 0 e 1. Se os dados são observados no intervalo (0,1] ou [0,1) assume-se que a distribuição de probabilidade dos dados é uma mistura entre a distribuição beta retangular e uma distribuição degenerada concentrada em 0 ou 1, depen-dendo do caso. Nessa situação, o modelo proposto faz parte da classe dos modelos aumentados. A palavra aumentado é utilizada porque os valores 0 e o 1 não pertencem ao suporte da distribuição beta ou beta retangular.

1.2 Motivação

Com o objetivo de ilustrar e motivar o leitor da importância do estudo da distribuição beta retangular aumentada em zero e um, bem como o correspondente modelo de regressão beta retan-gular aumentado em zero e um, apresentaremos a seguir, duas situações referentes as aplicações que serão apresentadas neste trabalho, mostrando a vantagem da distribuição beta retangular au-mentada em zero e um sobre a distribuição beta auau-mentada em zero e um, bem como a vantagem do modelo de regressão beta retangular aumentado em zero e um sobre o modelo de regressão beta

(23)

aumentado em zero e um.

As duas aplicações, que serão utilizadas, são de um conjunto de dados reais da área de psico-metria. Os dados foram obtidos do trabalho de Carlstrom et al. (2000), que podem ser encon-trados no site http://www.stat.ucla.edu/projects/datasets/ risk_perception.html. Esse conjunto de dados é referente a parte subjetiva do estudo, em que os indivíduos foram questionados a respeito do risco de diversas atividades relacionadas a finanças e saúde. Nesse estudo, tem-se o interesse em medir o grau de risco atribuído por pessoas à atividades relacionadas a saúde e à àrea financeira.

Na primeira aplicação, escolhemos, dentre as 22 atividades do conjunto de dados, a variável NUC, que é a avaliação do risco de se morar perto de uma usina nuclear. Já na segunda aplicação, escolhemos, a variável HEART, que é a avaliação do risco ao submeter-se a um teste genético que avalia se a pessoa tem predisposição à doenças cardíacas. Maiores detalhes serão apresentados no Capítulo 5.

Na Figura 1.1, apresentamos o histograma referente ao risco atribuído de submeter-se a um teste genético que avalia se a pessoa tem predisposição à doenças cardíacas. A massa de probabilidade nos extremos do intervalo [0,1] está sendo representada pelas barras com o ponto acima. Para as observações no intervalo (0,1), traçamos as curvas da densidade das distribuições beta (linha tracejada) e beta retangular (linha contínua). Observamos que a curva da densidade da beta retangular tem uma cauda mais pesada que a curva da densidade da beta, e essa característica é inerente a distribuição beta retangular, visto que ela tem um parâmetro a mais, o qual está associado com o peso das caudas da distribuição. Portanto, essa análise sugere que a distribuição beta retangular aumentada em zero e um seria mais adequada.

Risco Densidade 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5 BR Beta

Figura 1.1: Histograma referente ao risco de submter-se a um teste genético que avalia se a pessoa tem predisposição à doenças cardíacas.

(24)

Na Figura 1.2, apresentamos os gráficos de influência utilizando a divergência de Kullback-Leibler. As Figuras 1.2(a) e 1.2(b) dizem respeito as divergências de K-L para os modelos de regressão beta aumentado em zero e um e beta retangular aumentado em zero e um, respectiva-mente. Esse estudo é referente a primeira aplicação.

A análise de influência detectou as observações 27, 58, 320, 421, 587 e 589 como potencialmente influentes para o modelo de regressão beta aumentado em zero e um. Já para o modelo de regressão beta retangular aumentado em zero e um, as observações 58, 320 e 589 não são influentes. Portanto, essa análise sugere que o modelo de regressão beta retangular aumentado em zero e um é mais adequado.

No capítulo 5 exploraremos com mais detalhes o conjunto de dados aqui mencionado, apresen-tado uma análise residual, análise de influência e critérios para comparação de modelos.

0 100 200 300 400 500 600 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 (a) Índices Div ergência K−L 27 58 320 421 587 589 0 100 200 300 400 500 600 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 (b) Índices Div ergência K−L 27 58 320 421 587 589

Figura 1.2: A divergência K-L aplicada ao conjunto de dados da aplicação 1 para os modelos: (a)beta aumentado em zero e um ; (b)beta retangular aumentado em zero e um.

1.3 Organização da dissertação

Esta dissertação encontra-se dividida em 6 capítulos. No primeiro capítulo apresentamos uma introdução e motivação referente ao trabalho que será desenvolvido. No segundo capítulo apresen-tamos as distribuições beta e beta retangular, e propomos a distribuição beta retangular aumentada em zero e um, bem como um correspondente modelo de regressão beta retangular aumentado em zero e um para analisar dados limitados-aumentados (representados por variáveis aleatórias mistas com suporte limitado), que apresentam valores discrepantes.

No terceiro capítulo desenvolvemos ferramentas de inferência sob as abordagens bayesiana e frequentista. No que diz respeito à inferência bayesiana, devido à impossibilidade de obtenção

(25)

analítica das posteriores de interesse, utilizou-se algoritmos MCMC. Com relação à estimação fre-quentista, utilizamos os algoritmos EF (escore de Fisher) e EM. Desenvolvemos técnicas de análise de resíduos, utilizando o resíduo quantil aleatorizado, tanto sob o enfoque frequentista quanto bayesiano. Desenvolvemos, também, medidas de influência, somente sob o enfoque bayesiano, uti-lizando a medida de Kullback Leibler. Além disso, adaptamos métodos de checagem preditiva à posteriori existentes na literatura, ao nosso modelo, utilizando medidas de discrepância apropria-das. Para a comparação de modelos, utilizamos os critérios usuais na literatura, como AIC, BIC e DIC.

No quarto capítulo apresentamos diversos estudos de simulação, considerando algumas situa-ções de interesse prático, com o intuito de comparar as estimativas bayesianas com as frequentistas, bem como avaliar o comportamento das ferramentas de diagnóstico desenvolvidas.

No quinto capítulo analisamos um conjunto de dados da área psicométrica para ilustrar o po-tencial do ferramental desenvolvido. Finalmente, no sexto capítulo apresentamos as considerações finais do trabalho.

As avaliações numéricas apresentadas neste trabalho foram realizadas na linguagem e ambiente de computação estatística R em sua versão 3.1.0 sob o sistema operacional Windows. Os gráficos apresentados, assim como os scripts desenvolvidos para estimação e diagnóstico dos modelos de regressão beta retangular aumentados foram produzidos no ambiente computacional R, que se encontra disponível gratuitamente em http://www.r-project.org/.

A dissertação foi digitada usando o sistema tipográfico LATEX desenvolvido por Leslie Lamport em 1985. LATEX consta de uma série de macros ou rotinas do sistema TEX(Knuth, 1986) que facilitam o desenvolvimento e edição de textos científicos.

(26)
(27)

Capítulo 2

Modelo de regressão Beta Retangular

Aumentado em 0 e 1

2.1 Introdução

Na modelagem estatística uma estratégia tipicamente adotada para situações em que uma variável dependente (resposta) é medida de forma contínua no intervalo (0,1) é o uso de transfor-mações de tal forma que a variável transformada assuma valores na reta. Isto permite modelar, por exemplo, a média da nova variável através de um preditor linear baseado em um conjunto de variáveis explicativas conhecidas e parâmetros desconhecidos (Atkinson, 1985). No entanto, essa metodologia possui algumas limitações, uma das quais é a perda de interpretabilidade dos parâmetros da regressão em termos da variável resposta original.

Os modelos de regressão linear, no século 𝑋𝐼𝑋, e posteriormente os modelos lineares generali-zados, no início da década de 70, utilizam-se de algumas suposições que limitam sua aplicação, por exemplo em situações que a variável resposta é restrita ao intervalo unitário (0,1). Nesses casos, os valores ajustados para a variável resposta obtidos através dos modelos de regressão linear podem exceder os limites desse intervalo, para detalhes veja Charnet et al. (2008).

Numa outra linha, Paolino (2001), Kieschnick e McCullough (2003), Ferrari e Cribari–Neto (2004) e Smithson e Verkulien (2006) introduziram modelos de regressão para variáveis aleatórias que são regidas por uma distribuição de probabilidades beta, em que a média da variável resposta é relacionada a um preditor linear (definido por regressores e parâmetros de regressão desconhecidos) por meio de uma função de ligação apropriada.

Dentre as diferentes especificações dos modelos de regressão beta, Bayes et al. (2012) propuse-ram um modelo de regressão beta retangular com uma alternativa robusta para modelar dados de proporções. A parametrização que eles utilizam permite modelar de forma direta a média usando um preditor linear e uma função de ligação geral, sendo essa especificação similar à dos modelos lineares generalizados (McCullagh e Nelder, 1989). Bayes et al. (2012) apresentam resultados de inferência bayesiana, alguns critérios de comparação dos modelos, um estudo de robustez compa-rando os modelos de regressão beta retangular e beta, aplicações e fornecem um código do WinBUGS (Spiegelhalter et al., 2003) para o ajuste do modelo proposto.

(28)

(0,1) são inadequados em situações em que os valores observados da variável resposta contemplam os valores zero e/ou um além dos valores no intervalo (0,1). Assim, é mais apropriado admitir que a distribuição da variável resposta atribui probabilidade positiva a esses valores, o que não é contemplado por nenhuma distribuição contínua em (0,1).

Neste capítulo apresentamos a distribuição beta retangular aumentada em zero e um, bem como um correspondente modelo de regressão beta retangular aumentado em zero e um.

2.2 Distribuição Beta

Como a distribuição beta é bem conhecida, vamos analisar diretamente a reparametrização proposta por Ferrari e Cribari-Neto (2004). Uma variável aleatória 𝑌 segue uma distribuição beta se sua densidade é dada por:

𝑏(𝑦; 𝜇, 𝜑) = Γ(𝜑)

Γ(𝜇𝜑)Γ((1 − 𝜇)𝜑)𝑦

𝜇𝜑−1(1 − 𝑦)(1−𝜇)𝜑11

(0,1)(𝑦), (2.2.1)

em que 0 < 𝜇 < 1 e 𝜑 > 0. Será considerada a notação 𝑌 ∼ 𝐵𝑒𝑡𝑎(𝜇, 𝜑). A média e a variância são expressas por:

E(𝑌 ) = 𝜇 e V𝑎𝑟(𝑌 ) = 𝑉 (𝜇)

1 + 𝜑

em que 𝑉 (𝜇) = 𝜇(1 − 𝜇), 𝜇 é a média e 𝜑 pode ser interpretado como um parâmetro de precisão. Como indicado por Morris (1982), com essa parametrização, a distribuição beta pertence à família exponencial univariada, mas não à família exponencial natural.

2.3 Distribuição Beta Retangular

A distribuição beta pode ser considerada bastante flexível, uma vez que sua densidade pode ter diferentes formas considerando diferentes valores de 𝜇 e 𝜑. Na Figura 2.1 apresentamos os gráficos da densidade da beta para diferentes valores de 𝜇 e 𝜑. Note que 𝜑 é um parâmetro que parece controlar a precisão da distribuição, visto que para 𝜑 = 10 há uma maior dispersão, enquanto que para 𝜑 = 50 percebemos que há uma menor dispersão. Como 𝜇 é um parâmetro de localização, observamos que para diferentes valores de 𝜇 há um deslocamento das curvas. No entanto, como foi observado por Hahn (2008) e García et al. (2011), a distribuição beta não acomoda grandes probabilidades nas caudas.

Esse fato pode limitar sua aplicação para a modelagem de proporções. A fim de obter alguma flexibilidade adicional, utilizamos um modelo de regressão que permite quantidades variáveis de dispersão e que acomoda uma quantidade maior de probabilidade nas caudas, considerando a distribuição beta retangular proposta por Hahn (2008), cuja densidade é dada por:

𝑔(𝑦; 𝜇, 𝜑, 𝜃) = 𝜃11(0,1)(𝑦) + (1 − 𝜃)𝑏(𝑦|𝜇, 𝜑)11(0,1)(𝑦), (2.3.1)

(29)

A notação a ser considerada será 𝑌 ∼ 𝐵𝑅(𝜇, 𝜑, 𝜃). A distribuição beta retangular é uma mis-tura de uma distribuição uniforme, 𝒰 (0, 1), e uma distribuição 𝐵𝑒𝑡𝑎(𝜇, 𝜑). A média e a variância dessa distribuição são dadas por:

E(𝑌 ) = 𝜃 2 + (1 − 𝜃)𝜇 V𝑎𝑟(𝑌 ) = 𝑉 (𝜇) 1 + 𝜑(1 − 𝜃)[1 − 𝜃(1 + 𝜑)] + 𝜃 12(4 − 3𝜃). (2.3.2)

Note que a distribuição uniforme é recuperada quando 𝜃 = 1 e a distribuição beta é recuperada quando 𝜃 = 0. 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5 φ =10 y b(y) 0.0 0.2 0.4 0.6 0.8 1.0 0 1 2 3 4 5 6 7 φ =50 y b(y)

Figura 2.1: Densidades beta para diferentes valores de 𝜇 e 𝜑: 𝜇 = 0, 3 (linha sólida), 𝜇 = 0, 5 (linha tracejada), 𝜇 = 0, 6 (linha pontilhada) e 𝜇 = 0, 8 (linha tracejada e pontilhada).

2.4 Uma reparametrização da distribuição Beta

Retangu-lar

Em modelos de regressão, a média da resposta é tipicamente modelada (Ferrari e Cribari-Neto, 2004). No entanto, a média da distribuição beta retangular (2.3.2) é uma função do parâmetro de mistura 𝜃 e de 𝜇. De acordo com Bayes et al. (2012), se fizermos a E(𝑌 |𝜇, 𝜑, 𝜃) = 𝜃

2+ (1 − 𝜃)𝜇 = 𝛾, obtém-se que o espaço paramétrico de 𝜃 é restrito para o valor de 𝛾 da seguinte forma:

(30)

A fim de se obter uma estrutura de regressão mais adequada para a média da distribuição beta retangular, Bayes e Bazán (2014) definiram

𝛾 = 𝜃 2+ (1 − 𝜃)𝜇 𝑒 𝛼 = 𝜃 2 (︁ 1 − 𝜃 2 )︁ 𝜃 2 (︁ 1 − 𝜃 2 )︁ + (1 − 𝜃)2𝜇(1 − 𝜇) (2.4.1)

como uma nova parametrização. Neste caso, o espaço paramétrico de 𝛾 e 𝛼 é um retângulo dado por {0 ≤ 𝛾 ≤ 1, 0 ≤ 𝛼 ≤ 1}.

Sob essa parametrização temos que

𝜃 = 1 −√︁1 − 4𝛼𝛾(1 − 𝛾) 𝑒 𝜇 = 𝛾 − 1 2 + 1 2 √︁ 1 − 4𝛼𝛾(1 − 𝛾) √︁ 1 − 4𝛼𝛾(1 − 𝛾) (2.4.2)

e consequentemente a densidade da distribuição beta retangular é dada por:

ℎ(𝑦; 𝛾, 𝜑, 𝛼) = (︂ 1 −√︁1 − 4𝛼𝛾(1 − 𝛾) )︂ 11(0,1)(𝑦) + √︁ 1 − 4𝛼𝛾(1 − 𝛾) × × 𝑏 ⎛ ⎝ 𝛾 − 12 +12√︁1 − 4𝛼𝛾(1 − 𝛾) √︁ 1 − 4𝛼𝛾(1 − 𝛾) , 𝜑 ⎞ ⎠11(0,1)(𝑦). (2.4.3)

Para a distribuição beta retangular reparametrizada de parâmetros (𝛾, 𝜑, 𝛼)⊤, a notação a ser considerada será 𝑌 ∼ 𝐵𝑅𝑟(𝛾, 𝜑, 𝛼), com o parâmetro da média sendo represeado por 𝛾.

2.5 Distribuição Beta Retangular Aumentada em zero e

um

Para proporções observadas no intervalo [0,1] admitimos que as probabilidades de observar os valores zero e um são positivas. Para esse tipo de dados, utilizamos uma distribuição derivada da mistura entre uma distribuição beta retangular e uma distribuição Bernoulli, a qual atribui proba-bilidades não-negativas aos inteiros 0 e 1. Aqui, a distribuição beta retangular serve para modelar o componente contínuo dos dados enquanto que a distribuição Bernoulli modela o componente discreto, isto é, os pontos de massa em zero e um.

Seja 𝑌 uma variável aleatória que assume valores no intervalo fechado [0,1]. Dizemos que 𝑌 tem distribuição beta retangular aumentada em zero e um (BRAZU) de parâmetros (𝜏, 𝜂, 𝛾, 𝜑, 𝛼)⊤ se sua função de densidade é da forma

𝑓 (𝑦; 𝜏, 𝜂, 𝛾, 𝜑, 𝛼) =[︁𝜏 (1 − 𝜂)1−𝑦(𝜂)𝑦]︁11{0,1}(𝑦) + (1 − 𝜏 )ℎ(𝑦; 𝛾, 𝜑, 𝛼)11(0,1)(𝑦), (2.5.1)

em que h(𝑦; 𝛾, 𝜑, 𝛼) é como em (2.4.3) e (𝜏, 𝜂) ∈ (0, 1)2. Denotaremos tal distribuição por 𝑌 ∼

𝐵𝑅𝐴𝑍𝑈 (𝜏, 𝜂, 𝛾, 𝜑, 𝛼). Note que 𝜏 = P(𝑌 = 0 ∪ 𝑌 = 1), isto é, a probabilidade da observação

(31)

𝜂 = P(𝑌 = 1|11{0,1}(𝑦)), isto é, a probabilidade da observação ser igual a um, dado que ela é aumentada.

Note que P(𝑌 = 1) = 𝜏 𝜂, P(𝑌 = 0) = 𝜏 (1 − 𝜂) e, para 0 < 𝑎 < 𝑏 < 1, P(𝑌 ∈ (𝑎, 𝑏)) = (1 − 𝜏 )

∫︁ 𝑏

𝑎

ℎ(𝑦|𝛾, 𝜑, 𝛼)𝑑𝑦.

Serão considerados também os casos que existem aumentos somente no zero, ou no valor um. Nesses casos, a densidade (2.5.1) reduz-se, respectivamente, à

𝑓 (𝑦; 𝜏, 𝛾, 𝜑, 𝛼) = 𝜏 11{0}(𝑦) + (1 − 𝜏 )ℎ(𝑦; 𝛾, 𝜑, 𝛼)11(0,1)(𝑦) (2.5.2)

e

𝑓 (𝑦; 𝜏, 𝛾, 𝜑, 𝛼) = 𝜏 11{1}(𝑦) + (1 − 𝜏 )ℎ(𝑦; 𝛾, 𝜑, 𝛼)11(0,1)(𝑦). (2.5.3)

A média e a variância da distribuição beta retangular aumentada em zero e um são dadas por: E(𝑌 ) = 𝜏 𝜂 + (1 − 𝜏 )𝛾 V𝑎𝑟(𝑌 ) = 𝜏 𝑉1 + (1 − 𝜏 )𝑉2+ 𝜏 (1 − 𝜏 )(𝜂 − 𝛾)2, (2.5.4) em que 𝑉1 = 𝜂(1 − 𝜂) e 𝑉2 = 𝜃 3 + (1 − 𝜃) [︃ 𝜇(1 − 𝜇) 1 + 𝜑 + 𝜇 2 ]︃

− 𝛾2, em que 𝜃 e 𝜇 foram definidos em (2.4.2). Note que E(𝑌 ) é uma média ponderada entre o primeiro momento da distribuição Bernoulli e o correspondente momento da distribuição beta retangular reparametrizada com pesos

𝜏 e 1 − 𝜏 , respectivamente.

É possível observar que V𝑎𝑟(𝑌 ) → 𝑉2, quando 𝜏 → 0, e V𝑎𝑟(𝑌 ) → 𝑉1, quando 𝜏 → 1. No caso em que as duas distribuições em (2.5.1) são misturadas na mesma proporção, isto é, 𝜏 = 1/2, temos que V𝑎𝑟(𝑌 ) = (𝑉1+ 𝑉2)/2 + (𝜂 − 𝛾)2/4. Para 𝜏, 𝛾, 𝜑, 𝛼 fixos, P(𝑌 = 0) → 𝜏 quando 𝜂 → 0 e P(𝑌 = 1) → 𝜏 quando 𝜂 → 1. Se 𝜂 = 1/2 temos que a P(𝑌 = 0) = P(𝑌 = 1) = 𝜏 /2. Além disso, à medida que 𝜏 → 1 a distribuição BRAZU tende a concentrar sua massa de probabilidade nos extremos do intervalo [0,1], isto é, tende à distribuição Bernoulli de parâmetro 𝜂. Na situação em que 𝜏 → 0 a distribuição BRAZU tende à distribuição BRr(𝛾, 𝜑, 𝛼).

A função de distribuição acumulada da beta retangular aumentada em zero e um pode ser definida da seguinte forma:

F(𝑦; 𝜏, 𝜂, 𝛾, 𝜑, 𝛼) = 𝜏 Ber(𝑦; 𝜂) + (1 − 𝜏 )BR(𝑦; 𝛾, 𝜑, 𝛼), (2.5.5) em que Ber(𝑦; 𝜂) representa a função de distribuição acumulada da Bernoulli de parâmetro 𝜂 e BR(𝑦; 𝛾, 𝜑, 𝛼) é a função de distribuição acumulada da beta retangular reparametrizada que são definidas por: Ber(𝑦; 𝜂) = ⎧ ⎪ ⎨ ⎪ ⎩ 0, se 𝑦 < 0 (1 − 𝜂), se 0 ≤ 𝑦 < 1 1, se 𝑦 ≥ 1

(32)

e

BR(𝑦; 𝛾, 𝜑, 𝛼) = 𝜃𝐺1(𝑦) + (1 − 𝜃)𝐺2(𝑦; 𝜇, 𝜑),

em que 𝐺1(𝑦) é a função de distribuição acumulada da uniforme no intervalo (0,1) e 𝐺2(𝑦; 𝜇, 𝜑) é a função de distribuição acumulada da beta que são definidas por:

𝐺1(𝑦) = ⎧ ⎪ ⎨ ⎪ ⎩ 0, se 𝑦 < 0 𝑦, se 0 ≤ 𝑦 < 1 1, se 𝑦 ≥ 1 e 𝐺2(𝑦; 𝜇, 𝜑) = 𝐵(𝑦; 𝜇, 𝜑) 𝛽(𝜇, 𝜑) , em que 𝛽(𝜇, 𝜑) = Γ(𝜇𝜑)Γ((1 − 𝜇)𝜑)

Γ(𝜑) e 𝐵(𝑦; 𝜇, 𝜑) é chamada de função beta incompleta dada por:

𝐵(𝑦; 𝜇, 𝜑) = ∫︁ 𝑦

0

𝑡𝜇𝜑−1(1 − 𝑡)(1−𝜇)𝜑−1𝑑𝑡.

Para a distribuição BRAZU podem ser consideradas outras parametrizações. Seguindo a pro-posta de Ospina (2008), podemos formular uma parametrização na qual o parâmetro da distribui-ção Bernoulli satisfaz a reladistribui-ção 𝜂 = 𝑝1/𝜏 e o parâmetro de mistura 𝜏 = 𝑝0+𝑝1. Essa parametrização é útil na definição do modelo de regressão, visto que as probabilidades de ocorrência de zeros e uns é obtida de forma direta. Dessa forma, a densidade BRAZU pode ser escrita como

𝑓 (𝑦; 𝑝0, 𝑝1, 𝛾, 𝜑, 𝛼) = 𝑝 1−𝑦

0 𝑝

𝑦

111{0,1}(𝑦) + (1 − 𝑝0− 𝑝1)ℎ(𝑦|𝛾, 𝜑, 𝛼)11(0,1)(𝑦), (2.5.6) em que h(𝑦; 𝛾, 𝜑, 𝛼) é como em (2.4.3). Nessa parametrização a interpretação dos parâmetros é mais intuitiva, como mencionado anteriormente, uma vez que 𝑝0 = P(𝑌 = 0), 𝑝1 = P(𝑌 = 1) e

𝛾, 𝜑, 𝛼 são os parâmetros da distribuição beta retangular (2.4.3).

É possível reescrever a densidade em (2.5.6) da seguinte forma

𝑓 (𝑦; 𝑝0, 𝑝1, 𝛾, 𝜑, 𝛼) = 𝑝011{0}(𝑦) + 𝑝111{1}(𝑦) + (1 − 𝑝0− 𝑝1)ℎ(𝑦|𝛾, 𝜑, 𝛼)11(0,1)(𝑦). (2.5.7) A partir da densidade em (2.5.7), e considerando que 𝑝0 e 𝑝1 possam ser iguais a zero, também podemos considerar os casos que existem aumentos somente no zero ou no valor um. Nesses casos, a densidade (2.5.7) reduz-se, respectivamente, à

𝑓 (𝑦; 𝑝0, 𝛾, 𝜑, 𝛼) = 𝑝011{0}(𝑦) + (1 − 𝑝0)ℎ(𝑦; 𝛾, 𝜑, 𝛼)11(0,1)(𝑦) (2.5.8)

e

(33)

No entanto, vale resssaltar que essa parametrização induz a restrição no espaço paramétrico dada por 0 < 𝑝0+ 𝑝1 < 1.

Note que em (2.5.3) e (2.5.6) quando 𝛼 = 0 obtemos a distribuição beta inflacionada proposta por Ospina (2008).

A Figura 2.2 apresenta gráficos da densidade BRAZU (equação 2.5.6) para diferentes valores dos parâmetros 𝑝0, 𝑝1, 𝛾, 𝜑, 𝛼. Note que o 𝛼 é um parâmetro de forma que está associado com a espessura das caudas da distribuição e 𝜑 é um parâmetro que parece controlar a precisão da distribuição. Para grandes valores de 𝜑 observamos uma menor dispersão. Note que em (0,1), se

𝛾 < 1/2 e 𝜑 ≤ 2, a distribuição BRAZU tem forma de “J” refletido; para 𝛾 > 1/2 e 𝜑 ≤ 2 a

distribuição BRAZU tem forma de “J” com massa de probabilidade nos extremos de [0,1] sendo representada pelas barras com o ponto acima. Podemos observar que quando 𝛾 = 0, 5 e 𝜑 = 10, a densidade é simétrica e há uma maior dispersão. Como 𝛾 é um parâmetro de localização, quando diminuímos o seu valor para 𝛾 = 0, 3, percebemos um deslocamento das curvas, fazendo com que a densidade seja assimétrica à direita. Podemos notar também que quando fixamos o valor de

𝛾 = 0, 5, por exemplo, e aumentamos o valor de 𝜑 de 10 para 50, percebemos que há uma menor

dispersão. Com relação ao comportamento das caudas da distribuição, à medida que o 𝛼 aumenta, as caudas ficam mais pesadas.

0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.5 1.0 1.5 2.0 2.5 (γ =0.25, φ =2) y br azu(y) ● ● 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.5 1.0 1.5 2.0 2.5 (γ =0.75, φ =2) y br azu(y) ● ● 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 1.2 (γ =0.5, φ =10) y br azu(y) ● ● 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 1.2 (γ =0.3, φ =10) y br azu(y) ● ● 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.5 1.0 1.5 2.0 2.5 (γ =0.5, φ =50) y br azu(y) ● ● 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.5 1.0 1.5 2.0 2.5 (γ =0.3, φ =50) y br azu(y) ● ●

Figura 2.2: Distribuições BRAZU para diferentes valores de 𝛾, 𝜑 e 𝛼: 𝛼 = 0 (linha sólida), 𝛼 = 0, 2 (linha tracejada), 𝛼 = 0, 4 (linha pontilhada) e 𝛼 = 0, 6 (linha tracejada e pontilhada); 𝑝0 = 0, 3 e

(34)

2.6 Modelo de Regressão Beta Retangular Aumentado em

zero e um

Nesta seção, consideramos um modelo em que a variável resposta (𝑌 ) assume valores no inter-valo [0,1] com probabilidade positiva de ocorrer os inter-valores zero e um.

Sejam 𝑌1, . . . , 𝑌𝑛variáveis aleatórias independentes, cada uma com densidade dada por (2.5.6),

isto é, 𝑌𝑡 ∼ BRAZU(𝑝0𝑡, 𝑝1𝑡, 𝛾𝑡, 𝜑𝑡, 𝛼), 𝑡 = 1, . . . , 𝑛. O modelo de regressão beta retangular

aumen-tado em zero e um (MRBRAZU) é definido por (2.5.6) e pelos componentes sistemáticos

𝑔1(𝛾𝑡) = 𝑝 ∑︁ 𝑖=1 𝑥𝑡𝑖𝛽𝑖 = 𝜂1𝑡 𝑔2(𝜑𝑡) = 𝑘 ∑︁ 𝑗=1 −𝑤𝑡𝑗𝛿𝑗 = 𝜂2𝑡 𝐻(𝑝0𝑡, 𝑝1𝑡) = (ℎ0(𝑝0𝑡, 𝑝1𝑡), ℎ1(𝑝0𝑡, 𝑝1𝑡)) = (𝜁0𝑡, 𝜁1𝑡), (2.6.1) em que 𝛾𝑡 = E(𝑌𝑡|𝑌𝑡 ∈ (0, 1)), 𝑝0𝑡 = P(𝑌𝑡 = 0), 𝑝1𝑡 = P(𝑌𝑡 = 1) e 1 − 𝑝0𝑡 − 𝑝1𝑡 = P(𝑌𝑡

(0, 1)). As funções 𝜂1𝑡 = x𝑡 𝛽, 𝜂2𝑡 = −w𝑡𝛿, 𝜁0𝑡 = v𝑡 𝜌, 𝜁1𝑡 = z𝑡 𝜓 são preditores lineares; 𝛽 =

(𝛽1, . . . , 𝛽𝑝)⊤, 𝛿 = (𝑝1, . . . , 𝛿𝑘)⊤, 𝜌 = (𝜌1, . . . , 𝜌𝑘0)

, 𝜓 = (𝜓

1, . . . , 𝜓𝑘1)

são vetores de parâmetros de regressão desconhecidos a serem estimados tais que 𝛽 ∈ R𝑝, 𝛿 ∈ R𝑘, 𝜌 ∈ R𝑘0 e 𝜓 ∈ R𝑘1. Aqui,

x𝑡= (𝑥𝑡1, ...𝑥𝑡𝑝)⊤,w𝑡 = (𝑤𝑡1, ...𝑤𝑡𝑘)⊤,v𝑡 = (𝑣𝑡1, ...𝑣𝑘0) ⊤ e z 𝑡 = (𝑧𝑡1, ...𝑧𝑘1) ⊤ são vetores de 𝑝, 𝑘, 𝑘 0 e 𝑘1 covariáveis, respectivamente.

De acordo com Bayes et al. (2012), utilizamos o sinal negativo em 𝑔2(𝜑𝑡), como indicado por

Smithson e Verkuilen (2006), para fazer a interpretação dos coeficientes 𝛿 de forma mais simples pois, como 𝜑 é um parâmetro de precisão, um sinal positivo indica uma menor variância, o que é potencialmente confuso. Parece mais natural modelar a dispersão, em vez da precisão, e o sinal negativo nos permite fazê-lo. Também há a questão sobre a estimação dos parâmetros (o próprio 𝜑 ou os parâmetros de regressão a ele associados) ser obtida com uma maior precisão, ver Cribari-Neto e Souza (2012).

Admitimos que as funções de ligação 𝑔1 : (0, 1) → R e 𝑔2 : R+ → R são estritamente mo-nótona e duas vezes diferenciáveis. Já a função 𝐻 é uma transformação bijetora do conjunto C = {(𝑝0𝑡, 𝑝1𝑡) : 0 < 𝑝0𝑡 < 1, 0 < 𝑝1𝑡< 1 − 𝑝0𝑡} a R2, duplamente diferenciável. Sob as condições impostas para 𝐻, garante-se que as derivadas parciais de 𝑝0𝑡 = ℎ*0(𝜁0𝑡, 𝜁1𝑡) e de 𝑝1𝑡 = ℎ*1(𝜁0𝑡, 𝜁1𝑡) são contínuas em R2 e 𝑝

0𝑡, 𝑝1𝑡 podem ser escritos em termos de 𝜁0𝑡 e 𝜁1𝑡 de forma única (Rudin, 1976). Note que a função 𝐻 pode ser escolhida de forma geral para satisfazer as condições exigidas acima. De acordo com Ospina (2008), podemos considerar 𝐻 tal que

𝐻(𝑝0𝑡, 𝑝1𝑡) = (ℎ0(𝑝0𝑡, 𝑝1𝑡), ℎ1(𝑝0𝑡, 𝑝1𝑡)) = (︃ (︃ 𝑝0𝑡 1 − 𝑝0𝑡− 𝑝1𝑡 )︃ , ℎ (︃ 𝑝1𝑡 1 − 𝑝0𝑡− 𝑝1𝑡 )︃)︃ , (2.6.2)

sendo a função ℎ : R+ → R estritamente monótona e duas vezes diferenciável. Note que ℎ0 e ℎ 1 são funções de R2 em R.

Consideramos as funções de ligação logito para 𝑔1, ou seja, 𝑔1(𝛾𝑡) = log (𝛾𝑡/1 − 𝛾𝑡) e logarítmica

(35)

ℎ como sendo a função logaritmo. Logo, ℎ0(𝑝0𝑡, 𝑝1𝑡) = log(𝑝0𝑡/(1 − 𝑝0𝑡− 𝑝1𝑡)) = 𝜁0𝑡 e ℎ1(𝑝0𝑡, 𝑝1𝑡) = log(𝑝1𝑡/(1 − 𝑝0𝑡− 𝑝1𝑡)) = 𝜁1𝑡. Dessa forma,

P(𝑌𝑡= 0) P(𝑌𝑡 ∈ (0, 1)) = 𝑝0𝑡 1 − 𝑝0𝑡− 𝑝1𝑡 = exp(𝜁0𝑡), P(𝑌𝑡= 1) P(𝑌𝑡 ∈ (0, 1)) = 𝑝1𝑡 1 − 𝑝0𝑡− 𝑝1𝑡 = exp(𝜁1𝑡). Assim, 𝑝0𝑡 = P(𝑌𝑡= 0) = 𝑒𝜁0𝑡 1 + 𝑒𝜁0𝑡+ 𝑒𝜁1𝑡, 𝑝1𝑡 = P(𝑌𝑡= 1) = 𝑒𝜁1𝑡 1 + 𝑒𝜁0𝑡+ 𝑒𝜁1𝑡, 1 − 𝑝0𝑡− 𝑝1𝑡 = P(𝑌𝑡∈ (0, 1)) = 1 1 + 𝑒𝜁0𝑡+ 𝑒𝜁1𝑡.

Vamos agora reescrever a densidade da distribuição BRAZU(𝑦𝑡; 𝑝0𝑡, 𝑝1𝑡, 𝛾𝑡, 𝜑𝑡, 𝛼) de forma a

estruturar de uma maneira mais clara, do que a formulação anterior, a mistura entre as distribuições beta retangular reparametrizada e Bernoulli. O intuito dessa definição também é utilizá-la na estimação dos parâmetros. Suponha que 𝑌𝑡 pode assumir valores no intervalo fechado [0, 1]. Para

cada 𝑌𝑡 define-se 𝑧𝑡* como:

𝑧𝑡* = ⎧ ⎪ ⎨ ⎪ ⎩ 0 se 𝑦𝑡 ∈ (0, 1) 1 se 𝑦𝑡 ∈ {0, 1} (2.6.3)

Quando 𝑍𝑡* = 0, temos que 𝑌𝑡 tem distribuição BRr(𝛾𝑡, 𝜑𝑡, 𝛼). Quando 𝑍𝑡* = 1, temos que 𝑌𝑡

tem distribuição Bernoulli(𝜂𝑡), em que 𝜂𝑡 = 𝑝1𝑡/(𝑝0𝑡 + 𝑝1𝑡). Ainda, sabemos que a probabilidade de 𝑍𝑡* = 1, ou seja, P(𝑌𝑡 = 0 ou 𝑌𝑡 = 1) = P(𝑍𝑡* = 1) é igual a 𝑝0𝑡+ 𝑝1𝑡, e por consequência a P(𝑍𝑡* = 0) = 1 − 𝑝0𝑡− 𝑝1𝑡. Melhor dizendo, temos que 𝑍𝑡* ∼ Bernoulli(𝑝0𝑡+ 𝑝1𝑡).

Portanto, a distribuição conjunta de (𝑦𝑡, 𝑧𝑡*)

dado o vetor de parâmetrosϒ = (𝜌, 𝜓

, 𝛽, 𝛿, 𝛼)

pode ser escrita como:

𝑓 (𝑦𝑡, 𝑧*𝑡; 𝑝0𝑡, 𝑝1𝑡, 𝛾𝑡, 𝜑𝑡, 𝛼) = 𝑓1(𝑦𝑡; 𝛾𝑡, 𝜑𝑡, 𝛼)1−𝑧 * 𝑡𝑓 2(𝑦𝑡; 𝜂𝑡)𝑧 * 𝑡 × × (𝑝0𝑡+ 𝑝1𝑡)𝑧 * 𝑡(1 − 𝑝 0𝑡− 𝑝1𝑡)1−𝑧 * 𝑡11{ 𝑦𝑡,𝑧𝑡*}. (2.6.4) em que 11{𝑦𝑡,𝑧𝑡*} = 11(0,1)(𝑦𝑡)11{0}(𝑧 * 𝑡) + 11{0,1}(𝑦𝑡)11{1}(𝑧𝑡*). A 𝑓1(𝑦𝑡; 𝛾𝑡, 𝜑𝑡, 𝛼) é a densidade da beta

retangular como definida em (2.4.3) e a 𝑓2(𝑦𝑡; 𝜂𝑡) é a função de probabilidade de uma Bernoulli

com parâmetro 𝜂𝑡.

A verossimilhança para o modelo de regressão beta retangular aumentado em zero e um con-siderando o vetor de parâmetros ϒ = (𝜌, 𝜓, 𝛽, 𝛿, 𝛼)⊤ é da forma

𝐿(ϒ) =

𝑛

∏︁

𝑡=1

(36)

sendo 𝑓 (𝑦𝑡, 𝑧𝑡*; 𝑝0𝑡, 𝑝1𝑡, 𝛾𝑡, 𝜑𝑡, 𝛼) a distribuição conjunta de (𝑦𝑡, 𝑧𝑡*) ⊤ definida em (2.6.4) e 𝐿1(𝜌, 𝜓) = 𝑛 ∏︁ 𝑡=1 (𝑝1−𝑦𝑡 0𝑡 𝑝 𝑦𝑡 1𝑡)𝑧 * 𝑡(1 − 𝑝 0𝑡− 𝑝1𝑡)1−𝑧 * 𝑡, 𝐿2(𝛽, 𝛿, 𝛼) = 𝑛 ∏︁ 𝑡=1 ℎ(𝑦𝑡; 𝛾𝑡, 𝜑𝑡, 𝛼)1−𝑧 * 𝑡 (2.6.6)

em que 𝛾𝑡, 𝜑𝑡, 𝑝0𝑡, 𝑝1𝑡 são definidos através de (2.6.1) como funções dos parâmetros 𝛽, 𝛿, 𝜌 e 𝜓, respectivamente, e ℎ(𝑦𝑡; 𝛾𝑡, 𝜑𝑡, 𝛼) é a densidade da beta retangular definida em (2.4.3).

Note que a verossimilhança 𝐿(ϒ) pode ser fatorada em dois termos, um que depende apenas do vetor de parâmetros (𝜌, 𝜓⊤)⊤e outro que depende somente do vetor de parâmetros (𝛽, 𝛿, 𝛼)⊤. Assim, os vetores de parâmetros (𝜌, 𝜓⊤)⊤ e (𝛽, 𝛿, 𝛼)⊤ são separáveis (Pace e Salvan, 1997) e a inferência por máxima verossimilhança sobre (𝛽, 𝛿, 𝛼)⊤ pode ser realizada de forma indepen-dente do vetor de parâmetros (𝜌, 𝜓⊤)⊤. Note ainda que 𝐿1(𝜌, 𝜓) envolve apenas os parâmetros utilizados para modelar as probabilidades de ocorrência de zero e de um (componente discreto). Por outro lado, 𝐿2(𝛽, 𝛿, 𝛼) envolve apenas os parâmetros usados para modelar a distribuição con-dicional da variável resposta dado que esta pertence ao intervalo (0,1), isto é, do componente contínuo.

A log-verossimilhança do MRBRAZU baseada numa amostra de 𝑛 observações independentes é: ℓ(ϒ) = 𝑛 ∑︁ 𝑡=1 𝑓 (𝑦𝑡, 𝑧𝑡*; 𝑝0𝑡, 𝑝1𝑡, 𝛾𝑡, 𝜑𝑡, 𝛼) = ℓ1(𝜌, 𝜓) + ℓ2(𝛽, 𝛿, 𝛼) (2.6.7) em que 1(𝜌, 𝜓) = 𝑛 ∑︁ 𝑡=1 ℓ𝑡(𝑝0𝑡, 𝑝1𝑡), 2(𝛽, 𝛿, 𝛼) = 𝑛 ∑︁ 𝑡=1 ℓ𝑡(𝛾𝑡, 𝜑𝑡, 𝛼), (2.6.8) onde ℓ𝑡(𝑝0𝑡, 𝑝1𝑡) = 𝑧*𝑡[(1 − 𝑦𝑡) log(𝑝0𝑡) + 𝑦𝑡log(𝑝1𝑡)] + (1 − 𝑧𝑡*) log(1 − 𝑝0𝑡− 𝑝1𝑡), ℓ𝑡(𝛾𝑡, 𝜑𝑡, 𝛼) = (1 − 𝑧𝑡*) log {𝜃𝑡+ (1 − 𝜃𝑡)𝑏(𝑦𝑡; 𝜇𝑡, 𝜑𝑡)} , (2.6.9) em que 𝜃𝑡= 1 − √︁ 1 − 4𝛼𝛾𝑡(1 − 𝛾𝑡), 𝜇𝑡= 𝛾𝑡− 12 + 12 √︁ 1 − 4𝛼𝛾𝑡(1 − 𝛾𝑡) √︁ 1 − 4𝛼𝛾𝑡(1 − 𝛾𝑡) e 𝑏(𝑦𝑡; 𝜇𝑡, 𝜑𝑡) é a densidade da beta definida em (2.2.1).

(37)

Capítulo 3

Estimação, análise de diagnóstico e

seleção de modelos

3.1 Introdução

Neste capítulo serão apresentadas ferramentas de inferência sob as abordagens bayesiana e frequentista. Em seguida, desenvolvemos técnicas de análise de resíduos, utilizando o resíduo quantil aleatorizado, tanto sob o enfoque frequentista quanto bayesiano. Desenvolvemos, também, medidas de influência, somente sob o enfoque bayesiano, utilizando a medida de Kullback Leibler. Além disso, adaptamos métodos de checagem preditiva à posteriori, existentes na literatura, ao modelo de regressão beta retangular aumentado em zero e um. Adicionalmente, apresentamos alguns critérios para a comparação de modelos.

Com relação aos métodos de estimação, na abordagem frequentista, como a verossimilhança pode ser fatorada em dois termos, um que depende apenas do vetor de parâmetros do componente discreto (𝜌, 𝜓⊤)⊤ e outro que depende somente do vetor de parâmetros do componente contínuo (𝛽, 𝛿, 𝛼)⊤, utilizamos a verossimilhança aumentada (que ainda será definida neste capítulo) para o vetor de parâmetros da parte contínua, visto que ao aplicarmos o logaritmo na verossimilhança original referente a esses parâmetros (ver expressões 2.6.8 e 2.6.9), resultava no logaritmo de uma soma, e dessa forma seria muito trabalhoso obter a função escore e a matriz hessiana. Já para o vetor de parâmetros da parte discreta, utilizamos a verossimilhança original referente a esses parâmetros, uma vez que não nos deparamos com a mesma dificuldade encontrada no conjunto de parâmetros da parte contínua. Na abordagem bayesiana utilizamos a verossimilhança original, pois não houve necessidade de trabalhar com a verossimilhança aumentada.

3.2 Inferência bayesiana

A inferência bayesiana utiliza-se dos conhecimentos prévios a respeito dos parâmetros envolvi-dos no estudo, no que chamamos de informação à priori. Nessa abordagem, os parâmetros passam a ser tratados como variáveis aleatórias e não mais como quantidades fixas. A metodologia usada nesta abordagem é devido ao Teorema de Bayes, um importante teorema da Estatística que é

(38)

devido a Thomas Bayes, um pesquisador britânico que viveu de 1701 a 1761. Resumindo, temos que esse Teorema permite incorporar a informação à priori com o conjunto de dados observados (verossimilhança) e assim, após essa composição chegamos no que podemos dizer de informação à posteriori.

Nesse contexto, nos deparamos com várias situações em que é difícil obter as posterioris mar-ginais de interesse, sendo necessário o uso de técnicas computacionais avançadas, principalmente do Método MCMC (Markov Chain Monte Carlo), que é uma classe de algoritmos utilizada para simular distribuições complexas de probabilidades através das Cadeias de Markov. Dentre todos os algoritmos utilizados por esse método, podemos citar, por exemplo, o amostrador de Gibbs como sendo um dos principais.

Atualmente, com os avanços tecnológicos e as melhorias computacionais encontradas, foi pos-sível ampliar o uso desses métodos computacionais, e consequentemente, da inferência bayesiana, que nesses últimos anos tem se tornado ferramenta importantíssima na análise estatística de dados.

3.2.1 Distribuições à priori

Na escolha das prioris levamos em consideração o espaço paramétrico em que cada um dos parâmetros estão definidos, alguma informação disponível antes do experimento, ou mesmo o próprio modelo, se utilizarmos prioris ditas objetivas. Assumimos que os elementos do vetor de parâmetros ϒ = (𝜌, 𝜓, 𝛽, 𝛿, 𝛼)⊤ são mutuamente indepentes, ou seja:

𝜋(ϒ) = 𝜋(𝜌)𝜋(𝜓)𝜋(𝛽)𝜋(𝛿)𝜋(𝛼).

Na Tabela 3.1, apresentamos as distribuições à priori para os parâmetros do MRBRAZU. Seguindo o que foi feito por Bayes et al. (2012), para os parâmetros 𝜌, 𝜓, 𝛽 e 𝛿 utilizamos a distri-buição Normal multivariada. Para o parâmetro 𝛼 utilizamos a distridistri-buição beta com parâmetros a e b.

Tabela 3.1: Prioris usuais associadas aos parâmetros do modelo Parâmetros Prioris usuais

𝜌 𝒩𝑘0(𝜇𝜌, Σ𝜌)

𝜓 𝒩𝑘1(𝜇𝜓, Σ𝜓)

𝛽 𝒩𝑝(𝜇𝛽, Σ𝛽)

𝛿 𝒩𝑘(𝜇𝛿, Σ𝛿)

𝛼 Beta(a,b)

3.2.2 Apresentação da posteriori e das condicionais completas

Iremos agora combinar a verossimilhança com a distribuição à priori, encontrando assim o núcleo da distribuição à posteriori. Considere as verossimilhanças 𝐿1(𝜌, 𝜓) e 𝐿2(𝛽, 𝛿, 𝛼) definidas em (2.6.6) e o conjunto de prioris usuais apresentado na Tabela (3.1).

Referências

Documentos relacionados

As for the histological type, the absolute majority was PTC (679 cases, representing 83.7%), followed by follicular carcinoma in 61 patients (7.5%), medullary carcinoma in

Discutir os benefícios alcançados até o momento (físico, econômico, social, etc); discutir as estratégias que os usuários vêm utilizando para lidar com a

A psicanálise foi acusada de normatizadora (FOUCAULT, 1996) por haver mantido o modelo familiar burguês nuclear como o centro de sua teoria como é manifestado

MARIA JORDANA ROCHA GOMES ALVES CLASSIFICADO 16º LUGAR. JANAÍNA SAMPAIO DE SOUZA CLASSIFICADO

Nome Tipo de Dado Informação Place, 04/04/17 LOGO Conceito e Utilidade de Variáveis. ● O nome das variáveis possui restrições: ● Precisa começar com

Os valores de RFAabs, obtidos ao longo do ciclo do milho, dos estádios fenológicos de 3 folhas V3 até o estádio de grãos farináceos duros R5, para as quatro épocas de semeadura

Depois de ensaiar as amostras com 28 dias de idade, outro fato interessante do concreto exposto às baixas temperaturas em idades iniciais, é que o material que

Metepisternum lineate above superior metapleural pit, punc- tate below; bright olive green; Hind leg: coxa brown with metallic reflections, remaining leg light brown; apex of