• Nenhum resultado encontrado

Modelos Lineares Generalizados Bayesianos para Dados Longitudinais

N/A
N/A
Protected

Academic year: 2021

Share "Modelos Lineares Generalizados Bayesianos para Dados Longitudinais"

Copied!
83
0
0

Texto

(1)

Modelos Lineares Generalizados Bayesianos

para Dados Longitudinais

Frederico Monfardini

Orientador: Profa. Dra. Aparecida Doniseti Pires de Souza - DEst/FCT/UNESP Coorientador: Prof. Dr. Hélio dos Santos Migon - DME/IM/UFRJ

Programa: Matemática Aplicada e Computacional

(2)
(3)

UNIVERSIDADE ESTADUAL PAULISTA

Faculdade de Ciências e Tecnologia de Presidente Prudente

Programa de Pós-Graduação em Matemática Aplicada e Computacional

Modelos Lineares Generalizados Bayesianos

para Dados Longitudinais

Frederico Monfardini

Orientador: Profa. Dra. Aparecida Doniseti Pires de Souza - DEst/FCT/UNESP Coorientador: Prof. Dr. Hélio dos Santos Migon - DME/IM/UFRJ

Dissertação apresentada ao Programa de Pós-Graduação em Matemática Aplicada e Computacional da Faculdade de Ciências e Tecnologia da UNESP para obtenção do tí-tulo de Mestre em Matemática Aplicada e Computacional.

(4)

FICHA CATALOGRÁFICA

Monfardini, Frederico.

M752m Modelos lineares generalizados bayesianos para dados longitudinais / Frederico Monfardini. - Presidente Prudente : [s.n], 2016

79 f.

Orientador: Aparecida Doniseti Pires de Souza Coorientador: Hélio dos Santos Migon

Dissertação (mestrado) - Universidade Estadual Paulista, Faculdade de Ciências e Tecnologia

Inclui bibliografia

1. Modelos lineares generalizados. 2. Modelos hierárquicos dinâmicos. 3. MCMC. I. Monfardini, Frederico. II. Souza, Aparecida Doniseti Pires de. III. Migon, Hélio dos Santos. IV. Universidade Estadual Paulista. Faculdade de Ciências e Tecnologia. V. Modelos Lineares Generalizados Bayesianos para Dados Longitudinais.

(5)
(6)
(7)

Dedico essa dissertação a minha mãe, as minhas tias e a minha irmã, que me apoiaram durante todo este período do mestrado.

(8)
(9)

Agradecimentos

Agradeço, primeiramente, a Deus, em quem sempre depositei minha fé e onde sempre pude encontrar paz, segurança e força. O período do mestrado me ajudou a fortalecer ainda mais minha fé Nele, pois em alguns momentos tive que fazer a fé pensar e a razão crer.

Agradeço à minha família, em especial, minha mãe Sônia, minhas tias Joana Odete e Ana Rita, meu tio Raul, minha irmã Cynthia e meu cunhado Leandro, que me ajudaram e sempre me apoiaram no período do mestrado. Sem eles em minha vida, não seria possível a realização deste trabalho.

Agradeço à minha namorada Talita, que soube entender os momentos que estive longe devido ao mestrado e em quem sempre encontrei ouvidos para poder compartilhar as cargas. Com ela, aprendi que um relacionamento é muito mais do que estar junto, é poder compartilhar alegrias e tristezas e saber que aquilo que sentimos um pelo outro é verdadeiro e sincero, não importando qual seja a distância que estamos.

Agradeço à professora Aparecida, que me orientou durante quase 6 anos, incluindo a graduação e o mestrado, e hoje, depois de algumas brigas, reuniões e risadas, posso compartilhar a alegria de concluir este trabalho.

Agradeço ao Ricardo, ao Vlademir e ao Thiago, que são meus amigos desde o início de minha graduação, e são eles que me entendem quando compartilho algo relacionado a universidade. Estes são amigos que levarei por toda a vida, mesmo que estejam longe.

Agradeço ao tio Anísio, tia Marta, Ismael, Natálya, Rodrigo, Regiany, Samuel e tia Dina, que não sei dizer se foram eles que me adotaram como membro da família ou se eu que os adotei como minha família prudentina, pois os sinto como meus pais, tios e irmãos. Deles, não consigo resumir em palavras o que sinto, apenas digo obrigado por tudo.

Agradeço aos membros da igreja da comunhão evangélica, em especial, ao pastor Roberto, Marta Cristina, Mariana, Bruna, Josiê, José, Zuleica, que me contribuíram para minha caminhada na fé. Um agradecimento especial ao Ministério Infantil onde pude aprender a simplicidade de Cristo nas crianças. Agradeço à Rebeca, Davi, Breno, Luana, Bianca, Fernanda, João Vitor, Sofia e outras crianças que fazem parte do MI por me mostrar isso.

Agradeço ainda ao professor Afrânio Márcio Corrêa Vieira/DEs - UFSCar que dispo-nibilizou os conjuntos de dados para que eu pudesse finalizar meu trabalho e ao professor Elias Teixeira Krainski/DEST - UFPR que se dispôs em me ajudar com a implementação do método INLA nos modelos que eu estudei.

Se eu for colocar os nomes de todos que fizeram parte e minha vida neste período do mestrado seriam muitas páginas só de agradecimento. Assim, agradeço de coração a todos aqueles que fizeram parte de minha vida, citados ou não citados. Muito obrigado!

(10)
(11)

“ Alguns usam a estatística como os bêbados usam postes: mais para apoio do que para iluminação”. Andrew Lang

(12)
(13)

Resumo

Os Modelos Lineares Generalizados (GLM) foram introduzidos no início dos anos 70, tendo um grande impacto no desenvolvimento da teoria estatística. Do ponto de vista teórico, esta classe de modelos representa uma abordagem unificada de muitos modelos estatísticos, correntemente usados nas aplicações, podendo-se utilizar dos mesmos proce-dimentos de inferência. Com o avanço computacional das últimas décadas foi notável o desenvolvimento de extensões nesta classe de modelos e de métodos para os procedimen-tos de inferência. No contexto da abordagem Bayesiana, até a década de 80 utilizava-se de métodos aproximados de inferência, tais como aproximação de Laplace, quadratura Gaussiana e outros. No início da década de 90, foram popularizados os métodos de Monte Carlo via Cadeias de Markov (Monte Carlo Markov Chain - MCMC) que revolucionaram as aplicações no contexto Bayesiano. Apesar de serem métodos altamente eficientes, a convergência do algoritmo em modelos complexos pode ser extremamente lenta, o que gera alto custo computacional. Em 2009 surgiu o método de Aproximações de Laplace Aninhadas Integradas (Integrated Nested Laplace Aproximation - INLA) que busca efi-ciência tanto no custo computacional como na precisão das estimativas. Considerando a importância desta classe de modelos, neste trabalho propõem-se explorar extensões dos MLG para dados longitudinais e recentes propostas apresentadas na literatura para os procedimentos de inferência. Mais especificamente, explorar modelos para dados binários (binomiais) e para dados de contagem (Poisson), considerando a presença de variabilidade extra, incluindo superdispersão e presença de efeitos aleatórios através de modelos hierár-quicos e modelos hierárhierár-quicos dinâmicos. Além disso, explorar diferentes procedimentos de inferência no contexto Bayesiano, incluindo MCMC e INLA.

Palavras-Chave: Modelos Lineares Generalizados, Modelos Hierárquicos Dinâmicos, MCMC, INLA.

(14)
(15)

Abstract

Generalized Linear Models (GLM) were introduced in the early 70s, having a great impact on the development of statistical theory. From a theoretical point of view, this class of model is a unified approach to many statistical models commonly used in applications and can be used with the same inference procedures. With advances in the computer over subsequent decades has come a remarkable development of extensions in this class of design and method for inference procedures. In the context of Bayesian approach, until the 80s, it was used to approximate inference methods, such as approximation of Laplace, Gaussian quadrature, etc., The Monte Carlo Markov Chain methods (MCMC) were popularized in the early 90s and have revolutionized applications in a Bayesian context. Although they are highly efficient methods, the convergence of the algorithm in complex models can be extremely slow, which causes high computational cost. The Integrated Nested Laplace Approximations method (INLA), seeking efficiency in both computational cost and accuracy of estimates, appeared in 2009. This work proposes to explore extensions of GLM for longitudinal data considering the importance of this class of model, and recent proposals in the literature for inference procedures. More specifically, it explores models for binary data (binomial) and count data (Poisson), considering the presence of extra variability, including overdispersion and the presence of random effects through hierarchical models and hierarchical dynamic models. It also explores different Bayesian inference procedures in this context, including MCMC and INLA.

(16)
(17)

Lista de Figuras

4.1 Evolução da proporção observada para o grau de severidade da infecção na unha para os tratamentos A (linha cinza) e B (linha azul claro). . . 40 4.2 Evolução d a proporção estimada para p grau de severidade da infecção

na unha para ambos os tratamentos no Modelo (4.1), segundo os métodos MCMC (linhas pontilhadas curtas) e INLA (linhas pontilhadas longas). . . 43 4.3 Evolução da proporção estimada para o grau de severidade da infecção na

unha para ambos os tratamentos no Modelo (4.3), segundo os métodos MCMC (linhas pontilhadas curtas) e INLA (linhas pontilhadas longas). . . 44 4.4 Gráfico para a média da contagem de ataques para os grupos controle (linha

cinza) e tratamento (linha azul claro). . . 48 4.5 Número médio de ataques estimado para os pacientes com epilepsia nos

dois grupos (controle e tratamento) no Modelo (4.5), segundo os métodos MCMC (linhas pontilhadas curtas) e INLA (linhas pontilhadas longas). . . 50 4.6 Número médio de ataques estimado para os pacientes com epilepsia nos

dois grupos (controle e tratamento) no Modelo (4.7), segundo os métodos MCMC (linhas pontilhadas curtas) e INLA (linhas pontilhadas longas). . . 53 A.1 Gráficos das distribuições a posteriori para os parâmetros: (a) representa

o intercepto (α0); (b) o tipo de semente (α1); (c) o tipo de raiz (α2); (d) a interação (α12). . . 63 A.2 Gráfico para da distribuição a posteriori para a precisão do efeito aleatório. 63 A.3 Gráficos das distribuições a posteriori para os parâmetros: (a) representa o

intercepto (α0); (b) a base (αBase); (c) o tratamento (αT rt); (d) a interação (αBT; (e) a idade (αAge); (f) indicativa para 4a visita (αV4). . . 66

A.4 Gráficos das distribuições a posteriori para a precisão dos efeitos aleatórios: (a) representando cada indivíduo no primeiro tempo (bj1); (b) represen-tando cada indivíduo no tempo k (bjk). . . 67

(18)
(19)

Lista de Tabelas

2.1 Características das distribuições Normal, Bernoulli e Poisson escritas na forma da família exponencial e suas respectivas funções de ligação. . . 22 4.1 Proporção dos pacientes segundo o grau de severidade da infecção,

não-severo (0), não-severo (1) ou falta de informação (NA) ao longo do tempo. . . . 40 4.2 Estimativas para a média a posteriori, desvio padrão e intervalos de

credi-bilidade (ICr) para os parâmetros no Modelo (4.1). . . 43 4.3 Estimativas para a média a posteriori, desvio padrão e intervalos de

credi-bilidade (ICr) para os parâmetros no Modelo (4.3). . . 45 4.4 Estudo onychomycosis: Estimativas dos parâmetros e desvios padrão

(MO-LENBERGHS et al., 2010) para as diferentes estruturas de modelos com a variável resposta Bernoulli. . . 46 4.5 Número médio de ataques epilépticos em cada mês e em cada um dos

tratamentos e número de observações não disponíveis (NA). . . 47 4.6 Estimativas para a média a posteriori, desvio padrão e intervalos de

credi-bilidade (ICr) para os parâmetros no Modelo (4.5). . . 50 4.7 Estimativas para a média a posteriori, desvio padrão e intervalos de

credi-bilidade (ICr) para os parâmetros do Modelo 4.7. . . 51 4.8 Estudo epilepsia: Estimativas dos parâmetros e desvios padrão

(MOLEN-BERGHS et al., 2010) para as diferentes estruturas de modelos com a variável resposta Poisson. . . 54 A.1 Dados sobre o Planejamento Fatorial 2 × 2 por tipo de semente e tipo de

raiz. . . 61 A.2 Estimativas para a média a posteriori dos parâmetros e intervalos de

cre-dibilidade (ICr) para os parâmetros do Modelo A.1. . . 62 A.3 Dados sobre os pacientes com epilepsia . . . 64 A.4 Estimativas para a média a posteriori dos parâmetros e intervalos de

(20)
(21)

Sumário

Resumo 5 Abstract 7 Lista de Figuras 7 Lista de Tabelas 9 Capítulos 14 1 Introdução 15

1.1 Modelos Lineares Generalizados e Extensões . . . 15

1.2 Métodos Aproximados em Inferência Bayesiana . . . 16

1.3 Exemplos de Aplicação . . . 17

1.4 Proposta e Apresentação do Trabalho . . . 17

2 Modelos Lineares Generalizados e Extensões 19 2.1 A Família Exponencial . . . 19

2.2 O Modelo Linear Generalizado (GLM) . . . 20

2.2.1 Exemplos de GLM . . . 20

2.2.2 Inferência sobre os parâmetros do GLM . . . 21

2.3 GLM para Dados Longitudinais . . . 22

2.3.1 Dados Longitudinais . . . 22

2.3.2 Modelos de Superdispersão . . . 23

2.3.3 Modelos de Regressão com Efeitos Aleatórios Normais . . . 24

2.3.4 Combinando os Modelos de Superdispersão e de Efeitos Aleatórios . 24 2.4 Modelos Lineares Generalizados Hierárquicos Dinâmicos . . . 26

3 Métodos Aproximados em Inferência Bayesiana 29 3.1 Conceitos Básicos em Inferência Bayesiana . . . 29

3.1.1 Conceito de Informação . . . 29

3.1.2 Teorema de Bayes . . . 30

3.1.3 Função de Verossimilhança . . . 31

3.2 Caracterização do Problema . . . 32

3.2.1 Aproximação da Distribuição Preditiva pelo Método de Laplace . . 33

3.2.2 Aproximação da Distribuição Preditiva por Métodos de Monte Carlo 34 3.3 Métodos de Monte Carlo via Cadeias de Markov (MCMC) . . . 35

(22)

3.5 Seleção de Modelos e Medidas para a Avaliação do Ajuste . . . 37 3.5.1 Critério de Informação Deviance (DIC) . . . 37 3.5.2 Conditional predictive ordinate (CPO) . . . 37 3.5.3 Deviance Preditivo Esperado (EPD) . . . 38

4 Exemplos de Aplicação 39

4.1 Exemplo para Dados Binários . . . 39 4.1.1 Descrição e apresentação dos dados . . . 39 4.1.2 Modelagem e Estimação . . . 41 4.1.3 Resultados e Discussões . . . 42 4.2 Exemplo para Dados de Contagem . . . 46 4.2.1 Descrição e apresentação dos dados . . . 46 4.2.2 Modelagem e Estimação . . . 47 4.2.3 Resultados e Discussões . . . 49 4.3 Uso do MCMC e INLA . . . 53

5 Considerações Finais e Perspectivas Futuras 55

Referências 55

A Exemplos de Motivação 61

A.1 Exemplo de Modelo de Regressão para Dados Binários . . . 61 A.2 Exemplo de Modelo de Regressão para Dados de Contagem . . . 63 A.3 Comandos usados nos exemplos do Apêndice A . . . 67 A.3.1 Modelo de Regressão para Dados Binários . . . 67 A.3.2 Modelo de Regressão para Dados Contagem . . . 68

B Comandos usados nos exemplos do Capítulo 4 71

B.1 Modelo de Regressão para Dados Binários . . . 71

B.1.1 Código para o modelo puro para o método MCMC via OpenBUGS 71

B.1.2 Código para o modelo puro para o método INLA via linguagem de programação R . . . 72 B.1.3 Código para o modelo dinâmico para o método MCMC via

Open-BUGS . . . 72 B.1.4 Código para o modelo dinâmico para o método INLA via linguagem

de programação R . . . 73 B.2 Modelo de Regressão para Dados Contagem . . . 73

B.2.1 Código para o modelo puro para o método MCMC via OpenBUGS 73

B.2.2 Código para o modelo puro para o método INLA via linguagem de programação R . . . 74 B.2.3 Código para o modelo dinâmico para o método MCMC via

Open-BUGS . . . 74 B.2.4 Código para o modelo dinâmico para o método INLA via linguagem

(23)

Capítulo

1

Introdução

O avanço computacional das últimas décadas tem permitido que modelos complexos sejam aplicados, de forma mais realista, na representação de fenômenos estocásticos. Entre estes modelos estão os Modelos Lineares Generalizados (GLMs) e suas extensões.

Os Modelos Lineares Generalizados foram estabelecidos há mais de quatro décadas num artigo publicado por Nelder e Wedderburn (1972). Esta publicação foi um marco no desenvolvimento de modelagem estatística, permitindo, a partir daí, que fenômenos alea-tórios fossem modelados de acordo com distribuições apropriadas e sem necessariamente ter de fazer transformações nos dados.

Nestes últimos 40 anos muitas extensões foram apresentadas na literatura. A proposta deste trabalho consistiu em estudar algumas destas extensões dos GLMs e exemplos de aplicação. Dentre estas extensões estão os modelos para dados binários e para dados de contagem considerando variabilidade extra, incluindo superdispersão e presença de efeitos aleatórios, através de modelos hierárquicos e modelos hierárquicos dinâmicos. Além disso, explorar diferentes procedimentos de inferência no contexto Bayesiano, incluindo MCMC e INLA.

Neste capítulo será apresentado uma síntese do conteúdo deste trabalho e a motivação para seu desenvolvimento.

1.1

Modelos Lineares Generalizados e Extensões

O precursor na área de modelagem foi Francis Galton que, em 1886, desenvolveu o modelo de regressão linear simples, relacionando a altura de jovens adultos com a altura média de seus pais. Na sequência outros estudos envolvendo modelos de regressão foram apresentados na literatura, dentre eles pode-se citar regressão linear múltipla, regressão logística, entre outros. Em geral, estes modelos buscam relacionar uma variável aleatória, denominada resposta, em função de outras que se espera contribuir para explicar a sua variabilidade. Nelder e Wedderburn (1972) perceberam que poderiam reunir tais modelos numa classe geral, denominada Modelos Lineares Generalizados (GLM), para variável resposta com distribuição na família exponencial. A vantagem nesta classe de modelos é que a variável resposta pode assumir qualquer distribuição nesta família e a relação entre a variável resposta e as covariáveis, que podem contribuir ou não para explicar sua variabilidade, se dá através de uma função de ligação. Esta função tem o papel de

(24)

1. Introdução 16 relacionar a média da variável resposta e o preditor linear (estrutura linear envolvendo as covariáveis e seus efeitos) ((DEMÉTRIO; CORDEIRO, 2007);(DOBSON, 2001)).

Em síntese, os Modelos Lineares Generalizados foram estabelecidos há mais de quatro décadas por Nelder e Wedderburn (1972). Esta publicação foi um marco no desenvol-vimento de modelagem estatística, permitindo, a partir daí, que fenômenos aleatórios fossem modelados de acordo com distribuições apropriadas e sem necessariamente ter de fazer transformações nos dados. A falta de bibliografia acessível e de software que permi-tisse sua implementação de forma simplificada dificultou sua divulgação e aplicação por volta de 20 anos. Atualmente, a maioria dos pacotes estatísticos de maior expansão já contém módulos adequados ao estudo destes modelos. Esta classe de modelos vem ga-nhando cada vez mais espaço na estatística moderna, devido ao desenvolvimento de novas tecnologias e de software com programas para a implementação do processo de inferência, tanto para abordagem Clássica quanto Bayesiana. Uma justificativa para a escolha deste tema consiste no fato de que o conhecimento da metodologia sobre os Modelos Linea-res Generalizados e suas extensões é impLinea-rescindível para qualquer indivíduo que utilize métodos estatísticos.

Nos últimos anos, com o objetivo de modelar mais realisticamente o processo aleatório em estudo, muitas extensões foram propostas na literatura. Dentre estas extensões estão os modelos para dados binários e para dados de contagem, permitindo a inclusão de variabilidade extra, modelos lineares hierárquicos e modelos hierárquicos dinâmicos (DEY; GHOSH; MALLICK, 2000)(DIGGLE et al., 2002). Duas das principais razões para estas extensões são a ocorrência de superdispersão, o que significa que a variabilidade dos dados não é adequadamente descrita pelos modelos, e a acomodação de estrutura hierárquica nos dados, resultante de agrupamento nos dados ou mesmo de medidas repetidas no tempo (MOLENBERGHS et al., 2010).

1.2

Métodos Aproximados em Inferência Bayesiana

O avanço dos métodos de simulação estocástica e, paralelamente, de métodos com-putacionais, dos últimos anos, vem permitindo a especificação de modelos que represente adequadamente o comportamento do fenômeno aleatório em estudo, incluindo componen-tes aleatórias que capturem estruturas de correlação nos dados.

A inferência sobre o vetor de parâmetros do modelo pode ser feita através das abor-dagens Clássica ou Bayesiana. Na abordagem Bayesiana os parâmetros em estudo são considerados variáveis aleatórias, especificando-se uma distribuição a priori conjunta para o vetor de parâmetros a partir de informações disponíveis antes de uma amostra ser se-lecionada. A análise Bayesiana consiste na obtenção da distribuição a posteriori para os parâmetros, obtida combinando-se a distribuição a priori, que representa a informação disponível antes da obtenção dos dados (informativa ou não), e a função de verossimi-lhança que representa a informação contida na amostra. Desta forma, a análise Bayesiana consiste na atualização da distribuição a priori, utilizando-se para isso o teorema de Bayes (GELMAN; CARLIN; STERN, 2014); (O’HAGAN; FORSTER, 2004).

A diferença básica entre as abordagens clássica e Bayesiana para a estimação dos parâmetros está, principalmente, no fato de que a primeira considera na análise somente as informações contidas em uma amostra selecionada da população em estudo e a segunda permite incorporar informações provenientes de experiências passadas e/ou opinião de

(25)

1. Introdução 17 especialistas. Outra vantagem da abordagem Bayesiana em relação à clássica está no fato de não exigir grandes amostras, uma vez que não é baseada em resultados assintóticos.

O problema central quando se trata de Inferência Bayesiana e de modelos complexos consiste na obtenção da distribuição a posteriori, que depende da solução de integrais que nem sempre são tratáveis analiticamente e o uso de métodos numéricos se faz necessário. No caso de modelos com estruturas complexas os métodos mais eficientes são os baseados em amostragem, mais especificamente os Métodos de Monte Carlo via Cadeias de Markov (MCMC) (GAMERMAN; LOPES, 2006). Outra referência importante neste contexto é Gelfand e Smith (1990), trabalho que popularizou os métodos MCMC entre os Bayesi-anos. O método INLA (Integrated Nested Laplace Approximation) (RUE; MARTINO; CHOPIN, 2009), baseado em aproximações de Laplace para integrais aninhadas, tem sido utilizado como alternativa ao MCMC, para estimação de parâmetros via abordagem Bayesiana. Pesquisas vêm sendo desenvolvidas comparando o método INLA ao método MCMC. Alguns dos exemplos de aplicação do método INLA atualmente consistem em mapeamento de doenças, modelos espaço-temporal, modelos dinâmicos e mistura de mo-delos ((RUE; MARTINO; CHOPIN, 2009); (HELD; SCHRÖDLE; RUE, 2010) ;(ILLIAN; RUE, 2010); (RUIZ-CÁRDENAS; KRAINSKI; RUE, 2010); (SIMPSON; LINDGREN; RUE, 2011)).

1.3

Exemplos de Aplicação

Como motivação para o desenvolvimento deste trabalho, inicialmente, foram explora-das duas aplicações da literatura, cujos resultados são apresentados no Apêndice A. A primeira refere-se a análise de um Planejamento Fatorial 2 ×2 para tipo de semente e tipo de raiz, com o objetivo de explorar diferenças na proporção de germinação das sementes. A segunda tem por objetivo comparar a eficiência de uma nova droga no tratamento de pacientes portadores de epilepsia. Os dados consistem em informações sobre o número de ataques epilépticos em quatro momentos (a cada duas semanas), idade do paciente e número de ataques nas 8 semanas anteriores ao início do tratamento.

Com o objetivo de aplicar os modelos explorados neste trabalho, foram analisadas ou-tras duas aplicações. A primeira refere-se à comparação entre dois tratamentos diferentes para micose da unha do dedão do pé, ao longo do tempo. A segunda aplicação tem por objetivo comparar a efetividade de uma nova droga para pessoas com epilepsia.

1.4

Proposta e Apresentação do Trabalho

Considerando a importância dessa classe de modelos, a proposta deste trabalho con-siste em revisitar os modelos lineares generalizados, explorando extensões para dados longitudinais e recentes propostas apresentadas na literatura para os procedimentos de inferência. Mais especificamente, explorar modelos para dados binários (binomiais) e para dados de contagem (Poisson). Quanto ao procedimento de inferência pretende-se com-parar resultados obtidos via os métodos MCMC e INLA. O interesse neste projeto está em verificar as vantagens e desvantagens em se utilizar o INLA em relação ao método MCMC, nos modelos abordados.

Para isso, no Capítulo 2 são apresentados os modelos lineares generalizados e ex-tensões, considerando também estruturas hierárquicas e dinâmicas. No Capítulo 3 são

(26)

1. Introdução 18 apresentados métodos aproximados em inferência Bayesiana, explorando o amostrador de Gibbs e o INLA e algumas medidas para a avaliação do ajuste de um modelo. No Capí-tulo 4 são exploradas duas aplicações neste contexto e comparados resultados obtidos via MCMC e INLA. Considerações finais e perspectivas futuras são apresentados no Capítulo 5.

(27)

Capítulo

2

Modelos Lineares Generalizados e

Extensões

Os Modelos Lineares Generalizados (em inglês, Generalized Linear Models - GLM) foram desenvolvidos por Nelder e Wedderburn (1972). Eles tiveram a ideia de reunir vários modelos que já haviam sido desenvolvidos, tais como modelo linear normal, modelo de regressão logística, modelo de regressão de Poisson, entre outros. Observaram que a variável resposta dos modelos pertenciam à família exponencial. Assim, conseguiram reunir os diferentes tipos de modelos na classe dos GLM.

Neste capítulo será apresentado a família exponencial de distribuições e introduzida a teoria dos Modelos Lineares Generalizados propriamente dita e suas extensões.

2.1

A Família Exponencial

Considere Y uma variável aleatória que segue uma distribuição na família exponencial, definida da seguinte forma

f (y|θ, φ) = expφ−1[yθ − ψ(θ)] + c(y, φ) , (2.1)

para θ e φ parâmetros desconhecidos e ψ(·) e c(·, ·) funções conhecidas. Normalmente, θ é conhecido como parâmetro natural (ou parâmetro canônico) e φ é conhecido como parâmetro de escala (ou parâmetro de dispersão).

Segundo Verbeke e Molenberghs (2005), os dois primeiros momentos seguem a função ψ(·) com

E(Y ) = µ = ψ′(θ) (2.2)

V ar(Y ) = σ2 = φψ′′(θ). (2.3)

Uma importante implicação, em geral, é que a média e a variância são relacionadas através de σ2 = φψ′′(θ) = φψ′′′−1(µ)) = φυ(µ), onde υ(·) é chamada de função de variância, descrevendo a relação entre a média e a variância (MOLENBERGHS et al., 2010).

Importantes distribuições pertencem à família exponencial, tais como: Normal, Bino-mial (Bernoulli), Poisson, Exponencial, Weibull, entre outras.

(28)

2. Modelos Lineares Generalizados e Extensões 20

2.2

O Modelo Linear Generalizado (GLM)

No contexto de modelos de regressão, deseja-se explicar a variabilidade da variável resposta através de covariáveis medidas. Isso conduz aos modelos lineares generalizados (GLM). Para isso, seja Y1, · · · , Yn uma amostra aleatória e sejam x1, · · · , xn covariáveis tais que xi representa um vetor p-dimensional. Assume-se que todos os Yi têm densidade f (yi|θi, φ) pertencente à família exponencial, mas um diferente parâmetro natural ηi para cada observação. A especificação do GLM se faz através de um modelo de ligação entre a média µi e as covariáveis medidas, ou seja,

µi = h(ηi) = h(x′iβ), (2.4)

h(·) uma função conhecida e β vetor p-dimensional dos coeficientes da regressão. Usu-almente, h−1(·) é chamada de função de ligação. Em geral, se usa h(·) = ψ(·), logo é equivalente assumir que θi = ηi = x′iβ, i = 1, 2, · · · , n.

2.2.1

Exemplos de GLM

Nas seções abaixo seguem três diferentes modelos de regressão que se adequam aos GLM. Um resumo é apresentado na Tabela 2.1.

2.2.1.1 Modelos de Regressão para Dados Contínuos

Seja Y distribuído normalmente com média µ e variância σ2, sua densidade é dada por f (y|µ, σ2) = exp 1 σ2  yµ − µ 2 2  + log(2πσ 2) 2 − y2 2σ2  . (2.5)

A distribuição normal escrita na forma da equação (2.5) pertence à família exponencial, com parâmetro natural θ igual a µ, parâmetro de escala φ igual a σ2 e função de variância υ(µ) = 1. A função de ligação é igual a função identidade, levando ao modelo linear clássico Yi ∼ N(µi, σ2) com µi = x′iβ, i = 1, 2, · · · , n.

2.2.1.2 Modelos de Regressão para Dados Binários

Seja Y pertencente à distribuição de Bernoulli com probabilidade de sucesso P (Y = 1) = π, cuja função de probabilidade é dada por

f (y|π) = exp  y log  π 1 − π  + log(1 − π)  . (2.6)

A distribuição de Bernoulli escrita na forma da equação (2.6) pertence à família ex-ponencial, com parâmetro natural θ igual ao logito, isto é, log[π/(1 − π)], parâmetro de escala φ = 1, com média µ = π e função de variância υ(π) = π(1−π). A função de ligação é igual a função logito, levando ao modelo de regressão logística Yi ∼ Bernoulli(πi) com log[πi/(1 − πi)] = x′iβ, ou seja, πi = exp(x′ iβ) 1 + exp(x′ iβ), i = 1, 2, · · · , n. (2.7) Para modelos de dados binários existem outras funções de ligação além da função logito, em que as mais comuns são a função probito e a valor extremo.

(29)

2. Modelos Lineares Generalizados e Extensões 21

2.2.1.3 Modelos de Regressão para Dados de Contagem

Seja Y pertencente à distribuição de Poisson com média λ, cuja função de probabili-dade é dada por

f (y|λ) = exp {y log λ − λ − log y!} . (2.8)

A distribuição de Poisson escrita na forma da equação (2.8) pertence à família expo-nencial, com parâmetro natural θ igual a log λ, parâmetro de escala φ = 1 e função de variância υ(λ) = 1. O logaritmo é a função de ligação, levando ao modelo de regressão Poisson, Yi ∼ P oisson(λi), com log λi = x′iβ, ou seja, λi = exp(x′iβ), i = 1, 2, · · · , n.

2.2.2

Inferência sobre os parâmetros do GLM

Para estimar os coeficientes da regressão em β normalmente usa-se a estimação por máxima verossimilhança (EMV). Este método de estimação depende da função de veros-similhança, função que carrega toda a informação contida na amostra. Assim, para uma amostra de tamanho n, assumindo independência das observações, o log da verossimi-lhança é dado por

l(β, φ) = 1 φ n X i=1 [yiθi− ψ(θi)] + n X i=1 c(yi, φ). (2.9)

A função escore representa a derivada de primeira ordem da função de verossimilhança (ou log da função de verossimilhança) em relação ao vetor β. Igualando a função escore a zero tem-se S(β) = ∂ ∂β " 1 φ n X i=1 [yiθi− ψ(θi)] + n X i=1 c(yi, φ) # = 0 = n X i=1 ∂θi ∂β[yi− ψ ′ i)] = 0, (2.10)

pois µi = ψ′(θi) e υi = υ(µi) = ψ′′(θi), e tem-se que ∂µi ∂β = ψ ′′ i) ∂θi ∂β = υi ∂θi ∂β. (2.11) Aplicando (2.11) em (2.10) S(β) = n X i=1 ∂µi ∂βυ −1 i (yi− µi) = 0. (2.12)

Sob o enfoque da Inferência Clássica, a solução da equação (2.12) resulta nos Esti-madores de Máxima Verossimilhança para β. Para obter as estimativas para o vetor de parâmetros β, geralmente, se utiliza métodos numéricos iterativos tais como o método de Newton-Raphson ou o Método Iterativo de Fisher. Métodos de estimação sob o enfoque Bayesiano serão abordados no Capítulo 3.

A estimação do parâmetro φ depende da distribuição em estudo. Na Tabela 2.1 observa-se as diferentes formas que φ pode assumir.

(30)

2. Modelos Lineares Generalizados e Extensões 22 Tabela 2.1: Características das distribuições Normal, Bernoulli e Poisson escritas na forma da família exponencial e suas respectivas funções de ligação.

Elemento ContínuoNormal Bernoulli (Logito)Binário ContagemPoisson

Notação N (µ, σ2) Bern(π) P oisson(λ)

Valores para y (−∞, ∞) 0 ou 1 0, 1, 2, · · ·

Parâmetro Natural θ µ log[π/(1 − π)] log λ

Função da Média ψ(θ) θ2

2 log(1 + exp(θ)) λ = exp(θ)

Constante Normalizadora c(y, φ) log(2πσ2)

2 − y2 2σ2  0 − log y! Dispersão φ σ2 1 1 Média µ µ π λ Variância φυ(θ) σ2 π(1 − π) λ

Função de Ligação h−1(µ) µ = xβ log[π/(1 − π)] = xβ log λ = xβ

2.3

GLM para Dados Longitudinais

O objetivo da modelagem estatística é explicar a variância de uma variável através de covariáveis medidas e a classe dos GLM, desenvolvida por Nelder e Wedderburn (1972), contribuiu para que este objetivo fosse alcançado.

Buscando modelar o processo aleatório em estudo de forma mais realista, extensões para os GLM são propostas. Estas extensões visam explicar uma parcela maior da vari-ância da variável resposta quando comparado ao GLM descrito na Seção 2.2.

Duas das principais razões para se trabalhar com extensões para estes modelos são: (1) a presença de superdispersão nos dados, que significa que a variabilidade dos dados não está adequada segundo a proposta do modelo e (2) a presença de uma estrutura hierárquica nos dados, resultando em agrupamentos, que permite a modelagem da variação entre os grupos (MOLENBERGHS et al., 2010).

2.3.1

Dados Longitudinais

Uma definição simples para dados longitudinais consiste em respostas para indivíduos mensuradas repetidamente ao longo do tempo, o que difere de estudos transversais, que consistem em apenas uma única medida para cada indivíduo (DIGGLE et al., 2002).

A vantagem de um estudo longitudinal está no fato de se levar em conta a variação que o tempo causa no objeto em estudo. Por outro lado, uma desvantagem é o custo do experimento, pois estudos longitudinais tendem a ser mais caros que estudos transversais, pois exigem que o pesquisador acompanhe seu objeto de estudo por um determinado tempo. Outra desvantagem é a possibilidade de se perder informações ao longo da coleta (dados faltantes).

Algumas das áreas onde mais se encontra aplicações e exemplos utilizando pesquisas com dados longitudinais são Biologia, Medicina, Sociologia, Climatologia e Economia, devido à sua efetividade nos resultados.

Em termos de modelagem para dados longitudinais, alguns cuidados devem ser toma-dos, pois, nestes casos, para um mesmo indivíduo tem-se medidas repetidas, o que gera

(31)

2. Modelos Lineares Generalizados e Extensões 23 correlação entre as variáveis, que se não tratada devidamente pode ocasionar problemas com o modelo especificado.

Como uma solução para este problema, nas subseções a seguir serão apresentados duas extensões para o GLM e uma sugestão de combinação destas duas extensões em um único modelo, proposto por Molenberghs et al. (2010).

2.3.2

Modelos de Superdispersão

Pela Tabela 2.1 nota-se que modelos para dados Binários e de Contagem dependem de um único parâmetro para a média e variância.

Há muitas causas possíveis de superdispersão e em qualquer situação de modelagem várias causas podem estar envolvidas. Algumas possibilidades são: variabilidade do ma-terial experimental; correlação entre as respostas individuais - por exemplo, em estudos de câncer envolvendo ninhadas de ratos haver alguma correlação entre ratos na mesma ninhada; amostragem por conglomerados; variáveis não observadas omitidas.

Uma forma simples de permitir a superdispersão é assumir que a V ar(Y ) = φυ(µ), com φ 6= 1, de acordo com a Equação (2.3), embora possa ser gerada através de suposições totalmente paramétricas.

Considere o exemplo a seguir, em que o modelo é especificado em dois estágios. Para dados binários, suponha que Yi|πi ∼ Bernoulli(πi) e ainda que πi é uma variável aleatória com E(πi) = µi e V ar(πi) = σi2. Assim, tem-se que

E(Yi) = E[E(Yi|πi)] = E(πi) = µi (2.13)

V ar(Yi) = E[V ar(Yi|πi)] + V ar[E(Yi|πi)] =

= E[πi(1 − πi)] + V ar[πi] = (2.14)

= E(πi) − E(πi2) + E(πi2) − [E(πi)]2 = = µi(1 − µi),

ressaltando que para dados oriundos de uma Bernoulli, a suposição de variabilidade para πi não induz superdispersão.

Como outro exemplo, considere o caso Poisson e assuma que Yi|λi ∼ P oisson(λi) e ainda que λi seja uma variável aleatória com E(λi) = µi e V ar(λi) = σi2. Assim, tem-se que

E(Yi) = E[E(Yi|λi)] = E(λi) = µi (2.15)

V ar(Yi) = E[V ar(Yi|λi)] + V ar[E(Yi|λi)] =

= E[λi] + V ar[λi] = (2.16)

= µi+ σi2.

Note que não foi assumido uma distribuição para os efeitos aleatórios associados a πi e λi. Esta forma dá origem a uma especificação semi-paramétrica.

Geralmente, a abordagem em dois estágios é composta por uma distribuição para a variável resposta dado um efeito aleatório, f(yi|θi), e uma distribuição para este efeito aleatório, f(θi). Assim, a marginal de yi é dada por

f (yi) = Z

(32)

2. Modelos Lineares Generalizados e Extensões 24 Para os casos de medidas repetidas, assume-se uma estrutura hierárquica para os dados, onde Yij denota a j-ésima medida para o i-ésimo grupo, i = 1, · · · , N, j = 1, · · · , ni e Yi é o vetor de dimensão ni que representa todas as medidas para o i-ésimo grupo.

2.3.3

Modelos de Regressão com Efeitos Aleatórios Normais

O modelo misto linear generalizado é, provavelmente, o modelo de efeitos aleatórios mais utilizado no contexto de medidas repetidas. Este modelo é um caso particular dos GLMs apresentado de forma hierárquica.

Seja Yij a j-ésima medida para o i-ésimo grupo, i = 1, · · · , N, j = 1, · · · , ni e Yi o vetor de dimensão ni que representa todas as medidas para o i-ésimo grupo.

Assuma que, condicional ao vetor q-dimensional de efeitos aleatórios, bi ∼ N(0, D), Yi,j são independentes e sua densidade é dada por

fi(yij|bi, ξ, φ) = expφ−1[yijλij− ψ(λij)] + c(yij, φ) , (2.18) com

η[ψ′

ij)] = η(µij) = η[E(Yij|bi, ξ)] = x′ijξ+ z′ijbi (2.19) para a função de ligação η(·) conhecida, com vetores xij (p-dimensional) e zij (q-dimensio-nal) conhecidos, com ξ um vetor p-dimensional de coeficientes de regressão desconhecidos e φ um parâmetro de escala. Finalmente, seja f(bi|D) a função densidade da distribuição N (0, D) para os efeitos aleatórios.

Estes modelos são válidos, pois a hierarquia é garantida pelos dados longitudinais e pelo parâmetro natural, escrito como um preditor linear, função de ambos efeitos aleatórios e fixos.

2.3.4

Combinando os Modelos de Superdispersão e de Efeitos

Aleatórios

Incorporando os efeitos de superdispersão bem como os efeitos aleatórios normais ao modelo linear generalizado, tem-se a seguinte formulação

fi(yij|bi, ξ, θij, φ) = expφ−1[yijλij − ψ(λij)] + c(yij, φ) , (2.20) onde sua média condicional é dada por

E(Yij|bi, ξ, θij) = µcij = θijκij, (2.21) onde a variável aleatória θij ∼ Gij(Vij, σij2), κij = g(xij′ ξ+ z′ijbi), Vij é a média de θij e σij2 é a variância correspondente. Finalmente, ηij = x′ijξ+ zij′ bi, com bi ∼ N(0, D). Agora, tem-se duas diferentes notações para se referir ao parâmetro natural, ηij e λij. A razão é que λij engloba a variável aleatória θij, enquanto ηij se refere a uma “parte do modelo linear generalizado misto” apenas.

A relação entre a média e o parâmetro natural é dada por: λij = h(µcij) = h(θijκij)

(33)

2. Modelos Lineares Generalizados e Extensões 25

2.3.4.1 Modelos de Regressão para Dados Contínuos

O modelo de efeito misto linear totalmente hierárquico é especificado por Yi|bi ∼ N(Xiξ+ Zibi, Σi)

bi ∼ N(0, D) (2.23)

onde ξ é um vetor de efeitos fixos, e Xi e Zi são matrizes de planejamento. As linhas de Xiξ+ Zibi compõem o preditor linear e Σi representa a matriz de variâncias do primeiro nível.

A densidade marginal para Yi é então dada por

Yi ∼ N(Xiξ, ZiDZ′i+ Σi). (2.24)

Observe que, neste caso um único conjunto de efeitos aleatórios são especificados.

2.3.4.2 Modelos de Regressão para Dados de Contagem

O modelo de Poisson com efeitos aleatórios gama e normal combinados segue natural-mente. A título de visão geral, reuni-se todos os elementos do modelo:

Yij ∼ P oisson(θijκij) κij = exp(x′ijξ+ z′ijbi) bi ∼ N(0, D) (2.25) E(θi) = E[(θi1, · · · , θini) ′] = V i V ar(θi) = Σi,

em que θij pode assumir um modelo Gama, produzindo um modelo Poisson-Gama-Normal ou, equivalentemente, um modelo Binomial-Negativo-Normal. Quando a distribuição Gama é especificada, assume-se implicitamente que os componentes θij de θi são in-dependentes. Isso é natural, em muitos casos, no sentido de que bi induz associação entre as medidas repetidas e, então, θij vai cuidar da superdispersão. Neste caso, Σi se reduz a uma matriz diagonal. No entanto, é perfeitamente possível assumir uma estrutura de covariâncias geral.

Em relação aos efeitos aleatórios de superdispersão, três situações podem ser de inte-resse: (1) os efeitos aleatórios θij são independentes; (2) eles permitem dependência; (3) são iguais uns aos outros , ou seja, θij ≡ θi.

Molenberghs et al. (2010), apresentam formas fechadas para o vetor de médias e para a matriz de covariâncias marginais. A existência de formas fechadas tem importante implicações neste contexto, permitindo, por exemplo, o cálculo de expressões explícitas para as correlações e mais métodos disponíveis para a estimação dos parâmetros.

(34)

2. Modelos Lineares Generalizados e Extensões 26

2.3.4.3 Modelo para Dados Binários

Semelhante ao caso Poisson, para o caso binário tem-se que Yij ∼ Bernoulli(πij = θijκij) κij = exp(x′ ijξ+ z′ijbi) 1 + exp(x′ ijξ+ z′ijbi) bi ∼ N(0, D) (2.26) E(θi) = E[(θi1, · · · , θini) ′] = V i V ar(θi) = Σi

Neste caso, pode-se assumir para os efeitos aleatórios de superdispersão a distribuição Beta.

Quando se usa a função de ligação logito e efeitos aleatórios normais, não existe formas fechadas para as expressões de média e variância.

Molenberghs et al. (2010) mostram que ao usar a função de ligação probito no lugar da logito a existência de formas fechadas para as expressões de média e variância é verdadeira. Além disso, Zeger, Liang e Albert (1988) faz uso da aproximação da distribuição normal para a distribuição logística, dada por

expy

1 + expy ≈ φ(cy) (2.27)

em que c = (16√3)/(15π) e φ(·) representa a função densidade da distribuição normal. Assim, tem-se que

πij ∼ θij exp(x′ ijξ+ z′ijbi) 1 + exp(x′ ijξ+ z′ijbi) ≈ θijφ[c(exp(x′ijξ+ z′ijbi))]. (2.28)

2.4

Modelos Lineares Generalizados Hierárquicos

Di-nâmicos

Os Modelos Hierárquicos já foram introduzidos na Seção anterior. Nesta Seção ele será definido para facilitar o entendimento de Modelos Dinâmicos.

Sendo assim, define-se os Modelos Lineares Generalizados Hierárquicos da seguinte forma

f (yij|θ, φ) = expφ−1[yijθij − b(θij)] + c(yij, φ)

g(µij) = ηij = xijβj (2.29)

βj = β + ωj,

onde g(·) é diferenciável e µij = E(Yij|θ),i = 1, · · · , nj, j = 1, · · · , J, independentes e V ar(ωj) = τjIp.

Os Modelos Hierárquicos Dinâmicos são utilizados para representar o comportamento de fenômenos aleatórios observados ao longo do tempo. Muitas aplicações podem ser

(35)

2. Modelos Lineares Generalizados e Extensões 27 encontradas na literatura. Por exemplo, nas áreas de epidemiologia, econometria e mar-keting.

Com o modelo hierárquico definido em (2.30), fica fácil definir os modelos hierárquicos dinâmicos. Os modelos hierárquicos dinâmicos são caracterizados por um par de equações, denominadas de equação das observações e equação de evolução dos parâmetros. Seguindo a notação estabelecida, o modelo é especificado por

yt = Ftθt+ ǫt, ǫt∼ N(0, σ2t) (2.30)

θt= Gtθt−1+ ωt, ωt∼ N(0, Wt) (2.31)

onde yt é a observação no tempo t, Ft é uma matriz de regressores, θté um vetor p × 1 de parâmetros, Gt é uma matriz p × p descrevendo a evolução dos parâmetros, σ2t representa a variância do erro associado à observação yt e Wt a matriz de variâncias-covariâncias dos erros associados ao vetor de parâmetros θt, respectivamente. Em resumo, um modelo dinâmico linear fica completamente especificado pela quádrupla {Ft, Gt, σ2t, Wt} (GA-MERMAN; MIGON, 1993) .

Quando a variável em estudo é proveniente de uma distribuição normal o modelo apresentado em (2.4) se encaixa na estrutura dos dados, mas nem sempre a variável em estudo será proveniente de uma distribuição normal.

Para os casos em que a variável resposta pertence à família exponencial de distribui-ções, é possível especificar o Modelo Linear Generalizado Dinâmico da seguinte forma:

• p(Yt|ηt) a função de probabilidade ou função densidade de probabilidade da variável Y no tempo t, com média ηt e pertencente à família exponencial de distribuições; • g(ηt) = λt = F′tθt a função de ligação entre a média ηt e componente sistemático

F′

tθt, no tempo t;

• Ft representa a matriz de covariáveis no tempo t;

• θt= Gtθt−1+ ωt representa a equação de evolução dos parâmetros no tempo t; • Gt representa a matriz de evolução dos parâmetros no tempo t;

• ωtrepresenta um vetor dos erros que possui média zero e matriz de covariância Wt conhecida no tempo t.

(36)
(37)

Capítulo

3

Métodos Aproximados em Inferência

Bayesiana

Definido o modelo, o próximo passo é a estimação dos parâmetros. Na abordagem Clássica, a estimação dos parâmetros é baseada somente na informação proveniente da amostra (função de verossimilhança). Já na abordagem Bayesiana, combina-se a informa-ção amostral com informações já disponíveis (informativa ou não), por exemplo oriundas de opinião de especialistas e/ ou obtidas em experimentos passados (distribuição a priori), através do teorema de Bayes. Neste capítulo são apresentados conceitos básicos de infe-rência Bayesiana, a caracterização do problema no procedimento de infeinfe-rência e possíveis soluções.

3.1

Conceitos Básicos em Inferência Bayesiana

Nas Subseções seguintes serão apresentados conceitos básicos de estatística e infe-rência que são úteis para o entendimento dos métodos de estimação que também serão apresentados neste capítulo.

3.1.1

Conceito de Informação

A noção de informação está presente em todos os estudos desenvolvidos em estatística, pois trabalha-se com incerteza.

A abordagem estatística Bayesiana considera que toda a informação de que dispomos é útil e deve ser aproveitada e a abordagem clássica, para reduzir arbitrariedades, deve-se restringir apenas àquelas informações obtidas com a observação de dados amostrais. Esses pontos de vista formam a base das duas principais abordagens estatísticas:

• Abordagem Bayesiana (ou subjetivista); • Abordagem clássica (ou frequentista).

Em resumo, na abordagem Bayesiana (inferência Bayesiana) para reduzir as incer-tezas são utilizadas as informações obtidas nos dados amostrais e também informações

(38)

3. Métodos Aproximados em Inferência Bayesiana 30 obtidas em experimentos passados, opinião de especialistas, etc., enquanto que na abor-dagem clássica (inferência clássica) são utilizadas apenas informações obtidas nos dados amostrais.

Em geral, para uma análise estatística são construídos modelos matemáticos, que representam as relações entre as variáveis em estudo. É necessário fazer com que estes modelos contenham o máximo de informação sem torná-los muito complexo. Segundo Migon, Gamerman e Louzada (2014), a descrição do modelo deve ter complexidade ótima, isto é, não podem ser simples demais, pois assim não estaria informando nada de útil, nem ser complexo demais, pois dificultaria a sua compreensão.

3.1.2

Teorema de Bayes

Suponha uma quantidade de interesse desconhecida θ, com valores possíveis em um conjunto Θ, sendo θ um escalar, vetor ou matriz e H a informação inicial que se dispõe. Essa informação pode ser incluída na análise através da distribuição de probabilidade condicional de θ dado H, com densidade ou função de probabilidade p(θ|H).

Se H for informativo o suficiente a descrição a respeito de θ está completa. Caso contrário, deve-se buscar mais informação, por exemplo, através da observação de uma quantidade Y que esteja relacionada à θ. Antes de se observar Y , tem-se a distribuição amostral de Y dada por p(y|θ, H), onde a dependência em θ é fundamental. Após observar o valor de Y , a quantidade de informação sobre θ aumenta e a informação sobre θ pode ser resumida em p(θ|y, H). Nesta etapa, a questão é como passar de p(θ|H) para p(θ|y, H).

Denotando por p(y|θ, H) e p(θ|H) as densidades de (Y |θ, H) e (θ|H), tem-se p(θ|y, H) = p(θ, y|H)

p(y|H) =

p(y|θ, H)p(θ|H)

p(y|H) (3.1)

com p(y|H) = RΘp(y, θ|H)∂θ. Este resultado é conhecido como Teorema de Bayes. A igualdade (3.1) é obtida a partir de

p(y|θ, H) = p(y, θ|H)

p(θ|H) ⇒ p(y, θ|H) = p(y|θ, H)p(θ|H) (3.2)

A função p(y|H), no denominador, não depende de θ e, portanto, para a determinação da quantidade de interesse p(θ|y, H), representa apenas uma constante. Por esta razão, e pela dependência em H ser comum a todos os termos, por facilidade notacional, a forma usual do Teorema de Bayes se reduz a

p(θ|y) ∝ p(y|θ)p(θ) (3.3)

onde o símbolo ∝ denota proporcionalidade. Os cálculos em (3.1) são válidos para quan-tidades discretas e contínuas, escalares vetores ou matrizes.

O Teorema de Bayes fornece a regra para atualização da probabilidade sobre θ, par-tindo de p(θ) e chegando a p(θ|y). Por esse motivo, essas distribuições são chamadas, respectivamente, de distribuições a priori e a posteriori.

Para recuperar a constante retirada na equação (3.3) basta reescrevê-la como

(39)

3. Métodos Aproximados em Inferência Bayesiana 31 com p(y|θ) representando a distribuição dos dados, p(θ) a distribuição a priori para o parâmetro desconhecido θ e p(θ|y) a distribuição a posteriori de θ. A distribuição a priori especifica a informação sobre o parâmetro antes da obtenção de y e a posteriori, a priori atualizada. A constante normalizadora K é determinada de modo que

K−1 = p(y) = (R

Θp(y|θ)p(θ)dθ = Eθ[p(y|θ)], caso contínuo; P

Θp(y|θ)p(θ) = Eθ[p(y|θ)], caso discreto.

(3.5) A função p(y) recebe o nome de distribuição preditiva (ou marginal) de Y , pois é a distribuição que se espera para Y , sendo de certa forma uma predição. Assim, antes de se observar Y , ela é útil para checar a adequação da priori através das predições que ela fornece. Após se observar Y , serve para testar o modelo como um todo, pois se o valor de Y observado recebia pouca probabilidade preditiva, então as previsões que o modelo fornece não são boas e ele deve ser questionado.

Um importante ponto na aplicação da abordagem Bayesiana é a especificação da dis-tribuição a priori. Migon, Gamerman e Louzada (2014) apresentam diferentes formas para especificação desta distribuição, incluindo especificação inteiramente subjetiva, atra-vés de formas funcionais e não informativas. Dentre as distribuições especificadas por formas funcionais está a classe das distribuições a priori conjugadas. Quando é possível o uso de distribuições conjugadas não se faz necessário o cálculo da constante de propor-cionalidade apresentada em (3.5) e a distribuição a posteriori é obtida diretamente. As distribuições a priori não informativas foram propostas para representar situações onde pouca ou nenhuma informação estivesse disponível, ou ainda, mesmo disponível não se desejaria usá-las. Nesta classe, estão as distribuições uniformes e a priori de Jeffreys. Nas aplicações deste trabalho são especificadas, quando possível distribuições a priori conjugadas, caso contrário utiliza-se de formas funcionais.

3.1.3

Função de Verossimilhança

Depois da obtenção dos dados, p(y|θ) pode ser vista como uma função de θ para dados valores de Y1, Y2, · · · , Yn. Esta função é denominada função de verossimilhança.

A função de verossimilhança associa a cada θ o valor p(y|θ). Esta função é denotada por l(θ; y). Assim,

l(·, y) : Θ → R+

θ → l(θ; y) = p(y|θ). (3.6)

Definição Seja Y1, Y2, · · · , Yn uma amostra aleatória de uma família de distribuição p(y|θ), θ ∈ Θ. A função de probabilidade conjunta é dada por

p(y|θ) = n Y

i=1

p(yi|θ). (3.7)

Fixado o ponto amostral (y1, y2, · · · , yn) a função l(θ; y), considerada como função de θ, é denominada de função de verossimilhança da amostra e será dada por

l(θ; y) = n Y

i=1

(40)

3. Métodos Aproximados em Inferência Bayesiana 32 A verossimilhança é interpretada como função do vetor de parâmetros, para um con-junto de dados fixo, e serve para medir o quanto aqueles dados suportam uma hipótese sobre θ.

Ao fixar um valor y e variar os valores de θ, observa-se a plausibilidade (ou verossi-milhança) de cada um dos valores de θ. Neste sentido, ela informa a ordem natural de preferência entre diversas possibilidades de θ. Por exemplo, um conjunto de dados é mais consistente com um vetor θ1 do que com outro θ2 se a verossimilhança associada a θ1 for maior do que a associada a θ2.

Note que: • R

Rp(y|θ)dy = 1 mas, em geral, R

Θl(θ; y)dθ 6= 1;

• a função de verossimilhança conecta a priori a posteriori, usando para isso os dados do experimento.

A função de verossimilhança dá origem ao princípio da verossimilhança, que afirma que toda a informação contida na amostra aleatória do fenômeno em estudo está representada nesta função. Este princípio é o que diferencia a abordagem Bayesiana da abordagem clássica. É um divisor de águas na inferência, colocando de um lado as abordagens Bayesianas e da verossimilhança, que o respeitam, e de outro a abordagem frequentista que não o respeita, pois as afirmações probabilísticas são baseadas em distribuições construídas a partir do pressuposto de que todas as amostras possíveis são observadas.

Uma vez definida a função de verossimilhança, a equação (3.3) pode ser reescrita como

p(θ|y) ∝ l(θ; y)p(θ) (3.9) ou, ainda p(θ|y) = R l(θ; y)p(θ) Θl(θ; y)p(θ)dθ . (3.10)

3.2

Caracterização do Problema

O objetivo da inferência Bayesiana é obter a distribuição a posteriori de θ. Dado esta distribuição, estimativas pontuais e intervalares são fáceis de serem obtidas.

Como dito na seção anterior, o denominador da expressão (3.10) é denominado de distribuição preditiva, p(y). Esta integral, na maioria das vezes, não pode ser resolvida analiticamente, exigindo aproximação por métodos numéricos, seja por métodos analíticos ou por métodos baseados em amostragem.

Até o final da década de 80 utilizava-se para resolver este problema métodos numéricos analíticos, como por exemplo Quadratura Gaussiana e o método de Laplace. Apesar des-ses métodos serem mais precisos que métodos baseados em amostragem, só se mostram eficientes quando as distribuições de interesse são aproximadamente normais e a dimensão do vetor de parâmetros é pequena. Os métodos de Monte Carlo simples e Monte Carlos por Importância também apresentam problemas por dependerem da especificação da dis-tribuição a priori. Duas importantes referências neste caso são Kass e Raftery (1995) e Tierney e Kadane (1986).

No início da década de 90, surge os métodos de Monte Carlo via Cadeias de Markov (MCMC). Estes não são utilizados para aproximar p(y), mas para estimar as densidades

(41)

3. Métodos Aproximados em Inferência Bayesiana 33 marginais a posteriori associadas aos parâmetros do modelo. Aqui não existem mais restrições à dimensão do vetor de parâmetros e nem a exigência de normalidade. Um problema com esses métodos é serem baseados em cadeias de Markov e, portanto, exigirem em problemas complexos um grande número de iterações para a convergência do algoritmo, demandando alto custo computacional.

Em 2009 surge um novo procedimento para aproximação da integral (3.5) baseado em métodos numéricos analíticos, inicialmente no método de Laplace, denominado INLA.

A seguir são apresentados os métodos de Laplace, de Monte Carlo simples e por importância para a obtenção da distribuição preditiva e finalmente amostrador de Gibbs (da classe MCMC) e o INLA.

3.2.1

Aproximação da Distribuição Preditiva pelo Método de

La-place

A aproximação de Laplace para a densidade a posteriori é obtida assumindo que esta é concentrada em torno de sua moda ˆθ.

A posteriori de θ dado y pode ser escrita como p(θ|y) = R g(θ)dθg(θ) = e

log l(θ;y)+log p(θ) R elog l(θ;y)+log p(θ) =

enL(θ)

R enL(θ) (3.11)

onde g(θ) = p(y|θ)p(θ), log l(θ; y) é o logaritmo da função de verossimilhança l(θ; y), nL(θ) = log l(θ; y) + log p(θ).

Se L tem um único máximo em ˆθ, então para n grande, o valor dessa integral depende apenas do comportamento da função L perto desse máximo. A expansão de Taylor até a 2a

ordem será da seguinte forma

L(θ) ≃ L(ˆθ) + (θ − ˆθ)tL′θ) + (θ − ˆθ) t[L′′θ)](θ − ˆθ) 2 (3.12) onde L′′θ) =  ∂ 2L(θ) ∂θ∂θt  θ=ˆθ (3.13) Assim, Z g(θ)dθ = Z enL(θ)dθ ≃ Z enL(ˆθ)−n(θ−ˆθ)tH−1(θ−ˆ2 θ)dθ = = enL(ˆθ) Z e−n(θ−ˆθ)tH−1(θ−ˆ2 θ) (3.14) = enL(ˆθ)(2π) k/2|H|1/2 √ n = g(ˆθ) (2π)k/2|H|1/2 √ n , onde H−1 = −L′′θ) (3.15)

(42)

3. Métodos Aproximados em Inferência Bayesiana 34 Portanto, p(θ|y) = R g(θ)dθ ≃g(θ) g(θ) √n g(ˆθ)(2π)k/2|H|1/2 ⇒ p(θ|y) ≃ g(ˆθ)−1exp  −12(θ − ˆθ)tH−1(θ − ˆθ)  , (3.16)

onde ˆθ é a moda (isto é, o valor de θ que maximiza g(θ)) e H a matriz de dispersão modal (ou seja, H−1 a matriz de derivadas segunda de log g(θ)) avaliada em θ = ˆθ. Assim, a posteriori é aproximada por uma N(ˆθ, H) com a constante de normalização, distribuição preditiva, aproximada por

p(y) = Z

g(θ)dθ ≃ g(ˆθ)(2π)k/2|H|1/2= elog l(ˆθ)+log p(ˆθ)(2π)k/2|H|1/2, (3.17) onde k é a dimensão de θ.

3.2.2

Aproximação da Distribuição Preditiva por Métodos de

Monte Carlo

Aproximação por Monte Carlo Simples

A aproximação por Monte Carlo Simples consiste em aproximar a distribuição predi-tiva por ˆ p(y) = 1 m m X i=1 p(y|θ(i)), (3.18)

onde a amostra θ(i) : i = 1, · · · , m

é gerada da distribuição a priori p(θl). A expressão acima representa a média aritmética dos valores da função de verossimilhança avaliada nos pontos gerados. A precisão desta estimativa será prejudicada quando houver discrepância entre a distribuição a priori e a função de verossimilhança. Nestes casos a maioria dos va-lores θ(i)será gerada em região de baixa verossimilhança, tendo grande efeito no resultado final. A precisão por Monte Carlo simples pode ser melhorada quando a amostragem por importância é utilizada.

Aproximação de Monte Carlo através de Amostragem por Importância A aproximação através da amostragem por importância, sob condições gerais de regu-laridade, consiste em

ˆ p(y) =

Pm

i=1ωip(y|θ(i))

Pm

i=1ωi

(3.19) onde a amostra θ(i) : i = 1, · · · , m

é gerada de uma densidade π⋆(θ), denominada função de importância, e ωi = π(θ(i))/π⋆(θ(i)), onde π(θ(i)) representa a priori avaliada em θ(i). Quando a amostra θ(i) : i = 1, · · · , m

é gerada de distribuições a posteriori, a função de importância π⋆(θ) equivale a

π⋆(θ) = p(θ|y) = p(y|θ)p(θ)

(43)

3. Métodos Aproximados em Inferência Bayesiana 35 Substituindo π⋆(θ) em (3.19), obtém-se

ˆ

p(y|m) = Pm m

i=1p(y|θ(i))−1 = " 1 m m X i=1 p(y|θ(i))−1 #−1 (3.21) A expressão (3.21) representa a média harmônica dos valores da verossimilhança nos pontos gerados.

3.3

Métodos de Monte Carlo via Cadeias de Markov

(MCMC)

No início da década de 90, um artigo de Gelfand e Smith (1990) popularizou entre os estatísticos Bayesianos um método de amostragem via cadeias de Markov (MCMC), denominado amostrador de Gibbs. Este método consiste em um esquema markoviano de atualização, que permite a obtenção de amostras de uma distribuição conjunta através de amostragens iterativas das distribuições condicionais completas.

Migon, Souza e Schmidt (2008) descrevem o amostrador de Gibbs da seguinte maneira. Para amostragem de um vetor de parâmetro θ, associado a função p(θ|y):

• Inicialize o contador de iterações da cadeia j=1 e escolha valores iniciais; θ(0) = (θ1(0), θ(0)2 , · · · , θ(0)

p ) (3.22)

• Obtenha um novo vetor θ(1) = (θ(1)1 , θ2(1), · · · , θ(1)p ) gerando valores sucessivos através das distribuições condicionais completas

θ1(1) ∼ p(θ1|θ(0)2 , θ (0) 3 , · · · , θp(0), y) θ2(1) ∼ p(θ2|θ(1)1 , θ (0) 3 , · · · , θp(0), y) ... (3.23) θp(1) ∼ p(θp|θ(1)1 , θ (1) 2 , · · · , θ (1) p−1, y)

• Repita o passo anterior para j = 1, 2, · · · , m. Sob condições gerais de regularidade, (θ(m)

1 , θ (m)

2 , · · · , θ (m)

p ) → p(θ1, θ2, · · · , θp), então θ(m)i → p(θi), quando m → ∞. A cadeia gerada pelo amostrador de Gibbs na iteração m, converge para distribuição de equilíbrio, na norma da variação total.

O amostrador de Gibbs é um caso particular do algoritmo Metropolis-Hastings, onde as densidades propostas q(·; ·) são as próprias distribuições condicionais completas e os valores propostos são aceitos com probabilidade 1 (GAMERMAN; LOPES, 2006).

Assumindo que o interesse está em obter amostras da distribuição a posteriori de θ, é comum construir um amostrador de Gibbs e obter condicionais completas que, por

(44)

3. Métodos Aproximados em Inferência Bayesiana 36 sua vez, não possuem forma analítica fechada. Neste caso, pode-se utilizar o algoritmo de Metropolis-Hastings para gerar amostras destas distribuições. Neste caso, o algoritmo uti-lizado é um amostrador de Gibbs com passos de Metropolis-Hastings (MIGON; SOUZA; SCHMIDT, 2008).

O software OpenBUGS (LUNN et al., 2009) direcionado para análise Bayesiana de modelos complexos é dotado da capacidade de reconhecer formas conjugadas e decidir pelo algoritmo adequado para a geração da cadeia, partindo da forma mais simples (con-jugação) até a forma mais complexa utilizando Metropolis-Hastings. A utilização deste software facilita a análise uma vez que basta que se forneça a função de verossimilhança e a distribuição a priori conjunta para que a cadeia de interesse seja gerada. Além disso, tem implementado o diagnóstico de convergência de Gelman e Rubin, que consiste ba-sicamente em uma análise de variâncias entre as cadeias geradas (2 ou mais) e dentre elas.

3.4

Método de Aproximações de Laplace Aninhadas

In-tegradas (INLA)

Os métodos de MCMC, para modelos mais complexos, implicam em alto custo compu-tacional para se obter as distribuições a posteriori. Como uma alternativa, Rue, Martino e Chopin (2009) propôs o método INLA.

O método INLA é baseado em aproximações das distribuições marginais a posteriori para modelos de regressão aditivo estruturados, denominados de Modelos Gaussianos La-tentes. Os modelos de regressão aditivo estruturados representam uma classe de modelos flexível e amplamente utilizada. Os modelos Gaussianos latentes têm uma ampla e nu-merosa lista de aplicações e a maior parte dos modelos Bayesianos são especificados desta forma. Alguns exemplos de modelos que se encaixam dentro dessa classe são: Modelos de Regressão, Modelos Dinâmicos e Modelos Espaciais e Espaço-temporais.

Conforme Rue, Martino e Chopin (2009), usando a mesma notação, a classe de modelos Gaussianos latentes, definidos em três estágios é especificada por

yi|x ∼ π(yi|xi) (Equação de Observação) (3.24)

x|θ ∼ N(µ(θ), Q(θ)−1) (Campo Gaussiano Latente) (3.25)

θ ∼ π(θ) (Hiperparâmetros) (3.26)

onde Q(θ) é a matriz de precisão do processo Gaussiano do vetor x. Para que o modelo seja válido, a matriz de variâncias tem que ser simétrica e positiva definida.

O INLA consiste em construir aproximações de Laplace, em que originalmente se aproximava as distribuições a posteriori. O primeiro passo na aproximação INLA é realizar uma aproximação de Laplace para a posteriori conjunta

π(θ|y) = π(θ)π(x, θ)π(y|x)

π(x|y, θ) ∝

π(θ)π(x, θ)π(y|x) πG(x|y, θ)

(3.27) onde πG(x|y, θ) é a aproximação Gaussiana para π(x|y, θ) que corresponde à verdadeira distribuição da moda (RUE; MARTINO; CHOPIN, 2009). As aproximações para as distribuições a posteriori marginais, para os parâmetros não-Gaussianos, podem então ser construídas por meio de integração numérica, desde que a dimensão de θ não seja

(45)

3. Métodos Aproximados em Inferência Bayesiana 37 muito grande. As distribuições a posteriori marginais para o campo latente π(xi|y) são construídas como uma aproximação de Laplace para π(xi|θ, y) e, em seguida, integrando-se em relação à distribuição a posteriori conjunta aproximada para θ|y. Todos os detalhes do esquema de aproximação pode ser encontrado em Rue, Martino e Chopin (2009).

Este método está implementado dentro da linguagem de programação R (R Core Team, 2015), através do pacote INLA (MARTINS et al., 2013), em que é possível ajustar os modelos apresentados no Capítulo 2.

3.5

Seleção de Modelos e Medidas para a Avaliação do

Ajuste

Conforme em Ghosh et al. (2009) são apresentadas aqui três populares abordagens para seleção Bayesiana de modelos. A primeira delas é o Critério de Informação Deviance (Deviance Information Criterion - DIC; Spiegelhalter et al. (2002)), implementada no software OpenBUGS e no pacote INLA. A segunda é a Conditional predictive ordinate (CPO) (GELFAND; DEY; CHANG, 1992); (CHEN; SHAO; IBRAHIM, 2012), também implementada no INLA e facilmente obtida a partir da cadeia gerada via MCMC. Outra medida proposta por Ibrahim e Laud (1991) e Gelfand e Ghosh (1998) e explorada em Ghosh et al. (2009) é o Deviance Preditivo Esperado (Expected Predictive Deviance -EPD). Observe que estas duas últimas medidas são baseadas na performance preditiva dos modelos e a primeira na informação deviance. Estas três medidas são sintetizadas a seguir.

3.5.1

Critério de Informação Deviance (DIC)

Para o cálculo do DIC considere a medida Deviance dada por D = −2 log(L(θ; y)). O DIC é calculado como DIC = ˆD+2pD, em que ˆD representa uma estimativa pontual para o Deviance, avaliado na média a posteriori, e pD representa uma penalidade, calculada como a média a posteriori do Deviance menos o Deviance avaliado na média a posteriori. O melhor modelo é aquele com o menor valor para o DIC.

É importante ressaltar que para o cálculo do DIC assume-se que a média a posteriori é uma boa estimativa pontual para os parâmetros e, portanto, não representa uma boa medida para a avaliação do ajuste na presença de distribuições a posteriori assimétricas para os parâmetros o modelo.

3.5.2

Conditional predictive ordinate

(CPO)

A estatística CPO, muito útil na avaliação da performance de um modelo, tem sido largamente usada na literatura em vários contextos. Para uma discussão mais detalhada sobre esta medida e aplicações ver Chen, Shao e Ibrahim (2012).

Para a i-ésima observação, a estatística CP Oi, sob um particular modelo Mk, é definida como

CP Oi = pMk(yi|y(−i)n ) = E[p(yi|θk|yn(−i))], (3.28) onde yn

(−i) representa os demais dados após excluir a i-ésima observação, θkdenota o con-junto de parâmetros do modelo Mk e p(yi|θk) a densidade amostral para o modelo Mk,

(46)

3. Métodos Aproximados em Inferência Bayesiana 38 avaliada na i-ésima observação. A esperança em (3.28) é tomada em relação à distribui-ção a posteriori de θk, dado yn(−i). O valor para CP Oi pode ser calculado de maneira simplificada a partir das amostras geradas via MCMC através de

CP Oi = 1 m m X j=1 1 p(yi|θk(j)) !−1 , (3.29)

onde m é o número de simulações. Assim, CP Oi pode ser interpretada como o valor desta densidade marginal ou a probabilidade em yi. Uma útil medida resumo é calculada na escala do log por

LP M L = n X

i=1

log (CP Oi). (3.30)

O modelo com o maior LP ML deve ser escolhido como o de melhor ajuste.

3.5.3

Deviance Preditivo Esperado (EPD)

Para o cálculo desta medida resumo, considere ypred como um valor replicado a partir do ajuste do modelo e yobs o vetor dos dados.

A distribuição preditiva a posteriori de ypred sob o modelo Mk é dado por pMk(y

pred|yobs) = Z

p(ypred|θk)p(θk|yobs)dθk (3.31) onde θk denota o conjunto de parâmetros do modelo k, p(ypred|θk) a distribuição preditiva do valor predito e p(θk|yobs) a distribuição a posteriori. O critério de seleção do modelo denominado Expected Predictive Deviance (EPD) escolhe o modelo M com o menor valor para

E[d(ypred|yobs)|yobs], (3.32)

onde d(·, ·) representa a função de perda com relação à distribuição preditiva. Considera-se aqui a função de perda d(ypred, yobs) = ||ypred − yobs||2, onde ||x||2 denota a soma de quadrados do vetor x.

Referências

Documentos relacionados

Outras fontes foram encontradas no Instituto Sud Mennucci livros do autor e outros sobre ensino rural; no Centro de Referência em Educação Mário Covas acervo Sud Mennucci, Atas

Através da apresentação e análise dos dados verifica-se que, à parte do nível escolar, é muito difícil poder desenvolver as competências de planificação ou

Ainda que as dificuldades de aprendizagem sejam causadas por inúmeros fatores, a proporção em que as crianças são afetadas na maioria das vezes está ligada ao ambiente em

Como se pode ver nos algoritmos propostos pelas European Society of Cardiology (ESC), American Heart Association e American College of Cardiology (AHA/ACC) (Figura 2A e 2B), em

Aldo-DHF: Antagonista do recetor de aldosterona na insuficiência cardíaca diastólica; ARA: antagonista dos recetores de angiotensina; ARM: antagonista dos

Por meio da experiência relatada, tornou-se possível verificar que o movimento imbricado na construção, desconstrução e reconstrução de novas formas de lidar com o

Para reverter essa situa~ão, o setor tel que se tornar aais eficiente e versátil no trata.ento dos recursos florestais.. Pelas suas características tecnológicas, as quais perlitel

E., de 26 de novembro de 2020, se encontra aberto, pelo prazo de 10 dias úteis a contar da data da publicação do presente aviso no Diário da República, procedimento concursal