Seleção de Preditores em Modelos de Regressão

(1)

Sele¸

c˜

ao de Preditores em Modelos de

Regress˜

ao

Carolina Marques Bastos

Universidade Federal do Rio de Janeiro

Instituto de Matem´

atica

Departamento de M´etodos Estat´ısticos

2011

(2)

Sele¸c˜

ao de Preditores em Modelos de Regress˜

ao

Carolina Marques Bastos

Disserta¸c˜ao submetida ao Corpo Docente do Instituto de Matem´atica - Departamento

de M´etodos Estat´ısticos da Universidade Federal do Rio de Janeiro - UFRJ, como parte

dos requisitos necessários à obten¸cão do grau de Mestre em Estat´ıstica.

Aprovada por:

Profo_{. Helio S. Migon}

DME - UFRJ - Orientador

Profo. Thais C. O. Fonseca

DME - UFRJ

Profo_{. Marco A. Rodr´ıguez}

Université du Québec à Trois-Rivières

Rio de Janeiro

(3)

Agradecimentos

Agrade¸co a Deus por sempre colocar na minha vida ´otimas oportunidades, por ter

me capacitado e guiado para a conclus˜ao de mais uma etapa da minha vida.

A minha fam´ılia, agrade¸co por sempre estar ao meu lado, dando apoio em todos os

passos da minha vida e comemorando cada vit´oria alcan¸cada. Agrade¸co aos meus pais,

Katia e Heloy, por me apoiarem em todos os momentos, por todo o esfor¸co para que

eu tivesse as melhores condi¸c˜oes de estudo e por darem muito valor a cada conquista.

Obrigada por tudo!

Ao meu noivo Luiz, que acompanha de perto todas as vit´orias ao longo do tempo

que estamos juntos. Gostaria de agradecer a sua compreens˜ao e paciˆencia em todos os

meus surtos diante desta disserta¸c˜ao. Sem o seu apoio, carinho e incentivo, eu n˜ao teria

chegado at´e aqui.

Agrade¸co `as companheiras da FGV, Lu´ısa e Samanta, pela for¸ca e apoio de sempre.

Ao Marcelo Neri, por me incentivar desde o in´ıcio e mostrar a importˆancia do mestrado

na minha forma¸c˜ao. Agrade¸co pela licen¸ca que me foi concedida durante esse per´ıodo,

por todos os conselhos e conversas.

As minhas amigas de turma: Carol, Camila, Renata e Priguete, que ajudaram muito

com estudos, trabalhos e momentos de lazer. Compartilhamos ´otimos momentos.

Obri-gada por sempre estarem presentes ajudando! A amiga Renata um agradecimento es-pecial por ter me apresentado minha best Luana (hehe)! Agrade¸co por compreender o que ela chama de desapego, por segurar a vontade de fofocar durante horas enquanto eu

terminava a minha disserta¸c˜ao e, ela j´a tinha terminado a dela! Por me proporcionar

muitas risadas, momentos de reflex˜ao, explica¸c˜oes sobre estat´ıstica bayesiana, mcmc e R.

Inexplic´avel o quanto vocˆe me incentivou... Obrigada por toda sua ”bestice”! Aos demais

(4)

Mari que ajudaram com contas, disciplinas, provas e etc. Tamb´em proporcionaram

mo-mentos de risadas e muita descontra¸c˜ao, tornando a vida mais alegre em dias de Fund˜ao.

Ao Vini, por ter me ensinado a rodar o WinBugs no R, deixando a parte da programa¸c˜ao

da disserta¸c˜ao muito mais pr´atica!!!

Agrade¸co ao Migon pela orienta¸c˜ao, incentivo e paciˆencia. Obrigada por todo

conhe-cimento passado durante o per´ıodo em que estivemos envolvidos na disserta¸c˜ao.

Agrade¸co ao Marco Rodr´ıguez e a Thais Fonseca, por aceitarem fazer parte da minha

banca. A Thais agrade¸co tamb´em por sua disponibilidade e boa vontade ao me passar

seus conhecimentos e sugestões referentes a elabora¸cão desta disserta¸cão.

Agrade¸co a todos aqueles que de alguma forma torceram por mim e contribu´ıram para que eu conclu´ısse esse curso de mestrado.

Finalmente, agrade¸co ao CNPQ pelo financiamento dos meus estudos durante este per´ıodo.

(5)

Resumo

O estudo de t´ecnicas que selecionam os preditores de um modelo estimado de forma

criteriosa, ´e parte fundamental do processo de constru¸c˜ao do modelo estat´ıstico. Nesta

disserta¸cão, a proposta é fazer a compara¸cão de métodos de estima¸cão de modelos que

utilizam técnicas para a sele¸cão de preditores. A compara¸cão será feita por meio de

critérios de sele¸cão de modelos já conhecidos na literatura.

A primeira técnica a ser utilizada para a estima¸cão do modelo e sele¸cão de

predi-tores, se baseia na imersão do modelo de regressão em uma estrutura hierárquica de

mistura de normais, onde uma vari´avel latente ir´a sinalizar quais preditores devem ser

inclu´ıdos no modelo ou não. Dessa forma, esta técnica não só estima o modelo, como

tamb´em tem a capacidade de selecionar os preditores mais relevantes para o mesmo. A

segunda técnica para a estima¸cão de modelos consiste no uso de distribui¸cões de

con-tra¸cão para o vetor paramétrico. As distribui¸cões de contra¸cão são obtidas via mistura

de fun¸c˜oes de distribui¸c˜oes cont´ınuas. Estamos interessados em duas formas

particula-res de obten¸cão de fun¸cões de distribui¸cão de contra¸cão: a primeira delas consiste na

mistura do parâmetro de escala da distribui¸cão normal com uma fun¸cão de distribui¸cão

que seja exponencialmente distribu´ıda. Tamb´em estamos interessados em outra forma de

obten¸cão de distribui¸cões de contra¸cão, em que é feita a mistura do parâmetro de escala

da distribui¸cão normal com uma fun¸cão de distribui¸cão Cauchy, truncada nos valores

reais positivos.

Verificaremos as vantagens e desvantagens associadas a estas propostas para a

es-tima¸cão de modelos, que também tem o objetivo de fazer sele¸cão ou contra¸cão dos

pre-ditores. Todo o procedimento de inferência será feito sob o enfoque bayesiano, isto é:

atribu´ıremos uma distribui¸c˜ao a priori para os parˆametros de interesse do modelo, a fim

(6)

de Monte Carlo via Cadeias de Markov (MCMC, sigla em inglˆes) ser˜ao utilizados para

obter amostras dessa distribui¸c˜ao.

As técnicas para a estima¸cão do modelo serão aplicadas a um conjunto de dados

gerados de maneira artificial. Para esse conjunto de dados, a quantidade de vari´aveis

preditoras, a correla¸c˜ao entre elas e o tamanho da amostra, ser˜ao variados. Dessa

ma-neira, iremos avaliar qual t´ecnica de estima¸c˜ao de modelos foi a mais eficiente. Um n´ıvel

de esparsidade ser´a atribu´ıdo ao vetor param´etrico, fazendo com que muitos de seus

elementos sejam nulos. Exerc´ıcios de simula¸c˜ao nos permitem avaliar qual dos m´etodos

capta melhor a estrutura de esparsidade associada ao vetor param´etrico e calibrar de

ma-neira adequada a implementa¸c˜ao das propostas para estima¸c˜ao de modelos. Finalmente,

as técnicas de estima¸cão propostas e avaliadas serão aplicadas a exemplos que utilizam

dados reais.

Palavras-Chaves: Estima¸c˜ao de modelos, sele¸c˜ao de preditores, misturas cont´ınuas,

(7)

Abstract

In statistics, a crucial problem in building a multiple regression model is the selection of predictors to include. In this work, we will compare methods for model estimation that use techniques that select the predictors. The comparison will be made using known criteria for model selection.

The first technique to be used for model estimation and selection of predictors, entails embedding the regression setup in a hierarchical normal mixture model where latent variables are used to identify which predictors should be included in the model. This technique can estimate and select the most relevants predictors for this. The second technique for model estimation, is based on shrinkage priors obtained by normal scale mixtures. We are interested in two particular ways of obtaining shrinkage distributions: the first one is obtained by normal scale mixtures with exponential distributions. Also we are interested in another way of obtaining shrinkage distributions, by normal scale mixtures with a standard half-Cauchy distribution on the positive reals.

We examine the proposal’s advantages and disadvantages. These proposals for model estimation also objectively select or shrink predictors. All the inference procedure follows the Bayesian approach, that is, we attribute a prior distribution for the parameters of interest of each model to obtain the posterior distribution which, in our case, is not known. Markov chain Monte Carlo methods (MCMC) are used to obtain samples of this distribution

The proposed techniques for model estimation will be applied to data sets having different numbers of predictors, correlation among predictors and sample size. We analyze which technique for model estimation is more efficient. The parametric vector has a sparsity level, such that many of its elements are null. A simulation exercise allows us to evaluate which method better captures the sparsity level and standardizes the

(8)

implementation of proposals for model estimation. Finally, the proposed estimation techniques will be applied in a example based on a real data set.

Keywords: Model estimation, predictor selection, continous mixtures, shrinkage dis-tributions.

(9)

Sum´

ario

1 Introdu¸c˜ao 1

2 Modelos Bayesianos e M´etodos de Estima¸c˜ao 6

2.1 Inferência Bayesiana e Métodos de Estima¸cão . . . 6

2.1.1 Estima¸c˜ao Pontual . . . 7

2.1.2 Estima¸c˜ao por Intervalo . . . 8

2.2 Inferência Via Simula¸cão Estocástica . . . 8

2.2.1 Inferˆencia Via MCMC . . . 8

2.2.2 WinBugs . . . 12

3 Sele¸cão de Variáveis 14 3.1 Sele¸cão de Variáveis via Busca Estocástica . . . 16

3.2 Operador de Sele¸c˜ao e Contra¸c˜ao com Penalidade em Valor Absoluto . . 20

3.2.1 Formula¸c˜ao Hier´arquica do Modelo Lasso Bayesiano . . . 22

3.2.2 Fun¸c˜ao de Contra¸c˜ao . . . 24

3.2.3 Fun¸c˜ao de Influˆencia . . . 27

3.3 Mistura de normais na Escala Usando Distribui¸c˜oes de Cauchy . . . 31

3.3.1 Formula¸c˜ao Hier´arquica do Modelo . . . 31

3.3.2 Fun¸c˜ao de Contra¸c˜ao . . . 33

3.3.3 Fun¸c˜ao de Influˆencia . . . 36

4 Critérios de Sele¸cão de Modelos 39 4.1 Critérios Baseados na Fun¸cão de Verossimilhan¸ca Marginal . . . 40

(10)

4.1.1 Fator de Bayes . . . 40

4.1.2 Escores Logar´ıtmicos . . . 42

4.2 Crit´erio de Informa¸c˜ao Baseado no Desvio - DIC . . . 43

4.3 Critério Baseado na Fun¸cão de Perda Canônica . . . 44

4.4 Critérios Baseados em Fun¸cão de Perda Quadrática e Valor Absoluto . . 46

5 Métodos de Estima¸cão de Modelos Aplicados em Modelos de Regressão Linear 48 5.1 Aplica¸cão a Dados Simulados . . . 48

5.2 Estima¸c˜ao de Modelos - Aplica¸c˜ao a Dados Reais . . . 63

6 Conclus˜ao 73

Cálculo da Distribui¸cão de Contra¸cão 77

Cálculo dos Estimadores da Média Harmônica 79

(11)

Cap´ıtulo 1

Introdu¸

c˜

ao

Um dos grandes objetivos na estat´ıstica, ´e o desenvolvimento e a estima¸c˜ao de um

modelo estoc´astico, descrevendo as vari´aveis de interesse para certo estudo. Modelos

estoc´asticos podem ser usados em diversas ´areas do conhecimento. Com efeito, em

eco-nomia podemos fazer uso de um modelo est´atistico para estimar o lucro de uma empresa,

sujeito a determinadas caracater´ısticas. Na demografia, um modelo pode ser elaborado

para estimar qual será a popula¸cão do pa´ıs daqui a 10 anos. Já na área da saúde, um

modelo estat´ıstico pode ser capaz de associar fatores relativos ao estilo de vida de um

paciente (prática de atividades f´ısicas, boa alimenta¸cão, ingestão de cálcio) com a chance

dele adquirir uma doen¸ca, como a osteoporose, daqui a alguns anos. Assim, com poucos

exemplos, j´a foi poss´ıvel perceber o qu˜ao importante e abrangente um modelo estat´ıstico

pode ser.

A inferência em modelos estat´ısticos pode não ser uma tarefa simples, mas é um

conceito amplamente difundido. Al´em disso, a grande maioria dos softwares estat´ısticos

possuem pacotes que s˜ao capazes de estimar modelos sem maiores dificuldades. Os

pro-blemas podem come¸car a surgir quando a quantidade de var´ıaveis candidatas a predizer uma determinada caracter´ıstica for muito elevada, uma vez que modelos com muitas

vari´aveis explicativas tendem a ser complicados para interpretar.

´

E cada vez mais frequentente na estat´ıstica moderna, estudos aplicados em que surge a

necessidade de lidar com bases de dados muito grandes. Para a manipula¸c˜ao de tais bases,

(12)

tenham a capacidade de lidar com problemas de dimens˜ao muito elevadas.

Um estudo apresentado em Chandulaka et al. (2010), que ser´a denominado como o

problema de marketing, lida com a estima¸cão de um modelo cuja variável de interesse é

a inten¸c˜ao dos consumidores na compra de um determinado produto. Nesse problema a

inten¸cão de compra de um produto, pode ser influenciada por variáveis relacionadas às

atitudes dos consumidores, suas cren¸cas e a publicidade do produto. ´E importante notar

que, estamos lidando com um n´umero elevado de vari´aveis explicativas, uma vez que

temos distintas quantidades de vari´aveis associadas `as atitudes dos consumidores, tais

como: recomenda¸c˜ao do produto a amigos, ”test-drive”do produto, estudo do produto

antes da compra, entre outras. Algumas vari´aveis associadas `as cren¸cas dos consumidores

s˜ao: durabilidade, seguran¸ca, qualidade do produto e outras. Por fim, vari´aveis

associ-adas a publicidade do produto s˜ao: publicidade na internet, publicidade na televis˜ao e

outras diversas formas de publicidade de um produto ou marca.

Visando o manuseio de tantas vari´aveis explicativas e a estima¸c˜ao de um modelo que

explique o problema de maketing, Chandulaka et al. (2010) desenvolvem um modelo de

efeitos hier´arquicos nas vari´aveis. Eles caracterizam os denominados modelo de efeitos

hierárquicos nas variáveis, isto é, a rela¸cão entre certas variáveis aleatórias são

media-das por outras variáveis. Assim, modelos de efeitos hierárquicos nas variáveis podem

ser analisados fatorando-se a distribui¸c˜ao conjunta das vari´aveis como um produto de

distribui¸c˜oes condicionais e marginais.

Para a melhor compreensão do conceito de efeitos hierárquicos nas variáveis e do

modelo proposto, suponha o grupo das três variáveis aleatórias associadas ao problema de

marketing: (x, b, z), onde x corresponde a um grupo de vari´aveis aleat´orias relacionadas a

atitudes dos consumidores mediante um determinado produto, b ´e um grupo de vari´aveis

relacionadas às cren¸cas dos consumidores a respeito do produto em questão e z são

variáveis relacionadas a publicidade do produto. O objetivo é analisar a influência desse

grupo de variáveis (x, b, z) na quantidade aleatória y, que é a inten¸cão do consumidor na

compra do produto, e que deve ser entendida como a vari´avel de interesse. Obviamente a

distribui¸cão conjunta dessas variáveis (y, x, b, z) admite distintas fatora¸cões. No contexto

(13)

modelo a ser analisado.

Uma poss´ıvel fatora¸cão da distribui¸cão conjunta das variáveis em questão, indica que

as atitudes e as cren¸cas dos consumidores, x e b respectivamente, influenciam diretamente

a inten¸c˜ao de compra do produto. A Figura a seguir ilustra os efeitos hier´arquico nas

vari´aveis para esta particular fatora¸c˜ao:

Para este caso particular, o modelo a ser estudado ´e dado por [y|x, b], [x] e [b], onde os

colchetes representam distribui¸c˜oes condicionais e marginais. Assim, a inten¸c˜ao de

com-pra do produto pode ser explicada pelas atitudes e cren¸cas dos consumidores a respeito do mesmo.

Uma fatora¸c˜ao distinta, indica que z e x, as vari´aveis relacionadas a publicidade

do produto e atitudes dos consumidores, influenciam diretamente a inten¸c˜ao de compra

do produto. Adicionalmente, temos as vari´aveis associadas a publicidade do produto

afetando diretamente as vari´aveis relacionadas as atitudes dos consumidores, x. A Figura

a seguir representa os efeitos hierárquicos nas variáveis para esta distinta fatora¸cão:

A ilustra¸cão acima exibe a representa¸cão do efeito indireto da publicidade na inten¸cão

de compra do produto, uma vez que a publicidade est´a afetando diretamente as atitudes

dos consumidores. Posteriormente, as atitudes dos consumidores x ir˜ao ter um efeito

(14)

a publicidade afetam a inten¸c˜ao de compra de maneira direta e indireta, o que pode

ser melhor verificado na Figura acima. Para esta particular fatora¸c˜ao, o modelo a ser

analisado ´e dado por [y|x, z], [x|z] e [z], onde os colchetes representam distribui¸c˜oes

condicionais e marginais.

Exitem outras fatora¸cões poss´ıveis, porém, a descri¸cão de cada uma destas fatora¸cões

não é relevante para o contexto. O importante é notar que que cada uma dessas distintas

fatora¸cões, descreverá diferentes modelos a serem analisados. Além disso, podemos ter

muitas variáveis explicativas associadas a variável de interesse, o que dificultará a

es-tima¸c˜ao e interpreta¸c˜ao dos modelos. Ainda podemos lidar com o caso em que algumas

variáveis explicativas tem pouca influência na inten¸cão de compra do produto, ou uma

influência não significativa. Nesse contexto, o uso de técnicas que fa¸cam o procedimento

de sele¸c˜ao das vari´aveis relevantes pode auxiliar muito, fazendo com que tenhamos um

modelo mais parcimonioso e de f´acil interpreta¸c˜ao. Foi diante deste contexto, que surgiu

pela primeira vez, a necessidade da implementa¸c˜ao de um m´etodo que selecione preditores

relevantes para o modelo de maneira eficiente.

Nesta disserta¸cão, iremos revisar e discutir a aplica¸cão de algumas técnicas de sele¸cão

de variáveis em modelos lineares de regressão. Todo o procedimento de inferência será

feito sob o enfoque bayesiano, isto ´e, atribuiremos uma distribui¸c˜ao a priori para os

parˆametros de interesse de cada modelo a fim de obter a distribui¸c˜ao a posteriori, e a

partir dela, realizar todo o processo de estima¸c˜ao. Obteremos amostras desta distribui¸c˜ao

a posteriori por meio de métodos de simula¸cão estocástica, particularmente utilizaremos

os m´etodos de Monte Carlo via cadeias de Markov (MCMC na sigla em inglˆes).

Procuraremos verificar as vantagens e desvantagens entre cada uma das t´ecnicas

pro-postas para a sele¸c˜ao de preditores. Avaliaremos tais vantagens e desvantagens sob o

contexto teórico e aplicado associado a cada uma das técnicas, e também utilizaremos

crit´erios de sele¸c˜ao de modelos conhecidos na literatura, como o fator de bayes e o DIC,

visando a compara¸c˜ao dos modelos estimados por cada uma das diferentes t´ecnicas.

A relevˆancia deste tema pode ser notada quando analisamos o contexto da

modela-gem estat´ıstica moderna, onde ´e cada vez mais frequente nos depararmos com situa¸c˜oes

(15)

determi-nada vari´avel de interesse. Este problema acaba por trazer dificuldades na estima¸c˜ao do modelo. Por exemplo, preditores relacionados de forma exata ou aproximada geram

di-ficuldades de estima¸cão. Também podemos citar o problema de obten¸cão de estimativas

imprecisas ou até mesmo não significativas para o modelo. Técnicas de sele¸cão de

predi-tores são necessárias, pois dão a possibilidade de estimar um modelo mais parcimonioso,

com menos vari´aveis preditoras, facilitando assim, o processo de estima¸c˜ao do modelo e

a sua interpreta¸c˜ao.

Esta disserta¸cão está organizada em 6 Cap´ıtulos e 3 Apêndices. No Cap´ıtulo 2,

faremos uma breve revisão sobre estima¸cão e sobre procedimentos de inferência sob o

enfoque bayesiano. Discutiremos também métodos de simula¸cão estocástica,

particu-larmente m´etodos MCMC. Tamb´em apresentaremos alguns pontos relevantes sobre o

pacote estat´ıstico WinBUGS, utilizado para a estima¸c˜ao dos modelos presentes nesta

disserta¸cão. No Cap´ıtulo 3, revisaremos técnicas de interesse para a estima¸cão de

mode-los com sele¸cão de preditores. Aqui serão feitas compara¸cões teóricas entre as diferentes

t´ecnicas propostas, procurando avaliar as vantagens e desvantagens associadas a cada

um dos métodos. No Cap´ıtulo 4, apresentaremos as técnicas de compara¸cão de modelos,

que serão utilizadas para a avaliar os métodos de estima¸cão de modelos em um contexto

aplicado. Tal contexto aplicado, ser´a apresentado no Cap´ıtulo 5, onde faremos um estudo

simulado para avaliar em quais aspectos as técnicas de estima¸cão de modelo com sele¸cão

de preditores possuem um melhor desempenho. Finalmente, um exemplo com dados ser´a

trabalhado na Se¸cão 5.2, onde as técnicas de estima¸cão de modelos propostas serão

apli-cadas. Por fim, no Cap´ıtulo 6, apresentaremos as conclus˜oes e poss´ıveis extens˜oes desta

(16)

Cap´ıtulo 2

Modelos Bayesianos e M´

etodos de

Estima¸

c˜

ao

2.1 Inferˆ

encia Bayesiana e M´

etodos de Estima¸

c˜

ao

Este cap´ıtulo tem por objetivo revisar os principais conceitos do procedimento de

inferência sob o enfoque bayesiano. Considere y, uma variável aleatória ou vetor aleatório

com fun¸c˜ao de probabilidade ou fun¸c˜ao de densidade de probabilidade p(y|θ) em que θ

´

e um parâmetro ou vetor paramétrico que caracteriza a distribui¸cão de probabilidade de

y. O valor de θ é desconhecido e queremos estimá-lo. Sob o ponto de vista da inferência

bayesiana, podemos incorporar nossa pr´opria incerteza na estima¸c˜ao de θ, assumindo

uma distribui¸cão de probabilidade para este parâmetro, p(θ), a distribui¸cão a priori.

Esta distribui¸cão é atribu´ıda antes da observa¸cão dos dados e mede a nossa incerteza a

priori a respeito de θ. Uma vez que os dados s˜ao observados, os quais denotaremos por y,

podemos encontrar a distribui¸c˜ao a posteriori de θ, p(θ|y), obtida a partir da combina¸c˜ao

da fun¸c˜ao de verossimilhan¸ca p(y|θ) com a distribui¸c˜ao a priori de θ, p(θ), via teorema

de Bayes, da forma:

p(θ|y) = p(y|θ)p(θ)

p(y) . (2.1)

(17)

de θ. Note que p(y) n˜ao depende de θ, logo o denominador da equa¸c˜ao acima pode ser

considerado constante com rela¸c˜ao a θ. Portanto, podemos rescrever a equa¸c˜ao 2.1 como:

p(θ|y) ∝ p(y|θ)p(θ) (2.2)

O procedimento de inferência bayesiano é baseado fundamentalmente na distribui¸cão

a posteriori de θ. Esta distribui¸cão contém toda informa¸cão probabil´ıstica a respeito do

parâmetro de interesse. No entanto, em algumas situa¸cões torna-se necessário resumir

a informa¸cão contida na distribui¸cão a posteriori. O caso mais simples é a estima¸cão

pontual, descrita na pr´oxima subse¸c˜ao:

2.1.1 Estima¸

c˜

ao Pontual

Na estima¸cão pontual, nosso objetivo é a minimiza¸cão de uma fun¸cão perda L(δ(Y ), θ)

para algum estimador δ(Y ) de θ. Observe que o valor de θ ´e estimado a partir de

elementos da amostra. Para cada valor de θ e cada poss´ıvel estimativa d pertencente ao

espa¸co param´etrico Θ, associamos uma fun¸c˜ao de perda L(d, θ). Neste caso, podemos

calcular a perda esperada a posteriori ou risco a posteriori, da forma:

r(d, θ) = E(L(d, θ)|y) = Z

Θ

L(d, θ)p(θ|y)dθ (2.3)

A regra de Bayes consiste em escolher o valor de d ´otimo, ou seja, o valor de d que

minimiza a perda esperada E(L(d, θ)|y). Os estimadores d(Y), obtidos minimizando esta

perda esperada, ser˜ao chamados estimadores de Bayes. As fun¸c˜oes perda mais utilizadas

na literatura e seus respectivos estimadores s˜ao:

• Perda Quadrática: L(δ, θ) = (δ − θ)2. Neste caso, o estimador resultante é a média

a posteriori de θ, isto ´e, δ = ˆθ = Eθ|y(θ);

• Perda Absoluta: L(δ, θ) = |δ − θ|. O estimador associado a perda quadr´atica

absoluta ´e a mediana a posteriori de θ, δ = med(θ);

• Perda 0-1: L(δ, θ) = lim→0I|θ−δ|([, ∞)), onde Ix(A) = 1 se x ∈ A e 0 caso

(18)

2.1.2 Estima¸

c˜

ao por Intervalo

Resumir a informa¸cão contida na distribui¸cão a posteriori através de um único valor,

ˆ

θ, resulta numa sumariza¸cão extrema da informa¸cão dispon´ıvel. É interessante obter pelo

menos uma medida sobre quão precisa é a estimativa de ˆθ. Uma maneira de fazer isso é

fornercer uma regi˜ao de valores θ ∈ Θ, que tˆem associados a eles uma grande massa de

probabilidade a posteriori. Idealmente, gostar´ıamos de descrever uma regi˜ao de valores

de θ que é tão pequena quanto poss´ıvel, mas contém o máximo de probabilidade a

posteriori. Assim define-se o intervalo de credibilidade a posteriori de θ, uma quantidade desconhecida definida em Θ, como sendo:

uma região C ∈ Θ é uma região de 100(1 − α)% de credibilidade para θ se P (θ ∈

C) ≥ 1 − α. Neste caso, 1 − α ´e chamado n´ıvel de credibilidade. No caso escalar, C ´e

usualmente dado por um intervalo, por exemplo, [c1, c2].

2.2 Inferˆ

encia Via Simula¸

c˜

ao Estoc´

astica

No contexto da inferência estat´ıstica, a simula¸cão estocástica tem o objetivo de

esti-mar caracter´ısticas probabil´ısticas de modelos ou distribui¸c˜oes de interesse, as quais n˜ao

poderiam ser obtidas analiticamente.

Métodos de simula¸cão estocástica são comumente utilizados ao fazer inferência sob

a abordagem bayesiana. Eles s˜ao uma alternativa razo´avel para, por exemplo, simular

pontos de forma indireta da distribui¸c˜ao a posteriori, quando esta n˜ao possui forma

anal´ıtica fechada ou quando a avalia¸cão por métodos numéricos é inviável, devido a

grandes dimens˜oes param´etricas.

Em geral utilizam-se m´etodos de Monte Carlo via Cadeias de Markov (MCMC) para

realizar-se o processo inferencial.

2.2.1 Inferˆ

encia Via MCMC

A inferˆencia sob o paradigma bayesiano parte do pressuposto que a incerteza sobre

(19)

proba-bil´ısticos.

Por vezes, o denominador da equa¸c˜ao 2.2 n˜ao possui forma anal´ıtica fechada e a

avalia¸cão por métodos numéricos quando a dimensão é grande é inviável. Da´ı surge

a necessidade de métodos de simula¸cão estocástica, tais como os de Monte Carlo via

Cadeias de Markov (MCMC).

Se uma cadeia de Markov homogênea é irredut´ıvel, recorrente positiva e aperiódica,

então possui distribui¸cão limite, a qual depende apenas da matriz de transi¸cão da

ca-deia. Al´em disso, uma vez que a cadeia atinja a distribui¸c˜ao limite, todos os estados

subsequentes seguir˜ao tal distribui¸c˜ao.

Os m´etodos MCMC consistem na constru¸c˜ao de uma cadeia de Markov que, por meio

de escolhas adequadas de núcleos de transi¸cão, tenha como distribui¸cão estacionária a

distribui¸cão de interesse. No contexto de estima¸cão bayesiana, a distribui¸cão a posteriori.

Uma vez que a convergˆencia da cadeia tenha sido atingida, as amostras estar˜ao sendo

geradas da distribui¸cão estacionária. Para aproximar a distribui¸cão a posteriori,

utilizam-se amostras suficientemente grandes dessa distribui¸c˜ao.

Os algoritmos MCMC mais utilizados no contexto de inferˆencia bayesiana s˜ao o

amos-trador de Gibbs e o algoritmo de Metropolis-Hastings, que ser˜ao descritos a seguir.

(i) Amostrador de Gibbs

O amostrador de Gibbs é um método de MCMC em que o núcleo de transi¸cão é

formado pelas distribui¸c˜oes condicionais completas do vetor param´etrico. Assuma

que a distribui¸cão de interesse é π(θ) em que θ = (θ1, . . . , θd)0. Considere também

que as distribui¸c˜oes condicionais completas πi(θi) = π(θi|θ−i), i = 1, . . . , d s˜ao

conhecidas e dispon´ıveis para a amostragem.

Quando há necessidade de amostrar de π, mas a sua gera¸cão direta é complicada,

custosa, ou simplesmente invi´avel, o amostrador de Gibbs permite um processo de

gera¸cão alternativo baseada em gera¸cões sucessivas das distribui¸cões condicionais

completas.

(20)

condicionais completas, o amostrador de Gibbs procede da seguinte forma:

• Inicialize o contador da cadeia em j = 1 e assuma valores iniciais θ(0) ₌

(θ(0)₁ , . . . , θ(0)_d )0

• Obtenha o novo valor θ(j) _{= (θ}(j)

1 , . . . , θ

(j) d )

0 _{de θ}(j−1) _{a partir de gera¸c˜}_oes

sucessivas: θ(j)₁ ∼ π(θ1|θ (j−1) 2 , . . . , θ (j−1) d ) (2.4) θ(j)₂ ∼ π(θ2|θ (j−1) 1 , θ (j−1) 3 , . . . , θ (j−1) d ) .. . θ(j)_d ∼ π(θd|θ (j−1) 1 , . . . , θ (j−1) d−1 )

• Fa¸ca j = j + 1 e volte ao passo anterior at´e obter convergˆencia. `

A medida que o n´umero de itera¸c˜oes cresce, a cadeia de Markov simulada

aproxima-se de sua distribui¸c˜ao de equil´ıbrio. Sendo assim, θ(i) _{= (θ}(i)

1 , . . . , θ

(i) d )

0 _{pode ser}

considerado um ponto amostrado de π(θ). (ii) Metropolis-Hastings

Assuma que a distribui¸c˜ao de interesse ´e π(θ) em que θ = (θ1, . . . , θd)0. O algoritmo

Metropolis-Hastings é útil para a gera¸cão de valores de parâmetros cujas

distri-bui¸c˜oes condicionais completas n˜ao tenham forma anal´ıtica fechada e, portanto,

n˜ao estejam dispon´ıveis para amostragem, diferentemente do caso do amostrador

de Gibbs.

Neste caso, gera-se valores do parˆametro a partir de uma distribui¸c˜ao proposta

arbitrária e este é aceito ou não com uma certa probabilidade de aceita¸cão, que

depende da qualidade do movimento proposto, avaliado com base na distribui¸c˜ao

proposta e da distribui¸c˜ao de interesse π(θ).

O algoritmo de Metropolis-Hastings procede da seguinte forma:

• Inicialize o contador da cadeia em j = 1 e assuma valores iniciais θ(0) ₌

(21)

• Obtenha um valor proposto θ∗ _{da distribui¸c˜}_{ao proposta q(θ}∗_|θ(j−1)₎

• Aceite o valor proposto com probabilidade α(θ∗_|θ(j−1)_{) = min}h_1, π(θ∗_)q(θ(j−1)_|θ∗₎

π(θ(j−1)_)q(θ∗_|θ(j−1)₎

i ,

ou seja, θ(j) _{= θ}∗_{. Caso o valor proposto n˜}_{ao seja aceito, fa¸ca θ}(j) _{= θ}(j−1)_.

• Fa¸ca j = j + 1 e volte ao passo segundo passo at´e obter convergˆencia.

A escolha da distribui¸cão proposta é uma questão importante ao se utilizar métodos

MCMC com base no algoritmo de Metropolis-Hastings. Sob o ponto de vista

prático, tal escolha é crucial para a sua convergência para a distribui¸cão a

pos-teriori.

Uma das propostas mais comuns s˜ao chamadas de cadeias sim´etricas, quando a

dis-tribui¸cão proposta é simétrica em torno da itera¸cão anterior, isto é, q(θ(j)_|θ(j−1)_{) =}

q(θ(j−1)|θ(j)_{). Neste caso, a probabilidade de aceita¸c˜}_{ao se reduz `}_{a raz˜}_{ao da}

distri-bui¸c˜ao de interesse, ou seja, α(θ∗|θ(j−1)_{) = min}h_1, π(θ∗)

π(θ(j−1)₎

i . ´

E importante ressaltar que a eficiência do método está diretamente ligada à escala

da distribui¸cão proposta. Caso a variância da distribui¸cão proposta seja muito

pe-quena, a cadeia de Markov ir´a convergir lentamente, uma vez que seus incrementos

serão pequenos. Se a variância for grande, a taxa de rejei¸cão dos valores propostos

será alta e a cadeia tenderá a não se mover. Muitos autores sugerem que a taxa de

aceita¸c˜ao do algoritmo deve estar entre 20% e 50%, ver Gamerman e Lopes (2006).

Estando decidido o m´etodo a ser utilizado, e obtida uma simula¸c˜ao da cadeia, deve-se

verificar se a convergˆencia foi obtida, para assim poder formar a amostra da distribui¸c˜ao

a posteriori das quantidades desconhecidas do modelo.

Existem várias formas de se realizar uma análise a respeito da convergência da cadeia.

Uma das abordagens mais informais é a inspe¸cão gráfica, onde analisa-se a trajetória de

uma ou mais cadeias, com valores iniciais distintos e considera-se que a convergˆencia ´e

alcan¸cada quando todas as cadeias monitoradas permanecem em torno de um mesmo

ponto. Outros critérios, mais formais, também podem ser utilizados, como os métodos

(22)

crit´erio mencionado. Geweke (1992) sugere um procedimento para teste de convergˆencia

a partir da avalia¸cão de médias ergódicas de uma única cadeia gerada, com base na

idéia de que, após convergência, diferentes intervalos da cadeia gerada devam apresentar

comportamentos semelhantes. Seja uma cadeia gerada com um n´umero de itera¸c˜oes n

suficientemente grande. A idéia é testar a igualdade das médias ¯x1 e ¯x2, calculadas,

respectivamente, a partir da fra¸c˜ao 0.1n inicial e 0.5n final da amostra. Considerando os

respectivos estimadores das variˆancias assint´oticas de ¯x1 e ¯x2, dados por V (¯x1) e V (¯x2),

tem-se que, quando n → ∞,

Gk=

¯

x1− ¯x2

pV (¯x1)/0.1n + V (¯x2)/0.5n

→ N (0, 1). (2.5)

Desta maneira, valores extremos de Gk indicam falta de convergˆencia. A t´ecnica de

Geweke est´a implementada no pacote CODA (Best et al. (1995)), execut´avel no software

R (R Development Core Team (2006)).

Após a obten¸cão da amostra, deve-se analisar a autocorrela¸cão existente entre θ(j)

e θ(j−1)_{. A amostra obtida a partir de uma cadeia de Markov ´}_{e aleat´}_{oria, mas n˜}_{ao ´}_e

independente. Isso não afeta as estimativas dos parâmetros, mas tem influência sobre as

variˆancias das estimativas resultantes desse procedimento de amostragem Gamerman e

Lopes (2006). Assim, nos casos em que for constatada uma forte correla¸c˜ao serial na

ca-deia, após verificada a convergência, recomenda-se a retirada de uma amostra sistemática

de seus valores para compor uma nova amostra. A forma como a amostragem sistem´atica

será realizada pode ser baseada em um gráfico contendo a fun¸cão de autocorrela¸cão da

cadeia.

2.2.2 WinBugs

O pacote estat´ıstico WinBUGS ´e uma vers˜ao em ambiente Windows do pacote BUGS

(Bayesian Inference Using Gibbs Sampling). ´E utilizado para an´alise bayesiana de

mo-delos estat´ısticos simples ou complexos, tendo a capacidade de estimar seus parˆametros

via MCMC. O WinBUGS consiste em um conjunto de fun¸c˜oes que permitem a

(23)

aleat´orios. Foi implementado por Thomas et al. (1992) e amplamente discutido em Lunn et al. (2000).

O WinBUGS possui a capacidade de reconhecer formas de distribui¸c˜oes

conjuga-das, distribui¸cões log-côncavas, distribui¸cões com amplitudes restritas e etc. Com base

nesta informa¸cão, o algoritmo de amostragem mais eficiente é selecionado para simula¸cão.

Quando nenhuma destas propriedades ´e identificada, uma mensagem avisa a incapacidade

na escolha do m´etodo de atualiza¸c˜ao.

Dentro do WinBugs existe uma ordena¸c˜ao dos m´etodos de amostragem dispon´ıveis

para serem utilizados, que depende da forma da distribui¸c˜ao de interesse. Primeiramente,

métodos de amostragem utilizando algoritmos padrões serão utilizados caso a distribui¸cão

condicional seja conjugada. Caso essa condi¸c˜ao n˜ao seja satisfeita, o amostrador de

Gibbs passa a ser utilizado: a ARS (Adaptive Rejection Sampling) ´e usada para amostrar

eficientemente qualquer distribui¸cão condicional com fun¸cão densidade log-côncava e a

ARMS (Adaptive Rejection Metropolis Sampling) generaliza a rotina ARS para o caso de

fun¸cões que não são log-côncavas, mas que possuem amplitudes restritas. Para o caso de

fun¸cões que não são log-côncavas e que não possuem amplitudes restritas, são utilizados

passos de Metropolis.

Para o algoritmo Metropolis-Hastings, o pacote usa como densidade de transi¸c˜ao

q(θ(j), .) uma distribui¸c˜ao gaussiana centrada no valor atual do parˆametro θ(j).

Todo o processo inferencial utilizado neste trabalho foi implementado no software

(24)

Cap´ıtulo 3

Sele¸

c˜

ao de Vari´

aveis

Com frequˆencia, em estudos aplicados, a modelagem estat´ıstica envolve um grande

n´umero de regressores. Este problema acaba por trazer dificuldades na estima¸c˜ao do

modelo. Por exemplo, preditores relacionados de forma exata ou aproximada geram

dificuldades de estima¸cão. Também pode-se citar o problema de obten¸cão de estimativas

imprecisas ou at´e mesmo n˜ao significativas para o modelo.

Eventualmente, tamb´em pode-se lidar com aplica¸c˜oes em que a quantidade de

regres-sores p é maior que n, número de observa¸cões. Um exemplo deste tipo, apresentado em

West (1993), consiste em prever o teor de gordura da massa de um determinado biscoito.

As caracter´ısticas desta massa s˜ao medidas por uma t´ecnica chamada NIR (near infrared

spectroscopy). Os preditores s˜ao p = 300 n´ıveis de reflectˆancia mensurados, obtidos pela

t´ecnica NIR, com uma amostra de 39 massas de biscoito.

Para esse exemplo, o m´etodo de m´ınimos quadrados n˜ao tem a capacidade de fazer a

estima¸cão eficiente do modelo. Devido ao grande número de variáveis independentes, são

grandes as chances delas possu´ırem rela¸c˜oes lineares exatas ou aproximadamente exatas

entre si, gerando o problema de multicolinearidade. Al´em disso, com tantas vari´aveis

regressoras, a variˆancia associada aos parˆametros regressores pode ser muito alta e a

matriz X’X−1 intratável. Uma solu¸cão para a estima¸cão de modelos em que p > n, seria

a obten¸cão de um pequeno número de combina¸cões lineares do conjunto de variáveis

independentes, que retenham o máximo da informa¸cão contida nessas variáveis. Essa

(25)

de multicolinearidade. Em geral, esses procedimentos s˜ao feitos em duas etapas: primeiro

obtem-se as componentes principais e depois a regress˜ao estimada. Em West (1993), um

método integrado é apresentado sob a ótica bayesiana.

Em contextos onde p ´e uma quantidade muito grande, com o objetivo de evitar a

estima¸c˜ao de modelos complexos, alguma forma de redu¸c˜ao de dimensionalidade, no que

diz respeito a quantidade de regressores p, ´e necess´aria. Com efeito, suponha o seguinte

modelo de regress˜ao:

y = Xβ + , (3.1)

onde β = (β1, . . . , βp)T é o vetor paramétrico, y é um vetor n × 1 da variável resposta,

X é a matriz n × p dos regressores, e é o vetor de erros de dimensão n × 1; as hipóteses

do modelo de regressão estabelecem que esses erros seguem uma distribui¸cão normal, são

independentes e identicamente distribu´ıdos, com m´edia 0 e variˆancia desconhecida σ2_.

Buscar solu¸cões esparsas para o modelo de regressão em questão, é o mesmo que

identificar de maneira eficiente os coeficientes βp que s˜ao iguais a zero ou muito pr´oximos

de zero. Logo, o regressor correspondente ao parˆametro βp = 0 ficar´a fora do modelo de

regressão, levando a redu¸cão da dimensão de p.

A partir de uma perspectiva bayesiana, existem duas principais abordagens para

a estima¸c˜ao da esparsidade associada aos regressores: misturas discretas e prioris de

contra¸c˜ao (shrinkage). A primeira abordagem associa a cada βp uma distribui¸c˜ao a

priori que possui um ponto de massa no valor βp = 0 e uma alternativa absolutamente

cont´ınua; a segunda abordagem, que ser´a utilizada nesta disserta¸c˜ao, modela cada βp

com distribui¸cões a priori de contra¸cão, centradas em zero. Essas prioris são obtidas a

partir de misturas cont´ınuas.

Na se¸cão 3.1, será apresentada uma técnica que introduz uma variável latente do tipo

Bernoulli na distribui¸cão a priori de β, tal variável sinalizará os preditores que deverão

ser inclu´ıdos ou não no modelo. Enquanto que nas se¸cões 3.2 e 3.3, serão apresentadas

técnicas para a estima¸cão do modelo que utilizam distribui¸cões de contra¸cão, obtidas

via misturas cont´ınuas, para o vetor param´etrico β. Todo procedimento de inferˆencia

necessário nas técnicas a serem apresentadas será feito sob o enfoque bayesiano, isto é,

(26)

a distribui¸cão a posteriori, que em nosso caso não é conhecida. Técnicas de simula¸cão

estocástica (MCMC) serão utilizadas para a obten¸cão de amostras desta distribui¸cão.

3.1 Sele¸

c˜

ao de Vari´

aveis via Busca Estoc´

astica

O SSVS (Sele¸cão de Variáveis via Busca Estocástica em inglês), é a técnica de sele¸cão

de vari´aveis proposta por George e Robert (1993), a qual baseia-se na incorpora¸c˜ao da

regressão em um modelo hierárquico de mistura de normais, onde um vetor de variáveis

latentes ´e capaz de sinalizar quais os melhores subconjuntos de X1, . . . , Xp. Cabe ressaltar

que os p regressores associados a y, fazem com que tenhamos 2p poss´ıveis modelos a serem

estimados.

Um fato interessante associado a este método de sele¸cão de variáveis é que ele

”vi-sita”mais vezes os modelos mais relevantes, no sentido de possu´ırem os regressores mais

apropriados para explicar a quantidade y. A estima¸c˜ao do modelo ´e poss´ıvel a partir da

seguinte estrutura hierárquica a priori para os parâmetros da regressão:

y|X, β, σ2 ∼ Nn(Xβ, σ2In) βp|γp ∼ (1 − γp)N (0, τp2) + γpN (0, c2pτ 2 p) (3.2) γp ∼ Bern(πp) σ2 ∼ IG (ν, λ) ,

onde 0 ≤ πp ≤ 1, τp > 0, cp ∈ <, ν > 0 e λ > 0 s˜ao quantidades de ”sintonia”, isto ´e,

quantidades que precisam ser determinadas pelo pesquisador.

A quantidade πp pode ser interpretada como a probabilidade a priori de inclus˜ao do

regressor Xp no modelo. Logo, πp = 0 indica que, a priori, o pesquisador assume que o

regressor Xp deve ser exclu´ıdo no modelo; de maneira an´aloga, quando πp = 1 assume-se

que o respectivo regressor deve ser inclu´ıdo no modelo estimado.

Um dos recursos da técnica Ssvs é que cada componente do vetor β é modelada

como mistura de distribui¸c˜oes normais com diferentes variˆancias, conforme apresentado

(27)

ser exclu´ıda do modelo. Logo a quantidade τp, que ´e o desvio-padr˜ao da componente

βp neste caso particular onde γp = 0, deve ser determinada de tal maneira que o valor

estimado para esse parˆametro βp possa ser substitu´ıdo por 0. Desta maneira, o regressor

Xp correspondente estar´a exclu´ıdo do modelo. Analogamente, se βp ∼ N (0, c2pτp2), ent˜ao

a respectiva componente γp = 1. Nesse caso, estamos interessados na escolha de valor

para cpτp que nos leve a uma estimativa n˜ao nula para βp, fazendo com que o regressor

Xp seja inclu´ıdo no modelo estimado.

Portanto, pode ser observado que o ajuste dos parâmetros de sintonia τ e c não é

tarefa f´acil. Diferentes escolhas para essas quantidades devem ser testadas. A Figura

3.1 ilustra como que distintas escolhas para τp e cp afetam a distribui¸c˜ao a priori de βp

quando γp = 0 e 1, respectivamente. De acordo com a Figura 3.1(a), podemos observar

que a distribui¸c˜ao de βp quando γp = 1 concentra uma grande massa de probabilidade

em torno do valor zero. Isso não é o desejável, uma vez que valores de γp = 1 sugerem

que a estimativa para o parâmetro βp seja não nula. A análise da distribui¸cão de βp

quando γp = 0, representada pela linha cheia, concentra menos massa de probabilidade

em torno do valor zero, quando comparada com a linha tracejada, que ´e a distribui¸c˜ao do

parâmetro quando γp = 1. Neste caso, o ideal é a estimativa do parâmetro ser zero, mas

o ajuste do valor τp tal que a distribui¸c˜ao fique muito concentrada em torno do valor zero

deve ser evitado, afim de evitar que o parˆametro tenha uma distribui¸c˜ao muito restritiva.

Na Figura 3.1(b), ilustramos o comportamento para a distribui¸c˜ao de βp quando

γp = 0 e a estimativa para βp deve ser zero. Observamos que a fun¸c˜ao densidade da

distribui¸c˜ao a priori concentra uma grande massa de probabilidade em torno do valor

zero. Analogamente, quando γp = 1 e a estimativa para o parˆametro deve ser n˜ao

nula, observamos que a fun¸cão de distribui¸cão para βp é mais vaga e atribu´ı massa de

probablidade a valores mais distantes de zero.

A terceira combina¸cão que apresentamos para a distribui¸cão a priori para βp é

ilus-trada na Figura 3.1(c), onde observamos que quando γp = 0 e a estimativa para β deve

ser zero, vemos que a fun¸c˜ao densidade da distribui¸c˜ao a priori concentra uma massa

de probabilidade elevada em torno do valor zero. Em contrapartida, a linha tracejada

(28)

den-sidade do parˆametro atribu´ı massa de probabilidade a valores mais afastados de zero. A

situa¸c˜ao ilustrada por esta Figura consiste em um caso similar ao apresentado na Figura

3.1(b), a diferen¸ca est´a em prioris para βp quando γp = 0 ou 1 que atribuem massa de

probabilidade em intervalos com maiores amplitudes, ou seja, tˆem um comportamento

(29)

β Densidade γ =0 γ =1 −10 −5 0 5 10 0.0 0.1 0.2 0.3 0.4 0.5 (a) τ = 2, c = 0.5 β Densidade γ =0 γ =1 −10 −5 0 5 10 0.0 0.1 0.2 0.3 0.4 0.5 (b) τ = 2, c = 5 β Densidade γ =0 γ =1 −10 −5 0 5 10 0.0 0.1 0.2 0.3 0.4 0.5 (c) τ = 10, c = 5

Figura 3.1: Diferentes configura¸c˜oes da distribui¸c˜ao a priori para β.

Como veremos nas aplica¸cões referentes a esta disserta¸cão, utilizamos a distribui¸cão

a priori para o parˆametro βp que possui o comportamento mais vago em torno do valor

zero, quando a respectiva componente γp = 1. Esta configura¸c˜ao para o parˆametro βp foi

utilizada afim de evitar a concentra¸c˜ao da alta massa de probabilidade em torno do valor

zero, quando a estimativa para a componente βp dever´a ser n˜ao-nula. Especificamente,

as configura¸c˜oes apresentadas na Figura 3.1(b) e 3.1(c) foram utilizadas em distintas

aplica¸c˜oes.

Por fim, para as quantidades ν e λ, George e Robert (1993) ressaltam que a escolha de

ν pr´oximos de 0 e qualquer valor de λ podem ser utilizadas para representar ignorˆancia

a respeito do parâmetro σ2. Usaremos a configura¸cão em que os parâmetros ν e λ são

iguais a 0.001. Note que, utilizando tais valores, consideramos a distribui¸c˜ao a priori

vaga, permitindo que os dados tenham maior influˆencia na distribui¸c˜ao a posteriori.

Dentre as vantagens do Ssvs, podemos citar a possibilidade do usu´ario determinar

a importância prática de alguma variável regressora. Com efeito, suponha que estudos

teóricos mostrem que Xpé extremamente relevante para explicar y. Com o Ssvs, o usuário

pode levar em conta tal relevˆancia, ao determinar que o elemento γp ´e Bernoulli com seu

parˆametro πp pr´oximo a 1.

Uma das desvantagens do método está associada a grande quantidade de parâmetros

de ”sintonia”presentes na equa¸c˜ao 3.2. O ajuste adequado dos parˆametros πp, τp, cp, ν

(30)

alterar drasticamente as estimativas obtidas. Nesta disserta¸c˜ao, o processo de ajuste dos

parˆametros foi simplificado quando fixamos que πp = π, τp = τ e cp = c, para todos p

regressores do modelo.

Quando a quantidade de regressores p > n, o Ssvs n˜ao ´e capaz de estimar o

mo-delo. Tal limita¸c˜ao ´e provavelmente decorrente, devido a um passo dentro do amostrador

de Gibbs, onde s˜ao necess´arias as estimativas para β obtidas via m´ınimos quadrados.

Essa limita¸cão é uma grande desvantagem comparativa aos métodos mais modernos de

estima¸cão de modelos com uso de técnicas de sele¸cão de preditores, que se baseiam na

obten¸cão de distribui¸cões de contra¸cão para o vetor paramétrico β, e que serão

apresen-tados nas próximas se¸cões. Tais métodos produzem estimativas coerentes até mesmo nos

casos multidimensionais.

Finalmente, muitas vezes a interpreta¸c˜ao dos resultados obtidos pelo Ssvs ´e restringida

somente ao conhecimento dos melhores subconjuntos de X1, . . . , Xp, analisando-se apenas

a contagem dos modelos mais frequentementes visitados, e n˜ao as estimativas de β obtidas

pelo m´etodo. Neste trabalho n˜ao estaremos interessados em avaliar qual o modelo foi mais

frequentemente ”visitado”, e sim, nas estimativas para β, permitindo assim a compara¸c˜ao

do Ssvs com os demais métodos que serão apresentados. Além disso, pode ser observado

que o Ssvs indica e seleciona os modelos mais frequentes, enquanto que os m´etodos que

ser˜ao apresentados a seguir, naturalmente fazem uma mistura de modelos.

3.2 Operador de Sele¸

c˜

ao e Contra¸

c˜

ao com

Penali-dade em Valor Absoluto

Dentre os métodos que fazem tanto a contra¸cão cont´ınua quanto a sele¸cão de variáveis,

uma técnica promissora que utiliza o operador de sele¸cão e contra¸cão com penalidade em

valor absoluto, foi proposta por Tibshirani (1996). Essa t´ecnica ser´a denominada como

Lasso, que sintetiza least absolute shrinkage and selection operator, isto ´e, operador de

sele¸cão e contra¸cão m´ınimo absoluto, em português.

(31)

soma dos quadrados dos res´ıduos com uma restri¸c˜ao na norma L1 dos coeficientes β’s.

Assim, a estimativa de β sob o m´etodo do Lasso ´e dada por:

ˆ β = arg min β (˜y − Xβ) 0 (˜y − Xβ) + λ p X j=1 |βj|. (3.3)

Observe que X ´e a matriz dos regressores padronizados, a quantidade ˜y = y − ¯y1n e

λ ´e um parˆametro de ”sintonia”.

Uma maneira de ilustrar o funcionamento do estimador Lasso, ´e no caso onde temos

somente dois preditores. O losˆangulo da figura 3.2 caracteriza a restri¸c˜ao imposta pelo

método Lasso na estima¸cão de β, enquanto que as elipses são as curvas de n´ıveis das

estimativas de verossimilhan¸ca de βp. As curvas de n´ıvel poder˜ao interceptar o losˆangulo

em um de seus quatro v´ertices. A solu¸c˜ao para o estimador Lasso corresponde a

inter-cepta¸cão de uma dessas elipses com o losângulo. Se isto ocorrer no vértice (como na

Figura 3.2) a estimativa de um dos parâmetros será nula, caso contrário representará um

(32)

ββi ββk 0.02 0.04 0.06 0.08 0.1 0.12 0.14 0.16 0.18 0.2 0.22 0.24 −2 −1 0 1 2 3 4 5 −2 0 2 4 6

Figura 3.2: Restri¸c˜ao na estima¸c˜ao dos β’s imposta pelo Lasso bayesiano.

Com a presen¸ca do termo penalizador λPp

j=1|βj| na equa¸c˜ao 3.3, Tibshirani (1996)

nota que a estimativa do Lasso pode ser interpretada como a moda a posteriori

es-timada quando os parâmetros β’s da regressão possuem distribui¸cão a priori Laplace

(exponencial dupla) independentes. Uma vantagem desta distribui¸c˜ao ´e que ela pode

ser expressada como uma mistura na escala de distribui¸c˜oes normais com variˆancias que

seguem distribui¸c˜oes exponenciais independentes.

3.2.1 Formula¸

c˜

ao Hier´

arquica do Modelo Lasso Bayesiano

Recentemente, Park e Casella (2008) propuseram o amostrador de Gibbs para o Lasso,

(33)

y|X, β, σ2 ∼ Nn(Xβ, σ2In) p(β|σ2, τ₁2, . . . , τ_p2) ∼ N (0p, σ2Dτ) (3.4) Dτ = diag(τ12, . . . , τ 2 p) σ2, τ₁2, . . . , τ_p2 ∼ π(σ2_)dσ2 p Y j=1 λ2 2 e −λ2_τ2 j/2dτ2 j

Especificamente, foi considerada uma an´alise bayesiana completa a partir do uso da

distribui¸c˜ao a priori Laplace, condicionada a σ2_{, no modelo hier´}_{arquico. Com efeito, tal}

distribui¸c˜ao ´e da seguinte forma:

π(β|σ2) = p Y j=1 λ 2√σ2e −λ|βj|/ √ σ2 (3.5)

Esta especifica¸c˜ao condicional a σ2_´_{e particularmente importante, uma vez que garante}

que a distribui¸c˜ao conjunta π(β, σ2|˜y) seja unimodal, segundo Park e Casella (2008). Uma

consequência da não unimodalidade é a dificuldade de convergência do amostrador de

Gibbs.

Como dito anteriormente, esta distribui¸c˜ao Laplace pode ser expressada como uma

mistura na escala de distribui¸cões normais com variâncias que seguem distribui¸cões

ex-ponenciais independentes, isto ´e:

a 2e −a|z| = Z ∞ 0 1 √ 2πse −z2_/(2s)a2 2e −a2_s/2 ds, a > 0, (3.6)

onde temos a vari´avel aleat´oria Z|s ∼ N (0, s) combinada com S ∼ Exp(a2/2). Essa

representa¸c˜ao foi exemplificada em Andrews e Mallows (1974) e ´e exatamente a mistura de

normais na escala obtida a partir do Lasso bayesiano. Desta maneira, o Lasso bayesiano ´e

uma metodologia de estima¸cão que utiliza distribui¸cões de contra¸cão, obtidas via misturas

cont´ınuas, conforme pode ser constatado na equa¸c˜ao 3.6.

Note que a representa¸c˜ao da distribui¸c˜ao Laplace como uma mistura de normais na

(34)

f (βp|σ2) = Z ∞ 0 f (β_p|σ2_{, τ}2 p)f (τ 2 p)dτ 2 p f (βp|σ2) = Z ∞ 0 1 p2πσ2_τ2 p e −1 2σ2τ 2 i β2 pλ2 2 e −λ2τ 2_p 2 dτ2 p (3.7) f (βp|σ2) = λ 2√σ2e −λ|βp|_√ σ2

Como os βp’s e τp’s são independentes, a distribui¸cão de β|σ2 é obtida pelo produtório

de cada uma das f (βp|σ2), chegando ao resultado descrito em (3.5).

Para a especifica¸cão do modelo hierárquico associado ao Lasso bayesiano, é necessária

a especifica¸cão das distribui¸cões a priori associadas aos parâmetros σ2 _{e λ, presentes na}

equa¸cão 3.4. Nesta disserta¸cão, utilizaremos a distribui¸cão a priori Inversa Gama para

o parˆametro σ2_{, como recomendado em Park e Casella (2008).}

Sob a perspectiva bayesiana, o parˆametro λ pode ser estimado atrav´es do

procedi-mento bayesiano emp´ırico ou pelo uso de uma distribui¸c˜ao a priori apropriada. Nesta

disserta¸cão o parâmetro será estimado a partir da especifica¸cão de uma distribui¸cão a

priori, embora o procedimento bayesiano emp´ırico tenha sido utilizado em trabalhos

anteriores. Park e Casella (2008) consideram o uso de uma distribui¸c˜ao gamma a

pri-ori para λ2_{, uma vez que a conjuga¸c˜}_{ao resultante permite que o amostrador de Gibbs}

seja mais facilmente especificado. Deve-se evitar a especifica¸c˜ao de prioris vagas, como

(p(λ2_{) ∝ 1/λ}2_{), uma vez que a distribui¸c˜}_{ao a posteriori resultante ser´}_{a impr´}_{opria. O}

ideal ´e que p(λ2_{) se aproxime de 0 suficientemente r´}_{apido quando λ}2 _{→ ∞, sendo ao}

mesmo tempo relativamente vaga.

Nas aplica¸cões, recomenda-se a padroniza¸cão da matriz de covariáveis X.

3.2.2 Fun¸

c˜

ao de Contra¸

c˜

ao

Para uma melhor compreens˜ao a respeito do m´etodo do Lasso, podemos definir uma

quantidade, fun¸cão dos parâmetros, denomida parâmetro de contra¸cão. Este parâmetro,

ser´a representado pela quantidade κi = 1/(1 + τi2).

(35)

yi|βi, σ2 ∼ N (βi, σ2) (3.8)

βi|τi2, σ2 ∼ N (0, τi2σ2)

Quando fixamos a quantidade σ2 _{= 1, o valor esperado a posteriori do parˆ}_{ametro β}

i

fica definido por:

E(βi|yi, τi2) = 1 1 + τ2 i 0 + τ 2 i 1 + τ2 i yi = (1 − κi)yi (3.9) ´

E importante ressaltar que no modelo proposto em (3.8), para cada observa¸c˜ao yi

temos uma estimativa βi associada ao valor. Assim, a quantidade de parˆametros β’s a

serem estimados ´e exatamente igual ao tamanho da amostra n. Esse caso ´e diferente do

modelo apresentado na equa¸c˜ao 3.4, onde existem vari´aveis independentes associadas aos

p preditores β’s.

Voltando a Equa¸cão 3.9, observamos que o parâmetro de contra¸cão κi pode ser

inter-pretado como a quantidade de peso que a m´edia a posteriori de β concentra no ponto 0.

Note que, valores de κi pr´oximos a zero fazem com que a m´edia a posteriori de β seja

o próprio valor observado yi, indicando que não houve contra¸cão do parâmetro β. Por

outro lado, valores de κi pr´oximos a um, fazem com que a m´edia a posteriori de β seja

o valor zero, representando a contra¸c˜ao total do parˆametro estimado.

Uma vez que a quantidade κi ∈ [0, 1], podemos eliminar a condicionalidade associada

ao parˆametro τ_i2 da seguinte forma:

E(βi|y) =

Z 1

0

(1 − κi)yip(κi|y)dκi = [1 − E(κi|yi)]y. (3.10)

O núcleo da fun¸cão de densidade do parâmetro κi, associado ao Lasso bayesiano é

apresentada a seguir:

p(κ) ∝ exp −1

2κ

κ−2 (3.11)

O cálculo desta fun¸cão densidade está apresentado no Anexo desta disserta¸cão. O

gráfico desta fun¸cão de densidade associada ao Lasso bayesinao é apresentado na Figura

(36)

κi

Densidade a menos de constantes

0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.5 1.0 1.5 2.0 2.5

Figura 3.3: Densidade de κi ∈ [0, 1] associado ao m´etodo de estima¸c˜ao Lasso bayesiano.

Com a inspe¸cão da fun¸cão de distribui¸cão a priori do parâmetro de contra¸cão κi, é

poss´ıvel analisar de maneira mais clara como o m´etodo faz o discernimento entre as

ob-serva¸cões associadas aos ru´ıdos e aquelas que são associadas a valores espúrios. A Figura

3.3 ilustra a fun¸cão de densidade do parâmetro de contra¸cão para o Lasso bayesiano; é

poss´ıvel notar que a massa de probabilidade concentrada em torno do valor zero ´e

pe-quena, isso indica que a probabilidade desse parâmetro de contra¸cão ser igual a zero é

pequena. Como vimos anteriormente que a esperan¸ca a posteriori de β ´e igual a (1−κi)yi,

´

e poss´ıvel concluir que raramente o Lasso associa ao valor de β o pr´oprio valor observado

yi.

Analisando o comportamento da fun¸cão de distribui¸cão do parâmetro de contra¸cão

onde κi é próximo ao valor um, é poss´ıvel notar que a distribui¸cão é limitada. Em outras

palavras, a probabilidade do parâmetro κi ser igual a um não é tão alta. Ressaltando

que altas probabilidades de κi = 1 indicam a capacidade de contra¸c˜ao do parˆametro β.

Conclu´ımos que o Lasso possui uma capacidade limitada de contra¸c˜ao da estimativa do

(37)

3.2.3 Fun¸

c˜

ao de Influˆ

encia

Outro instrumento que permite um melhor entendimento sobre o comportamento do

Lasso bayesiano como método de estima¸cão de modelos e sele¸cão de preditores, é a fun¸cão

de influência. Como seu próprio nome sugere, o estudo desta fun¸cão permite a análise da

maneira como os dados serão tratados pelo método de estima¸cão. Nesta análise, temos

o particular interesse em analisar o comportamento dessa fun¸c˜ao em valores associados

as observa¸c˜oes esp´urias.

Um resultado básico e necessário para o cálculo da fun¸cão de influência foi apresentado

em Pericchi e Smith (1992) e merece ser revisitado:

Suponha que x1, . . . , xn seja uma amostra aleat´oria de uma distribui¸c˜ao normal com

m´edia β e variˆancia σ2_{. Logo y =} _{P x}

i/n ∼ N (β, σ2/n) tem distribui¸c˜ao de densidade

p(y|β). Defina a quantidade m(y), dada por:

m(y) = Z

p(y − β)π(β)dβ. (3.12)

Este resultado é aplicável para qualquer fun¸cão de distribui¸cão a priori para o vetor β

que obede¸ca a condi¸c˜ao π(β) ≥ 0 em valores de β pertencentes ao conjunto dos n´umeros

reais. Tamb´em defina as seguintes quantidades:

s(y) = −∂{log(m(y)}

∂y e S(y) = −

∂{log(s(y)}

∂y (3.13)

A fun¸cão de influência é dada pela quantidade s(y). Como dito anteriormente, o

estudo desta fun¸cão irá auxiliar a compreender a maneira como os dados são tratados

pelo m´etodo de estima¸c˜ao.

Com efeito, suponha que y ∼ N (β, 1), com β = 0. Neste caso, ´e f´acil observar que

a fun¸cão de influência associada a este modelo é dada por s(y) = y. A Figura 3.4, que

será apresentada mais adiante, possui o gráfico relativo a esta fun¸cão. Sua análise mostra

que valores pequenos, tem uma pequena influˆencia no modelo, ao contr´ario de valores

grandes, que associam uma grande influˆencia ao modelo, indicando que este modelo n˜ao

´

(38)

Pericchi e Smith (1992) mostram que tanto a esperan¸ca quanto a variˆancia a posteriori

de β podem ser escritas como fun¸c˜ao das quantidades apresentadas na equa¸c˜ao 3.13,

portanto: E(β|y) = y + σ 2 ns(y) e V ar(β|y) = σ2 n + σ2 n2S(y). (3.14)

Ainda neste estudo, Pericchi e Smith (1992) apresentam os valores das quantidades de

interesse: s(y), a fun¸cão de influência, e E(β|y), a esperan¸ca a posteriori do parâmetro,

quando a distribui¸cão a priori de β é exponencial dupla. Este é exatamente o caso do

método de estima¸cão do Lasso bayesiano, que associa ao parâmetro β a distribui¸cão

exponencial dupla, da seguinte forma:

p(β) = √1 2σ2 exp −√|β| σ2 .

Essa é a fun¸cão de distribui¸cão exponencial dupla associada ao Lasso bayesiano quando

λ = 1. Neste contexto, os valores das quantidade de interesse s˜ao dados por:

s(y) = −a

σ2[F (y) − G(y)] onde,

F (y) = exp[c(y)]Φ " p (n) σ (−y − b) # , (3.15) G(y) = exp[−c(y)]Φ " −p(n) σ (−y + b) # , a = exp[1 n] , b = √ 2 n , c(y) = √ 2y σ2

Em que Φ(.) denota a fun¸cão de distribui¸cão acumulada normal padrão. A média a

posteriori de β pode ser obtida a partir da seguinte express˜ao

E(β|y) = w(y)(y + b) + [1 − w(y)](y − b) , onde (3.16)

w(y) = F (y)

(39)

Na Figura 3.4 é poss´ıvel observar o comportamento da fun¸cão de influência associada

ao Lasso bayesiano. Tal fun¸c˜ao tem a caracter´ıstica de truncagem da influˆencia

determi-nadas observa¸cões, assim, observa¸cões associadas as observa¸cões espúrias possuem uma

influˆencia constante na estima¸c˜ao do modelo nesta metodologia. Observe que a

com-para¸cão da fun¸cão de influência do Lasso bayesiano com a fun¸cão associada ao modelo

normal, exalta a diferen¸ca dos modelos no que diz respeito ao tratamento das observa¸c˜oes

(40)

Y Função de Influência −10 −5 0 5 10 −2 −1 0 1 2

Figura 3.4: Fun¸c˜oes de influˆencia associadas ao modelo normal e Lasso, linha tracejada

e cheia, respectivamente.

Dentre as vantagens da utiliza¸cão deste método na estima¸cão de um modelo, citamos

a presen¸ca do termo penalizador λ. A restri¸c˜ao imposta por esse termo se mostra como

uma qualidade interessante na proposta de contra¸c˜ao das estimativas de β. Tal

proce-dimento só é poss´ıvel a partir da idéia do Lasso. Comparado com o Ssvs, notamos que

o tempo computacional para a estima¸c˜ao de um mesmo modelo ´e bem menor. Ainda

verificamos a presen¸ca de menos termos de sintonia. Em contrapartida, o ajuste de uma

distribui¸c˜ao a priori adequada para λ2 _{pode ser uma tarefa delicada, uma vez que ´}_{e ideal}

que essa distribui¸cão não seja muito vaga, para não haver o risco do amostrador de Gibbs

fornecer estimativas imprecisas. Uma desvantagem do m´etodo ´e a sensibilidade associada

(41)

3.3 Mistura de normais na Escala Usando

Distri-bui¸

c˜

oes de Cauchy

A estima¸c˜ao de modelos via mistura na escala de distribui¸c˜oes normais com a

distri-bui¸cão de Cauchy é umas das técnicas mais recentemente apresentadas no contexto do

uso de distribui¸c˜oes de contra¸c˜ao, obtidas via misturas cont´ınuas. Ressaltando que,

mis-turas cont´ınuas para a obten¸cão de distribui¸cões de contra¸cão também foram utilizadas

para a estima¸c˜ao do modelo pelo Lasso bayesiano.

3.3.1 Formula¸

c˜

ao Hier´

arquica do Modelo

O estimador de modelos via mistura na escala de normais com distribui¸c˜oes Cauchy,

ser´a definido daqui em diante como estimador Horseshoe. A estima¸c˜ao do modelo via

Horseshoe é um método eficiente não só de estima¸cão, mas também de sele¸cão de

predi-tores no modelo proposto. Sua metodologia foi proposta em Carvalho et al. (2010). O

método de estima¸cão via Horseshoe assume que cada um dos parâmetros βp’s possuem

distribui¸cões condicionalmente independentes dado λ, o parâmetro de contra¸cão global.

Dessa maneira, o modelo de estima¸c˜ao ´e definido com a seguinte mistura na escala de

normais:

y|X, β, τ, λ, σ2 ∼ Nn(Xβ, σ2In)

βp|τp ∼ N (0, τp2) (3.18)

τp|λ ∼ C+(0, λ)

λ|σ ∼ C+(0, σ)

onde C+(0, a) é uma distribui¸cão Cauchy padrão truncada nos reais positivos, com

parˆametro de escala a.

As quantidades τp’s podem ser interpretadas como parˆametros de contra¸c˜ao local,

no sentido de estarem associadas a cada βp. Observe que na estrutura hier´arquica

(42)

hi-perparâmetros associados a variância do modelo, σ2. Os demais parâmetros são

devida-mente estimados a partir da estrutura hier´arquica imposta. A distribui¸c˜ao a priori para

o parâmetro de variância σ2 será a priori de Jeffrey’s. Assim p(σ2) ∝ 1/σ2, tendo sua

distribui¸c˜ao relativamente vaga e permitindo que os dados tenham maior influˆencia na

distribui¸cão a posteriori do parâmetro de variância.

O estimador Horseshoe tem a liberdade de fazer a contra¸c˜ao dos elementos de βp de

maneira global, através do parâmetro λ, e de maneira local através das quantidades τp.

O parˆametro λ estima o n´ıvel de esparsidade associado ao vetor param´etrico, enquanto

que os parâmetros de contra¸cão locais são capazes de reduzir os valores associados ao

vetor paramátrico β. Essa caracter´ıstica é uma vantagem do método Horseshoe quando

comparado aos demais métodos de sele¸cão de preditores, já que nenhum outro tem essa

mesma capacidade.

A Figura 3.5 ilustra o comportamento da distribui¸c˜ao a priori para o parˆametro β.

Tal distribui¸cão é obtida a partir da mistura no parâmetro de escala da distribui¸cão

normal associada a β|τ , com a distribui¸c˜ao Cauchy truncada nos valores reais positivos.

A fun¸cão de distribui¸cão para o parâmetro β é limitada da seguinte maneira:

(2π2)−1/2 2 log 1 + 4 β2 < p(β) < (2π2)(−1/2)log 1 + 2 β2 , conforme demonstrado em Carvalho et al. (2010).

(43)

β Densidade −3 −2 −1 0 1 2 3 0.0 0.1 0.2 0.3 0.4 0.5 (a) β Densidade 3 4 5 6 7 0.00 0.01 0.02 0.03 0.04 (b)

Figura 3.5: Compara¸c˜ao entre as distribui¸c˜ao a priori para β. As linhas tracejada e cheia

representam a distribui¸c˜ao associada ao m´etodo Lasso e Horseshoe, respectivamente.

A Figura 3.5 ilustra o comportamento das distribui¸c˜oes a priori associadas aos m´etodos

de estima¸c˜ao de modelo Horseshoe e Lasso. Podemos observar no gr´afico 3.5(a) que a

distribui¸cão Horseshoe possui um alongamento nos valores onde β é próximo de zero. Tal

comportamento é a chave para a boa performance do método de estima¸cão com rela¸cão

aos ru´ıdos associados ao vetor param´etrico β. Este comportamento ´e menos percebido

quando estamos analisando a distribui¸c˜ao exponencial dupla, associada ao m´etodo de

estima¸c˜ao via Lasso bayesiano. Na Figura 3.5(b) podemos observar que a distribui¸c˜ao

Horseshoe apresenta sua cauda mais pesada, quando comparada com a cauda da

distri-bui¸c˜ao exponencial dupla. ´E exatamente essa caracter´ıstica das caudas pesadas, que faz

com que o método de estima¸cão através do Horseshoe lide melhor com os valores espúrios

associados ao modelo.

3.3.2 Fun¸

c˜

ao de Contra¸

c˜

ao

Na se¸cão 3.2.2 foi apresentado o parâmetro de contra¸cão, definido pela quantidade

(44)

método de estima¸cão de modelo em análise, uma vez que o parâmetro τi está diretamente

relacionado com a variabilidade a priori do vetor param´etrico β.

Assim como feito no Lasso bayesiano, para o m´etodo de estima¸c˜ao pelo Horseshoe

também calculamos a fun¸cão de densidade do parâmetro de contra¸cão. O cálculo desta

fun¸cão é apresentado no Anexo deste trabalho. A fun¸cão de distribui¸cão do parâmetro

κ ´e dada pela seguinte express˜ao:

p(κ) ∝ (κ)−0.5(1 − κ)−0.5 (3.19)

A Figura a seguir ilustra o comportamento da fun¸cão de distribui¸cão do parâmetro