Sele¸
c˜
ao de Preditores em Modelos de
Regress˜
ao
Carolina Marques Bastos
Universidade Federal do Rio de Janeiro
Instituto de Matem´
atica
Departamento de M´etodos Estat´ısticos
2011
Sele¸c˜
ao de Preditores em Modelos de Regress˜
ao
Carolina Marques Bastos
Disserta¸c˜ao submetida ao Corpo Docente do Instituto de Matem´atica - Departamento
de M´etodos Estat´ısticos da Universidade Federal do Rio de Janeiro - UFRJ, como parte
dos requisitos necess´arios `a obten¸c˜ao do grau de Mestre em Estat´ıstica.
Aprovada por:
Profo. Helio S. Migon
DME - UFRJ - Orientador
Profo. Thais C. O. Fonseca
DME - UFRJ
Profo. Marco A. Rodr´ıguez
Universit´e du Qu´ebec `a Trois-Rivi`eres
Rio de Janeiro
Agradecimentos
Agrade¸co a Deus por sempre colocar na minha vida ´otimas oportunidades, por ter
me capacitado e guiado para a conclus˜ao de mais uma etapa da minha vida.
A minha fam´ılia, agrade¸co por sempre estar ao meu lado, dando apoio em todos os
passos da minha vida e comemorando cada vit´oria alcan¸cada. Agrade¸co aos meus pais,
Katia e Heloy, por me apoiarem em todos os momentos, por todo o esfor¸co para que
eu tivesse as melhores condi¸c˜oes de estudo e por darem muito valor a cada conquista.
Obrigada por tudo!
Ao meu noivo Luiz, que acompanha de perto todas as vit´orias ao longo do tempo
que estamos juntos. Gostaria de agradecer a sua compreens˜ao e paciˆencia em todos os
meus surtos diante desta disserta¸c˜ao. Sem o seu apoio, carinho e incentivo, eu n˜ao teria
chegado at´e aqui.
Agrade¸co `as companheiras da FGV, Lu´ısa e Samanta, pela for¸ca e apoio de sempre.
Ao Marcelo Neri, por me incentivar desde o in´ıcio e mostrar a importˆancia do mestrado
na minha forma¸c˜ao. Agrade¸co pela licen¸ca que me foi concedida durante esse per´ıodo,
por todos os conselhos e conversas.
As minhas amigas de turma: Carol, Camila, Renata e Priguete, que ajudaram muito
com estudos, trabalhos e momentos de lazer. Compartilhamos ´otimos momentos.
Obri-gada por sempre estarem presentes ajudando! A amiga Renata um agradecimento es-pecial por ter me apresentado minha best Luana (hehe)! Agrade¸co por compreender o que ela chama de desapego, por segurar a vontade de fofocar durante horas enquanto eu
terminava a minha disserta¸c˜ao e, ela j´a tinha terminado a dela! Por me proporcionar
muitas risadas, momentos de reflex˜ao, explica¸c˜oes sobre estat´ıstica bayesiana, mcmc e R.
Inexplic´avel o quanto vocˆe me incentivou... Obrigada por toda sua ”bestice”! Aos demais
Mari que ajudaram com contas, disciplinas, provas e etc. Tamb´em proporcionaram
mo-mentos de risadas e muita descontra¸c˜ao, tornando a vida mais alegre em dias de Fund˜ao.
Ao Vini, por ter me ensinado a rodar o WinBugs no R, deixando a parte da programa¸c˜ao
da disserta¸c˜ao muito mais pr´atica!!!
Agrade¸co ao Migon pela orienta¸c˜ao, incentivo e paciˆencia. Obrigada por todo
conhe-cimento passado durante o per´ıodo em que estivemos envolvidos na disserta¸c˜ao.
Agrade¸co ao Marco Rodr´ıguez e a Thais Fonseca, por aceitarem fazer parte da minha
banca. A Thais agrade¸co tamb´em por sua disponibilidade e boa vontade ao me passar
seus conhecimentos e sugest˜oes referentes a elabora¸c˜ao desta disserta¸c˜ao.
Agrade¸co a todos aqueles que de alguma forma torceram por mim e contribu´ıram para que eu conclu´ısse esse curso de mestrado.
Finalmente, agrade¸co ao CNPQ pelo financiamento dos meus estudos durante este per´ıodo.
Resumo
O estudo de t´ecnicas que selecionam os preditores de um modelo estimado de forma
criteriosa, ´e parte fundamental do processo de constru¸c˜ao do modelo estat´ıstico. Nesta
disserta¸c˜ao, a proposta ´e fazer a compara¸c˜ao de m´etodos de estima¸c˜ao de modelos que
utilizam t´ecnicas para a sele¸c˜ao de preditores. A compara¸c˜ao ser´a feita por meio de
crit´erios de sele¸c˜ao de modelos j´a conhecidos na literatura.
A primeira t´ecnica a ser utilizada para a estima¸c˜ao do modelo e sele¸c˜ao de
predi-tores, se baseia na imers˜ao do modelo de regress˜ao em uma estrutura hier´arquica de
mistura de normais, onde uma vari´avel latente ir´a sinalizar quais preditores devem ser
inclu´ıdos no modelo ou n˜ao. Dessa forma, esta t´ecnica n˜ao s´o estima o modelo, como
tamb´em tem a capacidade de selecionar os preditores mais relevantes para o mesmo. A
segunda t´ecnica para a estima¸c˜ao de modelos consiste no uso de distribui¸c˜oes de
con-tra¸c˜ao para o vetor param´etrico. As distribui¸c˜oes de contra¸c˜ao s˜ao obtidas via mistura
de fun¸c˜oes de distribui¸c˜oes cont´ınuas. Estamos interessados em duas formas
particula-res de obten¸c˜ao de fun¸c˜oes de distribui¸c˜ao de contra¸c˜ao: a primeira delas consiste na
mistura do parˆametro de escala da distribui¸c˜ao normal com uma fun¸c˜ao de distribui¸c˜ao
que seja exponencialmente distribu´ıda. Tamb´em estamos interessados em outra forma de
obten¸c˜ao de distribui¸c˜oes de contra¸c˜ao, em que ´e feita a mistura do parˆametro de escala
da distribui¸c˜ao normal com uma fun¸c˜ao de distribui¸c˜ao Cauchy, truncada nos valores
reais positivos.
Verificaremos as vantagens e desvantagens associadas a estas propostas para a
es-tima¸c˜ao de modelos, que tamb´em tem o objetivo de fazer sele¸c˜ao ou contra¸c˜ao dos
pre-ditores. Todo o procedimento de inferˆencia ser´a feito sob o enfoque bayesiano, isto ´e:
atribu´ıremos uma distribui¸c˜ao a priori para os parˆametros de interesse do modelo, a fim
de Monte Carlo via Cadeias de Markov (MCMC, sigla em inglˆes) ser˜ao utilizados para
obter amostras dessa distribui¸c˜ao.
As t´ecnicas para a estima¸c˜ao do modelo ser˜ao aplicadas a um conjunto de dados
gerados de maneira artificial. Para esse conjunto de dados, a quantidade de vari´aveis
preditoras, a correla¸c˜ao entre elas e o tamanho da amostra, ser˜ao variados. Dessa
ma-neira, iremos avaliar qual t´ecnica de estima¸c˜ao de modelos foi a mais eficiente. Um n´ıvel
de esparsidade ser´a atribu´ıdo ao vetor param´etrico, fazendo com que muitos de seus
elementos sejam nulos. Exerc´ıcios de simula¸c˜ao nos permitem avaliar qual dos m´etodos
capta melhor a estrutura de esparsidade associada ao vetor param´etrico e calibrar de
ma-neira adequada a implementa¸c˜ao das propostas para estima¸c˜ao de modelos. Finalmente,
as t´ecnicas de estima¸c˜ao propostas e avaliadas ser˜ao aplicadas a exemplos que utilizam
dados reais.
Palavras-Chaves: Estima¸c˜ao de modelos, sele¸c˜ao de preditores, misturas cont´ınuas,
Abstract
In statistics, a crucial problem in building a multiple regression model is the selection of predictors to include. In this work, we will compare methods for model estimation that use techniques that select the predictors. The comparison will be made using known criteria for model selection.
The first technique to be used for model estimation and selection of predictors, entails embedding the regression setup in a hierarchical normal mixture model where latent variables are used to identify which predictors should be included in the model. This technique can estimate and select the most relevants predictors for this. The second technique for model estimation, is based on shrinkage priors obtained by normal scale mixtures. We are interested in two particular ways of obtaining shrinkage distributions: the first one is obtained by normal scale mixtures with exponential distributions. Also we are interested in another way of obtaining shrinkage distributions, by normal scale mixtures with a standard half-Cauchy distribution on the positive reals.
We examine the proposal’s advantages and disadvantages. These proposals for model estimation also objectively select or shrink predictors. All the inference procedure follows the Bayesian approach, that is, we attribute a prior distribution for the parameters of interest of each model to obtain the posterior distribution which, in our case, is not known. Markov chain Monte Carlo methods (MCMC) are used to obtain samples of this distribution
The proposed techniques for model estimation will be applied to data sets having different numbers of predictors, correlation among predictors and sample size. We analyze which technique for model estimation is more efficient. The parametric vector has a sparsity level, such that many of its elements are null. A simulation exercise allows us to evaluate which method better captures the sparsity level and standardizes the
implementation of proposals for model estimation. Finally, the proposed estimation techniques will be applied in a example based on a real data set.
Keywords: Model estimation, predictor selection, continous mixtures, shrinkage dis-tributions.
Sum´
ario
1 Introdu¸c˜ao 1
2 Modelos Bayesianos e M´etodos de Estima¸c˜ao 6
2.1 Inferˆencia Bayesiana e M´etodos de Estima¸c˜ao . . . 6
2.1.1 Estima¸c˜ao Pontual . . . 7
2.1.2 Estima¸c˜ao por Intervalo . . . 8
2.2 Inferˆencia Via Simula¸c˜ao Estoc´astica . . . 8
2.2.1 Inferˆencia Via MCMC . . . 8
2.2.2 WinBugs . . . 12
3 Sele¸c˜ao de Vari´aveis 14 3.1 Sele¸c˜ao de Vari´aveis via Busca Estoc´astica . . . 16
3.2 Operador de Sele¸c˜ao e Contra¸c˜ao com Penalidade em Valor Absoluto . . 20
3.2.1 Formula¸c˜ao Hier´arquica do Modelo Lasso Bayesiano . . . 22
3.2.2 Fun¸c˜ao de Contra¸c˜ao . . . 24
3.2.3 Fun¸c˜ao de Influˆencia . . . 27
3.3 Mistura de normais na Escala Usando Distribui¸c˜oes de Cauchy . . . 31
3.3.1 Formula¸c˜ao Hier´arquica do Modelo . . . 31
3.3.2 Fun¸c˜ao de Contra¸c˜ao . . . 33
3.3.3 Fun¸c˜ao de Influˆencia . . . 36
4 Crit´erios de Sele¸c˜ao de Modelos 39 4.1 Crit´erios Baseados na Fun¸c˜ao de Verossimilhan¸ca Marginal . . . 40
4.1.1 Fator de Bayes . . . 40
4.1.2 Escores Logar´ıtmicos . . . 42
4.2 Crit´erio de Informa¸c˜ao Baseado no Desvio - DIC . . . 43
4.3 Crit´erio Baseado na Fun¸c˜ao de Perda Canˆonica . . . 44
4.4 Crit´erios Baseados em Fun¸c˜ao de Perda Quadr´atica e Valor Absoluto . . 46
5 M´etodos de Estima¸c˜ao de Modelos Aplicados em Modelos de Regress˜ao Linear 48 5.1 Aplica¸c˜ao a Dados Simulados . . . 48
5.2 Estima¸c˜ao de Modelos - Aplica¸c˜ao a Dados Reais . . . 63
6 Conclus˜ao 73
C´alculo da Distribui¸c˜ao de Contra¸c˜ao 77
C´alculo dos Estimadores da M´edia Harmˆonica 79
Cap´ıtulo 1
Introdu¸
c˜
ao
Um dos grandes objetivos na estat´ıstica, ´e o desenvolvimento e a estima¸c˜ao de um
modelo estoc´astico, descrevendo as vari´aveis de interesse para certo estudo. Modelos
estoc´asticos podem ser usados em diversas ´areas do conhecimento. Com efeito, em
eco-nomia podemos fazer uso de um modelo est´atistico para estimar o lucro de uma empresa,
sujeito a determinadas caracater´ısticas. Na demografia, um modelo pode ser elaborado
para estimar qual ser´a a popula¸c˜ao do pa´ıs daqui a 10 anos. J´a na ´area da sa´ude, um
modelo estat´ıstico pode ser capaz de associar fatores relativos ao estilo de vida de um
paciente (pr´atica de atividades f´ısicas, boa alimenta¸c˜ao, ingest˜ao de c´alcio) com a chance
dele adquirir uma doen¸ca, como a osteoporose, daqui a alguns anos. Assim, com poucos
exemplos, j´a foi poss´ıvel perceber o qu˜ao importante e abrangente um modelo estat´ıstico
pode ser.
A inferˆencia em modelos estat´ısticos pode n˜ao ser uma tarefa simples, mas ´e um
conceito amplamente difundido. Al´em disso, a grande maioria dos softwares estat´ısticos
possuem pacotes que s˜ao capazes de estimar modelos sem maiores dificuldades. Os
pro-blemas podem come¸car a surgir quando a quantidade de var´ıaveis candidatas a predizer uma determinada caracter´ıstica for muito elevada, uma vez que modelos com muitas
vari´aveis explicativas tendem a ser complicados para interpretar.
´
E cada vez mais frequentente na estat´ıstica moderna, estudos aplicados em que surge a
necessidade de lidar com bases de dados muito grandes. Para a manipula¸c˜ao de tais bases,
tenham a capacidade de lidar com problemas de dimens˜ao muito elevadas.
Um estudo apresentado em Chandulaka et al. (2010), que ser´a denominado como o
problema de marketing, lida com a estima¸c˜ao de um modelo cuja vari´avel de interesse ´e
a inten¸c˜ao dos consumidores na compra de um determinado produto. Nesse problema a
inten¸c˜ao de compra de um produto, pode ser influenciada por vari´aveis relacionadas `as
atitudes dos consumidores, suas cren¸cas e a publicidade do produto. ´E importante notar
que, estamos lidando com um n´umero elevado de vari´aveis explicativas, uma vez que
temos distintas quantidades de vari´aveis associadas `as atitudes dos consumidores, tais
como: recomenda¸c˜ao do produto a amigos, ”test-drive”do produto, estudo do produto
antes da compra, entre outras. Algumas vari´aveis associadas `as cren¸cas dos consumidores
s˜ao: durabilidade, seguran¸ca, qualidade do produto e outras. Por fim, vari´aveis
associ-adas a publicidade do produto s˜ao: publicidade na internet, publicidade na televis˜ao e
outras diversas formas de publicidade de um produto ou marca.
Visando o manuseio de tantas vari´aveis explicativas e a estima¸c˜ao de um modelo que
explique o problema de maketing, Chandulaka et al. (2010) desenvolvem um modelo de
efeitos hier´arquicos nas vari´aveis. Eles caracterizam os denominados modelo de efeitos
hier´arquicos nas vari´aveis, isto ´e, a rela¸c˜ao entre certas vari´aveis aleat´orias s˜ao
media-das por outras vari´aveis. Assim, modelos de efeitos hier´arquicos nas vari´aveis podem
ser analisados fatorando-se a distribui¸c˜ao conjunta das vari´aveis como um produto de
distribui¸c˜oes condicionais e marginais.
Para a melhor compreens˜ao do conceito de efeitos hier´arquicos nas vari´aveis e do
modelo proposto, suponha o grupo das trˆes vari´aveis aleat´orias associadas ao problema de
marketing: (x, b, z), onde x corresponde a um grupo de vari´aveis aleat´orias relacionadas a
atitudes dos consumidores mediante um determinado produto, b ´e um grupo de vari´aveis
relacionadas `as cren¸cas dos consumidores a respeito do produto em quest˜ao e z s˜ao
vari´aveis relacionadas a publicidade do produto. O objetivo ´e analisar a influˆencia desse
grupo de vari´aveis (x, b, z) na quantidade aleat´oria y, que ´e a inten¸c˜ao do consumidor na
compra do produto, e que deve ser entendida como a vari´avel de interesse. Obviamente a
distribui¸c˜ao conjunta dessas vari´aveis (y, x, b, z) admite distintas fatora¸c˜oes. No contexto
modelo a ser analisado.
Uma poss´ıvel fatora¸c˜ao da distribui¸c˜ao conjunta das vari´aveis em quest˜ao, indica que
as atitudes e as cren¸cas dos consumidores, x e b respectivamente, influenciam diretamente
a inten¸c˜ao de compra do produto. A Figura a seguir ilustra os efeitos hier´arquico nas
vari´aveis para esta particular fatora¸c˜ao:
Para este caso particular, o modelo a ser estudado ´e dado por [y|x, b], [x] e [b], onde os
colchetes representam distribui¸c˜oes condicionais e marginais. Assim, a inten¸c˜ao de
com-pra do produto pode ser explicada pelas atitudes e cren¸cas dos consumidores a respeito do mesmo.
Uma fatora¸c˜ao distinta, indica que z e x, as vari´aveis relacionadas a publicidade
do produto e atitudes dos consumidores, influenciam diretamente a inten¸c˜ao de compra
do produto. Adicionalmente, temos as vari´aveis associadas a publicidade do produto
afetando diretamente as vari´aveis relacionadas as atitudes dos consumidores, x. A Figura
a seguir representa os efeitos hier´arquicos nas vari´aveis para esta distinta fatora¸c˜ao:
A ilustra¸c˜ao acima exibe a representa¸c˜ao do efeito indireto da publicidade na inten¸c˜ao
de compra do produto, uma vez que a publicidade est´a afetando diretamente as atitudes
dos consumidores. Posteriormente, as atitudes dos consumidores x ir˜ao ter um efeito
a publicidade afetam a inten¸c˜ao de compra de maneira direta e indireta, o que pode
ser melhor verificado na Figura acima. Para esta particular fatora¸c˜ao, o modelo a ser
analisado ´e dado por [y|x, z], [x|z] e [z], onde os colchetes representam distribui¸c˜oes
condicionais e marginais.
Exitem outras fatora¸c˜oes poss´ıveis, por´em, a descri¸c˜ao de cada uma destas fatora¸c˜oes
n˜ao ´e relevante para o contexto. O importante ´e notar que que cada uma dessas distintas
fatora¸c˜oes, descrever´a diferentes modelos a serem analisados. Al´em disso, podemos ter
muitas vari´aveis explicativas associadas a vari´avel de interesse, o que dificultar´a a
es-tima¸c˜ao e interpreta¸c˜ao dos modelos. Ainda podemos lidar com o caso em que algumas
vari´aveis explicativas tem pouca influˆencia na inten¸c˜ao de compra do produto, ou uma
influˆencia n˜ao significativa. Nesse contexto, o uso de t´ecnicas que fa¸cam o procedimento
de sele¸c˜ao das vari´aveis relevantes pode auxiliar muito, fazendo com que tenhamos um
modelo mais parcimonioso e de f´acil interpreta¸c˜ao. Foi diante deste contexto, que surgiu
pela primeira vez, a necessidade da implementa¸c˜ao de um m´etodo que selecione preditores
relevantes para o modelo de maneira eficiente.
Nesta disserta¸c˜ao, iremos revisar e discutir a aplica¸c˜ao de algumas t´ecnicas de sele¸c˜ao
de vari´aveis em modelos lineares de regress˜ao. Todo o procedimento de inferˆencia ser´a
feito sob o enfoque bayesiano, isto ´e, atribuiremos uma distribui¸c˜ao a priori para os
parˆametros de interesse de cada modelo a fim de obter a distribui¸c˜ao a posteriori, e a
partir dela, realizar todo o processo de estima¸c˜ao. Obteremos amostras desta distribui¸c˜ao
a posteriori por meio de m´etodos de simula¸c˜ao estoc´astica, particularmente utilizaremos
os m´etodos de Monte Carlo via cadeias de Markov (MCMC na sigla em inglˆes).
Procuraremos verificar as vantagens e desvantagens entre cada uma das t´ecnicas
pro-postas para a sele¸c˜ao de preditores. Avaliaremos tais vantagens e desvantagens sob o
contexto te´orico e aplicado associado a cada uma das t´ecnicas, e tamb´em utilizaremos
crit´erios de sele¸c˜ao de modelos conhecidos na literatura, como o fator de bayes e o DIC,
visando a compara¸c˜ao dos modelos estimados por cada uma das diferentes t´ecnicas.
A relevˆancia deste tema pode ser notada quando analisamos o contexto da
modela-gem estat´ıstica moderna, onde ´e cada vez mais frequente nos depararmos com situa¸c˜oes
determi-nada vari´avel de interesse. Este problema acaba por trazer dificuldades na estima¸c˜ao do modelo. Por exemplo, preditores relacionados de forma exata ou aproximada geram
di-ficuldades de estima¸c˜ao. Tamb´em podemos citar o problema de obten¸c˜ao de estimativas
imprecisas ou at´e mesmo n˜ao significativas para o modelo. T´ecnicas de sele¸c˜ao de
predi-tores s˜ao necess´arias, pois d˜ao a possibilidade de estimar um modelo mais parcimonioso,
com menos vari´aveis preditoras, facilitando assim, o processo de estima¸c˜ao do modelo e
a sua interpreta¸c˜ao.
Esta disserta¸c˜ao est´a organizada em 6 Cap´ıtulos e 3 Apˆendices. No Cap´ıtulo 2,
faremos uma breve revis˜ao sobre estima¸c˜ao e sobre procedimentos de inferˆencia sob o
enfoque bayesiano. Discutiremos tamb´em m´etodos de simula¸c˜ao estoc´astica,
particu-larmente m´etodos MCMC. Tamb´em apresentaremos alguns pontos relevantes sobre o
pacote estat´ıstico WinBUGS, utilizado para a estima¸c˜ao dos modelos presentes nesta
disserta¸c˜ao. No Cap´ıtulo 3, revisaremos t´ecnicas de interesse para a estima¸c˜ao de
mode-los com sele¸c˜ao de preditores. Aqui ser˜ao feitas compara¸c˜oes te´oricas entre as diferentes
t´ecnicas propostas, procurando avaliar as vantagens e desvantagens associadas a cada
um dos m´etodos. No Cap´ıtulo 4, apresentaremos as t´ecnicas de compara¸c˜ao de modelos,
que ser˜ao utilizadas para a avaliar os m´etodos de estima¸c˜ao de modelos em um contexto
aplicado. Tal contexto aplicado, ser´a apresentado no Cap´ıtulo 5, onde faremos um estudo
simulado para avaliar em quais aspectos as t´ecnicas de estima¸c˜ao de modelo com sele¸c˜ao
de preditores possuem um melhor desempenho. Finalmente, um exemplo com dados ser´a
trabalhado na Se¸c˜ao 5.2, onde as t´ecnicas de estima¸c˜ao de modelos propostas ser˜ao
apli-cadas. Por fim, no Cap´ıtulo 6, apresentaremos as conclus˜oes e poss´ıveis extens˜oes desta
Cap´ıtulo 2
Modelos Bayesianos e M´
etodos de
Estima¸
c˜
ao
2.1
Inferˆ
encia Bayesiana e M´
etodos de Estima¸
c˜
ao
Este cap´ıtulo tem por objetivo revisar os principais conceitos do procedimento de
inferˆencia sob o enfoque bayesiano. Considere y, uma vari´avel aleat´oria ou vetor aleat´orio
com fun¸c˜ao de probabilidade ou fun¸c˜ao de densidade de probabilidade p(y|θ) em que θ
´
e um parˆametro ou vetor param´etrico que caracteriza a distribui¸c˜ao de probabilidade de
y. O valor de θ ´e desconhecido e queremos estim´a-lo. Sob o ponto de vista da inferˆencia
bayesiana, podemos incorporar nossa pr´opria incerteza na estima¸c˜ao de θ, assumindo
uma distribui¸c˜ao de probabilidade para este parˆametro, p(θ), a distribui¸c˜ao a priori.
Esta distribui¸c˜ao ´e atribu´ıda antes da observa¸c˜ao dos dados e mede a nossa incerteza a
priori a respeito de θ. Uma vez que os dados s˜ao observados, os quais denotaremos por y,
podemos encontrar a distribui¸c˜ao a posteriori de θ, p(θ|y), obtida a partir da combina¸c˜ao
da fun¸c˜ao de verossimilhan¸ca p(y|θ) com a distribui¸c˜ao a priori de θ, p(θ), via teorema
de Bayes, da forma:
p(θ|y) = p(y|θ)p(θ)
p(y) . (2.1)
de θ. Note que p(y) n˜ao depende de θ, logo o denominador da equa¸c˜ao acima pode ser
considerado constante com rela¸c˜ao a θ. Portanto, podemos rescrever a equa¸c˜ao 2.1 como:
p(θ|y) ∝ p(y|θ)p(θ) (2.2)
O procedimento de inferˆencia bayesiano ´e baseado fundamentalmente na distribui¸c˜ao
a posteriori de θ. Esta distribui¸c˜ao cont´em toda informa¸c˜ao probabil´ıstica a respeito do
parˆametro de interesse. No entanto, em algumas situa¸c˜oes torna-se necess´ario resumir
a informa¸c˜ao contida na distribui¸c˜ao a posteriori. O caso mais simples ´e a estima¸c˜ao
pontual, descrita na pr´oxima subse¸c˜ao:
2.1.1
Estima¸
c˜
ao Pontual
Na estima¸c˜ao pontual, nosso objetivo ´e a minimiza¸c˜ao de uma fun¸c˜ao perda L(δ(Y ), θ)
para algum estimador δ(Y ) de θ. Observe que o valor de θ ´e estimado a partir de
elementos da amostra. Para cada valor de θ e cada poss´ıvel estimativa d pertencente ao
espa¸co param´etrico Θ, associamos uma fun¸c˜ao de perda L(d, θ). Neste caso, podemos
calcular a perda esperada a posteriori ou risco a posteriori, da forma:
r(d, θ) = E(L(d, θ)|y) = Z
Θ
L(d, θ)p(θ|y)dθ (2.3)
A regra de Bayes consiste em escolher o valor de d ´otimo, ou seja, o valor de d que
minimiza a perda esperada E(L(d, θ)|y). Os estimadores d(Y), obtidos minimizando esta
perda esperada, ser˜ao chamados estimadores de Bayes. As fun¸c˜oes perda mais utilizadas
na literatura e seus respectivos estimadores s˜ao:
• Perda Quadr´atica: L(δ, θ) = (δ − θ)2. Neste caso, o estimador resultante ´e a m´edia
a posteriori de θ, isto ´e, δ = ˆθ = Eθ|y(θ);
• Perda Absoluta: L(δ, θ) = |δ − θ|. O estimador associado a perda quadr´atica
absoluta ´e a mediana a posteriori de θ, δ = med(θ);
• Perda 0-1: L(δ, θ) = lim→0I|θ−δ|([, ∞)), onde Ix(A) = 1 se x ∈ A e 0 caso
2.1.2
Estima¸
c˜
ao por Intervalo
Resumir a informa¸c˜ao contida na distribui¸c˜ao a posteriori atrav´es de um ´unico valor,
ˆ
θ, resulta numa sumariza¸c˜ao extrema da informa¸c˜ao dispon´ıvel. ´E interessante obter pelo
menos uma medida sobre qu˜ao precisa ´e a estimativa de ˆθ. Uma maneira de fazer isso ´e
fornercer uma regi˜ao de valores θ ∈ Θ, que tˆem associados a eles uma grande massa de
probabilidade a posteriori. Idealmente, gostar´ıamos de descrever uma regi˜ao de valores
de θ que ´e t˜ao pequena quanto poss´ıvel, mas cont´em o m´aximo de probabilidade a
posteriori. Assim define-se o intervalo de credibilidade a posteriori de θ, uma quantidade desconhecida definida em Θ, como sendo:
uma regi˜ao C ∈ Θ ´e uma regi˜ao de 100(1 − α)% de credibilidade para θ se P (θ ∈
C) ≥ 1 − α. Neste caso, 1 − α ´e chamado n´ıvel de credibilidade. No caso escalar, C ´e
usualmente dado por um intervalo, por exemplo, [c1, c2].
2.2
Inferˆ
encia Via Simula¸
c˜
ao Estoc´
astica
No contexto da inferˆencia estat´ıstica, a simula¸c˜ao estoc´astica tem o objetivo de
esti-mar caracter´ısticas probabil´ısticas de modelos ou distribui¸c˜oes de interesse, as quais n˜ao
poderiam ser obtidas analiticamente.
M´etodos de simula¸c˜ao estoc´astica s˜ao comumente utilizados ao fazer inferˆencia sob
a abordagem bayesiana. Eles s˜ao uma alternativa razo´avel para, por exemplo, simular
pontos de forma indireta da distribui¸c˜ao a posteriori, quando esta n˜ao possui forma
anal´ıtica fechada ou quando a avalia¸c˜ao por m´etodos num´ericos ´e invi´avel, devido a
grandes dimens˜oes param´etricas.
Em geral utilizam-se m´etodos de Monte Carlo via Cadeias de Markov (MCMC) para
realizar-se o processo inferencial.
2.2.1
Inferˆ
encia Via MCMC
A inferˆencia sob o paradigma bayesiano parte do pressuposto que a incerteza sobre
proba-bil´ısticos.
Por vezes, o denominador da equa¸c˜ao 2.2 n˜ao possui forma anal´ıtica fechada e a
avalia¸c˜ao por m´etodos num´ericos quando a dimens˜ao ´e grande ´e invi´avel. Da´ı surge
a necessidade de m´etodos de simula¸c˜ao estoc´astica, tais como os de Monte Carlo via
Cadeias de Markov (MCMC).
Se uma cadeia de Markov homogˆenea ´e irredut´ıvel, recorrente positiva e aperi´odica,
ent˜ao possui distribui¸c˜ao limite, a qual depende apenas da matriz de transi¸c˜ao da
ca-deia. Al´em disso, uma vez que a cadeia atinja a distribui¸c˜ao limite, todos os estados
subsequentes seguir˜ao tal distribui¸c˜ao.
Os m´etodos MCMC consistem na constru¸c˜ao de uma cadeia de Markov que, por meio
de escolhas adequadas de n´ucleos de transi¸c˜ao, tenha como distribui¸c˜ao estacion´aria a
distribui¸c˜ao de interesse. No contexto de estima¸c˜ao bayesiana, a distribui¸c˜ao a posteriori.
Uma vez que a convergˆencia da cadeia tenha sido atingida, as amostras estar˜ao sendo
geradas da distribui¸c˜ao estacion´aria. Para aproximar a distribui¸c˜ao a posteriori,
utilizam-se amostras suficientemente grandes dessa distribui¸c˜ao.
Os algoritmos MCMC mais utilizados no contexto de inferˆencia bayesiana s˜ao o
amos-trador de Gibbs e o algoritmo de Metropolis-Hastings, que ser˜ao descritos a seguir.
(i) Amostrador de Gibbs
O amostrador de Gibbs ´e um m´etodo de MCMC em que o n´ucleo de transi¸c˜ao ´e
formado pelas distribui¸c˜oes condicionais completas do vetor param´etrico. Assuma
que a distribui¸c˜ao de interesse ´e π(θ) em que θ = (θ1, . . . , θd)0. Considere tamb´em
que as distribui¸c˜oes condicionais completas πi(θi) = π(θi|θ−i), i = 1, . . . , d s˜ao
conhecidas e dispon´ıveis para a amostragem.
Quando h´a necessidade de amostrar de π, mas a sua gera¸c˜ao direta ´e complicada,
custosa, ou simplesmente invi´avel, o amostrador de Gibbs permite um processo de
gera¸c˜ao alternativo baseada em gera¸c˜oes sucessivas das distribui¸c˜oes condicionais
completas.
condicionais completas, o amostrador de Gibbs procede da seguinte forma:
• Inicialize o contador da cadeia em j = 1 e assuma valores iniciais θ(0) =
(θ(0)1 , . . . , θ(0)d )0
• Obtenha o novo valor θ(j) = (θ(j)
1 , . . . , θ
(j) d )
0 de θ(j−1) a partir de gera¸c˜oes
sucessivas: θ(j)1 ∼ π(θ1|θ (j−1) 2 , . . . , θ (j−1) d ) (2.4) θ(j)2 ∼ π(θ2|θ (j−1) 1 , θ (j−1) 3 , . . . , θ (j−1) d ) .. . θ(j)d ∼ π(θd|θ (j−1) 1 , . . . , θ (j−1) d−1 )
• Fa¸ca j = j + 1 e volte ao passo anterior at´e obter convergˆencia. `
A medida que o n´umero de itera¸c˜oes cresce, a cadeia de Markov simulada
aproxima-se de sua distribui¸c˜ao de equil´ıbrio. Sendo assim, θ(i) = (θ(i)
1 , . . . , θ
(i) d )
0 pode ser
considerado um ponto amostrado de π(θ). (ii) Metropolis-Hastings
Assuma que a distribui¸c˜ao de interesse ´e π(θ) em que θ = (θ1, . . . , θd)0. O algoritmo
Metropolis-Hastings ´e ´util para a gera¸c˜ao de valores de parˆametros cujas
distri-bui¸c˜oes condicionais completas n˜ao tenham forma anal´ıtica fechada e, portanto,
n˜ao estejam dispon´ıveis para amostragem, diferentemente do caso do amostrador
de Gibbs.
Neste caso, gera-se valores do parˆametro a partir de uma distribui¸c˜ao proposta
arbitr´aria e este ´e aceito ou n˜ao com uma certa probabilidade de aceita¸c˜ao, que
depende da qualidade do movimento proposto, avaliado com base na distribui¸c˜ao
proposta e da distribui¸c˜ao de interesse π(θ).
O algoritmo de Metropolis-Hastings procede da seguinte forma:
• Inicialize o contador da cadeia em j = 1 e assuma valores iniciais θ(0) =
• Obtenha um valor proposto θ∗ da distribui¸c˜ao proposta q(θ∗|θ(j−1))
• Aceite o valor proposto com probabilidade α(θ∗|θ(j−1)) = minh1, π(θ∗)q(θ(j−1)|θ∗)
π(θ(j−1))q(θ∗|θ(j−1))
i ,
ou seja, θ(j) = θ∗. Caso o valor proposto n˜ao seja aceito, fa¸ca θ(j) = θ(j−1).
• Fa¸ca j = j + 1 e volte ao passo segundo passo at´e obter convergˆencia.
A escolha da distribui¸c˜ao proposta ´e uma quest˜ao importante ao se utilizar m´etodos
MCMC com base no algoritmo de Metropolis-Hastings. Sob o ponto de vista
pr´atico, tal escolha ´e crucial para a sua convergˆencia para a distribui¸c˜ao a
pos-teriori.
Uma das propostas mais comuns s˜ao chamadas de cadeias sim´etricas, quando a
dis-tribui¸c˜ao proposta ´e sim´etrica em torno da itera¸c˜ao anterior, isto ´e, q(θ(j)|θ(j−1)) =
q(θ(j−1)|θ(j)). Neste caso, a probabilidade de aceita¸c˜ao se reduz `a raz˜ao da
distri-bui¸c˜ao de interesse, ou seja, α(θ∗|θ(j−1)) = minh1, π(θ∗)
π(θ(j−1))
i . ´
E importante ressaltar que a eficiˆencia do m´etodo est´a diretamente ligada `a escala
da distribui¸c˜ao proposta. Caso a variˆancia da distribui¸c˜ao proposta seja muito
pe-quena, a cadeia de Markov ir´a convergir lentamente, uma vez que seus incrementos
ser˜ao pequenos. Se a variˆancia for grande, a taxa de rejei¸c˜ao dos valores propostos
ser´a alta e a cadeia tender´a a n˜ao se mover. Muitos autores sugerem que a taxa de
aceita¸c˜ao do algoritmo deve estar entre 20% e 50%, ver Gamerman e Lopes (2006).
Estando decidido o m´etodo a ser utilizado, e obtida uma simula¸c˜ao da cadeia, deve-se
verificar se a convergˆencia foi obtida, para assim poder formar a amostra da distribui¸c˜ao
a posteriori das quantidades desconhecidas do modelo.
Existem v´arias formas de se realizar uma an´alise a respeito da convergˆencia da cadeia.
Uma das abordagens mais informais ´e a inspe¸c˜ao gr´afica, onde analisa-se a trajet´oria de
uma ou mais cadeias, com valores iniciais distintos e considera-se que a convergˆencia ´e
alcan¸cada quando todas as cadeias monitoradas permanecem em torno de um mesmo
ponto. Outros crit´erios, mais formais, tamb´em podem ser utilizados, como os m´etodos
crit´erio mencionado. Geweke (1992) sugere um procedimento para teste de convergˆencia
a partir da avalia¸c˜ao de m´edias erg´odicas de uma ´unica cadeia gerada, com base na
id´eia de que, ap´os convergˆencia, diferentes intervalos da cadeia gerada devam apresentar
comportamentos semelhantes. Seja uma cadeia gerada com um n´umero de itera¸c˜oes n
suficientemente grande. A id´eia ´e testar a igualdade das m´edias ¯x1 e ¯x2, calculadas,
respectivamente, a partir da fra¸c˜ao 0.1n inicial e 0.5n final da amostra. Considerando os
respectivos estimadores das variˆancias assint´oticas de ¯x1 e ¯x2, dados por V (¯x1) e V (¯x2),
tem-se que, quando n → ∞,
Gk=
¯
x1− ¯x2
pV (¯x1)/0.1n + V (¯x2)/0.5n
→ N (0, 1). (2.5)
Desta maneira, valores extremos de Gk indicam falta de convergˆencia. A t´ecnica de
Geweke est´a implementada no pacote CODA (Best et al. (1995)), execut´avel no software
R (R Development Core Team (2006)).
Ap´os a obten¸c˜ao da amostra, deve-se analisar a autocorrela¸c˜ao existente entre θ(j)
e θ(j−1). A amostra obtida a partir de uma cadeia de Markov ´e aleat´oria, mas n˜ao ´e
independente. Isso n˜ao afeta as estimativas dos parˆametros, mas tem influˆencia sobre as
variˆancias das estimativas resultantes desse procedimento de amostragem Gamerman e
Lopes (2006). Assim, nos casos em que for constatada uma forte correla¸c˜ao serial na
ca-deia, ap´os verificada a convergˆencia, recomenda-se a retirada de uma amostra sistem´atica
de seus valores para compor uma nova amostra. A forma como a amostragem sistem´atica
ser´a realizada pode ser baseada em um gr´afico contendo a fun¸c˜ao de autocorrela¸c˜ao da
cadeia.
2.2.2
WinBugs
O pacote estat´ıstico WinBUGS ´e uma vers˜ao em ambiente Windows do pacote BUGS
(Bayesian Inference Using Gibbs Sampling). ´E utilizado para an´alise bayesiana de
mo-delos estat´ısticos simples ou complexos, tendo a capacidade de estimar seus parˆametros
via MCMC. O WinBUGS consiste em um conjunto de fun¸c˜oes que permitem a
aleat´orios. Foi implementado por Thomas et al. (1992) e amplamente discutido em Lunn et al. (2000).
O WinBUGS possui a capacidade de reconhecer formas de distribui¸c˜oes
conjuga-das, distribui¸c˜oes log-cˆoncavas, distribui¸c˜oes com amplitudes restritas e etc. Com base
nesta informa¸c˜ao, o algoritmo de amostragem mais eficiente ´e selecionado para simula¸c˜ao.
Quando nenhuma destas propriedades ´e identificada, uma mensagem avisa a incapacidade
na escolha do m´etodo de atualiza¸c˜ao.
Dentro do WinBugs existe uma ordena¸c˜ao dos m´etodos de amostragem dispon´ıveis
para serem utilizados, que depende da forma da distribui¸c˜ao de interesse. Primeiramente,
m´etodos de amostragem utilizando algoritmos padr˜oes ser˜ao utilizados caso a distribui¸c˜ao
condicional seja conjugada. Caso essa condi¸c˜ao n˜ao seja satisfeita, o amostrador de
Gibbs passa a ser utilizado: a ARS (Adaptive Rejection Sampling) ´e usada para amostrar
eficientemente qualquer distribui¸c˜ao condicional com fun¸c˜ao densidade log-cˆoncava e a
ARMS (Adaptive Rejection Metropolis Sampling) generaliza a rotina ARS para o caso de
fun¸c˜oes que n˜ao s˜ao log-cˆoncavas, mas que possuem amplitudes restritas. Para o caso de
fun¸c˜oes que n˜ao s˜ao log-cˆoncavas e que n˜ao possuem amplitudes restritas, s˜ao utilizados
passos de Metropolis.
Para o algoritmo Metropolis-Hastings, o pacote usa como densidade de transi¸c˜ao
q(θ(j), .) uma distribui¸c˜ao gaussiana centrada no valor atual do parˆametro θ(j).
Todo o processo inferencial utilizado neste trabalho foi implementado no software
Cap´ıtulo 3
Sele¸
c˜
ao de Vari´
aveis
Com frequˆencia, em estudos aplicados, a modelagem estat´ıstica envolve um grande
n´umero de regressores. Este problema acaba por trazer dificuldades na estima¸c˜ao do
modelo. Por exemplo, preditores relacionados de forma exata ou aproximada geram
dificuldades de estima¸c˜ao. Tamb´em pode-se citar o problema de obten¸c˜ao de estimativas
imprecisas ou at´e mesmo n˜ao significativas para o modelo.
Eventualmente, tamb´em pode-se lidar com aplica¸c˜oes em que a quantidade de
regres-sores p ´e maior que n, n´umero de observa¸c˜oes. Um exemplo deste tipo, apresentado em
West (1993), consiste em prever o teor de gordura da massa de um determinado biscoito.
As caracter´ısticas desta massa s˜ao medidas por uma t´ecnica chamada NIR (near infrared
spectroscopy). Os preditores s˜ao p = 300 n´ıveis de reflectˆancia mensurados, obtidos pela
t´ecnica NIR, com uma amostra de 39 massas de biscoito.
Para esse exemplo, o m´etodo de m´ınimos quadrados n˜ao tem a capacidade de fazer a
estima¸c˜ao eficiente do modelo. Devido ao grande n´umero de vari´aveis independentes, s˜ao
grandes as chances delas possu´ırem rela¸c˜oes lineares exatas ou aproximadamente exatas
entre si, gerando o problema de multicolinearidade. Al´em disso, com tantas vari´aveis
regressoras, a variˆancia associada aos parˆametros regressores pode ser muito alta e a
matriz X’X−1 intrat´avel. Uma solu¸c˜ao para a estima¸c˜ao de modelos em que p > n, seria
a obten¸c˜ao de um pequeno n´umero de combina¸c˜oes lineares do conjunto de vari´aveis
independentes, que retenham o m´aximo da informa¸c˜ao contida nessas vari´aveis. Essa
de multicolinearidade. Em geral, esses procedimentos s˜ao feitos em duas etapas: primeiro
obtem-se as componentes principais e depois a regress˜ao estimada. Em West (1993), um
m´etodo integrado ´e apresentado sob a ´otica bayesiana.
Em contextos onde p ´e uma quantidade muito grande, com o objetivo de evitar a
estima¸c˜ao de modelos complexos, alguma forma de redu¸c˜ao de dimensionalidade, no que
diz respeito a quantidade de regressores p, ´e necess´aria. Com efeito, suponha o seguinte
modelo de regress˜ao:
y = Xβ + , (3.1)
onde β = (β1, . . . , βp)T ´e o vetor param´etrico, y ´e um vetor n × 1 da vari´avel resposta,
X ´e a matriz n × p dos regressores, e ´e o vetor de erros de dimens˜ao n × 1; as hip´oteses
do modelo de regress˜ao estabelecem que esses erros seguem uma distribui¸c˜ao normal, s˜ao
independentes e identicamente distribu´ıdos, com m´edia 0 e variˆancia desconhecida σ2.
Buscar solu¸c˜oes esparsas para o modelo de regress˜ao em quest˜ao, ´e o mesmo que
identificar de maneira eficiente os coeficientes βp que s˜ao iguais a zero ou muito pr´oximos
de zero. Logo, o regressor correspondente ao parˆametro βp = 0 ficar´a fora do modelo de
regress˜ao, levando a redu¸c˜ao da dimens˜ao de p.
A partir de uma perspectiva bayesiana, existem duas principais abordagens para
a estima¸c˜ao da esparsidade associada aos regressores: misturas discretas e prioris de
contra¸c˜ao (shrinkage). A primeira abordagem associa a cada βp uma distribui¸c˜ao a
priori que possui um ponto de massa no valor βp = 0 e uma alternativa absolutamente
cont´ınua; a segunda abordagem, que ser´a utilizada nesta disserta¸c˜ao, modela cada βp
com distribui¸c˜oes a priori de contra¸c˜ao, centradas em zero. Essas prioris s˜ao obtidas a
partir de misturas cont´ınuas.
Na se¸c˜ao 3.1, ser´a apresentada uma t´ecnica que introduz uma vari´avel latente do tipo
Bernoulli na distribui¸c˜ao a priori de β, tal vari´avel sinalizar´a os preditores que dever˜ao
ser inclu´ıdos ou n˜ao no modelo. Enquanto que nas se¸c˜oes 3.2 e 3.3, ser˜ao apresentadas
t´ecnicas para a estima¸c˜ao do modelo que utilizam distribui¸c˜oes de contra¸c˜ao, obtidas
via misturas cont´ınuas, para o vetor param´etrico β. Todo procedimento de inferˆencia
necess´ario nas t´ecnicas a serem apresentadas ser´a feito sob o enfoque bayesiano, isto ´e,
a distribui¸c˜ao a posteriori, que em nosso caso n˜ao ´e conhecida. T´ecnicas de simula¸c˜ao
estoc´astica (MCMC) ser˜ao utilizadas para a obten¸c˜ao de amostras desta distribui¸c˜ao.
3.1
Sele¸
c˜
ao de Vari´
aveis via Busca Estoc´
astica
O SSVS (Sele¸c˜ao de Vari´aveis via Busca Estoc´astica em inglˆes), ´e a t´ecnica de sele¸c˜ao
de vari´aveis proposta por George e Robert (1993), a qual baseia-se na incorpora¸c˜ao da
regress˜ao em um modelo hier´arquico de mistura de normais, onde um vetor de vari´aveis
latentes ´e capaz de sinalizar quais os melhores subconjuntos de X1, . . . , Xp. Cabe ressaltar
que os p regressores associados a y, fazem com que tenhamos 2p poss´ıveis modelos a serem
estimados.
Um fato interessante associado a este m´etodo de sele¸c˜ao de vari´aveis ´e que ele
”vi-sita”mais vezes os modelos mais relevantes, no sentido de possu´ırem os regressores mais
apropriados para explicar a quantidade y. A estima¸c˜ao do modelo ´e poss´ıvel a partir da
seguinte estrutura hier´arquica a priori para os parˆametros da regress˜ao:
y|X, β, σ2 ∼ Nn(Xβ, σ2In) βp|γp ∼ (1 − γp)N (0, τp2) + γpN (0, c2pτ 2 p) (3.2) γp ∼ Bern(πp) σ2 ∼ IG (ν, λ) ,
onde 0 ≤ πp ≤ 1, τp > 0, cp ∈ <, ν > 0 e λ > 0 s˜ao quantidades de ”sintonia”, isto ´e,
quantidades que precisam ser determinadas pelo pesquisador.
A quantidade πp pode ser interpretada como a probabilidade a priori de inclus˜ao do
regressor Xp no modelo. Logo, πp = 0 indica que, a priori, o pesquisador assume que o
regressor Xp deve ser exclu´ıdo no modelo; de maneira an´aloga, quando πp = 1 assume-se
que o respectivo regressor deve ser inclu´ıdo no modelo estimado.
Um dos recursos da t´ecnica Ssvs ´e que cada componente do vetor β ´e modelada
como mistura de distribui¸c˜oes normais com diferentes variˆancias, conforme apresentado
ser exclu´ıda do modelo. Logo a quantidade τp, que ´e o desvio-padr˜ao da componente
βp neste caso particular onde γp = 0, deve ser determinada de tal maneira que o valor
estimado para esse parˆametro βp possa ser substitu´ıdo por 0. Desta maneira, o regressor
Xp correspondente estar´a exclu´ıdo do modelo. Analogamente, se βp ∼ N (0, c2pτp2), ent˜ao
a respectiva componente γp = 1. Nesse caso, estamos interessados na escolha de valor
para cpτp que nos leve a uma estimativa n˜ao nula para βp, fazendo com que o regressor
Xp seja inclu´ıdo no modelo estimado.
Portanto, pode ser observado que o ajuste dos parˆametros de sintonia τ e c n˜ao ´e
tarefa f´acil. Diferentes escolhas para essas quantidades devem ser testadas. A Figura
3.1 ilustra como que distintas escolhas para τp e cp afetam a distribui¸c˜ao a priori de βp
quando γp = 0 e 1, respectivamente. De acordo com a Figura 3.1(a), podemos observar
que a distribui¸c˜ao de βp quando γp = 1 concentra uma grande massa de probabilidade
em torno do valor zero. Isso n˜ao ´e o desej´avel, uma vez que valores de γp = 1 sugerem
que a estimativa para o parˆametro βp seja n˜ao nula. A an´alise da distribui¸c˜ao de βp
quando γp = 0, representada pela linha cheia, concentra menos massa de probabilidade
em torno do valor zero, quando comparada com a linha tracejada, que ´e a distribui¸c˜ao do
parˆametro quando γp = 1. Neste caso, o ideal ´e a estimativa do parˆametro ser zero, mas
o ajuste do valor τp tal que a distribui¸c˜ao fique muito concentrada em torno do valor zero
deve ser evitado, afim de evitar que o parˆametro tenha uma distribui¸c˜ao muito restritiva.
Na Figura 3.1(b), ilustramos o comportamento para a distribui¸c˜ao de βp quando
γp = 0 e a estimativa para βp deve ser zero. Observamos que a fun¸c˜ao densidade da
distribui¸c˜ao a priori concentra uma grande massa de probabilidade em torno do valor
zero. Analogamente, quando γp = 1 e a estimativa para o parˆametro deve ser n˜ao
nula, observamos que a fun¸c˜ao de distribui¸c˜ao para βp ´e mais vaga e atribu´ı massa de
probablidade a valores mais distantes de zero.
A terceira combina¸c˜ao que apresentamos para a distribui¸c˜ao a priori para βp ´e
ilus-trada na Figura 3.1(c), onde observamos que quando γp = 0 e a estimativa para β deve
ser zero, vemos que a fun¸c˜ao densidade da distribui¸c˜ao a priori concentra uma massa
de probabilidade elevada em torno do valor zero. Em contrapartida, a linha tracejada
den-sidade do parˆametro atribu´ı massa de probabilidade a valores mais afastados de zero. A
situa¸c˜ao ilustrada por esta Figura consiste em um caso similar ao apresentado na Figura
3.1(b), a diferen¸ca est´a em prioris para βp quando γp = 0 ou 1 que atribuem massa de
probabilidade em intervalos com maiores amplitudes, ou seja, tˆem um comportamento
β Densidade γ =0 γ =1 −10 −5 0 5 10 0.0 0.1 0.2 0.3 0.4 0.5 (a) τ = 2, c = 0.5 β Densidade γ =0 γ =1 −10 −5 0 5 10 0.0 0.1 0.2 0.3 0.4 0.5 (b) τ = 2, c = 5 β Densidade γ =0 γ =1 −10 −5 0 5 10 0.0 0.1 0.2 0.3 0.4 0.5 (c) τ = 10, c = 5
Figura 3.1: Diferentes configura¸c˜oes da distribui¸c˜ao a priori para β.
Como veremos nas aplica¸c˜oes referentes a esta disserta¸c˜ao, utilizamos a distribui¸c˜ao
a priori para o parˆametro βp que possui o comportamento mais vago em torno do valor
zero, quando a respectiva componente γp = 1. Esta configura¸c˜ao para o parˆametro βp foi
utilizada afim de evitar a concentra¸c˜ao da alta massa de probabilidade em torno do valor
zero, quando a estimativa para a componente βp dever´a ser n˜ao-nula. Especificamente,
as configura¸c˜oes apresentadas na Figura 3.1(b) e 3.1(c) foram utilizadas em distintas
aplica¸c˜oes.
Por fim, para as quantidades ν e λ, George e Robert (1993) ressaltam que a escolha de
ν pr´oximos de 0 e qualquer valor de λ podem ser utilizadas para representar ignorˆancia
a respeito do parˆametro σ2. Usaremos a configura¸c˜ao em que os parˆametros ν e λ s˜ao
iguais a 0.001. Note que, utilizando tais valores, consideramos a distribui¸c˜ao a priori
vaga, permitindo que os dados tenham maior influˆencia na distribui¸c˜ao a posteriori.
Dentre as vantagens do Ssvs, podemos citar a possibilidade do usu´ario determinar
a importˆancia pr´atica de alguma vari´avel regressora. Com efeito, suponha que estudos
te´oricos mostrem que Xp´e extremamente relevante para explicar y. Com o Ssvs, o usu´ario
pode levar em conta tal relevˆancia, ao determinar que o elemento γp ´e Bernoulli com seu
parˆametro πp pr´oximo a 1.
Uma das desvantagens do m´etodo est´a associada a grande quantidade de parˆametros
de ”sintonia”presentes na equa¸c˜ao 3.2. O ajuste adequado dos parˆametros πp, τp, cp, ν
alterar drasticamente as estimativas obtidas. Nesta disserta¸c˜ao, o processo de ajuste dos
parˆametros foi simplificado quando fixamos que πp = π, τp = τ e cp = c, para todos p
regressores do modelo.
Quando a quantidade de regressores p > n, o Ssvs n˜ao ´e capaz de estimar o
mo-delo. Tal limita¸c˜ao ´e provavelmente decorrente, devido a um passo dentro do amostrador
de Gibbs, onde s˜ao necess´arias as estimativas para β obtidas via m´ınimos quadrados.
Essa limita¸c˜ao ´e uma grande desvantagem comparativa aos m´etodos mais modernos de
estima¸c˜ao de modelos com uso de t´ecnicas de sele¸c˜ao de preditores, que se baseiam na
obten¸c˜ao de distribui¸c˜oes de contra¸c˜ao para o vetor param´etrico β, e que ser˜ao
apresen-tados nas pr´oximas se¸c˜oes. Tais m´etodos produzem estimativas coerentes at´e mesmo nos
casos multidimensionais.
Finalmente, muitas vezes a interpreta¸c˜ao dos resultados obtidos pelo Ssvs ´e restringida
somente ao conhecimento dos melhores subconjuntos de X1, . . . , Xp, analisando-se apenas
a contagem dos modelos mais frequentementes visitados, e n˜ao as estimativas de β obtidas
pelo m´etodo. Neste trabalho n˜ao estaremos interessados em avaliar qual o modelo foi mais
frequentemente ”visitado”, e sim, nas estimativas para β, permitindo assim a compara¸c˜ao
do Ssvs com os demais m´etodos que ser˜ao apresentados. Al´em disso, pode ser observado
que o Ssvs indica e seleciona os modelos mais frequentes, enquanto que os m´etodos que
ser˜ao apresentados a seguir, naturalmente fazem uma mistura de modelos.
3.2
Operador de Sele¸
c˜
ao e Contra¸
c˜
ao com
Penali-dade em Valor Absoluto
Dentre os m´etodos que fazem tanto a contra¸c˜ao cont´ınua quanto a sele¸c˜ao de vari´aveis,
uma t´ecnica promissora que utiliza o operador de sele¸c˜ao e contra¸c˜ao com penalidade em
valor absoluto, foi proposta por Tibshirani (1996). Essa t´ecnica ser´a denominada como
Lasso, que sintetiza least absolute shrinkage and selection operator, isto ´e, operador de
sele¸c˜ao e contra¸c˜ao m´ınimo absoluto, em portuguˆes.
soma dos quadrados dos res´ıduos com uma restri¸c˜ao na norma L1 dos coeficientes β’s.
Assim, a estimativa de β sob o m´etodo do Lasso ´e dada por:
ˆ β = arg min β (˜y − Xβ) 0 (˜y − Xβ) + λ p X j=1 |βj|. (3.3)
Observe que X ´e a matriz dos regressores padronizados, a quantidade ˜y = y − ¯y1n e
λ ´e um parˆametro de ”sintonia”.
Uma maneira de ilustrar o funcionamento do estimador Lasso, ´e no caso onde temos
somente dois preditores. O losˆangulo da figura 3.2 caracteriza a restri¸c˜ao imposta pelo
m´etodo Lasso na estima¸c˜ao de β, enquanto que as elipses s˜ao as curvas de n´ıveis das
estimativas de verossimilhan¸ca de βp. As curvas de n´ıvel poder˜ao interceptar o losˆangulo
em um de seus quatro v´ertices. A solu¸c˜ao para o estimador Lasso corresponde a
inter-cepta¸c˜ao de uma dessas elipses com o losˆangulo. Se isto ocorrer no v´ertice (como na
Figura 3.2) a estimativa de um dos parˆametros ser´a nula, caso contr´ario representar´a um
ββi ββk 0.02 0.04 0.06 0.08 0.1 0.12 0.14 0.16 0.18 0.2 0.22 0.24 −2 −1 0 1 2 3 4 5 −2 0 2 4 6
Figura 3.2: Restri¸c˜ao na estima¸c˜ao dos β’s imposta pelo Lasso bayesiano.
Com a presen¸ca do termo penalizador λPp
j=1|βj| na equa¸c˜ao 3.3, Tibshirani (1996)
nota que a estimativa do Lasso pode ser interpretada como a moda a posteriori
es-timada quando os parˆametros β’s da regress˜ao possuem distribui¸c˜ao a priori Laplace
(exponencial dupla) independentes. Uma vantagem desta distribui¸c˜ao ´e que ela pode
ser expressada como uma mistura na escala de distribui¸c˜oes normais com variˆancias que
seguem distribui¸c˜oes exponenciais independentes.
3.2.1
Formula¸
c˜
ao Hier´
arquica do Modelo Lasso Bayesiano
Recentemente, Park e Casella (2008) propuseram o amostrador de Gibbs para o Lasso,
y|X, β, σ2 ∼ Nn(Xβ, σ2In) p(β|σ2, τ12, . . . , τp2) ∼ N (0p, σ2Dτ) (3.4) Dτ = diag(τ12, . . . , τ 2 p) σ2, τ12, . . . , τp2 ∼ π(σ2)dσ2 p Y j=1 λ2 2 e −λ2τ2 j/2dτ2 j
Especificamente, foi considerada uma an´alise bayesiana completa a partir do uso da
distribui¸c˜ao a priori Laplace, condicionada a σ2, no modelo hier´arquico. Com efeito, tal
distribui¸c˜ao ´e da seguinte forma:
π(β|σ2) = p Y j=1 λ 2√σ2e −λ|βj|/ √ σ2 (3.5)
Esta especifica¸c˜ao condicional a σ2´e particularmente importante, uma vez que garante
que a distribui¸c˜ao conjunta π(β, σ2|˜y) seja unimodal, segundo Park e Casella (2008). Uma
consequˆencia da n˜ao unimodalidade ´e a dificuldade de convergˆencia do amostrador de
Gibbs.
Como dito anteriormente, esta distribui¸c˜ao Laplace pode ser expressada como uma
mistura na escala de distribui¸c˜oes normais com variˆancias que seguem distribui¸c˜oes
ex-ponenciais independentes, isto ´e:
a 2e −a|z| = Z ∞ 0 1 √ 2πse −z2/(2s)a2 2e −a2s/2 ds, a > 0, (3.6)
onde temos a vari´avel aleat´oria Z|s ∼ N (0, s) combinada com S ∼ Exp(a2/2). Essa
representa¸c˜ao foi exemplificada em Andrews e Mallows (1974) e ´e exatamente a mistura de
normais na escala obtida a partir do Lasso bayesiano. Desta maneira, o Lasso bayesiano ´e
uma metodologia de estima¸c˜ao que utiliza distribui¸c˜oes de contra¸c˜ao, obtidas via misturas
cont´ınuas, conforme pode ser constatado na equa¸c˜ao 3.6.
Note que a representa¸c˜ao da distribui¸c˜ao Laplace como uma mistura de normais na
f (βp|σ2) = Z ∞ 0 f (βp|σ2, τ2 p)f (τ 2 p)dτ 2 p f (βp|σ2) = Z ∞ 0 1 p2πσ2τ2 p e −1 2σ2τ 2 i β2 pλ2 2 e −λ2τ 2p 2 dτ2 p (3.7) f (βp|σ2) = λ 2√σ2e −λ|βp|√ σ2
Como os βp’s e τp’s s˜ao independentes, a distribui¸c˜ao de β|σ2 ´e obtida pelo produt´orio
de cada uma das f (βp|σ2), chegando ao resultado descrito em (3.5).
Para a especifica¸c˜ao do modelo hier´arquico associado ao Lasso bayesiano, ´e necess´aria
a especifica¸c˜ao das distribui¸c˜oes a priori associadas aos parˆametros σ2 e λ, presentes na
equa¸c˜ao 3.4. Nesta disserta¸c˜ao, utilizaremos a distribui¸c˜ao a priori Inversa Gama para
o parˆametro σ2, como recomendado em Park e Casella (2008).
Sob a perspectiva bayesiana, o parˆametro λ pode ser estimado atrav´es do
procedi-mento bayesiano emp´ırico ou pelo uso de uma distribui¸c˜ao a priori apropriada. Nesta
disserta¸c˜ao o parˆametro ser´a estimado a partir da especifica¸c˜ao de uma distribui¸c˜ao a
priori, embora o procedimento bayesiano emp´ırico tenha sido utilizado em trabalhos
anteriores. Park e Casella (2008) consideram o uso de uma distribui¸c˜ao gamma a
pri-ori para λ2, uma vez que a conjuga¸c˜ao resultante permite que o amostrador de Gibbs
seja mais facilmente especificado. Deve-se evitar a especifica¸c˜ao de prioris vagas, como
(p(λ2) ∝ 1/λ2), uma vez que a distribui¸c˜ao a posteriori resultante ser´a impr´opria. O
ideal ´e que p(λ2) se aproxime de 0 suficientemente r´apido quando λ2 → ∞, sendo ao
mesmo tempo relativamente vaga.
Nas aplica¸c˜oes, recomenda-se a padroniza¸c˜ao da matriz de covari´aveis X.
3.2.2
Fun¸
c˜
ao de Contra¸
c˜
ao
Para uma melhor compreens˜ao a respeito do m´etodo do Lasso, podemos definir uma
quantidade, fun¸c˜ao dos parˆametros, denomida parˆametro de contra¸c˜ao. Este parˆametro,
ser´a representado pela quantidade κi = 1/(1 + τi2).
yi|βi, σ2 ∼ N (βi, σ2) (3.8)
βi|τi2, σ2 ∼ N (0, τi2σ2)
Quando fixamos a quantidade σ2 = 1, o valor esperado a posteriori do parˆametro β
i
fica definido por:
E(βi|yi, τi2) = 1 1 + τ2 i 0 + τ 2 i 1 + τ2 i yi = (1 − κi)yi (3.9) ´
E importante ressaltar que no modelo proposto em (3.8), para cada observa¸c˜ao yi
temos uma estimativa βi associada ao valor. Assim, a quantidade de parˆametros β’s a
serem estimados ´e exatamente igual ao tamanho da amostra n. Esse caso ´e diferente do
modelo apresentado na equa¸c˜ao 3.4, onde existem vari´aveis independentes associadas aos
p preditores β’s.
Voltando a Equa¸c˜ao 3.9, observamos que o parˆametro de contra¸c˜ao κi pode ser
inter-pretado como a quantidade de peso que a m´edia a posteriori de β concentra no ponto 0.
Note que, valores de κi pr´oximos a zero fazem com que a m´edia a posteriori de β seja
o pr´oprio valor observado yi, indicando que n˜ao houve contra¸c˜ao do parˆametro β. Por
outro lado, valores de κi pr´oximos a um, fazem com que a m´edia a posteriori de β seja
o valor zero, representando a contra¸c˜ao total do parˆametro estimado.
Uma vez que a quantidade κi ∈ [0, 1], podemos eliminar a condicionalidade associada
ao parˆametro τi2 da seguinte forma:
E(βi|y) =
Z 1
0
(1 − κi)yip(κi|y)dκi = [1 − E(κi|yi)]y. (3.10)
O n´ucleo da fun¸c˜ao de densidade do parˆametro κi, associado ao Lasso bayesiano ´e
apresentada a seguir:
p(κ) ∝ exp −1
2κ
κ−2 (3.11)
O c´alculo desta fun¸c˜ao densidade est´a apresentado no Anexo desta disserta¸c˜ao. O
gr´afico desta fun¸c˜ao de densidade associada ao Lasso bayesinao ´e apresentado na Figura
κi
Densidade a menos de constantes
0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.5 1.0 1.5 2.0 2.5
Figura 3.3: Densidade de κi ∈ [0, 1] associado ao m´etodo de estima¸c˜ao Lasso bayesiano.
Com a inspe¸c˜ao da fun¸c˜ao de distribui¸c˜ao a priori do parˆametro de contra¸c˜ao κi, ´e
poss´ıvel analisar de maneira mais clara como o m´etodo faz o discernimento entre as
ob-serva¸c˜oes associadas aos ru´ıdos e aquelas que s˜ao associadas a valores esp´urios. A Figura
3.3 ilustra a fun¸c˜ao de densidade do parˆametro de contra¸c˜ao para o Lasso bayesiano; ´e
poss´ıvel notar que a massa de probabilidade concentrada em torno do valor zero ´e
pe-quena, isso indica que a probabilidade desse parˆametro de contra¸c˜ao ser igual a zero ´e
pequena. Como vimos anteriormente que a esperan¸ca a posteriori de β ´e igual a (1−κi)yi,
´
e poss´ıvel concluir que raramente o Lasso associa ao valor de β o pr´oprio valor observado
yi.
Analisando o comportamento da fun¸c˜ao de distribui¸c˜ao do parˆametro de contra¸c˜ao
onde κi ´e pr´oximo ao valor um, ´e poss´ıvel notar que a distribui¸c˜ao ´e limitada. Em outras
palavras, a probabilidade do parˆametro κi ser igual a um n˜ao ´e t˜ao alta. Ressaltando
que altas probabilidades de κi = 1 indicam a capacidade de contra¸c˜ao do parˆametro β.
Conclu´ımos que o Lasso possui uma capacidade limitada de contra¸c˜ao da estimativa do
3.2.3
Fun¸
c˜
ao de Influˆ
encia
Outro instrumento que permite um melhor entendimento sobre o comportamento do
Lasso bayesiano como m´etodo de estima¸c˜ao de modelos e sele¸c˜ao de preditores, ´e a fun¸c˜ao
de influˆencia. Como seu pr´oprio nome sugere, o estudo desta fun¸c˜ao permite a an´alise da
maneira como os dados ser˜ao tratados pelo m´etodo de estima¸c˜ao. Nesta an´alise, temos
o particular interesse em analisar o comportamento dessa fun¸c˜ao em valores associados
as observa¸c˜oes esp´urias.
Um resultado b´asico e necess´ario para o c´alculo da fun¸c˜ao de influˆencia foi apresentado
em Pericchi e Smith (1992) e merece ser revisitado:
Suponha que x1, . . . , xn seja uma amostra aleat´oria de uma distribui¸c˜ao normal com
m´edia β e variˆancia σ2. Logo y = P x
i/n ∼ N (β, σ2/n) tem distribui¸c˜ao de densidade
p(y|β). Defina a quantidade m(y), dada por:
m(y) = Z
p(y − β)π(β)dβ. (3.12)
Este resultado ´e aplic´avel para qualquer fun¸c˜ao de distribui¸c˜ao a priori para o vetor β
que obede¸ca a condi¸c˜ao π(β) ≥ 0 em valores de β pertencentes ao conjunto dos n´umeros
reais. Tamb´em defina as seguintes quantidades:
s(y) = −∂{log(m(y)}
∂y e S(y) = −
∂{log(s(y)}
∂y (3.13)
A fun¸c˜ao de influˆencia ´e dada pela quantidade s(y). Como dito anteriormente, o
estudo desta fun¸c˜ao ir´a auxiliar a compreender a maneira como os dados s˜ao tratados
pelo m´etodo de estima¸c˜ao.
Com efeito, suponha que y ∼ N (β, 1), com β = 0. Neste caso, ´e f´acil observar que
a fun¸c˜ao de influˆencia associada a este modelo ´e dada por s(y) = y. A Figura 3.4, que
ser´a apresentada mais adiante, possui o gr´afico relativo a esta fun¸c˜ao. Sua an´alise mostra
que valores pequenos, tem uma pequena influˆencia no modelo, ao contr´ario de valores
grandes, que associam uma grande influˆencia ao modelo, indicando que este modelo n˜ao
´
Pericchi e Smith (1992) mostram que tanto a esperan¸ca quanto a variˆancia a posteriori
de β podem ser escritas como fun¸c˜ao das quantidades apresentadas na equa¸c˜ao 3.13,
portanto: E(β|y) = y + σ 2 ns(y) e V ar(β|y) = σ2 n + σ2 n2S(y). (3.14)
Ainda neste estudo, Pericchi e Smith (1992) apresentam os valores das quantidades de
interesse: s(y), a fun¸c˜ao de influˆencia, e E(β|y), a esperan¸ca a posteriori do parˆametro,
quando a distribui¸c˜ao a priori de β ´e exponencial dupla. Este ´e exatamente o caso do
m´etodo de estima¸c˜ao do Lasso bayesiano, que associa ao parˆametro β a distribui¸c˜ao
exponencial dupla, da seguinte forma:
p(β) = √1 2σ2 exp −√|β| σ2 .
Essa ´e a fun¸c˜ao de distribui¸c˜ao exponencial dupla associada ao Lasso bayesiano quando
λ = 1. Neste contexto, os valores das quantidade de interesse s˜ao dados por:
s(y) = −a
σ2[F (y) − G(y)] onde,
F (y) = exp[c(y)]Φ " p (n) σ (−y − b) # , (3.15) G(y) = exp[−c(y)]Φ " −p(n) σ (−y + b) # , a = exp[1 n] , b = √ 2 n , c(y) = √ 2y σ2
Em que Φ(.) denota a fun¸c˜ao de distribui¸c˜ao acumulada normal padr˜ao. A m´edia a
posteriori de β pode ser obtida a partir da seguinte express˜ao
E(β|y) = w(y)(y + b) + [1 − w(y)](y − b) , onde (3.16)
w(y) = F (y)
Na Figura 3.4 ´e poss´ıvel observar o comportamento da fun¸c˜ao de influˆencia associada
ao Lasso bayesiano. Tal fun¸c˜ao tem a caracter´ıstica de truncagem da influˆencia
determi-nadas observa¸c˜oes, assim, observa¸c˜oes associadas as observa¸c˜oes esp´urias possuem uma
influˆencia constante na estima¸c˜ao do modelo nesta metodologia. Observe que a
com-para¸c˜ao da fun¸c˜ao de influˆencia do Lasso bayesiano com a fun¸c˜ao associada ao modelo
normal, exalta a diferen¸ca dos modelos no que diz respeito ao tratamento das observa¸c˜oes
Y Função de Influência −10 −5 0 5 10 −2 −1 0 1 2
Figura 3.4: Fun¸c˜oes de influˆencia associadas ao modelo normal e Lasso, linha tracejada
e cheia, respectivamente.
Dentre as vantagens da utiliza¸c˜ao deste m´etodo na estima¸c˜ao de um modelo, citamos
a presen¸ca do termo penalizador λ. A restri¸c˜ao imposta por esse termo se mostra como
uma qualidade interessante na proposta de contra¸c˜ao das estimativas de β. Tal
proce-dimento s´o ´e poss´ıvel a partir da id´eia do Lasso. Comparado com o Ssvs, notamos que
o tempo computacional para a estima¸c˜ao de um mesmo modelo ´e bem menor. Ainda
verificamos a presen¸ca de menos termos de sintonia. Em contrapartida, o ajuste de uma
distribui¸c˜ao a priori adequada para λ2 pode ser uma tarefa delicada, uma vez que ´e ideal
que essa distribui¸c˜ao n˜ao seja muito vaga, para n˜ao haver o risco do amostrador de Gibbs
fornecer estimativas imprecisas. Uma desvantagem do m´etodo ´e a sensibilidade associada
3.3
Mistura de normais na Escala Usando
Distri-bui¸
c˜
oes de Cauchy
A estima¸c˜ao de modelos via mistura na escala de distribui¸c˜oes normais com a
distri-bui¸c˜ao de Cauchy ´e umas das t´ecnicas mais recentemente apresentadas no contexto do
uso de distribui¸c˜oes de contra¸c˜ao, obtidas via misturas cont´ınuas. Ressaltando que,
mis-turas cont´ınuas para a obten¸c˜ao de distribui¸c˜oes de contra¸c˜ao tamb´em foram utilizadas
para a estima¸c˜ao do modelo pelo Lasso bayesiano.
3.3.1
Formula¸
c˜
ao Hier´
arquica do Modelo
O estimador de modelos via mistura na escala de normais com distribui¸c˜oes Cauchy,
ser´a definido daqui em diante como estimador Horseshoe. A estima¸c˜ao do modelo via
Horseshoe ´e um m´etodo eficiente n˜ao s´o de estima¸c˜ao, mas tamb´em de sele¸c˜ao de
predi-tores no modelo proposto. Sua metodologia foi proposta em Carvalho et al. (2010). O
m´etodo de estima¸c˜ao via Horseshoe assume que cada um dos parˆametros βp’s possuem
distribui¸c˜oes condicionalmente independentes dado λ, o parˆametro de contra¸c˜ao global.
Dessa maneira, o modelo de estima¸c˜ao ´e definido com a seguinte mistura na escala de
normais:
y|X, β, τ, λ, σ2 ∼ Nn(Xβ, σ2In)
βp|τp ∼ N (0, τp2) (3.18)
τp|λ ∼ C+(0, λ)
λ|σ ∼ C+(0, σ)
onde C+(0, a) ´e uma distribui¸c˜ao Cauchy padr˜ao truncada nos reais positivos, com
parˆametro de escala a.
As quantidades τp’s podem ser interpretadas como parˆametros de contra¸c˜ao local,
no sentido de estarem associadas a cada βp. Observe que na estrutura hier´arquica
hi-perparˆametros associados a variˆancia do modelo, σ2. Os demais parˆametros s˜ao
devida-mente estimados a partir da estrutura hier´arquica imposta. A distribui¸c˜ao a priori para
o parˆametro de variˆancia σ2 ser´a a priori de Jeffrey’s. Assim p(σ2) ∝ 1/σ2, tendo sua
distribui¸c˜ao relativamente vaga e permitindo que os dados tenham maior influˆencia na
distribui¸c˜ao a posteriori do parˆametro de variˆancia.
O estimador Horseshoe tem a liberdade de fazer a contra¸c˜ao dos elementos de βp de
maneira global, atrav´es do parˆametro λ, e de maneira local atrav´es das quantidades τp.
O parˆametro λ estima o n´ıvel de esparsidade associado ao vetor param´etrico, enquanto
que os parˆametros de contra¸c˜ao locais s˜ao capazes de reduzir os valores associados ao
vetor param´atrico β. Essa caracter´ıstica ´e uma vantagem do m´etodo Horseshoe quando
comparado aos demais m´etodos de sele¸c˜ao de preditores, j´a que nenhum outro tem essa
mesma capacidade.
A Figura 3.5 ilustra o comportamento da distribui¸c˜ao a priori para o parˆametro β.
Tal distribui¸c˜ao ´e obtida a partir da mistura no parˆametro de escala da distribui¸c˜ao
normal associada a β|τ , com a distribui¸c˜ao Cauchy truncada nos valores reais positivos.
A fun¸c˜ao de distribui¸c˜ao para o parˆametro β ´e limitada da seguinte maneira:
(2π2)−1/2 2 log 1 + 4 β2 < p(β) < (2π2)(−1/2)log 1 + 2 β2 , conforme demonstrado em Carvalho et al. (2010).
β Densidade −3 −2 −1 0 1 2 3 0.0 0.1 0.2 0.3 0.4 0.5 (a) β Densidade 3 4 5 6 7 0.00 0.01 0.02 0.03 0.04 (b)
Figura 3.5: Compara¸c˜ao entre as distribui¸c˜ao a priori para β. As linhas tracejada e cheia
representam a distribui¸c˜ao associada ao m´etodo Lasso e Horseshoe, respectivamente.
A Figura 3.5 ilustra o comportamento das distribui¸c˜oes a priori associadas aos m´etodos
de estima¸c˜ao de modelo Horseshoe e Lasso. Podemos observar no gr´afico 3.5(a) que a
distribui¸c˜ao Horseshoe possui um alongamento nos valores onde β ´e pr´oximo de zero. Tal
comportamento ´e a chave para a boa performance do m´etodo de estima¸c˜ao com rela¸c˜ao
aos ru´ıdos associados ao vetor param´etrico β. Este comportamento ´e menos percebido
quando estamos analisando a distribui¸c˜ao exponencial dupla, associada ao m´etodo de
estima¸c˜ao via Lasso bayesiano. Na Figura 3.5(b) podemos observar que a distribui¸c˜ao
Horseshoe apresenta sua cauda mais pesada, quando comparada com a cauda da
distri-bui¸c˜ao exponencial dupla. ´E exatamente essa caracter´ıstica das caudas pesadas, que faz
com que o m´etodo de estima¸c˜ao atrav´es do Horseshoe lide melhor com os valores esp´urios
associados ao modelo.
3.3.2
Fun¸
c˜
ao de Contra¸
c˜
ao
Na se¸c˜ao 3.2.2 foi apresentado o parˆametro de contra¸c˜ao, definido pela quantidade
m´etodo de estima¸c˜ao de modelo em an´alise, uma vez que o parˆametro τi est´a diretamente
relacionado com a variabilidade a priori do vetor param´etrico β.
Assim como feito no Lasso bayesiano, para o m´etodo de estima¸c˜ao pelo Horseshoe
tamb´em calculamos a fun¸c˜ao de densidade do parˆametro de contra¸c˜ao. O c´alculo desta
fun¸c˜ao ´e apresentado no Anexo deste trabalho. A fun¸c˜ao de distribui¸c˜ao do parˆametro
κ ´e dada pela seguinte express˜ao:
p(κ) ∝ (κ)−0.5(1 − κ)−0.5 (3.19)
A Figura a seguir ilustra o comportamento da fun¸c˜ao de distribui¸c˜ao do parˆametro