• Nenhum resultado encontrado

Seleção de Preditores em Modelos de Regressão

N/A
N/A
Protected

Academic year: 2021

Share "Seleção de Preditores em Modelos de Regressão"

Copied!
105
0
0

Texto

(1)

Sele¸

ao de Preditores em Modelos de

Regress˜

ao

Carolina Marques Bastos

Universidade Federal do Rio de Janeiro

Instituto de Matem´

atica

Departamento de M´etodos Estat´ısticos

2011

(2)

Sele¸c˜

ao de Preditores em Modelos de Regress˜

ao

Carolina Marques Bastos

Disserta¸c˜ao submetida ao Corpo Docente do Instituto de Matem´atica - Departamento

de M´etodos Estat´ısticos da Universidade Federal do Rio de Janeiro - UFRJ, como parte

dos requisitos necess´arios `a obten¸c˜ao do grau de Mestre em Estat´ıstica.

Aprovada por:

Profo. Helio S. Migon

DME - UFRJ - Orientador

Profo. Thais C. O. Fonseca

DME - UFRJ

Profo. Marco A. Rodr´ıguez

Universit´e du Qu´ebec `a Trois-Rivi`eres

Rio de Janeiro

(3)

Agradecimentos

Agrade¸co a Deus por sempre colocar na minha vida ´otimas oportunidades, por ter

me capacitado e guiado para a conclus˜ao de mais uma etapa da minha vida.

A minha fam´ılia, agrade¸co por sempre estar ao meu lado, dando apoio em todos os

passos da minha vida e comemorando cada vit´oria alcan¸cada. Agrade¸co aos meus pais,

Katia e Heloy, por me apoiarem em todos os momentos, por todo o esfor¸co para que

eu tivesse as melhores condi¸c˜oes de estudo e por darem muito valor a cada conquista.

Obrigada por tudo!

Ao meu noivo Luiz, que acompanha de perto todas as vit´orias ao longo do tempo

que estamos juntos. Gostaria de agradecer a sua compreens˜ao e paciˆencia em todos os

meus surtos diante desta disserta¸c˜ao. Sem o seu apoio, carinho e incentivo, eu n˜ao teria

chegado at´e aqui.

Agrade¸co `as companheiras da FGV, Lu´ısa e Samanta, pela for¸ca e apoio de sempre.

Ao Marcelo Neri, por me incentivar desde o in´ıcio e mostrar a importˆancia do mestrado

na minha forma¸c˜ao. Agrade¸co pela licen¸ca que me foi concedida durante esse per´ıodo,

por todos os conselhos e conversas.

As minhas amigas de turma: Carol, Camila, Renata e Priguete, que ajudaram muito

com estudos, trabalhos e momentos de lazer. Compartilhamos ´otimos momentos.

Obri-gada por sempre estarem presentes ajudando! A amiga Renata um agradecimento es-pecial por ter me apresentado minha best Luana (hehe)! Agrade¸co por compreender o que ela chama de desapego, por segurar a vontade de fofocar durante horas enquanto eu

terminava a minha disserta¸c˜ao e, ela j´a tinha terminado a dela! Por me proporcionar

muitas risadas, momentos de reflex˜ao, explica¸c˜oes sobre estat´ıstica bayesiana, mcmc e R.

Inexplic´avel o quanto vocˆe me incentivou... Obrigada por toda sua ”bestice”! Aos demais

(4)

Mari que ajudaram com contas, disciplinas, provas e etc. Tamb´em proporcionaram

mo-mentos de risadas e muita descontra¸c˜ao, tornando a vida mais alegre em dias de Fund˜ao.

Ao Vini, por ter me ensinado a rodar o WinBugs no R, deixando a parte da programa¸c˜ao

da disserta¸c˜ao muito mais pr´atica!!!

Agrade¸co ao Migon pela orienta¸c˜ao, incentivo e paciˆencia. Obrigada por todo

conhe-cimento passado durante o per´ıodo em que estivemos envolvidos na disserta¸c˜ao.

Agrade¸co ao Marco Rodr´ıguez e a Thais Fonseca, por aceitarem fazer parte da minha

banca. A Thais agrade¸co tamb´em por sua disponibilidade e boa vontade ao me passar

seus conhecimentos e sugest˜oes referentes a elabora¸c˜ao desta disserta¸c˜ao.

Agrade¸co a todos aqueles que de alguma forma torceram por mim e contribu´ıram para que eu conclu´ısse esse curso de mestrado.

Finalmente, agrade¸co ao CNPQ pelo financiamento dos meus estudos durante este per´ıodo.

(5)

Resumo

O estudo de t´ecnicas que selecionam os preditores de um modelo estimado de forma

criteriosa, ´e parte fundamental do processo de constru¸c˜ao do modelo estat´ıstico. Nesta

disserta¸c˜ao, a proposta ´e fazer a compara¸c˜ao de m´etodos de estima¸c˜ao de modelos que

utilizam t´ecnicas para a sele¸c˜ao de preditores. A compara¸c˜ao ser´a feita por meio de

crit´erios de sele¸c˜ao de modelos j´a conhecidos na literatura.

A primeira t´ecnica a ser utilizada para a estima¸c˜ao do modelo e sele¸c˜ao de

predi-tores, se baseia na imers˜ao do modelo de regress˜ao em uma estrutura hier´arquica de

mistura de normais, onde uma vari´avel latente ir´a sinalizar quais preditores devem ser

inclu´ıdos no modelo ou n˜ao. Dessa forma, esta t´ecnica n˜ao s´o estima o modelo, como

tamb´em tem a capacidade de selecionar os preditores mais relevantes para o mesmo. A

segunda t´ecnica para a estima¸c˜ao de modelos consiste no uso de distribui¸c˜oes de

con-tra¸c˜ao para o vetor param´etrico. As distribui¸c˜oes de contra¸c˜ao s˜ao obtidas via mistura

de fun¸c˜oes de distribui¸c˜oes cont´ınuas. Estamos interessados em duas formas

particula-res de obten¸c˜ao de fun¸c˜oes de distribui¸c˜ao de contra¸c˜ao: a primeira delas consiste na

mistura do parˆametro de escala da distribui¸c˜ao normal com uma fun¸c˜ao de distribui¸c˜ao

que seja exponencialmente distribu´ıda. Tamb´em estamos interessados em outra forma de

obten¸c˜ao de distribui¸c˜oes de contra¸c˜ao, em que ´e feita a mistura do parˆametro de escala

da distribui¸c˜ao normal com uma fun¸c˜ao de distribui¸c˜ao Cauchy, truncada nos valores

reais positivos.

Verificaremos as vantagens e desvantagens associadas a estas propostas para a

es-tima¸c˜ao de modelos, que tamb´em tem o objetivo de fazer sele¸c˜ao ou contra¸c˜ao dos

pre-ditores. Todo o procedimento de inferˆencia ser´a feito sob o enfoque bayesiano, isto ´e:

atribu´ıremos uma distribui¸c˜ao a priori para os parˆametros de interesse do modelo, a fim

(6)

de Monte Carlo via Cadeias de Markov (MCMC, sigla em inglˆes) ser˜ao utilizados para

obter amostras dessa distribui¸c˜ao.

As t´ecnicas para a estima¸c˜ao do modelo ser˜ao aplicadas a um conjunto de dados

gerados de maneira artificial. Para esse conjunto de dados, a quantidade de vari´aveis

preditoras, a correla¸c˜ao entre elas e o tamanho da amostra, ser˜ao variados. Dessa

ma-neira, iremos avaliar qual t´ecnica de estima¸c˜ao de modelos foi a mais eficiente. Um n´ıvel

de esparsidade ser´a atribu´ıdo ao vetor param´etrico, fazendo com que muitos de seus

elementos sejam nulos. Exerc´ıcios de simula¸c˜ao nos permitem avaliar qual dos m´etodos

capta melhor a estrutura de esparsidade associada ao vetor param´etrico e calibrar de

ma-neira adequada a implementa¸c˜ao das propostas para estima¸c˜ao de modelos. Finalmente,

as t´ecnicas de estima¸c˜ao propostas e avaliadas ser˜ao aplicadas a exemplos que utilizam

dados reais.

Palavras-Chaves: Estima¸c˜ao de modelos, sele¸c˜ao de preditores, misturas cont´ınuas,

(7)

Abstract

In statistics, a crucial problem in building a multiple regression model is the selection of predictors to include. In this work, we will compare methods for model estimation that use techniques that select the predictors. The comparison will be made using known criteria for model selection.

The first technique to be used for model estimation and selection of predictors, entails embedding the regression setup in a hierarchical normal mixture model where latent variables are used to identify which predictors should be included in the model. This technique can estimate and select the most relevants predictors for this. The second technique for model estimation, is based on shrinkage priors obtained by normal scale mixtures. We are interested in two particular ways of obtaining shrinkage distributions: the first one is obtained by normal scale mixtures with exponential distributions. Also we are interested in another way of obtaining shrinkage distributions, by normal scale mixtures with a standard half-Cauchy distribution on the positive reals.

We examine the proposal’s advantages and disadvantages. These proposals for model estimation also objectively select or shrink predictors. All the inference procedure follows the Bayesian approach, that is, we attribute a prior distribution for the parameters of interest of each model to obtain the posterior distribution which, in our case, is not known. Markov chain Monte Carlo methods (MCMC) are used to obtain samples of this distribution

The proposed techniques for model estimation will be applied to data sets having different numbers of predictors, correlation among predictors and sample size. We analyze which technique for model estimation is more efficient. The parametric vector has a sparsity level, such that many of its elements are null. A simulation exercise allows us to evaluate which method better captures the sparsity level and standardizes the

(8)

implementation of proposals for model estimation. Finally, the proposed estimation techniques will be applied in a example based on a real data set.

Keywords: Model estimation, predictor selection, continous mixtures, shrinkage dis-tributions.

(9)

Sum´

ario

1 Introdu¸c˜ao 1

2 Modelos Bayesianos e M´etodos de Estima¸c˜ao 6

2.1 Inferˆencia Bayesiana e M´etodos de Estima¸c˜ao . . . 6

2.1.1 Estima¸c˜ao Pontual . . . 7

2.1.2 Estima¸c˜ao por Intervalo . . . 8

2.2 Inferˆencia Via Simula¸c˜ao Estoc´astica . . . 8

2.2.1 Inferˆencia Via MCMC . . . 8

2.2.2 WinBugs . . . 12

3 Sele¸c˜ao de Vari´aveis 14 3.1 Sele¸c˜ao de Vari´aveis via Busca Estoc´astica . . . 16

3.2 Operador de Sele¸c˜ao e Contra¸c˜ao com Penalidade em Valor Absoluto . . 20

3.2.1 Formula¸c˜ao Hier´arquica do Modelo Lasso Bayesiano . . . 22

3.2.2 Fun¸c˜ao de Contra¸c˜ao . . . 24

3.2.3 Fun¸c˜ao de Influˆencia . . . 27

3.3 Mistura de normais na Escala Usando Distribui¸c˜oes de Cauchy . . . 31

3.3.1 Formula¸c˜ao Hier´arquica do Modelo . . . 31

3.3.2 Fun¸c˜ao de Contra¸c˜ao . . . 33

3.3.3 Fun¸c˜ao de Influˆencia . . . 36

4 Crit´erios de Sele¸c˜ao de Modelos 39 4.1 Crit´erios Baseados na Fun¸c˜ao de Verossimilhan¸ca Marginal . . . 40

(10)

4.1.1 Fator de Bayes . . . 40

4.1.2 Escores Logar´ıtmicos . . . 42

4.2 Crit´erio de Informa¸c˜ao Baseado no Desvio - DIC . . . 43

4.3 Crit´erio Baseado na Fun¸c˜ao de Perda Canˆonica . . . 44

4.4 Crit´erios Baseados em Fun¸c˜ao de Perda Quadr´atica e Valor Absoluto . . 46

5 M´etodos de Estima¸c˜ao de Modelos Aplicados em Modelos de Regress˜ao Linear 48 5.1 Aplica¸c˜ao a Dados Simulados . . . 48

5.2 Estima¸c˜ao de Modelos - Aplica¸c˜ao a Dados Reais . . . 63

6 Conclus˜ao 73

C´alculo da Distribui¸c˜ao de Contra¸c˜ao 77

C´alculo dos Estimadores da M´edia Harmˆonica 79

(11)

Cap´ıtulo 1

Introdu¸

ao

Um dos grandes objetivos na estat´ıstica, ´e o desenvolvimento e a estima¸c˜ao de um

modelo estoc´astico, descrevendo as vari´aveis de interesse para certo estudo. Modelos

estoc´asticos podem ser usados em diversas ´areas do conhecimento. Com efeito, em

eco-nomia podemos fazer uso de um modelo est´atistico para estimar o lucro de uma empresa,

sujeito a determinadas caracater´ısticas. Na demografia, um modelo pode ser elaborado

para estimar qual ser´a a popula¸c˜ao do pa´ıs daqui a 10 anos. J´a na ´area da sa´ude, um

modelo estat´ıstico pode ser capaz de associar fatores relativos ao estilo de vida de um

paciente (pr´atica de atividades f´ısicas, boa alimenta¸c˜ao, ingest˜ao de c´alcio) com a chance

dele adquirir uma doen¸ca, como a osteoporose, daqui a alguns anos. Assim, com poucos

exemplos, j´a foi poss´ıvel perceber o qu˜ao importante e abrangente um modelo estat´ıstico

pode ser.

A inferˆencia em modelos estat´ısticos pode n˜ao ser uma tarefa simples, mas ´e um

conceito amplamente difundido. Al´em disso, a grande maioria dos softwares estat´ısticos

possuem pacotes que s˜ao capazes de estimar modelos sem maiores dificuldades. Os

pro-blemas podem come¸car a surgir quando a quantidade de var´ıaveis candidatas a predizer uma determinada caracter´ıstica for muito elevada, uma vez que modelos com muitas

vari´aveis explicativas tendem a ser complicados para interpretar.

´

E cada vez mais frequentente na estat´ıstica moderna, estudos aplicados em que surge a

necessidade de lidar com bases de dados muito grandes. Para a manipula¸c˜ao de tais bases,

(12)

tenham a capacidade de lidar com problemas de dimens˜ao muito elevadas.

Um estudo apresentado em Chandulaka et al. (2010), que ser´a denominado como o

problema de marketing, lida com a estima¸c˜ao de um modelo cuja vari´avel de interesse ´e

a inten¸c˜ao dos consumidores na compra de um determinado produto. Nesse problema a

inten¸c˜ao de compra de um produto, pode ser influenciada por vari´aveis relacionadas `as

atitudes dos consumidores, suas cren¸cas e a publicidade do produto. ´E importante notar

que, estamos lidando com um n´umero elevado de vari´aveis explicativas, uma vez que

temos distintas quantidades de vari´aveis associadas `as atitudes dos consumidores, tais

como: recomenda¸c˜ao do produto a amigos, ”test-drive”do produto, estudo do produto

antes da compra, entre outras. Algumas vari´aveis associadas `as cren¸cas dos consumidores

s˜ao: durabilidade, seguran¸ca, qualidade do produto e outras. Por fim, vari´aveis

associ-adas a publicidade do produto s˜ao: publicidade na internet, publicidade na televis˜ao e

outras diversas formas de publicidade de um produto ou marca.

Visando o manuseio de tantas vari´aveis explicativas e a estima¸c˜ao de um modelo que

explique o problema de maketing, Chandulaka et al. (2010) desenvolvem um modelo de

efeitos hier´arquicos nas vari´aveis. Eles caracterizam os denominados modelo de efeitos

hier´arquicos nas vari´aveis, isto ´e, a rela¸c˜ao entre certas vari´aveis aleat´orias s˜ao

media-das por outras vari´aveis. Assim, modelos de efeitos hier´arquicos nas vari´aveis podem

ser analisados fatorando-se a distribui¸c˜ao conjunta das vari´aveis como um produto de

distribui¸c˜oes condicionais e marginais.

Para a melhor compreens˜ao do conceito de efeitos hier´arquicos nas vari´aveis e do

modelo proposto, suponha o grupo das trˆes vari´aveis aleat´orias associadas ao problema de

marketing: (x, b, z), onde x corresponde a um grupo de vari´aveis aleat´orias relacionadas a

atitudes dos consumidores mediante um determinado produto, b ´e um grupo de vari´aveis

relacionadas `as cren¸cas dos consumidores a respeito do produto em quest˜ao e z s˜ao

vari´aveis relacionadas a publicidade do produto. O objetivo ´e analisar a influˆencia desse

grupo de vari´aveis (x, b, z) na quantidade aleat´oria y, que ´e a inten¸c˜ao do consumidor na

compra do produto, e que deve ser entendida como a vari´avel de interesse. Obviamente a

distribui¸c˜ao conjunta dessas vari´aveis (y, x, b, z) admite distintas fatora¸c˜oes. No contexto

(13)

modelo a ser analisado.

Uma poss´ıvel fatora¸c˜ao da distribui¸c˜ao conjunta das vari´aveis em quest˜ao, indica que

as atitudes e as cren¸cas dos consumidores, x e b respectivamente, influenciam diretamente

a inten¸c˜ao de compra do produto. A Figura a seguir ilustra os efeitos hier´arquico nas

vari´aveis para esta particular fatora¸c˜ao:

Para este caso particular, o modelo a ser estudado ´e dado por [y|x, b], [x] e [b], onde os

colchetes representam distribui¸c˜oes condicionais e marginais. Assim, a inten¸c˜ao de

com-pra do produto pode ser explicada pelas atitudes e cren¸cas dos consumidores a respeito do mesmo.

Uma fatora¸c˜ao distinta, indica que z e x, as vari´aveis relacionadas a publicidade

do produto e atitudes dos consumidores, influenciam diretamente a inten¸c˜ao de compra

do produto. Adicionalmente, temos as vari´aveis associadas a publicidade do produto

afetando diretamente as vari´aveis relacionadas as atitudes dos consumidores, x. A Figura

a seguir representa os efeitos hier´arquicos nas vari´aveis para esta distinta fatora¸c˜ao:

A ilustra¸c˜ao acima exibe a representa¸c˜ao do efeito indireto da publicidade na inten¸c˜ao

de compra do produto, uma vez que a publicidade est´a afetando diretamente as atitudes

dos consumidores. Posteriormente, as atitudes dos consumidores x ir˜ao ter um efeito

(14)

a publicidade afetam a inten¸c˜ao de compra de maneira direta e indireta, o que pode

ser melhor verificado na Figura acima. Para esta particular fatora¸c˜ao, o modelo a ser

analisado ´e dado por [y|x, z], [x|z] e [z], onde os colchetes representam distribui¸c˜oes

condicionais e marginais.

Exitem outras fatora¸c˜oes poss´ıveis, por´em, a descri¸c˜ao de cada uma destas fatora¸c˜oes

n˜ao ´e relevante para o contexto. O importante ´e notar que que cada uma dessas distintas

fatora¸c˜oes, descrever´a diferentes modelos a serem analisados. Al´em disso, podemos ter

muitas vari´aveis explicativas associadas a vari´avel de interesse, o que dificultar´a a

es-tima¸c˜ao e interpreta¸c˜ao dos modelos. Ainda podemos lidar com o caso em que algumas

vari´aveis explicativas tem pouca influˆencia na inten¸c˜ao de compra do produto, ou uma

influˆencia n˜ao significativa. Nesse contexto, o uso de t´ecnicas que fa¸cam o procedimento

de sele¸c˜ao das vari´aveis relevantes pode auxiliar muito, fazendo com que tenhamos um

modelo mais parcimonioso e de f´acil interpreta¸c˜ao. Foi diante deste contexto, que surgiu

pela primeira vez, a necessidade da implementa¸c˜ao de um m´etodo que selecione preditores

relevantes para o modelo de maneira eficiente.

Nesta disserta¸c˜ao, iremos revisar e discutir a aplica¸c˜ao de algumas t´ecnicas de sele¸c˜ao

de vari´aveis em modelos lineares de regress˜ao. Todo o procedimento de inferˆencia ser´a

feito sob o enfoque bayesiano, isto ´e, atribuiremos uma distribui¸c˜ao a priori para os

parˆametros de interesse de cada modelo a fim de obter a distribui¸c˜ao a posteriori, e a

partir dela, realizar todo o processo de estima¸c˜ao. Obteremos amostras desta distribui¸c˜ao

a posteriori por meio de m´etodos de simula¸c˜ao estoc´astica, particularmente utilizaremos

os m´etodos de Monte Carlo via cadeias de Markov (MCMC na sigla em inglˆes).

Procuraremos verificar as vantagens e desvantagens entre cada uma das t´ecnicas

pro-postas para a sele¸c˜ao de preditores. Avaliaremos tais vantagens e desvantagens sob o

contexto te´orico e aplicado associado a cada uma das t´ecnicas, e tamb´em utilizaremos

crit´erios de sele¸c˜ao de modelos conhecidos na literatura, como o fator de bayes e o DIC,

visando a compara¸c˜ao dos modelos estimados por cada uma das diferentes t´ecnicas.

A relevˆancia deste tema pode ser notada quando analisamos o contexto da

modela-gem estat´ıstica moderna, onde ´e cada vez mais frequente nos depararmos com situa¸c˜oes

(15)

determi-nada vari´avel de interesse. Este problema acaba por trazer dificuldades na estima¸c˜ao do modelo. Por exemplo, preditores relacionados de forma exata ou aproximada geram

di-ficuldades de estima¸c˜ao. Tamb´em podemos citar o problema de obten¸c˜ao de estimativas

imprecisas ou at´e mesmo n˜ao significativas para o modelo. T´ecnicas de sele¸c˜ao de

predi-tores s˜ao necess´arias, pois d˜ao a possibilidade de estimar um modelo mais parcimonioso,

com menos vari´aveis preditoras, facilitando assim, o processo de estima¸c˜ao do modelo e

a sua interpreta¸c˜ao.

Esta disserta¸c˜ao est´a organizada em 6 Cap´ıtulos e 3 Apˆendices. No Cap´ıtulo 2,

faremos uma breve revis˜ao sobre estima¸c˜ao e sobre procedimentos de inferˆencia sob o

enfoque bayesiano. Discutiremos tamb´em m´etodos de simula¸c˜ao estoc´astica,

particu-larmente m´etodos MCMC. Tamb´em apresentaremos alguns pontos relevantes sobre o

pacote estat´ıstico WinBUGS, utilizado para a estima¸c˜ao dos modelos presentes nesta

disserta¸c˜ao. No Cap´ıtulo 3, revisaremos t´ecnicas de interesse para a estima¸c˜ao de

mode-los com sele¸c˜ao de preditores. Aqui ser˜ao feitas compara¸c˜oes te´oricas entre as diferentes

t´ecnicas propostas, procurando avaliar as vantagens e desvantagens associadas a cada

um dos m´etodos. No Cap´ıtulo 4, apresentaremos as t´ecnicas de compara¸c˜ao de modelos,

que ser˜ao utilizadas para a avaliar os m´etodos de estima¸c˜ao de modelos em um contexto

aplicado. Tal contexto aplicado, ser´a apresentado no Cap´ıtulo 5, onde faremos um estudo

simulado para avaliar em quais aspectos as t´ecnicas de estima¸c˜ao de modelo com sele¸c˜ao

de preditores possuem um melhor desempenho. Finalmente, um exemplo com dados ser´a

trabalhado na Se¸c˜ao 5.2, onde as t´ecnicas de estima¸c˜ao de modelos propostas ser˜ao

apli-cadas. Por fim, no Cap´ıtulo 6, apresentaremos as conclus˜oes e poss´ıveis extens˜oes desta

(16)

Cap´ıtulo 2

Modelos Bayesianos e M´

etodos de

Estima¸

ao

2.1

Inferˆ

encia Bayesiana e M´

etodos de Estima¸

ao

Este cap´ıtulo tem por objetivo revisar os principais conceitos do procedimento de

inferˆencia sob o enfoque bayesiano. Considere y, uma vari´avel aleat´oria ou vetor aleat´orio

com fun¸c˜ao de probabilidade ou fun¸c˜ao de densidade de probabilidade p(y|θ) em que θ

´

e um parˆametro ou vetor param´etrico que caracteriza a distribui¸c˜ao de probabilidade de

y. O valor de θ ´e desconhecido e queremos estim´a-lo. Sob o ponto de vista da inferˆencia

bayesiana, podemos incorporar nossa pr´opria incerteza na estima¸c˜ao de θ, assumindo

uma distribui¸c˜ao de probabilidade para este parˆametro, p(θ), a distribui¸c˜ao a priori.

Esta distribui¸c˜ao ´e atribu´ıda antes da observa¸c˜ao dos dados e mede a nossa incerteza a

priori a respeito de θ. Uma vez que os dados s˜ao observados, os quais denotaremos por y,

podemos encontrar a distribui¸c˜ao a posteriori de θ, p(θ|y), obtida a partir da combina¸c˜ao

da fun¸c˜ao de verossimilhan¸ca p(y|θ) com a distribui¸c˜ao a priori de θ, p(θ), via teorema

de Bayes, da forma:

p(θ|y) = p(y|θ)p(θ)

p(y) . (2.1)

(17)

de θ. Note que p(y) n˜ao depende de θ, logo o denominador da equa¸c˜ao acima pode ser

considerado constante com rela¸c˜ao a θ. Portanto, podemos rescrever a equa¸c˜ao 2.1 como:

p(θ|y) ∝ p(y|θ)p(θ) (2.2)

O procedimento de inferˆencia bayesiano ´e baseado fundamentalmente na distribui¸c˜ao

a posteriori de θ. Esta distribui¸c˜ao cont´em toda informa¸c˜ao probabil´ıstica a respeito do

parˆametro de interesse. No entanto, em algumas situa¸c˜oes torna-se necess´ario resumir

a informa¸c˜ao contida na distribui¸c˜ao a posteriori. O caso mais simples ´e a estima¸c˜ao

pontual, descrita na pr´oxima subse¸c˜ao:

2.1.1

Estima¸

ao Pontual

Na estima¸c˜ao pontual, nosso objetivo ´e a minimiza¸c˜ao de uma fun¸c˜ao perda L(δ(Y ), θ)

para algum estimador δ(Y ) de θ. Observe que o valor de θ ´e estimado a partir de

elementos da amostra. Para cada valor de θ e cada poss´ıvel estimativa d pertencente ao

espa¸co param´etrico Θ, associamos uma fun¸c˜ao de perda L(d, θ). Neste caso, podemos

calcular a perda esperada a posteriori ou risco a posteriori, da forma:

r(d, θ) = E(L(d, θ)|y) = Z

Θ

L(d, θ)p(θ|y)dθ (2.3)

A regra de Bayes consiste em escolher o valor de d ´otimo, ou seja, o valor de d que

minimiza a perda esperada E(L(d, θ)|y). Os estimadores d(Y), obtidos minimizando esta

perda esperada, ser˜ao chamados estimadores de Bayes. As fun¸c˜oes perda mais utilizadas

na literatura e seus respectivos estimadores s˜ao:

• Perda Quadr´atica: L(δ, θ) = (δ − θ)2. Neste caso, o estimador resultante ´e a m´edia

a posteriori de θ, isto ´e, δ = ˆθ = Eθ|y(θ);

• Perda Absoluta: L(δ, θ) = |δ − θ|. O estimador associado a perda quadr´atica

absoluta ´e a mediana a posteriori de θ, δ = med(θ);

• Perda 0-1: L(δ, θ) = lim→0I|θ−δ|([, ∞)), onde Ix(A) = 1 se x ∈ A e 0 caso

(18)

2.1.2

Estima¸

ao por Intervalo

Resumir a informa¸c˜ao contida na distribui¸c˜ao a posteriori atrav´es de um ´unico valor,

ˆ

θ, resulta numa sumariza¸c˜ao extrema da informa¸c˜ao dispon´ıvel. ´E interessante obter pelo

menos uma medida sobre qu˜ao precisa ´e a estimativa de ˆθ. Uma maneira de fazer isso ´e

fornercer uma regi˜ao de valores θ ∈ Θ, que tˆem associados a eles uma grande massa de

probabilidade a posteriori. Idealmente, gostar´ıamos de descrever uma regi˜ao de valores

de θ que ´e t˜ao pequena quanto poss´ıvel, mas cont´em o m´aximo de probabilidade a

posteriori. Assim define-se o intervalo de credibilidade a posteriori de θ, uma quantidade desconhecida definida em Θ, como sendo:

uma regi˜ao C ∈ Θ ´e uma regi˜ao de 100(1 − α)% de credibilidade para θ se P (θ ∈

C) ≥ 1 − α. Neste caso, 1 − α ´e chamado n´ıvel de credibilidade. No caso escalar, C ´e

usualmente dado por um intervalo, por exemplo, [c1, c2].

2.2

Inferˆ

encia Via Simula¸

ao Estoc´

astica

No contexto da inferˆencia estat´ıstica, a simula¸c˜ao estoc´astica tem o objetivo de

esti-mar caracter´ısticas probabil´ısticas de modelos ou distribui¸c˜oes de interesse, as quais n˜ao

poderiam ser obtidas analiticamente.

M´etodos de simula¸c˜ao estoc´astica s˜ao comumente utilizados ao fazer inferˆencia sob

a abordagem bayesiana. Eles s˜ao uma alternativa razo´avel para, por exemplo, simular

pontos de forma indireta da distribui¸c˜ao a posteriori, quando esta n˜ao possui forma

anal´ıtica fechada ou quando a avalia¸c˜ao por m´etodos num´ericos ´e invi´avel, devido a

grandes dimens˜oes param´etricas.

Em geral utilizam-se m´etodos de Monte Carlo via Cadeias de Markov (MCMC) para

realizar-se o processo inferencial.

2.2.1

Inferˆ

encia Via MCMC

A inferˆencia sob o paradigma bayesiano parte do pressuposto que a incerteza sobre

(19)

proba-bil´ısticos.

Por vezes, o denominador da equa¸c˜ao 2.2 n˜ao possui forma anal´ıtica fechada e a

avalia¸c˜ao por m´etodos num´ericos quando a dimens˜ao ´e grande ´e invi´avel. Da´ı surge

a necessidade de m´etodos de simula¸c˜ao estoc´astica, tais como os de Monte Carlo via

Cadeias de Markov (MCMC).

Se uma cadeia de Markov homogˆenea ´e irredut´ıvel, recorrente positiva e aperi´odica,

ent˜ao possui distribui¸c˜ao limite, a qual depende apenas da matriz de transi¸c˜ao da

ca-deia. Al´em disso, uma vez que a cadeia atinja a distribui¸c˜ao limite, todos os estados

subsequentes seguir˜ao tal distribui¸c˜ao.

Os m´etodos MCMC consistem na constru¸c˜ao de uma cadeia de Markov que, por meio

de escolhas adequadas de n´ucleos de transi¸c˜ao, tenha como distribui¸c˜ao estacion´aria a

distribui¸c˜ao de interesse. No contexto de estima¸c˜ao bayesiana, a distribui¸c˜ao a posteriori.

Uma vez que a convergˆencia da cadeia tenha sido atingida, as amostras estar˜ao sendo

geradas da distribui¸c˜ao estacion´aria. Para aproximar a distribui¸c˜ao a posteriori,

utilizam-se amostras suficientemente grandes dessa distribui¸c˜ao.

Os algoritmos MCMC mais utilizados no contexto de inferˆencia bayesiana s˜ao o

amos-trador de Gibbs e o algoritmo de Metropolis-Hastings, que ser˜ao descritos a seguir.

(i) Amostrador de Gibbs

O amostrador de Gibbs ´e um m´etodo de MCMC em que o n´ucleo de transi¸c˜ao ´e

formado pelas distribui¸c˜oes condicionais completas do vetor param´etrico. Assuma

que a distribui¸c˜ao de interesse ´e π(θ) em que θ = (θ1, . . . , θd)0. Considere tamb´em

que as distribui¸c˜oes condicionais completas πi(θi) = π(θi|θ−i), i = 1, . . . , d s˜ao

conhecidas e dispon´ıveis para a amostragem.

Quando h´a necessidade de amostrar de π, mas a sua gera¸c˜ao direta ´e complicada,

custosa, ou simplesmente invi´avel, o amostrador de Gibbs permite um processo de

gera¸c˜ao alternativo baseada em gera¸c˜oes sucessivas das distribui¸c˜oes condicionais

completas.

(20)

condicionais completas, o amostrador de Gibbs procede da seguinte forma:

• Inicialize o contador da cadeia em j = 1 e assuma valores iniciais θ(0) =

(θ(0)1 , . . . , θ(0)d )0

• Obtenha o novo valor θ(j) = (θ(j)

1 , . . . , θ

(j) d )

0 de θ(j−1) a partir de gera¸c˜oes

sucessivas: θ(j)1 ∼ π(θ1|θ (j−1) 2 , . . . , θ (j−1) d ) (2.4) θ(j)2 ∼ π(θ2|θ (j−1) 1 , θ (j−1) 3 , . . . , θ (j−1) d ) .. . θ(j)d ∼ π(θd|θ (j−1) 1 , . . . , θ (j−1) d−1 )

• Fa¸ca j = j + 1 e volte ao passo anterior at´e obter convergˆencia. `

A medida que o n´umero de itera¸c˜oes cresce, a cadeia de Markov simulada

aproxima-se de sua distribui¸c˜ao de equil´ıbrio. Sendo assim, θ(i) = (θ(i)

1 , . . . , θ

(i) d )

0 pode ser

considerado um ponto amostrado de π(θ). (ii) Metropolis-Hastings

Assuma que a distribui¸c˜ao de interesse ´e π(θ) em que θ = (θ1, . . . , θd)0. O algoritmo

Metropolis-Hastings ´e ´util para a gera¸c˜ao de valores de parˆametros cujas

distri-bui¸c˜oes condicionais completas n˜ao tenham forma anal´ıtica fechada e, portanto,

n˜ao estejam dispon´ıveis para amostragem, diferentemente do caso do amostrador

de Gibbs.

Neste caso, gera-se valores do parˆametro a partir de uma distribui¸c˜ao proposta

arbitr´aria e este ´e aceito ou n˜ao com uma certa probabilidade de aceita¸c˜ao, que

depende da qualidade do movimento proposto, avaliado com base na distribui¸c˜ao

proposta e da distribui¸c˜ao de interesse π(θ).

O algoritmo de Metropolis-Hastings procede da seguinte forma:

• Inicialize o contador da cadeia em j = 1 e assuma valores iniciais θ(0) =

(21)

• Obtenha um valor proposto θ∗ da distribui¸c˜ao proposta q(θ(j−1))

• Aceite o valor proposto com probabilidade α(θ∗(j−1)) = minh1, π(θ∗)q(θ(j−1))

π(θ(j−1))q(θ(j−1))

i ,

ou seja, θ(j) = θ. Caso o valor proposto n˜ao seja aceito, fa¸ca θ(j) = θ(j−1).

• Fa¸ca j = j + 1 e volte ao passo segundo passo at´e obter convergˆencia.

A escolha da distribui¸c˜ao proposta ´e uma quest˜ao importante ao se utilizar m´etodos

MCMC com base no algoritmo de Metropolis-Hastings. Sob o ponto de vista

pr´atico, tal escolha ´e crucial para a sua convergˆencia para a distribui¸c˜ao a

pos-teriori.

Uma das propostas mais comuns s˜ao chamadas de cadeias sim´etricas, quando a

dis-tribui¸c˜ao proposta ´e sim´etrica em torno da itera¸c˜ao anterior, isto ´e, q(θ(j)(j−1)) =

q(θ(j−1)|θ(j)). Neste caso, a probabilidade de aceita¸c˜ao se reduz `a raz˜ao da

distri-bui¸c˜ao de interesse, ou seja, α(θ∗|θ(j−1)) = minh1, π(θ∗)

π(θ(j−1))

i . ´

E importante ressaltar que a eficiˆencia do m´etodo est´a diretamente ligada `a escala

da distribui¸c˜ao proposta. Caso a variˆancia da distribui¸c˜ao proposta seja muito

pe-quena, a cadeia de Markov ir´a convergir lentamente, uma vez que seus incrementos

ser˜ao pequenos. Se a variˆancia for grande, a taxa de rejei¸c˜ao dos valores propostos

ser´a alta e a cadeia tender´a a n˜ao se mover. Muitos autores sugerem que a taxa de

aceita¸c˜ao do algoritmo deve estar entre 20% e 50%, ver Gamerman e Lopes (2006).

Estando decidido o m´etodo a ser utilizado, e obtida uma simula¸c˜ao da cadeia, deve-se

verificar se a convergˆencia foi obtida, para assim poder formar a amostra da distribui¸c˜ao

a posteriori das quantidades desconhecidas do modelo.

Existem v´arias formas de se realizar uma an´alise a respeito da convergˆencia da cadeia.

Uma das abordagens mais informais ´e a inspe¸c˜ao gr´afica, onde analisa-se a trajet´oria de

uma ou mais cadeias, com valores iniciais distintos e considera-se que a convergˆencia ´e

alcan¸cada quando todas as cadeias monitoradas permanecem em torno de um mesmo

ponto. Outros crit´erios, mais formais, tamb´em podem ser utilizados, como os m´etodos

(22)

crit´erio mencionado. Geweke (1992) sugere um procedimento para teste de convergˆencia

a partir da avalia¸c˜ao de m´edias erg´odicas de uma ´unica cadeia gerada, com base na

id´eia de que, ap´os convergˆencia, diferentes intervalos da cadeia gerada devam apresentar

comportamentos semelhantes. Seja uma cadeia gerada com um n´umero de itera¸c˜oes n

suficientemente grande. A id´eia ´e testar a igualdade das m´edias ¯x1 e ¯x2, calculadas,

respectivamente, a partir da fra¸c˜ao 0.1n inicial e 0.5n final da amostra. Considerando os

respectivos estimadores das variˆancias assint´oticas de ¯x1 e ¯x2, dados por V (¯x1) e V (¯x2),

tem-se que, quando n → ∞,

Gk=

¯

x1− ¯x2

pV (¯x1)/0.1n + V (¯x2)/0.5n

→ N (0, 1). (2.5)

Desta maneira, valores extremos de Gk indicam falta de convergˆencia. A t´ecnica de

Geweke est´a implementada no pacote CODA (Best et al. (1995)), execut´avel no software

R (R Development Core Team (2006)).

Ap´os a obten¸c˜ao da amostra, deve-se analisar a autocorrela¸c˜ao existente entre θ(j)

e θ(j−1). A amostra obtida a partir de uma cadeia de Markov ´e aleat´oria, mas n˜ao ´e

independente. Isso n˜ao afeta as estimativas dos parˆametros, mas tem influˆencia sobre as

variˆancias das estimativas resultantes desse procedimento de amostragem Gamerman e

Lopes (2006). Assim, nos casos em que for constatada uma forte correla¸c˜ao serial na

ca-deia, ap´os verificada a convergˆencia, recomenda-se a retirada de uma amostra sistem´atica

de seus valores para compor uma nova amostra. A forma como a amostragem sistem´atica

ser´a realizada pode ser baseada em um gr´afico contendo a fun¸c˜ao de autocorrela¸c˜ao da

cadeia.

2.2.2

WinBugs

O pacote estat´ıstico WinBUGS ´e uma vers˜ao em ambiente Windows do pacote BUGS

(Bayesian Inference Using Gibbs Sampling). ´E utilizado para an´alise bayesiana de

mo-delos estat´ısticos simples ou complexos, tendo a capacidade de estimar seus parˆametros

via MCMC. O WinBUGS consiste em um conjunto de fun¸c˜oes que permitem a

(23)

aleat´orios. Foi implementado por Thomas et al. (1992) e amplamente discutido em Lunn et al. (2000).

O WinBUGS possui a capacidade de reconhecer formas de distribui¸c˜oes

conjuga-das, distribui¸c˜oes log-cˆoncavas, distribui¸c˜oes com amplitudes restritas e etc. Com base

nesta informa¸c˜ao, o algoritmo de amostragem mais eficiente ´e selecionado para simula¸c˜ao.

Quando nenhuma destas propriedades ´e identificada, uma mensagem avisa a incapacidade

na escolha do m´etodo de atualiza¸c˜ao.

Dentro do WinBugs existe uma ordena¸c˜ao dos m´etodos de amostragem dispon´ıveis

para serem utilizados, que depende da forma da distribui¸c˜ao de interesse. Primeiramente,

m´etodos de amostragem utilizando algoritmos padr˜oes ser˜ao utilizados caso a distribui¸c˜ao

condicional seja conjugada. Caso essa condi¸c˜ao n˜ao seja satisfeita, o amostrador de

Gibbs passa a ser utilizado: a ARS (Adaptive Rejection Sampling) ´e usada para amostrar

eficientemente qualquer distribui¸c˜ao condicional com fun¸c˜ao densidade log-cˆoncava e a

ARMS (Adaptive Rejection Metropolis Sampling) generaliza a rotina ARS para o caso de

fun¸c˜oes que n˜ao s˜ao log-cˆoncavas, mas que possuem amplitudes restritas. Para o caso de

fun¸c˜oes que n˜ao s˜ao log-cˆoncavas e que n˜ao possuem amplitudes restritas, s˜ao utilizados

passos de Metropolis.

Para o algoritmo Metropolis-Hastings, o pacote usa como densidade de transi¸c˜ao

q(θ(j), .) uma distribui¸c˜ao gaussiana centrada no valor atual do parˆametro θ(j).

Todo o processo inferencial utilizado neste trabalho foi implementado no software

(24)

Cap´ıtulo 3

Sele¸

ao de Vari´

aveis

Com frequˆencia, em estudos aplicados, a modelagem estat´ıstica envolve um grande

n´umero de regressores. Este problema acaba por trazer dificuldades na estima¸c˜ao do

modelo. Por exemplo, preditores relacionados de forma exata ou aproximada geram

dificuldades de estima¸c˜ao. Tamb´em pode-se citar o problema de obten¸c˜ao de estimativas

imprecisas ou at´e mesmo n˜ao significativas para o modelo.

Eventualmente, tamb´em pode-se lidar com aplica¸c˜oes em que a quantidade de

regres-sores p ´e maior que n, n´umero de observa¸c˜oes. Um exemplo deste tipo, apresentado em

West (1993), consiste em prever o teor de gordura da massa de um determinado biscoito.

As caracter´ısticas desta massa s˜ao medidas por uma t´ecnica chamada NIR (near infrared

spectroscopy). Os preditores s˜ao p = 300 n´ıveis de reflectˆancia mensurados, obtidos pela

t´ecnica NIR, com uma amostra de 39 massas de biscoito.

Para esse exemplo, o m´etodo de m´ınimos quadrados n˜ao tem a capacidade de fazer a

estima¸c˜ao eficiente do modelo. Devido ao grande n´umero de vari´aveis independentes, s˜ao

grandes as chances delas possu´ırem rela¸c˜oes lineares exatas ou aproximadamente exatas

entre si, gerando o problema de multicolinearidade. Al´em disso, com tantas vari´aveis

regressoras, a variˆancia associada aos parˆametros regressores pode ser muito alta e a

matriz X’X−1 intrat´avel. Uma solu¸c˜ao para a estima¸c˜ao de modelos em que p > n, seria

a obten¸c˜ao de um pequeno n´umero de combina¸c˜oes lineares do conjunto de vari´aveis

independentes, que retenham o m´aximo da informa¸c˜ao contida nessas vari´aveis. Essa

(25)

de multicolinearidade. Em geral, esses procedimentos s˜ao feitos em duas etapas: primeiro

obtem-se as componentes principais e depois a regress˜ao estimada. Em West (1993), um

m´etodo integrado ´e apresentado sob a ´otica bayesiana.

Em contextos onde p ´e uma quantidade muito grande, com o objetivo de evitar a

estima¸c˜ao de modelos complexos, alguma forma de redu¸c˜ao de dimensionalidade, no que

diz respeito a quantidade de regressores p, ´e necess´aria. Com efeito, suponha o seguinte

modelo de regress˜ao:

y = Xβ + , (3.1)

onde β = (β1, . . . , βp)T ´e o vetor param´etrico, y ´e um vetor n × 1 da vari´avel resposta,

X ´e a matriz n × p dos regressores, e  ´e o vetor de erros de dimens˜ao n × 1; as hip´oteses

do modelo de regress˜ao estabelecem que esses erros seguem uma distribui¸c˜ao normal, s˜ao

independentes e identicamente distribu´ıdos, com m´edia 0 e variˆancia desconhecida σ2.

Buscar solu¸c˜oes esparsas para o modelo de regress˜ao em quest˜ao, ´e o mesmo que

identificar de maneira eficiente os coeficientes βp que s˜ao iguais a zero ou muito pr´oximos

de zero. Logo, o regressor correspondente ao parˆametro βp = 0 ficar´a fora do modelo de

regress˜ao, levando a redu¸c˜ao da dimens˜ao de p.

A partir de uma perspectiva bayesiana, existem duas principais abordagens para

a estima¸c˜ao da esparsidade associada aos regressores: misturas discretas e prioris de

contra¸c˜ao (shrinkage). A primeira abordagem associa a cada βp uma distribui¸c˜ao a

priori que possui um ponto de massa no valor βp = 0 e uma alternativa absolutamente

cont´ınua; a segunda abordagem, que ser´a utilizada nesta disserta¸c˜ao, modela cada βp

com distribui¸c˜oes a priori de contra¸c˜ao, centradas em zero. Essas prioris s˜ao obtidas a

partir de misturas cont´ınuas.

Na se¸c˜ao 3.1, ser´a apresentada uma t´ecnica que introduz uma vari´avel latente do tipo

Bernoulli na distribui¸c˜ao a priori de β, tal vari´avel sinalizar´a os preditores que dever˜ao

ser inclu´ıdos ou n˜ao no modelo. Enquanto que nas se¸c˜oes 3.2 e 3.3, ser˜ao apresentadas

t´ecnicas para a estima¸c˜ao do modelo que utilizam distribui¸c˜oes de contra¸c˜ao, obtidas

via misturas cont´ınuas, para o vetor param´etrico β. Todo procedimento de inferˆencia

necess´ario nas t´ecnicas a serem apresentadas ser´a feito sob o enfoque bayesiano, isto ´e,

(26)

a distribui¸c˜ao a posteriori, que em nosso caso n˜ao ´e conhecida. T´ecnicas de simula¸c˜ao

estoc´astica (MCMC) ser˜ao utilizadas para a obten¸c˜ao de amostras desta distribui¸c˜ao.

3.1

Sele¸

ao de Vari´

aveis via Busca Estoc´

astica

O SSVS (Sele¸c˜ao de Vari´aveis via Busca Estoc´astica em inglˆes), ´e a t´ecnica de sele¸c˜ao

de vari´aveis proposta por George e Robert (1993), a qual baseia-se na incorpora¸c˜ao da

regress˜ao em um modelo hier´arquico de mistura de normais, onde um vetor de vari´aveis

latentes ´e capaz de sinalizar quais os melhores subconjuntos de X1, . . . , Xp. Cabe ressaltar

que os p regressores associados a y, fazem com que tenhamos 2p poss´ıveis modelos a serem

estimados.

Um fato interessante associado a este m´etodo de sele¸c˜ao de vari´aveis ´e que ele

”vi-sita”mais vezes os modelos mais relevantes, no sentido de possu´ırem os regressores mais

apropriados para explicar a quantidade y. A estima¸c˜ao do modelo ´e poss´ıvel a partir da

seguinte estrutura hier´arquica a priori para os parˆametros da regress˜ao:

y|X, β, σ2 ∼ Nn(Xβ, σ2In) βp|γp ∼ (1 − γp)N (0, τp2) + γpN (0, c2pτ 2 p) (3.2) γp ∼ Bern(πp) σ2 ∼ IG (ν, λ) ,

onde 0 ≤ πp ≤ 1, τp > 0, cp ∈ <, ν > 0 e λ > 0 s˜ao quantidades de ”sintonia”, isto ´e,

quantidades que precisam ser determinadas pelo pesquisador.

A quantidade πp pode ser interpretada como a probabilidade a priori de inclus˜ao do

regressor Xp no modelo. Logo, πp = 0 indica que, a priori, o pesquisador assume que o

regressor Xp deve ser exclu´ıdo no modelo; de maneira an´aloga, quando πp = 1 assume-se

que o respectivo regressor deve ser inclu´ıdo no modelo estimado.

Um dos recursos da t´ecnica Ssvs ´e que cada componente do vetor β ´e modelada

como mistura de distribui¸c˜oes normais com diferentes variˆancias, conforme apresentado

(27)

ser exclu´ıda do modelo. Logo a quantidade τp, que ´e o desvio-padr˜ao da componente

βp neste caso particular onde γp = 0, deve ser determinada de tal maneira que o valor

estimado para esse parˆametro βp possa ser substitu´ıdo por 0. Desta maneira, o regressor

Xp correspondente estar´a exclu´ıdo do modelo. Analogamente, se βp ∼ N (0, c2pτp2), ent˜ao

a respectiva componente γp = 1. Nesse caso, estamos interessados na escolha de valor

para cpτp que nos leve a uma estimativa n˜ao nula para βp, fazendo com que o regressor

Xp seja inclu´ıdo no modelo estimado.

Portanto, pode ser observado que o ajuste dos parˆametros de sintonia τ e c n˜ao ´e

tarefa f´acil. Diferentes escolhas para essas quantidades devem ser testadas. A Figura

3.1 ilustra como que distintas escolhas para τp e cp afetam a distribui¸c˜ao a priori de βp

quando γp = 0 e 1, respectivamente. De acordo com a Figura 3.1(a), podemos observar

que a distribui¸c˜ao de βp quando γp = 1 concentra uma grande massa de probabilidade

em torno do valor zero. Isso n˜ao ´e o desej´avel, uma vez que valores de γp = 1 sugerem

que a estimativa para o parˆametro βp seja n˜ao nula. A an´alise da distribui¸c˜ao de βp

quando γp = 0, representada pela linha cheia, concentra menos massa de probabilidade

em torno do valor zero, quando comparada com a linha tracejada, que ´e a distribui¸c˜ao do

parˆametro quando γp = 1. Neste caso, o ideal ´e a estimativa do parˆametro ser zero, mas

o ajuste do valor τp tal que a distribui¸c˜ao fique muito concentrada em torno do valor zero

deve ser evitado, afim de evitar que o parˆametro tenha uma distribui¸c˜ao muito restritiva.

Na Figura 3.1(b), ilustramos o comportamento para a distribui¸c˜ao de βp quando

γp = 0 e a estimativa para βp deve ser zero. Observamos que a fun¸c˜ao densidade da

distribui¸c˜ao a priori concentra uma grande massa de probabilidade em torno do valor

zero. Analogamente, quando γp = 1 e a estimativa para o parˆametro deve ser n˜ao

nula, observamos que a fun¸c˜ao de distribui¸c˜ao para βp ´e mais vaga e atribu´ı massa de

probablidade a valores mais distantes de zero.

A terceira combina¸c˜ao que apresentamos para a distribui¸c˜ao a priori para βp ´e

ilus-trada na Figura 3.1(c), onde observamos que quando γp = 0 e a estimativa para β deve

ser zero, vemos que a fun¸c˜ao densidade da distribui¸c˜ao a priori concentra uma massa

de probabilidade elevada em torno do valor zero. Em contrapartida, a linha tracejada

(28)

den-sidade do parˆametro atribu´ı massa de probabilidade a valores mais afastados de zero. A

situa¸c˜ao ilustrada por esta Figura consiste em um caso similar ao apresentado na Figura

3.1(b), a diferen¸ca est´a em prioris para βp quando γp = 0 ou 1 que atribuem massa de

probabilidade em intervalos com maiores amplitudes, ou seja, tˆem um comportamento

(29)

β Densidade γ =0 γ =1 −10 −5 0 5 10 0.0 0.1 0.2 0.3 0.4 0.5 (a) τ = 2, c = 0.5 β Densidade γ =0 γ =1 −10 −5 0 5 10 0.0 0.1 0.2 0.3 0.4 0.5 (b) τ = 2, c = 5 β Densidade γ =0 γ =1 −10 −5 0 5 10 0.0 0.1 0.2 0.3 0.4 0.5 (c) τ = 10, c = 5

Figura 3.1: Diferentes configura¸c˜oes da distribui¸c˜ao a priori para β.

Como veremos nas aplica¸c˜oes referentes a esta disserta¸c˜ao, utilizamos a distribui¸c˜ao

a priori para o parˆametro βp que possui o comportamento mais vago em torno do valor

zero, quando a respectiva componente γp = 1. Esta configura¸c˜ao para o parˆametro βp foi

utilizada afim de evitar a concentra¸c˜ao da alta massa de probabilidade em torno do valor

zero, quando a estimativa para a componente βp dever´a ser n˜ao-nula. Especificamente,

as configura¸c˜oes apresentadas na Figura 3.1(b) e 3.1(c) foram utilizadas em distintas

aplica¸c˜oes.

Por fim, para as quantidades ν e λ, George e Robert (1993) ressaltam que a escolha de

ν pr´oximos de 0 e qualquer valor de λ podem ser utilizadas para representar ignorˆancia

a respeito do parˆametro σ2. Usaremos a configura¸c˜ao em que os parˆametros ν e λ s˜ao

iguais a 0.001. Note que, utilizando tais valores, consideramos a distribui¸c˜ao a priori

vaga, permitindo que os dados tenham maior influˆencia na distribui¸c˜ao a posteriori.

Dentre as vantagens do Ssvs, podemos citar a possibilidade do usu´ario determinar

a importˆancia pr´atica de alguma vari´avel regressora. Com efeito, suponha que estudos

te´oricos mostrem que Xp´e extremamente relevante para explicar y. Com o Ssvs, o usu´ario

pode levar em conta tal relevˆancia, ao determinar que o elemento γp ´e Bernoulli com seu

parˆametro πp pr´oximo a 1.

Uma das desvantagens do m´etodo est´a associada a grande quantidade de parˆametros

de ”sintonia”presentes na equa¸c˜ao 3.2. O ajuste adequado dos parˆametros πp, τp, cp, ν

(30)

alterar drasticamente as estimativas obtidas. Nesta disserta¸c˜ao, o processo de ajuste dos

parˆametros foi simplificado quando fixamos que πp = π, τp = τ e cp = c, para todos p

regressores do modelo.

Quando a quantidade de regressores p > n, o Ssvs n˜ao ´e capaz de estimar o

mo-delo. Tal limita¸c˜ao ´e provavelmente decorrente, devido a um passo dentro do amostrador

de Gibbs, onde s˜ao necess´arias as estimativas para β obtidas via m´ınimos quadrados.

Essa limita¸c˜ao ´e uma grande desvantagem comparativa aos m´etodos mais modernos de

estima¸c˜ao de modelos com uso de t´ecnicas de sele¸c˜ao de preditores, que se baseiam na

obten¸c˜ao de distribui¸c˜oes de contra¸c˜ao para o vetor param´etrico β, e que ser˜ao

apresen-tados nas pr´oximas se¸c˜oes. Tais m´etodos produzem estimativas coerentes at´e mesmo nos

casos multidimensionais.

Finalmente, muitas vezes a interpreta¸c˜ao dos resultados obtidos pelo Ssvs ´e restringida

somente ao conhecimento dos melhores subconjuntos de X1, . . . , Xp, analisando-se apenas

a contagem dos modelos mais frequentementes visitados, e n˜ao as estimativas de β obtidas

pelo m´etodo. Neste trabalho n˜ao estaremos interessados em avaliar qual o modelo foi mais

frequentemente ”visitado”, e sim, nas estimativas para β, permitindo assim a compara¸c˜ao

do Ssvs com os demais m´etodos que ser˜ao apresentados. Al´em disso, pode ser observado

que o Ssvs indica e seleciona os modelos mais frequentes, enquanto que os m´etodos que

ser˜ao apresentados a seguir, naturalmente fazem uma mistura de modelos.

3.2

Operador de Sele¸

ao e Contra¸

ao com

Penali-dade em Valor Absoluto

Dentre os m´etodos que fazem tanto a contra¸c˜ao cont´ınua quanto a sele¸c˜ao de vari´aveis,

uma t´ecnica promissora que utiliza o operador de sele¸c˜ao e contra¸c˜ao com penalidade em

valor absoluto, foi proposta por Tibshirani (1996). Essa t´ecnica ser´a denominada como

Lasso, que sintetiza least absolute shrinkage and selection operator, isto ´e, operador de

sele¸c˜ao e contra¸c˜ao m´ınimo absoluto, em portuguˆes.

(31)

soma dos quadrados dos res´ıduos com uma restri¸c˜ao na norma L1 dos coeficientes β’s.

Assim, a estimativa de β sob o m´etodo do Lasso ´e dada por:

ˆ β = arg min β (˜y − Xβ) 0 (˜y − Xβ) + λ p X j=1 |βj|. (3.3)

Observe que X ´e a matriz dos regressores padronizados, a quantidade ˜y = y − ¯y1n e

λ ´e um parˆametro de ”sintonia”.

Uma maneira de ilustrar o funcionamento do estimador Lasso, ´e no caso onde temos

somente dois preditores. O losˆangulo da figura 3.2 caracteriza a restri¸c˜ao imposta pelo

m´etodo Lasso na estima¸c˜ao de β, enquanto que as elipses s˜ao as curvas de n´ıveis das

estimativas de verossimilhan¸ca de βp. As curvas de n´ıvel poder˜ao interceptar o losˆangulo

em um de seus quatro v´ertices. A solu¸c˜ao para o estimador Lasso corresponde a

inter-cepta¸c˜ao de uma dessas elipses com o losˆangulo. Se isto ocorrer no v´ertice (como na

Figura 3.2) a estimativa de um dos parˆametros ser´a nula, caso contr´ario representar´a um

(32)

ββi ββk 0.02 0.04 0.06 0.08 0.1 0.12 0.14 0.16 0.18 0.2 0.22 0.24 −2 −1 0 1 2 3 4 5 −2 0 2 4 6

Figura 3.2: Restri¸c˜ao na estima¸c˜ao dos β’s imposta pelo Lasso bayesiano.

Com a presen¸ca do termo penalizador λPp

j=1|βj| na equa¸c˜ao 3.3, Tibshirani (1996)

nota que a estimativa do Lasso pode ser interpretada como a moda a posteriori

es-timada quando os parˆametros β’s da regress˜ao possuem distribui¸c˜ao a priori Laplace

(exponencial dupla) independentes. Uma vantagem desta distribui¸c˜ao ´e que ela pode

ser expressada como uma mistura na escala de distribui¸c˜oes normais com variˆancias que

seguem distribui¸c˜oes exponenciais independentes.

3.2.1

Formula¸

ao Hier´

arquica do Modelo Lasso Bayesiano

Recentemente, Park e Casella (2008) propuseram o amostrador de Gibbs para o Lasso,

(33)

y|X, β, σ2 ∼ Nn(Xβ, σ2In) p(β|σ2, τ12, . . . , τp2) ∼ N (0p, σ2Dτ) (3.4) Dτ = diag(τ12, . . . , τ 2 p) σ2, τ12, . . . , τp2 ∼ π(σ2)dσ2 p Y j=1 λ2 2 e −λ2τ2 j/2dτ2 j

Especificamente, foi considerada uma an´alise bayesiana completa a partir do uso da

distribui¸c˜ao a priori Laplace, condicionada a σ2, no modelo hier´arquico. Com efeito, tal

distribui¸c˜ao ´e da seguinte forma:

π(β|σ2) = p Y j=1 λ 2√σ2e −λ|βj|/ √ σ2 (3.5)

Esta especifica¸c˜ao condicional a σ2´e particularmente importante, uma vez que garante

que a distribui¸c˜ao conjunta π(β, σ2|˜y) seja unimodal, segundo Park e Casella (2008). Uma

consequˆencia da n˜ao unimodalidade ´e a dificuldade de convergˆencia do amostrador de

Gibbs.

Como dito anteriormente, esta distribui¸c˜ao Laplace pode ser expressada como uma

mistura na escala de distribui¸c˜oes normais com variˆancias que seguem distribui¸c˜oes

ex-ponenciais independentes, isto ´e:

a 2e −a|z| = Z ∞ 0 1 √ 2πse −z2/(2s)a2 2e −a2s/2 ds, a > 0, (3.6)

onde temos a vari´avel aleat´oria Z|s ∼ N (0, s) combinada com S ∼ Exp(a2/2). Essa

representa¸c˜ao foi exemplificada em Andrews e Mallows (1974) e ´e exatamente a mistura de

normais na escala obtida a partir do Lasso bayesiano. Desta maneira, o Lasso bayesiano ´e

uma metodologia de estima¸c˜ao que utiliza distribui¸c˜oes de contra¸c˜ao, obtidas via misturas

cont´ınuas, conforme pode ser constatado na equa¸c˜ao 3.6.

Note que a representa¸c˜ao da distribui¸c˜ao Laplace como uma mistura de normais na

(34)

f (βp|σ2) = Z ∞ 0 f (βp|σ2, τ2 p)f (τ 2 p)dτ 2 p f (βp|σ2) = Z ∞ 0 1 p2πσ2τ2 p e −1 2σ2τ 2 i β2 pλ2 2 e −λ2τ 2p 2 dτ2 p (3.7) f (βp|σ2) = λ 2√σ2e −λ|βp| σ2

Como os βp’s e τp’s s˜ao independentes, a distribui¸c˜ao de β|σ2 ´e obtida pelo produt´orio

de cada uma das f (βp|σ2), chegando ao resultado descrito em (3.5).

Para a especifica¸c˜ao do modelo hier´arquico associado ao Lasso bayesiano, ´e necess´aria

a especifica¸c˜ao das distribui¸c˜oes a priori associadas aos parˆametros σ2 e λ, presentes na

equa¸c˜ao 3.4. Nesta disserta¸c˜ao, utilizaremos a distribui¸c˜ao a priori Inversa Gama para

o parˆametro σ2, como recomendado em Park e Casella (2008).

Sob a perspectiva bayesiana, o parˆametro λ pode ser estimado atrav´es do

procedi-mento bayesiano emp´ırico ou pelo uso de uma distribui¸c˜ao a priori apropriada. Nesta

disserta¸c˜ao o parˆametro ser´a estimado a partir da especifica¸c˜ao de uma distribui¸c˜ao a

priori, embora o procedimento bayesiano emp´ırico tenha sido utilizado em trabalhos

anteriores. Park e Casella (2008) consideram o uso de uma distribui¸c˜ao gamma a

pri-ori para λ2, uma vez que a conjuga¸c˜ao resultante permite que o amostrador de Gibbs

seja mais facilmente especificado. Deve-se evitar a especifica¸c˜ao de prioris vagas, como

(p(λ2) ∝ 1/λ2), uma vez que a distribui¸c˜ao a posteriori resultante ser´a impr´opria. O

ideal ´e que p(λ2) se aproxime de 0 suficientemente r´apido quando λ2 → ∞, sendo ao

mesmo tempo relativamente vaga.

Nas aplica¸c˜oes, recomenda-se a padroniza¸c˜ao da matriz de covari´aveis X.

3.2.2

Fun¸

ao de Contra¸

ao

Para uma melhor compreens˜ao a respeito do m´etodo do Lasso, podemos definir uma

quantidade, fun¸c˜ao dos parˆametros, denomida parˆametro de contra¸c˜ao. Este parˆametro,

ser´a representado pela quantidade κi = 1/(1 + τi2).

(35)

yi|βi, σ2 ∼ N (βi, σ2) (3.8)

βi|τi2, σ2 ∼ N (0, τi2σ2)

Quando fixamos a quantidade σ2 = 1, o valor esperado a posteriori do parˆametro β

i

fica definido por:

E(βi|yi, τi2) = 1 1 + τ2 i 0 + τ 2 i 1 + τ2 i yi = (1 − κi)yi (3.9) ´

E importante ressaltar que no modelo proposto em (3.8), para cada observa¸c˜ao yi

temos uma estimativa βi associada ao valor. Assim, a quantidade de parˆametros β’s a

serem estimados ´e exatamente igual ao tamanho da amostra n. Esse caso ´e diferente do

modelo apresentado na equa¸c˜ao 3.4, onde existem vari´aveis independentes associadas aos

p preditores β’s.

Voltando a Equa¸c˜ao 3.9, observamos que o parˆametro de contra¸c˜ao κi pode ser

inter-pretado como a quantidade de peso que a m´edia a posteriori de β concentra no ponto 0.

Note que, valores de κi pr´oximos a zero fazem com que a m´edia a posteriori de β seja

o pr´oprio valor observado yi, indicando que n˜ao houve contra¸c˜ao do parˆametro β. Por

outro lado, valores de κi pr´oximos a um, fazem com que a m´edia a posteriori de β seja

o valor zero, representando a contra¸c˜ao total do parˆametro estimado.

Uma vez que a quantidade κi ∈ [0, 1], podemos eliminar a condicionalidade associada

ao parˆametro τi2 da seguinte forma:

E(βi|y) =

Z 1

0

(1 − κi)yip(κi|y)dκi = [1 − E(κi|yi)]y. (3.10)

O n´ucleo da fun¸c˜ao de densidade do parˆametro κi, associado ao Lasso bayesiano ´e

apresentada a seguir:

p(κ) ∝ exp −1

2κ 

κ−2 (3.11)

O c´alculo desta fun¸c˜ao densidade est´a apresentado no Anexo desta disserta¸c˜ao. O

gr´afico desta fun¸c˜ao de densidade associada ao Lasso bayesinao ´e apresentado na Figura

(36)

κi

Densidade a menos de constantes

0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.5 1.0 1.5 2.0 2.5

Figura 3.3: Densidade de κi ∈ [0, 1] associado ao m´etodo de estima¸c˜ao Lasso bayesiano.

Com a inspe¸c˜ao da fun¸c˜ao de distribui¸c˜ao a priori do parˆametro de contra¸c˜ao κi, ´e

poss´ıvel analisar de maneira mais clara como o m´etodo faz o discernimento entre as

ob-serva¸c˜oes associadas aos ru´ıdos e aquelas que s˜ao associadas a valores esp´urios. A Figura

3.3 ilustra a fun¸c˜ao de densidade do parˆametro de contra¸c˜ao para o Lasso bayesiano; ´e

poss´ıvel notar que a massa de probabilidade concentrada em torno do valor zero ´e

pe-quena, isso indica que a probabilidade desse parˆametro de contra¸c˜ao ser igual a zero ´e

pequena. Como vimos anteriormente que a esperan¸ca a posteriori de β ´e igual a (1−κi)yi,

´

e poss´ıvel concluir que raramente o Lasso associa ao valor de β o pr´oprio valor observado

yi.

Analisando o comportamento da fun¸c˜ao de distribui¸c˜ao do parˆametro de contra¸c˜ao

onde κi ´e pr´oximo ao valor um, ´e poss´ıvel notar que a distribui¸c˜ao ´e limitada. Em outras

palavras, a probabilidade do parˆametro κi ser igual a um n˜ao ´e t˜ao alta. Ressaltando

que altas probabilidades de κi = 1 indicam a capacidade de contra¸c˜ao do parˆametro β.

Conclu´ımos que o Lasso possui uma capacidade limitada de contra¸c˜ao da estimativa do

(37)

3.2.3

Fun¸

ao de Influˆ

encia

Outro instrumento que permite um melhor entendimento sobre o comportamento do

Lasso bayesiano como m´etodo de estima¸c˜ao de modelos e sele¸c˜ao de preditores, ´e a fun¸c˜ao

de influˆencia. Como seu pr´oprio nome sugere, o estudo desta fun¸c˜ao permite a an´alise da

maneira como os dados ser˜ao tratados pelo m´etodo de estima¸c˜ao. Nesta an´alise, temos

o particular interesse em analisar o comportamento dessa fun¸c˜ao em valores associados

as observa¸c˜oes esp´urias.

Um resultado b´asico e necess´ario para o c´alculo da fun¸c˜ao de influˆencia foi apresentado

em Pericchi e Smith (1992) e merece ser revisitado:

Suponha que x1, . . . , xn seja uma amostra aleat´oria de uma distribui¸c˜ao normal com

m´edia β e variˆancia σ2. Logo y = P x

i/n ∼ N (β, σ2/n) tem distribui¸c˜ao de densidade

p(y|β). Defina a quantidade m(y), dada por:

m(y) = Z

p(y − β)π(β)dβ. (3.12)

Este resultado ´e aplic´avel para qualquer fun¸c˜ao de distribui¸c˜ao a priori para o vetor β

que obede¸ca a condi¸c˜ao π(β) ≥ 0 em valores de β pertencentes ao conjunto dos n´umeros

reais. Tamb´em defina as seguintes quantidades:

s(y) = −∂{log(m(y)}

∂y e S(y) = −

∂{log(s(y)}

∂y (3.13)

A fun¸c˜ao de influˆencia ´e dada pela quantidade s(y). Como dito anteriormente, o

estudo desta fun¸c˜ao ir´a auxiliar a compreender a maneira como os dados s˜ao tratados

pelo m´etodo de estima¸c˜ao.

Com efeito, suponha que y ∼ N (β, 1), com β = 0. Neste caso, ´e f´acil observar que

a fun¸c˜ao de influˆencia associada a este modelo ´e dada por s(y) = y. A Figura 3.4, que

ser´a apresentada mais adiante, possui o gr´afico relativo a esta fun¸c˜ao. Sua an´alise mostra

que valores pequenos, tem uma pequena influˆencia no modelo, ao contr´ario de valores

grandes, que associam uma grande influˆencia ao modelo, indicando que este modelo n˜ao

´

(38)

Pericchi e Smith (1992) mostram que tanto a esperan¸ca quanto a variˆancia a posteriori

de β podem ser escritas como fun¸c˜ao das quantidades apresentadas na equa¸c˜ao 3.13,

portanto: E(β|y) = y + σ 2 ns(y) e V ar(β|y) = σ2 n + σ2 n2S(y). (3.14)

Ainda neste estudo, Pericchi e Smith (1992) apresentam os valores das quantidades de

interesse: s(y), a fun¸c˜ao de influˆencia, e E(β|y), a esperan¸ca a posteriori do parˆametro,

quando a distribui¸c˜ao a priori de β ´e exponencial dupla. Este ´e exatamente o caso do

m´etodo de estima¸c˜ao do Lasso bayesiano, que associa ao parˆametro β a distribui¸c˜ao

exponencial dupla, da seguinte forma:

p(β) = √1 2σ2 exp  −√|β| σ2  .

Essa ´e a fun¸c˜ao de distribui¸c˜ao exponencial dupla associada ao Lasso bayesiano quando

λ = 1. Neste contexto, os valores das quantidade de interesse s˜ao dados por:

s(y) = −a

σ2[F (y) − G(y)] onde,

F (y) = exp[c(y)]Φ " p (n) σ (−y − b) # , (3.15) G(y) = exp[−c(y)]Φ " −p(n) σ (−y + b) # , a = exp[1 n] , b = √ 2 n , c(y) = √ 2y σ2

Em que Φ(.) denota a fun¸c˜ao de distribui¸c˜ao acumulada normal padr˜ao. A m´edia a

posteriori de β pode ser obtida a partir da seguinte express˜ao

E(β|y) = w(y)(y + b) + [1 − w(y)](y − b) , onde (3.16)

w(y) = F (y)

(39)

Na Figura 3.4 ´e poss´ıvel observar o comportamento da fun¸c˜ao de influˆencia associada

ao Lasso bayesiano. Tal fun¸c˜ao tem a caracter´ıstica de truncagem da influˆencia

determi-nadas observa¸c˜oes, assim, observa¸c˜oes associadas as observa¸c˜oes esp´urias possuem uma

influˆencia constante na estima¸c˜ao do modelo nesta metodologia. Observe que a

com-para¸c˜ao da fun¸c˜ao de influˆencia do Lasso bayesiano com a fun¸c˜ao associada ao modelo

normal, exalta a diferen¸ca dos modelos no que diz respeito ao tratamento das observa¸c˜oes

(40)

Y Função de Influência −10 −5 0 5 10 −2 −1 0 1 2

Figura 3.4: Fun¸c˜oes de influˆencia associadas ao modelo normal e Lasso, linha tracejada

e cheia, respectivamente.

Dentre as vantagens da utiliza¸c˜ao deste m´etodo na estima¸c˜ao de um modelo, citamos

a presen¸ca do termo penalizador λ. A restri¸c˜ao imposta por esse termo se mostra como

uma qualidade interessante na proposta de contra¸c˜ao das estimativas de β. Tal

proce-dimento s´o ´e poss´ıvel a partir da id´eia do Lasso. Comparado com o Ssvs, notamos que

o tempo computacional para a estima¸c˜ao de um mesmo modelo ´e bem menor. Ainda

verificamos a presen¸ca de menos termos de sintonia. Em contrapartida, o ajuste de uma

distribui¸c˜ao a priori adequada para λ2 pode ser uma tarefa delicada, uma vez que ´e ideal

que essa distribui¸c˜ao n˜ao seja muito vaga, para n˜ao haver o risco do amostrador de Gibbs

fornecer estimativas imprecisas. Uma desvantagem do m´etodo ´e a sensibilidade associada

(41)

3.3

Mistura de normais na Escala Usando

Distri-bui¸

oes de Cauchy

A estima¸c˜ao de modelos via mistura na escala de distribui¸c˜oes normais com a

distri-bui¸c˜ao de Cauchy ´e umas das t´ecnicas mais recentemente apresentadas no contexto do

uso de distribui¸c˜oes de contra¸c˜ao, obtidas via misturas cont´ınuas. Ressaltando que,

mis-turas cont´ınuas para a obten¸c˜ao de distribui¸c˜oes de contra¸c˜ao tamb´em foram utilizadas

para a estima¸c˜ao do modelo pelo Lasso bayesiano.

3.3.1

Formula¸

ao Hier´

arquica do Modelo

O estimador de modelos via mistura na escala de normais com distribui¸c˜oes Cauchy,

ser´a definido daqui em diante como estimador Horseshoe. A estima¸c˜ao do modelo via

Horseshoe ´e um m´etodo eficiente n˜ao s´o de estima¸c˜ao, mas tamb´em de sele¸c˜ao de

predi-tores no modelo proposto. Sua metodologia foi proposta em Carvalho et al. (2010). O

m´etodo de estima¸c˜ao via Horseshoe assume que cada um dos parˆametros βp’s possuem

distribui¸c˜oes condicionalmente independentes dado λ, o parˆametro de contra¸c˜ao global.

Dessa maneira, o modelo de estima¸c˜ao ´e definido com a seguinte mistura na escala de

normais:

y|X, β, τ, λ, σ2 ∼ Nn(Xβ, σ2In)

βp|τp ∼ N (0, τp2) (3.18)

τp|λ ∼ C+(0, λ)

λ|σ ∼ C+(0, σ)

onde C+(0, a) ´e uma distribui¸c˜ao Cauchy padr˜ao truncada nos reais positivos, com

parˆametro de escala a.

As quantidades τp’s podem ser interpretadas como parˆametros de contra¸c˜ao local,

no sentido de estarem associadas a cada βp. Observe que na estrutura hier´arquica

(42)

hi-perparˆametros associados a variˆancia do modelo, σ2. Os demais parˆametros s˜ao

devida-mente estimados a partir da estrutura hier´arquica imposta. A distribui¸c˜ao a priori para

o parˆametro de variˆancia σ2 ser´a a priori de Jeffrey’s. Assim p(σ2) ∝ 1/σ2, tendo sua

distribui¸c˜ao relativamente vaga e permitindo que os dados tenham maior influˆencia na

distribui¸c˜ao a posteriori do parˆametro de variˆancia.

O estimador Horseshoe tem a liberdade de fazer a contra¸c˜ao dos elementos de βp de

maneira global, atrav´es do parˆametro λ, e de maneira local atrav´es das quantidades τp.

O parˆametro λ estima o n´ıvel de esparsidade associado ao vetor param´etrico, enquanto

que os parˆametros de contra¸c˜ao locais s˜ao capazes de reduzir os valores associados ao

vetor param´atrico β. Essa caracter´ıstica ´e uma vantagem do m´etodo Horseshoe quando

comparado aos demais m´etodos de sele¸c˜ao de preditores, j´a que nenhum outro tem essa

mesma capacidade.

A Figura 3.5 ilustra o comportamento da distribui¸c˜ao a priori para o parˆametro β.

Tal distribui¸c˜ao ´e obtida a partir da mistura no parˆametro de escala da distribui¸c˜ao

normal associada a β|τ , com a distribui¸c˜ao Cauchy truncada nos valores reais positivos.

A fun¸c˜ao de distribui¸c˜ao para o parˆametro β ´e limitada da seguinte maneira:

(2π2)−1/2 2 log  1 + 4 β2  < p(β) < (2π2)(−1/2)log  1 + 2 β2  , conforme demonstrado em Carvalho et al. (2010).

(43)

β Densidade −3 −2 −1 0 1 2 3 0.0 0.1 0.2 0.3 0.4 0.5 (a) β Densidade 3 4 5 6 7 0.00 0.01 0.02 0.03 0.04 (b)

Figura 3.5: Compara¸c˜ao entre as distribui¸c˜ao a priori para β. As linhas tracejada e cheia

representam a distribui¸c˜ao associada ao m´etodo Lasso e Horseshoe, respectivamente.

A Figura 3.5 ilustra o comportamento das distribui¸c˜oes a priori associadas aos m´etodos

de estima¸c˜ao de modelo Horseshoe e Lasso. Podemos observar no gr´afico 3.5(a) que a

distribui¸c˜ao Horseshoe possui um alongamento nos valores onde β ´e pr´oximo de zero. Tal

comportamento ´e a chave para a boa performance do m´etodo de estima¸c˜ao com rela¸c˜ao

aos ru´ıdos associados ao vetor param´etrico β. Este comportamento ´e menos percebido

quando estamos analisando a distribui¸c˜ao exponencial dupla, associada ao m´etodo de

estima¸c˜ao via Lasso bayesiano. Na Figura 3.5(b) podemos observar que a distribui¸c˜ao

Horseshoe apresenta sua cauda mais pesada, quando comparada com a cauda da

distri-bui¸c˜ao exponencial dupla. ´E exatamente essa caracter´ıstica das caudas pesadas, que faz

com que o m´etodo de estima¸c˜ao atrav´es do Horseshoe lide melhor com os valores esp´urios

associados ao modelo.

3.3.2

Fun¸

ao de Contra¸

ao

Na se¸c˜ao 3.2.2 foi apresentado o parˆametro de contra¸c˜ao, definido pela quantidade

(44)

m´etodo de estima¸c˜ao de modelo em an´alise, uma vez que o parˆametro τi est´a diretamente

relacionado com a variabilidade a priori do vetor param´etrico β.

Assim como feito no Lasso bayesiano, para o m´etodo de estima¸c˜ao pelo Horseshoe

tamb´em calculamos a fun¸c˜ao de densidade do parˆametro de contra¸c˜ao. O c´alculo desta

fun¸c˜ao ´e apresentado no Anexo deste trabalho. A fun¸c˜ao de distribui¸c˜ao do parˆametro

κ ´e dada pela seguinte express˜ao:

p(κ) ∝ (κ)−0.5(1 − κ)−0.5 (3.19)

A Figura a seguir ilustra o comportamento da fun¸c˜ao de distribui¸c˜ao do parˆametro

Referências

Documentos relacionados

São por demais conhecidas as dificuldades de se incorporar a Amazônia à dinâmica de desenvolvimento nacional, ora por culpa do modelo estabelecido, ora pela falta de tecnologia ou

Para o Planeta Orgânico (2010), o crescimento da agricultura orgânica no Brasil e na América Latina dependerá, entre outros fatores, de uma legislação eficiente

Assim, além de suas cinco dimensões não poderem ser mensuradas simultaneamente, já que fazem mais ou menos sentido dependendo do momento da mensuração, seu nível de

Os profissionais da medicina do trabalho que preenchem a ficha de aptidão do trabalhador, ao assinalarem se o trabalhador se encontra apto, apto condicionalmente

O artigo 2, intitulado “Tecnologias de Informação e Comunicação (TIC): Estar fora da família, estando dentro de casa”, foi resultado da realização de uma pesquisa de

Considere-se, por exemplo, uma joint venture cujo capital é constituído por dois sócios, cada um participando com cinqüenta por cento do empreendimento, e com duas linhas de negócio

A psicanálise foi acusada de normatizadora (FOUCAULT, 1996) por haver mantido o modelo familiar burguês nuclear como o centro de sua teoria como é manifestado

psicológicos, sociais e ambientais. Assim podemos observar que é de extrema importância a QV e a PS andarem juntas, pois não adianta ter uma meta de promoção de saúde se