• Nenhum resultado encontrado

Critérios de Seleção do Modelo

A seleção de modelos é uma etapa importante em uma análise estatística. Os avanços com- putacionais permitem manusear modelos cada vez mais complexos com relativa facilidade, o que estimula a busca de modelos mais realísticos para a descrição de um dado problema. O aumento desta complexidade, no entanto, conduz, na maioria das vezes, a um aumento do número de parâ- metros a serem estimados, o que muitas vezes é indesejável. Qualidade de ajuste e parcimônia são os principais objetivos ao se escolher um modelo.

Os critérios utilizados para a seleção de modelos são: Critério de Informação da Função Desvio (Deviance Information Criterion -DIC), Ordenada Preditiva Condicional (Conditional Preditive Or-

dinate -CP O), Logaritmo da Pseudo Verossimilhança Marginal (Logarithm of the Pseudo Marginal

Likelihood - LP M L), Resíduos de Pearson (QP) e Critério de Informação Amplamente Aplicável

(Widely Applicable Information Criterion - WAIC ).

2.8.1 Critério de Informação da Função Desvio (Deviance Information Criterion - DIC)

Na inferência Bayesiana, o método mais comum para avaliar a qualidade do ajuste de um modelo estatístico é uma generalização do critério de informação de Akaike (Akaike Information Criterion - AIC). Em inferência frequentista, o desvio ou deviance, denotado por D, corresponde a -2 vezes a relação de verossimilhança de um modelo reduzido em comparação com um modelo completo, enquanto que em inferência Bayesiana, é simplesmente -2 vezes o logaritmo da função de verossimilhançaL(θθθ, yyy), isto é,

D = −2 ln(L(θθθ, yyy)) = −2 ln(f (yyy, θθθ)), (2.57) ondeθθθ é o vetor de parâmetros,yyy corresponde aos dados ef (yyy, θθθ)é a função de verossimilhança.

Devido sua definição, D pode assumir valores positivos ou negativos.

efetivo de parâmetros. Esta estatística é denotada porpD e é dada por

pD=Eθθθ|yyy(D) − D(Eθθθ|yyy(θθθ)), (2.58)

ou seja,pD é a esperança a posteriori da deviance menos a deviance da esperança a posteriori dos

parâmetros.

Dessa forma, temos que

ˆ

pD= D − D(θθθ), (2.59)

onde D é a média a posteriori da deviance e D(θθθ) corresponde à deviance avaliada pela média

posteriori dos parâmetros.

Assim, com base nas expressões (2.57) e (2.58), definimosDIC como segue

DIC = D(Eθθθ,yyy(θθθ)) − 2pD (2.60)

= Eθθθ,yyy(D) + pD.

Por si só, o valorD é insuficiente, porque não leva em conta a complexidade do modelo. O valor

pD, é usado como o “número efetivo de parâmetros" de um modelo Bayesiano, fornecendo assim

uma estimativa da complexidade do modelo. A estatísticapD pode ser pensada como o número de

parâmetros “sem restrição" do modelo, onde um parâmetro conta como: 1, se for estimado sem restrições ou informação prévia; 0, se ele é totalmente limitado ou se todas as informações sobre o parâmetro vem da distribuição a priori ou, ainda, um valor intermediário se ambos os dados e a distribuição a priori são informativos.

É possível que a estatística pD apresente valores negativos, o que indica um ou mais problemas:

a função ln(L(θθθ, yyy)) pode não ser côncava, um conflito entre a distribuição a priori e os dados ou que a distribuição a posteriori fornece um estimador pobre.

A soma dos valores De pˆD é o DICd. Os valores deDIC podem ser comparados para diferentes modelos e até mesmo para diferentes métodos, enquanto a variável dependente não muda entre os modelos, tornando o ajuste do modelo pela estatística DIC flexível. Entretanto, DIC é válido apenas quando a distribuição a posteriori conjunta é de aproximadamente uma normal multivariada. A escolha do melhor modelo a posteriori segue o critério do menor valor para oDIC. Resumidamente, as medidas para avaliação dos modelos que envolvem oDIC, são dadas por:

D = −2 ln(L(θ¯ θθ, yyy));D = −2 ln(L(¯ˆ θθθ, yyy));pˆD= ¯D − ˆD;

DIC = ¯d D + ˆpD= ˆD + 2ˆpD.

Mais informações sobre DIC podem ser encontradas em Spiegelhalter et al.(2002),Paulino et al.(2009) e Congdon (2006).

2.8.2 Ordenada Preditiva Condicional (Conditional Preditive Ordinate - CP O)

Seyyy−ité o conjunto de dados sem a suait-ésima observação, denotada poryit, comi ∈ {1, · · · , N }

et ∈ {1, · · · , T }, a distribuição preditiva de validação cruzada é definida pela expressão

f (yit|yyy−yit) =

Z

onde f (yit|θθθ, yyy−yit) é a densidade amostral condicional da observação yit, sendo igual a f (yit|θθθ) se

as observações forem condicionalmente independentes dado θθθ, e f (θθθ|yyy−yit) é uma distribuição a

posteriori conjunta.

A densidade preditiva dada pela expressão (2.61) é conhecida como CP O e um estimador de Monte Carlo é obtido através do monitoramento do inverso da função de verossimilhança em cada uma das niterações após o período de aquecimento (burn-in) é dado pela expressão:

\ CP Oit = 1 n n X k=1 1 f (yit|θ(k)) !−1 , (2.62)

onde θ(k) é o valor do k-ésimo θgerado a partir da distribuição a posteriori conjunta.

A expressão (2.62) é a média harmônica da função de densidade de probabilidade avaliada em

yit para cada θ(k) (ver Gelfand, 1996 e Congdon, 2006).

O estimador apresentado em (2.62) é obtido a partir da seguinte relação:

f (yit|yyy−yit) = f (yyy)/f (yyy−yit) =

R f (yyy|θθθ)f (θ)dθ R f (yyy−yit|θθθ)f (θ)dθ

(2.63)

= f (yyy)

R f (yyy−yit|θθθ)

f (yyy|θθθ) f (yyy)f (θ|yyy)dθ

=R 1 1

f (yit|θθθ)f (yyy)f (θ|yyy)dθ

.

Pequenos valores deCP Oit indicam que a observaçãoyit não é suportada pelo modelo. Quando

dois valores de CP Oit são comparados, maiores valores de CP Oit (em média) indicam um melhor

modelo.

Mais detalhes a respeito da CP O podem ser encontrados em Paulino et al. (2009), Lawson

(2009) e Congdon(2006).

2.8.3 Logaritmo da Pseudo Verossimilhança Marginal (Logarithm of the Pseudo Marginal Likelihood - LP M L)

Como os valores CP O são calculados para cada observação, estes poderiam ser resumidos em um único valor por modelo da mesma forma que é feito com a estatística DIC, por exemplo.

Define-se a estimativa de Monte Carlo de CP Oit com base na expressão (2.62) e então a

estimativa para oLP M L é definida como

\ LP M L = N X i=1 T X t=1 ln(\CP Oit). (2.64)

Quando dois valores deLP M L são comparados, o modelo com maior valor de LP M L indica o melhor ajuste (ver Souza, 2015 e Congdon, 2006).

2.8.4 Resíduos de Pearson (QP)

Suponha que para cada região i, com i ∈ {1, · · · , N } e cada tempot, com t ∈ {1, · · · , T }, haja o total Nit de indivíduos e o número de ocorrências do fator em estudo yit.

Os resíduos de Pearson, denotados por QP, são definidos por QP = N X i=1 T X t=1 (yit− Nitθit)2/(Nitθit(1 − θit)).

Estes resíduos comparam as diferenças entre as quantidades observadas e os seus valores preditos de forma padronizada. O melhor modelo será aquele que apresentar o menor valor para a estatística

QP.

Mais detalhes a respeito dos Resíduos de Pearson recomenda-se Paulino et al. (2009).

2.8.5 Critério de Informação Amplamente Aplicável (Widely Applicable Information Criterion - WAIC)

O critério WAIC foi introduzido por Watanabe (2013a) e Watanabe (2013b). Este critério pode ser visto como uma melhoria no critério DIC para modelos Bayesianos e está baseada no logaritmo da função densidade preditiva a posteriori, em cada uma dasn iterações após o período de aquecimento (burn-in), denotada porLP P D, dada por

LP P D = ln N Y i=1 T Y t=1 f (yit|θθθ) ! = N X i=1 T X t=1 Z f (yit|θθθ)f (θθθ|yit)d(θθθ), (2.65)

ondef (θθθ|yit)corresponde a fpost(θθθ).

A expressão dada por (2.65) pode ser avaliada, na prática, através do cálculo

\ LP P D = N X i=1 T X t=1 ln 1 n n X k=1 f (yit|θθθ(k)) ! . (2.66)

O critério WAIC penaliza a expressão (2.65) de duas formas diferentes

pWAIC1 = 2 N X i=1 T X t=1 ln (Epost(f (yit|θθθ)) − Epost(ln(f (yit|θθθ))). pWAIC2 = N X i=1 T X t=1 V arpost(ln(f (yit|θθθ))) , (2.67)

ondeEpost corresponde à esperança a posteriori e V arpost corresponde à variância a posteriori.

Ambas as expressões apresentadas em (2.67) podem ser calculadas através de simulações. Para a estatísticapˆWAIC1é necessário fazer a troca da esperança a posteriori pela média sobrendos valores

obtidos paraf (yit|θ(k)), com k ∈ {1, · · · , n}, de forma que

ˆ pWAIC1 = 2 N X i=1 T X t=1 " ln 1 n n X k=1 f (yit|θ(k)) ! − 1 n n X k=1 f (yit|θ(k)) # , (2.68)

ondeθ(k) é o valor dok-ésimoθ gerado a partir da distribuição a posteriori conjunta.

Para a estatísticapˆWAIC2 usa-se a variância do logaritmo da função densidade preditiva dos valores

obtidos na amostran, de forma que

ˆ pWAIC2 = N X i=1 T X t=1 " 1 n n X k=1 ln(f (yit|θ(k))) − 1 n n X k=1 ln(f (yit|θ(k))) !2# . (2.69)

Podem ser usados tanto o critério pWAIC1 quanto o critério pWAIC2 para a correção do vício, e

assim, segue

WAIC= LP P D − pWAIC, (2.70)

onde pWAIC pode ser avaliado tanto por (2.68) como por (2.69).

Mais detalhes sobre WAIC podem ser encontrados em Vehtari e Gelman (2015) e Gelman et al. (2014).

2.8.6 Critério de Informação Bayesiano (Bayesian Information Criterion -BIC) e Critério de Informação Amplamente Aplicável Bayesiano (Widely Applicable Bayesian Information Criterion - WBIC)

O critério BIC foi introduzida por Schwarz (1978) que corresponde ao ajuste do número de parâ- metros ajustados e uma penalidade que aumenta à medida que o tamanho da amostran cresce.

A expressão para oBIC é dada por

BIC = −2 ln(f (yyy|θθθ)) + d ln(n), (2.71) onde nrepresenta o tamanho amostral e do número de parâmetros do modelo.

A expressão (2.71), para grandes amostras, apresenta uma penalidade muito alta e acaba por favorecer modelos com menos parâmetros.

Watanabe (2013a) também apresentou, análogo ao WAIC, a estatística WBIC que funciona inclusive em casos singulares e irrealizáveis (ver Gelman et al., 2014).

O critérioBICe sua variante WBIC diferem dos outros critérios considerados neste trabalho pelo fato de ser motivado não por uma estimativa de ajuste preditivo mas sim por uma aproximação global da função densidade de probabilidade marginal dos dados. Apesar de muitos autores considerarem esta abordagem útil, Gelman et al. (2014) e Gelman e Shalizi (2013) acreditam que é preferível usar outros critérios de seleção em detrimento aoBIC. Dessa forma, é completamente possível que um modelo possa vir a ter valores baixos para AIC, DIC e WAIC, mas, por causa da função de penalidade, ter um valor relativamente alto para BIC.

Observação 2.14. Em algumas situações práticas é interessante utilizar como critério de seleção

para os modelos em estudo os gráficos que descrevem comportamento dos valores preditos em relação aos valores observados.