Modelos com efeitos aleatórios questionáveis

Existem varias técnicas para avaliar a inclusão de parâmetros em um modelo. Para o modelo de regressão Mitchell and Beauchamp (1988) denem mediante o enfoque bayesiano a distribuição spike and slab, um tipo de distribuição a priori para cada coeciente de regressão. Esta é denida como sendo uma mistura de uma distribuição degenerada em zero (spike) e uma distribuição uniforme difusa em outra parte (slab). O objetivo principal é calcular as probabilidades a posteriori dos diferentes modelos que incluem ou não os diferentes parâmetros para escolher assim o "melhor" submodelo, permitindo também o cálculo da probabilidade a posteriori de que o parâmetro seja igual a zero.

Gonçalves (2006) dene uma metodologia aplicada à Teoria de Resposta ao Item (TRI), para determinar quais itens possuem funcionamento diferencial do item (DIF). Em outras palavras, consideraram a hipótese de que alguns itens possam ter um comportamento diferente dentro de dois ou mais grupos. Para o parâmetro relacionado ao DIF, é considerada uma distribuição a priori do tipo point-mass mixture. Com probabilidade 1 − p do parâmetro ter uma distribuição degenerada em zero e com probabilidade p de ter uma distribuição contínua. A partir da média a posteriori de p é determinado se o item tem DIF.

A função dos efeitos aleatórios na modelagem é importante, pois estes levam em conta a falta de ajuste do modelo para a variável de interesse. Datta and Mandal(2011) demonstraram que se a escolha das variáveis auxiliares for adequada, o ajuste da variável resposta através destas determina a exclusão dos efeitos aleatórios no modelo de pequenas áreas. Os autores denem um teste de hipótese no qual a hipótese nula é representada por um modelo sem efeitos aleatórios. A estatística de teste está baseada no ajuste de um modelo que leva em conta só as variáveis auxiliares.

Datta and Mandal (2015) denem uma distribuição do tipo spike and slab para os efeitos aleatórios no modelo hierárquico de pequenas áreas de (Fay and Herriot; 1979) da seguinte forma: com probabilidade (1 − π) o efeito aleatório é omitido (distribuição degenerada em zero) para qualquer área e com probabilidade π o efeito aleatório tem uma distribuição não degenerada normal. Esta metodologia é proposta baseada no enfoque de

Datta and Mandal (2011). Neste caso os efeitos aleatórios podem ser excluídos só para algumas áreas e não necessariamente para todas.

3.3.1 Modelo de Fay and Herriot e distribuição spike and slab

Nas pesquisas amostrais são calculados estimadores e quantidades populacionais a partir dos valores da amostra obtida. Isto pode ser feito através do uso dos pesos amostrais expandindo os valores observados ou mediante a modelagem da variável de interesse. Na estatística clássica é feita uma estimação dos valores não observados e na estatística Bayesiana são calculadas as distribuições preditivas para as unidades não amostrais.

Algumas vezes é de interesse o cálculo de indicadores para algumas áreas ou grupos especícos, chamados domínios. O tamanho da amostra é calculado para obter um nível de precisão aceitável na estimação das quantidades populacionais, mas é possível que o tamanho das unidades observadas para alguns domínios seja pequeno para realizar estimações conáveis. As áreas com esse tipo de condições são denominadas de pequenas áreas.

Seja Yi o estimador baseado no desenho para a área i para a variável de interesse Y e xi a variável auxiliar correspondente. Fay and Herriot (1979) introduziram um modelo para pequenas áreas baseado nos estimadores diretos da seguinte forma:

Yi = θi+ ei, θi = xtiβ + νi, i = 1, . . . , l. (3.16) Com ei ∼ N (0, Di) νi

ind

∼ N (0, σ2 ν)

Onde θi é uma medida resumo da caraterística a estimar para a área i, ei é o erro amostral do estimador Yi, νi é o efeito aleatório da área. Note que neste modelo todas as áreas possuem um efeito aleatório associado.

Datta and Mandal (2015) propõem o seguinte modelo baseado no modelo de Fay and Harriot. Assume-se que algumas áreas poderiam não ter efeito de área, sobre o enfoque Bayesiano o modelo é denido como segue:

1. Condicional a θ1, . . . , θl, δ1, . . . , δl, ν1, . . . , νl, p, β e σ2ν os estimadores diretos Yi

ind

∼ N (θi, Di).

2. Condicional a δ1, . . . , δl, ν1, . . . , νl, p, β e σ2ν, θi é dado por: θi = xtiβ + δiνi

e δ1, . . . , δl independentes e identicamente distribuídos com P (δi = 1) = π = 1 − P (δi = 0)

Condicional a δ1, . . . , δle σν2 os efeitos aleatórios ν1, .., νl são independentes e identicamente distribuídos com νi = 0quando δi = 0e condicional a δi = 1, νi

ind

∼ N (0, σ2 ν) para i = 1, . . . , l.

3. A priori os hiperparâmetros β, σ2

ν, π são independentemente distribuídos P (β, σ2_ν, π) = P (σ2_ν)P (π)P (β).

Atribuindo-se as seguintes distribuições a priori: uniforme imprópria para β, σ2

ν ∼

InvGama(b, a)e p ∼ Beta(c, d).

Neste modelo tem-se suposto que o Di é conhecido, para algumas áreas. É necessário adicionar um efeito aleatório de área normal e é pouco provável que todas as áreas precisam deste efeito.

Seja y = (y1, . . . , yl), ν = (ν1, . . . , νl)t, δ = (δ1, . . . , δl)t, D = diag(D1, . . . , Dl), X = (x1, . . . , xm)t, γ−i= (γ1, . . . , γi−1, γi+1, . . . , γl). A distribuição a posteriori conjunta de todos os parâmetros a partir do modelo denido anteriormente é dada por:

f (β, δ, ν, σ_ν2, π | y) ∝ l Y i=1 exp −(yi− x t iβ − δiνi)2 2 Di × l Y i=1 1 σν exp −ν 2 i 2σ2 ν δi [I(νi = 0)]1−δi × pc−1_{(1 − p)}d−1_× l Y i=1 πδi_{(1 − π)}1−δi × σ−(b+1) ν exp −a σ2 ν

Para a estimação das distribuições a posteriori, o algoritmo de Gibbs é usado. As condi- cionais completas são dadas por:

1. β | ν, δ, p, σν2, y ∼ N ((XtD−1X)−1XtD−1(y − δ · ν), (XtD−1X)−1), com δ · ν = (δ1ν1, . . . , δlνl)t

2. νi | ν−i, δ, β, p, σν, y é degenerada em zero se δi = 0, se δi = 1 temos: νi | ν−i, δi = 1, δ−i, β, p, σν, y ∼ N σ2_ν σ2 ν + Di (yi− xiβ), σ2_νDi σ2 ν + Di 3. P (δi = 1 | ν, δ−i, β, p, σ2ν, y) = π π + (1−π) r σ2_{ν +Di} Di exp (yi−xtiβ)2 σ2ν 2 Di (Di+σ2ν ) 4. σ2 ν | ν, δ, β, p, y ∼ InvGamma b +1₂ Pl i=1δi, a +1₂ Pl i=1δiνi2

Para mais detalhes sobre o cálculo de P (δi = 1 | ν, δ−i, β, p, σ_ν2, y)e a demostração de que a distribuição a posteriori de β é propria ver Datta and Mandal(2015).

Capítulo 4

Modelo proposto: modelo de

não-resposta não ignorável com

distribuição spike and slab

Na Seção 3.2.3 foi denido um modelo com mecanismo de não-resposta ignorável baseado no modelo apresentado em Liu (2003). Para avaliar a hipótese de ν2i = 0, é sugerido fazer uma análise dos intervalos de credibilidade dos efeitos aleatórios, sendo denida a seguinte regra: se o intervalo contém o zero o efeito é não signicativo e assim o mecanismo de não-resposta que esta associado a este é ignorável.

Baseado no modelo hierárquico de não-resposta não ignorável apresentado em Nan- dram and Choi (2005) e o modelo de Fay and Herriot e distribuição spike and slab apresentado por eDatta and Mandal(2015), é proposto um modelo de não-resposta não ignorável com distribuição spike and slab. A idéia principal do modelo proposto nesta dissertação de mestrado é modicar a distribuição a priori dos efeitos ν2i, anteriormente denida como, ν2i∼ N (0, σ22), por uma distribuição a priori spike and slab.

4.1 O modelo

O modelo de não-resposta não ignorável com distribuição spike and slab Modelo 2 é denido em duas etapas da seguinte forma:

• Etapa 1: rij| α1, α2, ση2 ∼ Bernoulli exp(α1+ α2bij + ηi) 1 + exp(α1+ α2bij+ ηi)

Com ηi ∼ N (0, σn2), σ−2η ∼ Gamma(a, b), α1, α2 ∼ N (0, k) • Etapa 2:

yij = β1i+ (β2+ ν2irijδi) aij + eij i = 1, ..., l. e j = 1, ..., ni (4.1) Com eij | σ2e ∼ N (0, σ2e), β1i | σ12 ∼ N (θ, σ12), β2 ∼ N (0, w)

σ−2_e , σ₁−2, σ−2₂ ∼ G(a, b), θ ∼ N (0, k), δi | π ∼ Bern(π), π ∼ Beta(c, d) ν2i∼ (1 − π) I{0}(ν2i) + π N (0, σ22)

A probabilidade a posteriori de δi = 1 dene se na área i o efeito aleatório ν2i é incluído, assumindo assim que existe diferença no mecanismo de não-resposta desta área. Logo existem áreas nas quais o mecanismo de não-resposta é ignorável e outras nas quais é não ignorável. Para uma população com este tipo de comportamento, seria inadequado assumir um modelo de não-resposta no qual se dene que todas as áreas têm o mesmo tipo de mecanismo.

No documento Modelos Hierárquicos para Não-Resposta em Pesquisas Amostrais (páginas 32-36)