Estimadores Lineares Bayesianos em
Amostragem de Popula¸
c˜
ao Finita
por
Kelly Cristina Mota Gon¸calves
Universidade Federal do Rio de Janeiro
Instituto de Matem´
atica
Departamento de M´
etodos Estat´ısticos
Estimadores Lineares Bayesianos em
Amostragem de Popula¸
c˜
ao Finita
Kelly Cristina Mota Gon¸
calves
Disserta¸c˜ao submetida ao Corpo Docente do Instituto de Matem´atica - Departamento
de M´etodos Estat´ısticos da Universidade Federal do Rio de Janeiro - UFRJ, como parte
dos requisitos necess´arios `a obten¸c˜ao do grau de Mestre em Estat´ıstica.
Aprovada por:
Prof. H´elio S. Migon.
PhD - UFRJ - Orientador.
Prof. Fernando A. S. Moura PhD - UFRJ - Co-Orientador.
Prof. Marina Silva Paez PhD - UFRJ.
Prof. Marcel de Toledo Vieira PhD - UFJF.
Rio de Janeiro, RJ - Brasil 2010
Gon€alves, Kelly Cristina.
G635
Estimadores lineares bayesianos em amostragem de
popula€•o finita / Kelly Cristina Gon€alves. -- Rio de Janeiro:
UFRJ/IM, 2010.
xix, 132f.: il. ; 30 cm.
Disserta€•o (mestrado) – UFRJ/IM. Programa de
Pƒs-gradua€•o em Estat„stica, 2010.
Orientador: H…lio dos Santos Migon.
Refer†ncias: f. 130-2.
1. Teoria da decis•o estat„stica bayesiana. 2. Modelos
lineares (Estat„stica). I. Migon, H…lio dos Santos. II.
Universidade Federal do Rio de Janeiro. Instituto de
Matem‡tica. III. T„tulo.
`
A minha m˜ae pelo seu apoio incondicional.
Ao meu pai (in memorian) pela sua dedica¸c˜ao.
“(...) Eu n˜ao sei se vocˆe se recorda do seu primeiro caderno, eu me recordo do meu.
Com ele eu aprendi muita coisa, foi nele que eu descobri que a experiˆencia dos erros, ela
´
e t˜ao importante quanto `as experiˆencias dos acertos, porque vistos de um jeito certo, os
erros, eles nos preparam para nossas vit´orias e conquistas futuras, porque n˜ao h´a
aprendizado na vida que n˜ao passe pelas experiˆencias dos erros (...)”.
Agradecimentos
Em primeir´ıssimo lugar a Deus, pelo dom da vida e por me dar for¸cas para chegar
at´e aqui. Obrigada meu Deus por nunca me desamparar.
`
A minha m˜ae Tereza, a pessoa que mais me ajudou e esteve presente comigo durante
todo este per´ıodo, me apoiando de forma incondicional, orando por mim, cuidando de
mim e torcendo por cada vit´oria conquistada. M˜ae, o que seria de mim sem vocˆe?!
Ao meu pai Juarez (in memorian) por toda sua dedica¸c˜ao e esfor¸co em me dar
educa¸c˜ao. Paizinho, eu gostaria muito que o senhor estivesse aqui presente comemorando
comigo mais esta vit´oria, mas eu sei que no c´eu o senhor continua olhando por mim, como
um anjo da guarda. O senhor sempre dizia que eu era o seu maior orgulho, mas hoje
posso dizer:- Pai, o senhor sim ´e o meu orgulho! Obrigada por tudo!
Agrade¸co a minha fam´ılia, tios e primos, pelo incentivo e carinho demonstrados por
mim durante toda a minha vida. Tenho a sorte de ter vocˆes ao meu lado.
Ao Phellipe, pois com seu amor, paciˆencia e companheirismo, me ajudou muito nesta
caminhada, sobretudo nos momentos de desˆanimo e estresse. ´E muito bom poder contar
com vocˆe ao meu lado.
Aos amigos que conquistei durante toda a minha vida. Aos amigos de escola, com os quais ainda tenho contato, eu agrade¸co pelas lembran¸cas dos bons momentos de
infˆancia que passamos juntos e por estarem sempre torcendo por mim. Aos amigos de
gradua¸c˜ao em Matem´atica da UFRJ, eu sou grata por ter compartilhado com vocˆes anos
inesquec´ıveis de minha vida. Nesses tempos, aprendi a ser mais independente (mesmo
andando o tempo todo em certos trios), vi o quanto ´e prazeroso ajudar o pr´oximo (ainda
que fossem para uma prova em que o ´unico objetivo era avaliar habilidades art´ısticas dos
alunos) e que matem´aticos podem ser pessoas normais.
A todos os meus amigos de laborat´orio, pelas muitas horas de convivˆencia, estudos
e descontra¸c˜ao. Em especial gostaria de agradecer `a Panela que fa¸co parte, composta
tamb´em por Camila, Jo˜ao e Larissa, pelos bons momentos tamb´em extra-laborat´orio.
Ali´as, ao Jo˜ao e `a Larissa eu n˜ao posso deixar de agradecer por dividir com vocˆes os
in´umeros momentos de tens˜ao e noites em claro (o sof´a do laborat´orio era extremamente
disputado nesta ´epoca! rs). Imposs´ıvel n˜ao agradecer aos outros amigos da minha querida
turminha de 2008: Nassif, Targino e Thiago. E aos demais amigos Val, Debora, Vini,
Sheila, Alexandre, Felipe, Josi, Mari e Patr´ıcia, o meu muito obrigada! Tamb´em gostaria
de agradecer `a Esther por ter me ajudado em alguns momentos, seja de d´uvidas ou com
c´odigos de programas. Amigos, todos vocˆes tˆem um lugarzinho super especial no meu
cora¸c˜ao! Ali´as, eu j´a disse para vocˆes que gosto muito, muito de vocˆes?! rs
Aos meus orientadores H´elio Migon e Fernando Moura, pelos momentos de paciˆencia
e dedica¸c˜ao para o desenvolvimento deste trabalho. Obrigada pelas experiˆencias trocadas
e por terem me ensinado que, neste caminho de pesquisa, n˜ao existe fim.
Agrade¸co tamb´em aos demais professores de p´os-gradua¸c˜ao do DME-UFRJ pela
oportunidade de aprender o novo com vocˆes, em particular `a Alexandra, pelos momentos
de bons conselhos quando d´uvidas apareceram em minha vida. N˜ao posso deixar de
agradecer tamb´em a todos os professores que acompanharam minha gradua¸c˜ao nesta
institui¸c˜ao, entre eles: Jair, Rubinho, Wladimir, Ivo e Mˆonica. Vocˆes s˜ao exemplos de
profissionais e de pessoas.
Agrade¸co tamb´em aos professores Marcel Toledo e Marina Paez por aceitarem
participar desta banca.
Por fim, agrade¸co `a CAPES pelo apoio financeiro, sem o qual n˜ao seria poss´ıvel
Resumo
Este trabalho apresenta uma metodologia Bayesiana, livre de distribui¸c˜ao, baseada
em estimadores lineares, para previs˜ao em popula¸c˜oes finitas. Temos particular interesse
nesta abordagem, pois baseia-se em uma modelagem robusta, no sentido que
caracteriza-se a meio caminho entre duas ideias extremas: de um lado os procedimentos de
aleatoriza¸c˜ao e de outro modelos de superpopula¸c˜ao.
Dentro da perspectiva de amostragem de popula¸c˜ao finita, trabalhamos em alguns
contextos poss´ıveis. Em popula¸c˜oes associadas aos mais frequentes desenhos amostrais,
destacamos quest˜oes como permutabilidade e elicia¸c˜ao de informa¸c˜oes a priori, al´em
de estabelecer condi¸c˜oes para obter estimadores associados a amostragem cl´assica.
Para popula¸c˜oes com observa¸c˜oes caracterizadas por modelos na fam´ılia exponencial,
comparamos algumas distribui¸c˜oes preditivas, presentes na literatura, fornecidas pelas
abordagens Bayesiana e cl´assica. Os resultados obtidos exploram propriedades
frequentistas e mostram que distribui¸c˜oes preditivas, que levam em considera¸c˜ao a
incerteza inerente ao procedimento de estima¸c˜ao (o que caracteriza o paradigma
Bayesiano), apresentam-se mais eficientes que distribui¸c˜oes fornecidas pela metodologia
cl´assica, resultantes de pr´aticas do tipo plug-in do parˆametro estimado.
Teremos ainda interesse em modelos que caracterizam pequenos dom´ınios. Neste
sentido, propomos o uso de um procedimento de inferˆencia baseado em m´etodos de
simula¸c˜ao estoc´astica, em particular m´etodos de Monte Carlo via cadeias de Markov,
com a restri¸c˜ao de elabora¸c˜ao de uma distribui¸c˜ao proposta via m´etodo linear de Bayes.
Uma aplica¸c˜ao a dados reais de proficiˆencia de estudantes ser´a apresentada.
Palavras-chave: Previs˜ao Linear Bayesiana; Permutabilidade; Modelos Lineares
Abstract
This work present a Bayesian methodology, distribution-free, based upon linear
estimators, to prediction in finite populations. We have particular interest in this
approach because it is based upon robust modelling techniques as it is characterized midway between two extreme ideas: on one hand the procedures of randomization and on the other superpopulation models.
From the perspective of finite population sampling, we work in some possible contexts. In populations associated with the most frequent sampling designs, we highlight issues such as exchangeability and elicitation of prior information, in addition to establishing conditions for getting estimators associated with traditional sampling. For populations with observations characterized by models in the exponential family, we compare some predictive distributions, present in the literature, provided by the Bayesian and classical approaches. The results explore frequentist properties and show that predictive distributions that take into account the inherent uncertainty of the estimation procedure, which characterizes the Bayesian paradigm, are more efficient than distributions provided by classical methodology, resulting from plug-in practices of the estimated parameter.
We are also interested in models that characterize small area. We propose a sampling scheme based on methods of stochastic simulation, in particular the Markov Chain Monte Carlo, with the restriction of drafting a proposed distribution method using Linear Bayes. An application to real data of students proficiency will be presented.
Keywords: Bayes Linear Predictors; Exchangeability; Generalized Linear Models; Small Areas.
Sum´
ario
1 Introdu¸c˜ao 1
2 Amostragem Baseada em Modelos 4
2.1 Introdu¸c˜ao e Nota¸c˜ao . . . 4
2.2 Inferˆencia em Modelos de Superpopula¸c˜ao . . . 6
2.2.1 O Modelo de Regress˜ao . . . 7
2.2.2 Preditores ´Otimos de Quantidades da Popula¸c˜ao . . . 10
2.3 Inferˆencia Bayesiana em Popula¸c˜ao Finita . . . 12
3 M´etodo Linear de Bayes em Popula¸c˜ao Finita 14 3.1 M´etodo Linear de Bayes . . . 15
3.2 Modelos de Regress˜ao . . . 17
3.2.1 Amostragem Aleat´oria Simples . . . 18
3.2.2 Popula¸c˜oes Estratificadas . . . 22
3.2.3 Amostragem por Conglomerados - Unidades Permut´aveis . . . 25
3.2.4 Dados Categ´oricos . . . 26
3.3 Elicia¸c˜ao de Informa¸c˜oes a Priori . . . 29
3.3.1 Exemplo da Ind´ustria de Tratamento de ´Agua . . . 29
3.3.2 Efeito da Priori em Estimadores Lineares Bayesianos para Dados Categ´oricos . . . 33
4 Estimadores Lineares Bayesianos em Popula¸c˜ao Finita em Modelos na
4.1 Distribui¸c˜oes na Fam´ılia Exponencial . . . 37
4.1.1 Distribui¸c˜ao Bernoulli . . . 39
4.1.2 Distribui¸c˜ao Poisson . . . 47
4.1.3 Distribui¸c˜ao Gamma . . . 54
4.2 Modelo Linear Generalizado . . . 62
4.2.1 Abordagem Bayesiana . . . 63
4.2.2 Abordagem Cl´assica . . . 67
4.3 Exemplo 1: Modelo Bernoulli . . . 68
4.3.1 Propriedades Frequentistas . . . 73
4.4 Exemplo 2: Modelo Poisson . . . 78
4.4.1 Propriedades Frequentistas . . . 82
5 Modelos Lineares Generalizados Hier´arquicos em Pequenas ´Areas 88 5.1 Introdu¸c˜ao . . . 89
5.2 Elabora¸c˜ao de uma Distribui¸c˜ao Proposta Utilizando M´etodo Linear de Bayes . . . 90
5.3 Distribui¸c˜oes a Priori para Parˆametros de Variˆancia . . . 92
5.4 Modelo de Efeito Aleat´orio de Um N´ıvel . . . 94
5.4.1 Aplica¸c˜ao a Dados de ´Area com Replica¸c˜oes de Mesmo Tamanho 94 5.4.2 Aplica¸c˜ao a Dados de ´Area com Replica¸c˜oes de Tamanhos Diferentes 98 5.5 Modelo Completamente Hier´arquico . . . 101
5.5.1 Aplica¸c˜ao a Dados de ´Area com Replica¸c˜oes de Mesmo Tamanho 101 5.5.2 Aplica¸c˜ao a Dados de ´Area com Replica¸c˜oes de Tamanhos Diferentes105 5.6 Modelo de Dois N´ıveis . . . 108
5.6.1 Aplica¸c˜ao a Dados de ´Area . . . 109
5.7 Uma Aplica¸c˜ao na Avalia¸c˜ao de Proficiˆencia de Alunos . . . 113
5.7.1 Dados . . . 113
5.7.2 Principais Resultados . . . 114
A Equa¸c˜oes para os Parˆametros a Priori e a Posteriori 123
Lista de Tabelas
3.1 Dados categ´oricos: efeito da priori nas propor¸c˜oes estimadas de alunos na
categoria 1, considerando duas amostras de tamanhos diferentes. . . 35
4.1 Modelo Bernoulli: M´edia das probabilidades de cobertura e percentual
m´edio de observa¸c˜oes que se encontram `a esquerda e `a direita dos
intervalos de predi¸c˜ao para as distribui¸c˜oes Beta-Binomial e Normal
assint´otica, considerando diferentes fra¸c˜oes amostrais em uma popula¸c˜ao
de tamanho N = 1000. . . 45
4.2 Modelo Poisson: M´edia das probabilidades de cobertura e percentual m´edio
de observa¸c˜oes que se encontram `a esquerda e `a direita dos intervalos
de predi¸c˜ao para as distribui¸c˜oes Binomial-Negativa e Normal assint´otica,
considerando diferentes fra¸c˜oes amostrais em uma popula¸c˜ao de tamanho
N = 1000. . . 52
4.3 Modelo Gamma: M´edia das probabilidades de cobertura e percentual m´edio
de observa¸c˜oes que se encontram `a esquerda e `a direita dos intervalos
de predi¸c˜ao para as distibui¸c˜oes Gamma-Gamma e Normal assint´otica,
considerando diferentes fra¸c˜oes amostrais em uma popula¸c˜ao de tamanho
N = 1000. . . 60
4.4 MLG Bernoulli: Sum´ario dos parˆametros de regress˜ao estimados sob
abordagens Bayesiana e cl´assica, considerando diferentes fra¸c˜oes amostrais. 74
4.5 MLG Bernoulli: Sum´ario da previs˜ao decorrente das abordagens
4.6 MLG Bernoulli: Compara¸c˜ao de m´etodos de estima¸c˜ao. Erro Quadr´atico
M´edio (EQM) e V´ıcio Absoluto Relativo (VAREL). . . 75
4.7 MLG Bernoulli: Compara¸c˜ao de previs˜ao decorrente das abordagens
Bayesiana e cl´assica. Erro Quadr´atico M´edio (EQM) e V´ıcio Absoluto
Relativo (VAREL). . . 76
4.8 MLG Bernoulli: M´edia das probabilidades de cobertura e percentual m´edio
de observa¸c˜oes que se encontram `a direita e `a esquerda dos intervalos de
95% de credibilidade e de 95% de confian¸ca, para as distribui¸c˜oes preditivas. 77
4.9 MLG Poisson: Sum´ario dos parˆametros de regress˜ao estimados sob
abordagens Bayesiana e cl´assica, considerando diferentes fra¸c˜oes amostrais. 83
4.10 MLG Poisson: Sum´ario da previs˜ao decorrente das abordagens Bayesiana
e cl´assica, considerando diferentes fra¸c˜oes amostrais. . . 84
4.11 MLG Poisson: Compara¸c˜ao de m´etodos de estima¸c˜ao. Erro Quadr´atico
M´edio (EQM) e V´ıcio Absoluto Relativo (VAREL). . . 84
4.12 MLG Poisson: Compara¸c˜ao de previs˜ao decorrente das abordagens
Bayesiana e cl´assica. Erro Quadr´atico M´edio (EQM) e V´ıcio Absoluto
Relativo (VAREL). . . 85
4.13 MLG Poisson: M´edia das probabilidades de cobertura e percentual m´edio
de observa¸c˜oes que se encontram `a direita e `a esquerda dos intervalos de
95% de credibilidade e de 95% de confian¸ca, para as distribui¸c˜oes preditivas. 86
Lista de Figuras
4.1 Modelo Bernoulli: Distribui¸c˜oes preditivas Beta-Binomial e Normal
assint´otica com parˆametro π = 0.2, considerando diferentes fra¸c˜oes
amostrais em uma popula¸c˜ao de tamanho N = 100. . . 42
4.2 Modelo Bernoulli: Distribui¸c˜oes preditivas Beta-Binomial e Normal
assint´otica com parˆametro π = 0.5, considerando diferentes fra¸c˜oes
amostrais em uma popula¸c˜ao de tamanho N = 100. . . 42
4.3 Modelo Bernoulli: Distribui¸c˜oes preditivas Beta-Binomial e Normal
assint´otica com parˆametro π = 0.8, considerando diferentes fra¸c˜oes
amostrais em uma popula¸c˜ao de tamanho N = 100. . . 43
4.4 Modelo Bernoulli: M´edia das probabilidades de cobertura geradas pelo
intervalo de (95 + )% de credibilidade para distribui¸c˜ao Beta-Binomial
(linha s´olida) e pelo intervalo de 95% de confian¸ca para distribui¸c˜ao
Normal assint´otica (linha pontilhada), para determinados valores de π,
fra¸c˜oes amostrais f = 5% (c´ırculo) e f = 1% (triˆangulo) para uma
popula¸c˜ao de tamanho N = 1000. A linha tracejada horizontal em
vermelho indica o n´ıvel de 95%. . . 46
4.5 Modelo Poisson: Distribui¸c˜oes preditivas Binomial-Negativa e Normal
assint´otica com parˆametro λ = 0.5, considerando diferentes fra¸c˜oes
amostrais em uma popula¸c˜ao de tamanho N = 100. . . 49
4.6 Modelo Poisson: Distribui¸c˜oes preditivas Binomial-Negativa e Normal
assint´otica com parˆametro λ = 5, considerando diferentes fra¸c˜oes
4.7 Modelo Poisson: Distribui¸c˜oes preditivas Binomial-Negativa e Normal
assint´otica com parˆametro λ = 10, considerando diferentes fra¸c˜oes
amostrais em uma popula¸c˜ao de tamanho N = 100. . . 50
4.8 Modelo Poisson: M´edia das probabilidades de cobertura geradas pelo
intervalo de (95+)% de credibilidade para distribui¸c˜ao Binomial-Negativa
(linha s´olida) e pelo intervalo de 95% de confian¸ca para distribui¸c˜ao
Normal assint´otica (linha pontilhada), para determinados valores de λ,
fra¸c˜oes amostrais f = 5% (c´ırculo) e f = 1% (triˆangulo) para uma
popula¸c˜ao de tamanho N = 1000. A linha tracejada horizontal em
vermelho indica o n´ıvel de 95%. . . 53
4.9 Modelo Gamma: Distribui¸c˜oes preditivas Gamma-Gamma e Normal
assint´otica com parˆametro natural η = 5 e parˆametro de forma a = 0.5
conhecido, considerando diferentes fra¸c˜oes amostrais em uma popula¸c˜ao
de tamanho N = 100. . . 56
4.10 Modelo Gamma: Distribui¸c˜oes preditivas Gamma-Gamma e Normal
assint´otica com parˆametro natural η = 10 e parˆametro de forma a = 0.5
conhecido, considerando diferentes fra¸c˜oes amostrais em uma popula¸c˜ao
de tamanho N = 100. . . 57
4.11 Modelo Gamma: Distribui¸c˜oes preditivas Gamma-Gamma e Normal
assint´otica com parˆametro natural η = 5 e parˆametro de forma a = 1
conhecido, considerando diferentes fra¸c˜oes amostrais em uma popula¸c˜ao
de tamanho N = 100. . . 57
4.12 Modelo Gamma: Distribui¸c˜oes preditivas Gamma-Gamma e Normal
assint´otica com parˆametro natural η = 10 e parˆametro de forma a = 1
conhecido, considerando diferentes fra¸c˜oes amostrais em uma popula¸c˜ao
4.13 Modelo Gamma: M´edia das probabilidades de cobertura geradas pelo
intervalo de (95 + )% de credibilidade para distribui¸c˜ao Gamma-Gamma
(linha s´olida) e pelo intervalo de 95% de confian¸ca para distribui¸c˜ao
Normal assint´otica (linha pontilhada), para determinados valores de η, a
conhecido, fra¸c˜oes amostrais f = 5% (c´ırculo) e f = 1% (triˆangulo) para
uma popula¸c˜ao de tamanho N = 1000. A linha tracejada horizontal em
vermelho indica o n´ıvel de 95%. . . 61
4.14 MLG Bernoulli: M´edia das probabilidades de cobertura geradas pelos
intervalos de 95% de credibilidade (linha s´olida) e de 95% de confian¸ca
(linha pontilhada) para as distribui¸c˜oes preditivas, considerando 4 distintos
conjuntos de dados e fra¸c˜oes amostrais f = 20% (c´ırculo) e f = 5%
(triˆangulo) para uma popula¸c˜ao de tamanho N = 1000. A linha tracejada
horizontal em vermelho indica o n´ıvel de 95%. . . 77
4.15 MLG Poisson: M´edia das probabilidades de cobertura geradas pelos
intervalos de 95% de credibilidade (linha s´olida) e de 95% de confian¸ca
(linha pontilhada) para as distribui¸c˜oes preditivas, considerando 4 distintos
conjuntos de dados e fra¸c˜oes amostrais f = 20% (c´ırculo) e f = 5%
(triˆangulo) para uma popula¸c˜ao de tamanho N = 1000. A linha tracejada
horizontal em vermelho indica o n´ıvel de 95%. . . 86
5.1 Modelo de efeito aleat´orio de um n´ıvel com replica¸c˜oes de mesmo tamanho:
Trajet´orias das cadeias dos parˆametros βk, k = 0, 1 e σ2. As linhas pretas
tracejadas s˜ao os valores verdadeiros do parˆametros. . . 96
5.2 Modelo de efeito aleat´orio de um n´ıvel com replica¸c˜oes de mesmo tamanho:
Histogramas dos parˆametros βk, k = 0, 1 e σ2. As linhas pretas tracejadas
s˜ao os valores verdadeiros dos parˆametros. . . 97
5.3 Modelo de efeito aleat´orio de um n´ıvel com replica¸c˜oes de mesmo tamanho:
Sum´ario da distribui¸c˜ao a posteriori dos parˆametros estimados. O c´ırculo
cheio representa a mediana a posteriori, “×” ´e o valor verdadeiro e a linha
5.4 Modelo de efeito aleat´orio de um n´ıvel com replica¸c˜oes de tamanhos
diferentes: Trajet´orias das cadeias dos parˆametros βk, k = 0, 1 e σ2. As
linhas pretas tracejadas s˜ao os valores verdadeiros do parˆametros. . . 99
5.5 Modelo de efeito aleat´orio de um n´ıvel com replica¸c˜oes de tamanhos
diferentes: Histogramas dos parˆametros βk, k = 0, 1 e σ2. As linhas pretas
tracejadas s˜ao os valores verdadeiros dos parˆametros. . . 100
5.6 Modelo de efeito aleat´orio de um n´ıvel com replica¸c˜oes de tamanhos
diferentes: Sum´ario da distribui¸c˜ao a posteriori dos parˆametros estimados.
O c´ırculo cheio representa a mediana a posteriori, “×” ´e o valor verdadeiro
e a linha ´e o intervalo de credibilidade de 95%. . . 100
5.7 Modelo completamente hier´arquico com replica¸c˜oes de mesmo tamanho:
Trajet´orias das cadeias dos parˆametros βk e σ2k, k = 0, 1. As linhas pretas
tracejadas s˜ao os valores verdadeiros do parˆametros. . . 103
5.8 Modelo completamente hier´arquico com replica¸c˜oes de mesmo tamanho:
Histogramas dos parˆametros βk e σ2k, k = 0, 1. As linhas pretas tracejadas
s˜ao os valores verdadeiros dos parˆametros. . . 104
5.9 Modelo completamente hier´arquico com replica¸c˜oes de mesmo tamanho:
Sum´ario da distribui¸c˜ao a posteriori dos parˆametros estimados. O c´ırculo
cheio representa a mediana a posteriori, “×” ´e o valor verdadeiro e a linha
´e o intervalo de credibilidade de 95%. . . 104
5.10 Modelo completamente hier´arquico com replica¸c˜oes de tamanhos
diferentes: Trajet´orias das cadeias dos parˆametros βk e σ2k, k = 0, 1. As
linhas pretas tracejadas s˜ao os valores verdadeiros do parˆametros. . . 106
5.11 Modelo completamente hier´arquico com replica¸c˜oes de tamanhos
diferentes: Histogramas dos parˆametros βk e σ2k, k = 0, 1. As linhas
pretas tracejadas s˜ao os valores verdadeiros dos parˆametros. . . 107
5.12 Modelo completamente hier´arquico com replica¸c˜oes de tamanhos
diferentes: Sum´ario da distribui¸c˜ao a posteriori dos parˆametros
estimados. O c´ırculo cheio representa a mediana a posteriori, “×”
5.13 Modelo de dois n´ıveis: Trajet´orias das cadeias dos parˆametros βk e σ2k, k =
0, 1. As linhas pretas tracejadas s˜ao os valores verdadeiros do parˆametros. 110
5.14 Modelo de dois n´ıveis: Histogramas dos parˆametros βk e σ2k, k = 0, 1. As
linhas pretas tracejadas s˜ao os valores verdadeiros dos parˆametros. . . 111
5.15 Modelo de dois n´ıveis: Sum´ario da distribui¸c˜ao a posteriori dos parˆametros
estimados. O c´ırculo cheio representa a mediana a posteriori, “×” ´e o
valor verdadeiro e a linha ´e o intervalo de credibilidade de 95%. . . 111
5.16 Modelo de dois n´ıveis: Sum´ario da distribui¸c˜ao a posteriori da propor¸c˜ao
de sucessos nas pequenas ´areas. O c´ırculo cheio representa a mediana a
posteriori, “×” ´e o valor verdadeiro e a linha ´e o intervalo de credibilidade
de 95%. . . 112
5.17 Dados reais: Trajet´orias das cadeias dos parˆametros βk, k = 0, 1, 2, 3, 4. 115
5.18 Dados reais: Histogramas dos parˆametros βk, k = 0, 1, 2, 3, 4. . . 116
5.19 Dados reais: Trajet´orias das cadeias dos parˆametros σ2
k, k = 0, 1, 2, 3, 4. . 117
5.20 Dados reais: Histogramas dos parˆametros σ2k, k = 0, 1, 2, 3, 4. . . 118
5.21 Dados reais: Sum´ario da distribui¸c˜ao a posteriori da propor¸c˜ao de alunos
com baixo grau de proficiˆencia em cada pequena ´area. O c´ırculo cheio
representa a mediana a posteriori, “×” ´e o valor verdadeiro e a linha ´e o
Cap´ıtulo 1
Introdu¸
c˜
ao
A teoria cl´assica de amostragem estuda as rela¸c˜oes existentes entre uma popula¸c˜ao e
amostras extra´ıdas desta, com o objetivo de avaliar grandezas desconhecidas associadas a
popula¸c˜ao. Esta teoria, tamb´em conhecida como modelo de popula¸c˜ao fixa, apresenta-se
livre de distribui¸c˜ao. Em algumas situa¸c˜oes espec´ıficas, esta teoria mostrou-se ineficiente,
fornecendo preditores inadequados, o que sugeriu um forte impulso no desenvolvimento de
teoria de previs˜ao baseada em modelos de superpopula¸c˜ao. Esta abordagem considera
os valores dos elementos da popula¸c˜ao como vari´aveis aleat´orias, as quais apresentam
distribui¸c˜oes conjuntas. Zacks (2002) apresenta uma revis˜ao destas metodologias, `a luz
da filosofia de Basu.
Neste contexto, a inferˆencia Bayesiana tem tido um significante impacto na literatura
e em muitos destes trabalhos distribui¸c˜oes normais s˜ao utilizadas. Ericson (1969)
introduziu uma abordagem Bayesiana, livre de distribui¸c˜oes, baseada em um modelo
Multinomial-Dirichlet. Nesta, ´e necess´ario especificar todos os poss´ıveis valores que as
unidades da popula¸c˜ao podem assumir.
O’Hagan (1985) propˆos o uso de uma outra abordagem Bayesiana, livre de distribui¸c˜ao
e mais flex´ıvel, baseada em estimadores lineares Bayesianos. Esta metodologia ´e
alternativa aos m´etodos de aleatoriza¸c˜ao e apresenta-se a meio caminho entre duas
ideias extremas: de um lado os procedimentos de aleatoriza¸c˜ao e de outro os modelos
de superpopula¸c˜ao. Nestes modelos o desenho amostral ´e caracterizado apenas por
como permutabilidade de segunda ordem, e descrevem os conhecimentos a priori sobre
estruturas presentes na popula¸c˜ao. Neste sentido surge uma quest˜ao relevante do ponto
de vista da pesquisa atual na ´area Bayesiana, caracterizada por elicia¸c˜ao de distribui¸c˜oes
a priori.
Este trabalho trata de aplica¸c˜oes deste m´etodo de inferˆencia Bayesiana em diferentes
situa¸c˜oes poss´ıveis inseridas no contexto de amostragem de popula¸c˜oes finitas: popula¸c˜oes
para as quais n˜ao admite-se nenhum tipo de modelo, apenas uma hip´otese de
permutabilidade de segunda ordem; casos em que os dados apresentam estruturas
determinadas por modelos na fam´ılia exponencial; e inferˆencia em pequenos dom´ınios
utilizando modelos lineares generalizados hier´arquicos.
Temos interesse especial em estudar as distribui¸c˜oes preditivas fornecidas por este
m´etodo de inferˆencia Bayesiana, fazendo compara¸c˜oes com distribui¸c˜oes produzidas por
outras abordagens comuns na literatura nesta ´area de pesquisa.
Organiza¸c˜ao da Disserta¸c˜ao
Esta disserta¸c˜ao est´a organizada como descrito a seguir. O Cap´ıtulo 2 tem como
objetivo introduzir a nota¸c˜ao, apresentar os modelos b´asicos e uma an´alise geral das
poss´ıveis abordagens empregadas em inferˆencia em popula¸c˜oes finitas. Seis modelos de
superpopula¸c˜ao s˜ao introduzidos como casos particulares de um modelo de regress˜ao e a
estrutura geral de preditores de quantidades da popula¸c˜ao, como o total, ´e apresentada e
ilustrada para um particular desenho. Tratamos de uma combina¸c˜ao de modelos baseados
no desenho amostral com modelos de superpopula¸c˜ao com a finalidade de atingir robustez.
Descrevemos tamb´em a an´alise Bayesiana para este contexto.
O Cap´ıtulo 3 ´e voltado para aplica¸c˜ao de estimadores lineares Bayesianos em alguns
desenhos amostrais frequentemente utilizados. O m´etodo de inferˆencia ser´a aplicado a
um modelo de regress˜ao geral e particularizado para estes desenhos. Estimadores do tipo
raz˜ao, regress˜ao e para dados categ´oricos tamb´em ser˜ao desenvolvidos. Os estimadores
dependem de quantidades a priori, cuja interpreta¸c˜ao resgata uma quest˜ao relevante do
ausˆencia dessas informa¸c˜oes os estimadores da amostragem baseada na aleatoriza¸c˜ao do
desenho ser˜ao obtidos.
No Cap´ıtulo 4 abordamos modelos mais estruturados pertencentes a fam´ılia
exponencial, pois em pesquisas amostrais ´e comum ter interesse em dados que n˜ao
s˜ao adequadamente modelados assumindo distribui¸c˜ao Normal. Neste contexto, temos
interesse especial em fazer previs˜oes para as unidades desconhecidas da popula¸c˜ao. Para
isso ser˜ao feitos estudos emp´ıricos para dados independentes e identicamente distribu´ıdos
e dados seguindo modelos lineares generalizados, a fim de comparar distribui¸c˜oes
preditivas decorrentes de paradigmas Bayesianos, as quais levam em considera¸c˜ao a
incerteza associada `a estima¸c˜ao dos parˆametros, e predi¸c˜oes produzidas por abordagens
cl´assicas, as quais baseiam-se em pr´aticas do tipo plug-in dos parˆametros estimados.
O Cap´ıtulo 5 prop˜oe um esquema de amostragem para modelos lineares generalizados
hier´arquicos que podem ser utilizados no contexto de estima¸c˜ao em pequenos dom´ınios.
O procedimento de inferˆencia baseia-se em m´etodos de simula¸c˜ao estoc´astica, com um
passo de elabora¸c˜ao de distribui¸c˜ao proposta via m´etodo linear de Bayes. O m´etodo ser´a
aplicado a alguns exemplos de modelos hier´arquicos conhecidos na literatura de estima¸c˜ao
em pequenas ´areas e a dados reais de proficiˆencia de alunos de escolas municipais do
Rio de Janeiro no ano de 1996. Finalmente, no Cap´ıtulo 6 concluiremos a disserta¸c˜ao
com uma breve descri¸c˜ao das propostas de extens˜oes para o presente trabalho. Uma
demonstra¸c˜ao de um resultado utilizado no Cap´ıtulo 4 e algumas das distribui¸c˜oes
condicionais completas dos parˆametros envolvidos nos modelos apresentados no Cap´ıtulo
5, necess´arias para o procedimento de inferˆencia, s˜ao apresentados como apˆendices no
final desta disserta¸c˜ao.
Utilizamos o software livre R 1 tanto para rodar os algoritmos quanto para a
constru¸c˜ao dos gr´aficos apresentados nos Cap´ıtulos 4 e 5.
Cap´ıtulo 2
Amostragem Baseada em Modelos
Neste cap´ıtulo ser˜ao apresentados os principais fundamentos de inferˆencia em
popula¸c˜ao finita, baseada na aleatoriza¸c˜ao do desenho amostral. Ser´a descrita tamb´em
em detalhes a metodologia de inferˆencia baseada em modelos. Na Se¸c˜ao 2.1 ser˜ao
apresentadas a nota¸c˜ao e uma introdu¸c˜ao `a modelos baseados em popula¸c˜oes fixas. Em
2.2 ser´a descrita a abordagem de modelos de superpopula¸c˜ao, bem como a forma de
obter-se preditores ´otimos de quantidades de interesse na popula¸c˜ao. Finalmente, concluiremos
o presente cap´ıtulo introduzindo a abordagem Bayesiana neste contexto.
2.1
Introdu¸
c˜
ao e Nota¸
c˜
ao
Considere uma popula¸c˜ao finita como uma cole¸c˜ao de N unidades, onde N ´e
conhecido, denotada por U = {u1, . . . , uN}. Sejam y = (y1, . . . , yN)0 o vetor de
quantidades desconhecidas da vari´avel de interesse, associado a U e X a matriz de ordem
N × p de covari´aveis, cuja i-´esima linha ´e expressa pelo vetor Xi = (xi1, xi2, . . . , xip),
i = 1, . . . , N.
Estamos interessados em estimar fun¸c˜oes de y, como por exemplo o total populacional
da caracter´ıstica de interesse T = N X i=1 yi = 10Ny,
onde 1N ´e o vetor unit´ario de dimens˜ao N × 1, a m´edia populacional ¯y = T /N e a
variˆancia populacional S2 =PN
i=1(yi− ¯y)
2/N.
Para obter informa¸c˜oes sobre o vetor y, uma amostra de tamanho n(≤ N ) ´e
selecionada. Sejam s = {i1, . . . , in} o conjunto ordenado dos ´ındices das unidades que
compreendem a amostra e ¯s o conjunto dos ´ındices que n˜ao est˜ao em s. Ap´os observar s,
defina ys = (yi1, . . . , yin)
0 como o vetor associado `a amostra e y
¯
s o vetor cujos elementos
n˜ao foram observados.
A amostragem de popula¸c˜ao finita convencional, ou seja, baseada na aleatoriza¸c˜ao do
desenho, se distingue de outras partes da estat´ıstica, pois ela ´e focada na popula¸c˜ao fixa
da qual a amostra faz parte. Em outras ´areas da estat´ıstica, observa¸c˜oes populacionais
s˜ao tipicamente representadas por realiza¸c˜oes de vari´aveis aleat´orias, e a inferˆencia se
refere a uma popula¸c˜ao hipot´etica, na qual uma lei de probabilidade governa as vari´aveis
de interesse.
O mecanismo probabil´ıstico como os dados s˜ao selecionados define um procedimento
predeterminado de aleatoriza¸c˜ao, denominado desenho amostral. Este ´e representado
por uma fun¸c˜ao de probabilidade, conhecida como planejamento amostral, definida no
conjunto S de todas as poss´ıveis amostras s. Esta fun¸c˜ao, p(.), satisfaz as seguintes
condi¸c˜oes:
(i) p(s) ≥ 0, para todo s ∈ S, e
(ii) P
s∈Sp(s) = 1.
Uma discuss˜ao detalhada das propriedades dessa fun¸c˜ao p pode ser vista, por exemplo,
em Cassel et al. (1977), onde alguns exemplos importantes s˜ao apresentados.
Os estimadores das quantidades de interesse s˜ao fun¸c˜oes de ys e, em geral, busca-se
estimadores n˜ao viciados com rela¸c˜ao a essa distribui¸c˜ao de probabilidade p.
De forma alternativa a p(.) podemos definir I(s) como vetor indicador de inclus˜ao
na amostra, s ∈ S, de cada unidade da popula¸c˜ao, isto ´e I(s) = (I1(s), . . . , IN(s)),
onde Ii(s) = 1 se i ∈ s e Ii(s) = 0 se i ∈ ¯s. O conjunto de dados observados pode
¯
s = {i : Ii(s) = 0}, i = 1, . . . , N. Al´em disso, Ii(s) segue uma distribu¸c˜ao de Bernoulli
com probabilidade de sucesso πi.
Assim, por exemplo, o estimador de Horvitz-Thompson para o total T e sua variˆancia
podem ser escritos como: ˆ T = N X i=1 yiIi(s) πi , V ( ˆT ) = N X i=1 1 − πi πi y2i + 2 N X i=1 X j>i πij − πiπj πiπj yiyj, (2.1)
onde πij ´e a probabilidade de que as unidades i e j fa¸cam parte da amostra. Esta
probabilidade de inclus˜ao na amostra depende apenas do desenho amostral e ´e dada por:
πi = X s:i∈s p(s) = X s∈S p(s)Ii(s) = Ep[Ii(s)].
Em Zacks (2002) ´e feita uma revis˜ao de trabalhos de Basu, os quais retratam a
dificuldade de aceitar o uso de aleatoriza¸c˜ao do desenho amostral, realizando inferˆencias
independentes de vari´aveis na popula¸c˜ao (parˆametros). Basu n˜ao aprovava estimadores
que incorporavam estas probabilidades de inclus˜ao, tais como o estimador em (2.1). Para
mostrar que estimadores n˜ao viciados podem produzir estimativas pouco razo´aveis, Basu
ilustra seu ponto de vista por meio de exemplos em Basu (1971).
Para estes e outros tipos de situa¸c˜oes ´e inevit´avel se cogitar a utiliza¸c˜ao de modelos de
superpopula¸c˜ao, buscando inferˆencias sobre a parte desconhecida que n˜ao sejam baseadas
apenas na parte observada, mas na distribui¸c˜ao conjunta das vari´aveis de interesse.
2.2
Inferˆ
encia em Modelos de Superpopula¸
c˜
ao
O processo de inferˆencia estat´ıstica, a partir de uma amostra, compreende um
conjunto de princ´ıpios e procedimentos que podem envolver, por exemplo, o conhecimento
de algum processo aleat´orio que possa ter gerado o verdadeiro valor desconhecido
da caracter´ıstica de interesse yi para cada unidade i da popula¸c˜ao. Este processo ´e
representado por um modelo que ´e utilizado como base para a realiza¸c˜ao de inferˆencias.
Esta abordagem ´e denominada modelagem de superpopula¸c˜ao e neste contexto a
Enquanto na teoria convencional de amostragem as unidades da popula¸c˜ao s˜ao
tratadas como constantes fixas (parˆametros), n˜ao expressando nenhuma rela¸c˜ao entre
as unidades da amostra e as unidades n˜ao amostradas, sob o enfoque de modelos de
superpopula¸c˜ao, os valores das caracter´ısticas de interesse s˜ao consideradas realiza¸c˜oes
de vari´aveis aleat´orias. A inferˆencia sobre uma fun¸c˜ao de y procede com respeito `a
distribui¸c˜ao amostral de uma estat´ıstica, sob repetidas realiza¸c˜oes geradas pelo modelo,
com a amostra selecionada permanecendo fixa. Esta forma de inferˆencia em popula¸c˜oes
finitas pode ser vista com maiores detalhes em Cassel et al. (1977) e Bolfarine e Zacks (1992).
Um modelo de superpopula¸c˜ao ´e constru´ıdo assumindo que o valor da vari´avel de
interesse associada a i-´esima unidade da popula¸c˜ao, yi, i = 1, . . . , N , ´e compreendido por
um elemento determin´ıstico µi e um elemento aleat´orio i, isto ´e
yi = µi+ i,
i = 1, . . . , N. O vetor aleat´orio = (1, . . . , N)0 tem m´edia zero e matriz de covariˆancia
V positiva definida.
Como veremos mais adiante, a modelagem expl´ıcita de estruturas populacionais
por meio de modelos de superpopula¸c˜ao resultam, para alguns casos especiais, nas
mesmas inferˆencias pontuais de parˆametros de interesse da popula¸c˜ao, realizadas sob
a amostragem convencional.
2.2.1
O Modelo de Regress˜
ao
O modelo de regress˜ao pode ser aplicado quando o elemento determin´ıstico µi ´e
modelado por fun¸c˜oes lineares das vari´aveis auxiliares. Considere o seguinte modelo
de superpopula¸c˜ao linear geral
y = Xβ + , E() = 0 e V () = V, (2.2)
onde X ´e uma matriz N × p, supostamente conhecida para todas as unidades de U , β
´
e um vetor p × 1 de parˆametros e V matriz de covariˆancia postiva definida. Veremos a
Modelo 1 Suponha que os elementos do modelo em (2.2) sejam X = 1N e V = σ2IN,
onde 1N ´e um vetor de 1’s de dimens˜ao N e IN ´e a matriz identidade de dimens˜ao
N × N . Este modelo ´e conhecido como modelo de loca¸c˜ao simples, no qual β ´e um
parˆametro escalar de loca¸c˜ao. Portanto, dado β, as vari´aveis aleat´orias y1, . . . , yN s˜ao
n˜ao correlacionadas e permut´aveis.
Este modelo ´e usado no contexto de amostragem, quando trata-se de popula¸c˜oes que
apresentam unidades com comportamentos semelhantes com rela¸c˜ao a caracter´ıstica de
interesse.
Modelo 2 Considere em (2.2) que X = (x1, . . . , xN)0 e V = σ2diag(x1, . . . , xN), tal
que a fun¸c˜ao diag(.) representa uma matriz diagonal, cuja diagonal principal ´e formada
pelos argumentos desta fun¸c˜ao. Este modelo ´e conhecido na literatura como modelo de
regress˜ao simples que passa pela origem. Em situa¸c˜oes pr´aticas, este ´e usado quando
o valor esperado de yi ´e porporcional a xi, assim como sua variˆancia. Estimadores do
tipo raz˜ao, comuns em amostragem de popula¸c˜ao finita, s˜ao derivados de modelos desta
forma.
Modelo 3 Uma generaliza¸c˜ao do modelo anterior ´e obtida considerando
X = 1 x1 .. . ... 1 xN , β = β0 β1
e V = σ2diag(xg1, . . . , xgN), onde g = 0, 1, 2. No caso em que g = 0, obt´em-se o modelo de
regress˜ao simples. A partir deste modelo s˜ao derivados os estimadores do tipo regress˜ao,
tamb´em usuais na amostragem de popula¸c˜ao finita.
Modelo 4 Considere novamente o Modelo 2, para o caso em que a popula¸c˜ao ´e
estratificada em H subgrupos, conhecidos como estratos, de tamanho Nh, h = 1, . . . , H,
tal que N = N1+ · · · + NH. Seja yhi a vari´avel de interesse associada `a i-´esima unidade
no h-´esimo estrato, onde i = 1, . . . , Nh, h = 1, . . . , H.
De cada estrato h, uma amostra de tamanho nh ´e selecionada e n = n1+ · · · + nH ´e o tamanho total da amostra.
Uma vers˜ao mais geral deste modelo ´e obtida considerando X uma matriz
bloco-diagonal com h-´esima diagonal dada por Xh = (xh1, . . . , xhNh)
0 e β = (β
1, . . . , βH)0.
Al´em de V = diag(V1, . . . , VH), com h-´esimo elemento da diagonal dado por Vh =
σ2
hdiag(xh1, . . . , xhNh).
Este modelo, conhecido como modelo de regress˜ao estratificado, aplica-se `a popula¸c˜oes
nas quais n˜ao ´e adequado assumir que as unidades s˜ao todas permut´aveis entre si, com
rela¸c˜ao a caracter´ıstica de interesse. A estratifica¸c˜ao pode resultar em ganhos de precis˜ao,
j´a que divide uma popula¸c˜ao heterogˆenea em grupos homogˆeneos, nos quais a hip´otese de
permutabilidade pode ser assumida.
Modelo 5 Suponha que os elementos do modelo em (2.2) s˜ao
X = 1 x1 · · · xJ1 .. . ... · · · ... 1 xN · · · xJN , β = β0 β1 .. . βJ ,
tal que J ≥ 0, V = σ2diag(f
1(X), f2(X), . . . , fN(X)), para fi(X) =
PJ
j=0cjxji e cj s˜ao
constantes. Este modelo ´e conhecido como modelo de regress˜ao polinomial e ´e uma vers˜ao
mais geral do modelo 3.
Modelo 6 Suponha que a popula¸c˜ao seja dividida em H distintas subpopula¸c˜oes,
conhecidas como conglomerados, onde Nh determina o n´umero de unidades no h-´esimo
conglomerado. N =PH
h=1Nh ´e o tamanho da popula¸c˜ao. Em um primeiro est´agio, uma
amostra s de k(≤ H) conglomerados ´e selecionada. No segundo est´agio, uma amostra sh,
de tamanho nh, ´e retirada do h-´esimo conglomerado, h ∈ s. O tamanho total da amostra
´
e dado por n =P
h∈snh. O modelo assume que
E(yhi) = mh,
cov(yhi, ylj) = σ2 h+ ch; h = l, i = j, ch; h = l, i 6= j, 0; h 6= l, onde i = 1, . . . , Nh, j = 1, . . . , Nl, e h, l = 1, . . . , H.
De acordo com este modelo, unidades dentro de um mesmo conglomerado s˜ao
correlacionadas, mas unidades em diferentes conglomerados n˜ao. Na nota¸c˜ao em (2.2),
X = (1N1, . . . 1NH)
0 e V = diag(V
1, . . . , VH) ´e uma matriz bloco-diagonal, com Vh, uma
matriz de dimens˜ao Nh× Nh, cujos elementos da diagonal principal s˜ao dados por σh2+ ch
e os demais por ch, ou seja
Vh = σh2INh+ ch1Nh1
0
Nh.
Maiores detalhes destes e outros exemplos de modelos de regress˜ao podem ser vistos
em Bolfarine e Zacks (1992).
2.2.2
Preditores ´
Otimos de Quantidades da Popula¸
c˜
ao
Na Se¸c˜ao 2.2.1 foram apresentados modelos de superpopula¸c˜ao sob os quais podemos
obter preditores de quantidades populacionais. Estes modelos assumem apenas a
estrutura de primeiro e segundo momentos da distribui¸c˜ao conjunta de y. Neste caso,
preditores lineares ´otimos n˜ao viciados podem ser obtidos usando o Teorema de
Gauss-Markov. Ser´a apresentado a seguir a forma geral destes estimadores, particularizando
para o Modelo 1.
Particionamos o vetor y em ys e ys¯, de dimens˜oes n e N − n, respectivamente. O
mesmo ´e feito com X e V :
X = Xs Xs¯ e V = Vs Vs¯s V¯ss Vs¯
Assim, as f´ormulas do preditor n˜ao viciado de variˆancia m´ınima e sua respectiva
variˆancia (ver em Bolfarine e Zacks (1992)) s˜ao dadas por:
E(ys¯| ys) = Xs¯β + Vˆ ss¯ V−1ss(ys− Xsβ),ˆ V (y¯s| ys) = Vs¯− Vss¯ V−1s Vs¯s+ (Xs¯− Vss¯ V−1s Xs)(X0sV −1 s X 0 s) −1 (X¯s− Vss¯ V−1s Xs)0. (2.3) ´
E poss´ıvel ent˜ao reformular o problema de previs˜ao de fun¸c˜oes de y. Prevemos ys¯ e
em seguida agregamos a parte referente a amostra. Por exemplo, se a fun¸c˜ao de interesse
´
e o total T , podemos reescrevˆe-lo da forma
T = 10sys+ 10s¯ys¯,
no qual 1s e 1¯s representam os vetores unit´arios de dimens˜oes iguais aos tamanhos de s
e ¯s, respectivamente. O estimador e sua variˆancia para o total tem a seguinte forma:
ˆ
T = 10sys+ 10s¯E(ys¯| ys), V ( ˆT ) = 10s¯V (y¯s| ys)1s¯,
(2.4)
onde E(ys¯| ys) e V (ys¯| ys) s˜ao dados pelas express˜oes em (2.3).
Exemplo 2.2.1 No Modelo 1, usando o resultado em (2.4) obt´em-se que o preditor
linear n˜ao viciado de variˆancia m´ınima para o total T e sua variˆancia s˜ao dados,
respectivamente, por: ˆ T = N ¯ys, V ( ˆT ) = N2 σ2 n 1 − n N , (2.5) onde ¯ys= n−110sys.
As f´ormulas de variˆancia s˜ao semelhantes `aquelas obtidas por meio da abordagem
convencional da teoria de popula¸c˜ao finita, para um plano de amostragem aleat´oria
simples sem reposi¸c˜ao. Contudo, as estimativas n˜ao viciadas destas variˆancias s˜ao iguais
nas duas abordagens, para o qual o parˆametro σ2 (ou S2) ´e estimado por:
s2 = 1 n − 1 n X i=1 (yi− ¯y)2. (2.6)
Podemos adotar a abordagem Bayesiana possibilitando incluir informa¸c˜oes a priori
sobre os hiperparˆametros do modelo de superpopula¸c˜ao proposto. Na pr´oxima se¸c˜ao
2.3
Inferˆ
encia Bayesiana em Popula¸
c˜
ao Finita
Duas abordagens em inferˆencia para popula¸c˜oes finitas foram apresentadas
anteriormente: a inferˆencia baseada na aleatoriza¸c˜ao do desenho amostral, na qual
as quantidades da popula¸c˜ao permanecem fixas, e os modelos de superpopula¸c˜ao
frequentistas, nos quais os valores das unidades da popula¸c˜ao s˜ao realiza¸c˜oes de um
modelo probabil´ıstico e a inferˆencia ´e feita a partir de uma amostra.
Ser´a apresentada nesta se¸c˜ao uma terceira abordagem e a qual ser´a utilizada ao
longo deste trabalho: a inferˆencia Bayesiana, na qual `as vari´aveis na popula¸c˜ao s˜ao
atribu´ıdas distribui¸c˜oes a priori, veja Ericson (1969), Basu (1971) e Scott (1977). Como
atribuir informa¸c˜oes a priori ao espa¸co de todas as vari´aveis n˜ao ´e uma tarefa trivial,
o que se tem ´e a formula¸c˜ao de um modelo de superpopula¸c˜ao para y, no qual s˜ao
atribu´ıdas distribui¸c˜oes a priori para os hiperparˆametros do modelo. Neste sentido,
ainda surge a importˆancia da hip´otese de permutabilidade como hip´otese simplificadora
no momento de eliciar quantidades a priori, veja Ericson (1969). Basicamente, a hip´otese
de permutabilidade caracteriza conhecimentos a priori acerca de estruturas da popula¸c˜ao.
Quando a informa¸c˜ao a priori ´e vaga, assim como o tamanho da amostra ´e grande, esta
forma de inferˆencia produz resultados num´ericos pr´oximos aos obtidos pela abordagem
frequentista. Por´em, a inferˆencia ´e baseada na distribui¸c˜ao a posteriori e n˜ao na
distribui¸c˜ao de todas as poss´ıveis amostras geradas pelo modelo.
Retomando o modelo (2.2) podemos assumir que a distribui¸c˜ao de y, dados (β e V),
´
e Normal N -variada da forma
y | β ∼ N (Xβ, V),
para β desconhecido e V conhecido. Atribui-se em seguida uma distribui¸c˜ao a priori
para β Normal com m´edia igual a µ e variˆancia igual a τ . Ent˜ao pode ser demonstrado
(veja Bolfarine e Zacks (1992)) que a distribui¸c˜ao preditiva de y¯s ´e Normal N -variada
E(y¯s| ys) = Xs¯β + Vˆ ¯ssV−1s (ys− Xsβ),ˆ V (y¯s| ys) = Vs¯− V¯ssV−1s Vs¯s+ (Xs¯− Vss¯ V−1s Xs)(X0sV −1 s X 0 s+ τ −1)−1 (Xs¯− Vss¯ V−1s Xs)0, (2.7) onde ˆ β = (τ−1+ X0sV−1s Xs)−1(X0sV −1 s ys+ τ−1µ).
Observe que quando tomamos uma informa¸c˜ao a priori vaga, fazendo τ−1 → 0 o
resultado em (2.7) se aproxima do resultado em (2.3).
O estimador para T , por exemplo, e sua variˆancia nesse caso s˜ao dados por (2.4),
para E(y¯s| ys) e V (ys¯| ys) obtidos em (2.7).
Exemplo 2.3.1 Voltando ao Modelo 1, o preditor linear n˜ao viciado de variˆancia
m´ınima para o total T e sua variˆancia s˜ao obtidos usando o resultado em (2.7) e s˜ao
dados por: ˆ T = n¯ys+ (N − n)ˆµ, V ( ˆT ) = N (N − n)τ +nn−1−1σ2σ2(τ + σ2/N ), (2.8) onde ˆ µ = τ ¯ys+ n −1σ2 τ + n−1σ2 .
Note que as express˜oes em (2.8) e (2.5) s˜ao semelhantes quando tomamos τ−1 → 0, o
que descreve uma distribui¸c˜ao a priori n˜ao informativa.
Contudo, m´etodos de inferˆencia Bayesiana s˜ao algumas vezes questionados por
necessitarem de informa¸c˜ao a priori detalhada na forma de distribui¸c˜oes. Por outro lado,
os modelos apresentados na Se¸c˜ao 2.2.1 s˜ao livres de distribui¸c˜ao e assumem apenas
a existˆencia dos dois primeiros momentos finitos. De forma an´aloga, para contornar
a elicia¸c˜ao completa desta distribui¸c˜ao a priori, O’Hagan (1985) propˆos o uso de uma
metodologia Bayesiana baseada em estimadores lineares, no contexto de previs˜ao em
Cap´ıtulo 3
M´
etodo Linear de Bayes em
Popula¸
c˜
ao Finita
Este m´etodo, proposto inicialmente por O’Hagan (1985) no contexto de previs˜ao em
popula¸c˜ao finita, ´e alternativo a elicia¸c˜ao completa de uma distribui¸c˜ao a priori, exigindo
apenas as especifica¸c˜oes dos primeiro e segundo momentos.
´
E semelhante `a amostragem cl´assica no sentido de que ambas independem da
distribui¸c˜ao das unidades da popula¸c˜ao com rela¸c˜ao `a caracter´ıstica de interesse. Al´em
disso, caracteriza o desenho amostral apenas com hip´oteses acerca dos primeiro e segundo
momentos. Portanto, pode ser considerada como um meio caminho entre duas ideias
extremas: de um lado os procedimentos de aleatoriza¸c˜ao induzidos pelo plano amostral
e de outro os modelos de superpopula¸c˜ao.
Neste sentido, est´a a importˆancia de hip´oteses de permutabilidade, e em particular
permutabilidade de segunda ordem, caracterizada pelo conhecimento a priori acerca de
estruturas da popula¸c˜ao. Estes modelos robustos tˆem estruturas flex´ıveis, que permitem
assumir dependˆencia entre ind´ıviduos, estratos, conglomerados, entre outros.
O’Hagan (1985) apresenta o m´etodo para os desenhos amostrais mais comuns:
amostragem aleat´oria simples, popula¸c˜oes estratificadas e conglomerados. Nosso interesse
´
e aplicar esta metodologia em um modelo de regress˜ao mais geral, e a partir da´ı derivar
em O’Hagan (1985), desenvolvemos a metodologia para estimadores do tipo raz˜ao,
regress˜ao e para dados categ´oricos.
Em 3.1 o m´etodo ser´a apresentado primeiramente em um contexto geral. Em
seguida, este ser´a aplicado a um modelo de regress˜ao, do qual ser˜ao obtidos, como casos
particulares, alguns estimadores, utilizando como base os modelos descritos no Cap´ıtulo
2. Veremos que todos estes s˜ao idˆenticos aos obtidos pela abordagem convencional,
quando ´e assumida pouca informa¸c˜ao a priori. E esta propriedade nos levar´a a abordar
brevemente na Se¸c˜ao 3.3 um t´opico relevante do ponto de vista de inferˆencia Bayesiana,
caracterizado por elicia¸c˜ao de distribui¸c˜oes a priori.
3.1
M´
etodo Linear de Bayes
Este m´etodo de inferˆencia Bayesiana semi-param´etrico pode ser visto com maiores
detalhes em Goldstein e Wooff (2007) e ser´a descrito a seguir.
Sejam ys um vetor de observa¸c˜oes e θ um vetor de parˆametros a ser estimado. Para
cada valor de θ e cada poss´ıvel estimativa d, pertencente ao espa¸co param´etrico Θ,
associamos uma fun¸c˜ao de perda L(θ, d). Estamos interessados em uma estimativa ´otima
para θ, ou seja
mindr(d) = mindE[L(θ, d) | ys].
Em particular, vamos considerar a fun¸c˜ao de perda quadr´atica
L(θ, d) = (θ − d)0(θ − d) = tr(θ − d)(θ − d)0.
Considere agora que a distribui¸c˜ao conjunta de θ e ys´e parcialmente conhecida atrav´es
dos dois primeiros momentos na forma θ ys ∼ a f , R AQ QA0 Q , (3.1)
onde a e f determinam o vetor de m´edias e R, AQ, QA0 e Q os elementos da matriz de
Para qualquer que seja a fun¸c˜ao de perda considerada, a especifica¸c˜ao em (3.1) n˜ao
garante informa¸c˜ao suficiente para identifica¸c˜ao da estimativa ´otima a posteriori. Em
particular, considerando fun¸c˜ao de perda quadr´atica, a estimativa ´otima seria a m´edia
a posteriori E(θ | ys). Contudo, sem a informa¸c˜ao adicional sobre a distribui¸c˜ao, n˜ao
podemos obtˆe-la.
Para contornar esse problema, utilizamos a perda esperada global E[L(θ, d)] e
restringimos os estimadores `a classe dos estimadores lineares da forma
d(ys) = h + Hys,
para h um vetor p × 1 e H uma matriz p × n. Este estimador ´e conhecido como estimador
linear Bayesiano (ELB).
No contexto de popula¸c˜ao finita queremos prever θ = ys¯ baseado em ys. O ELB de
y¯s e a matriz de risco associada s˜ao dados, respectivamente por:
E(y¯s| ys) = a + A (ys− f ) ,
V (y¯s| ys) = R − AQA0.
(3.2)
Estes valores podem ser interpretados como aproxima¸c˜oes para o primeiro e segundo
momentos a posteriori de ys¯.
N˜ao temos interesse, em geral, em prever o vetor y mas fun¸c˜oes deste. Assim, para o
total T por exemplo, temos
E(T | ys) = ˆT = 10sys+ 1s0¯E(ys¯| ys), V (T | ys) = 10s¯V (y¯s| ys)1s¯,
(3.3)
onde E(y¯s| ys) e V (ys¯| ys) foram obtidos em (3.2). Note que (3.3) ´e igual a express˜ao
em (2.4).
Assim, quaisquer hip´oteses de permutabilidade restringem-se aos primeiro e segundo
momentos. Denominamos este tipo de permutabilidade de permutabilidade de segunda
ordem. Vamos aplicar o m´etodo a seguir a alguns modelos de regress˜ao comuns no
3.2
Modelos de Regress˜
ao
O m´etodo de inferˆencia Bayesiana utilizando ELB ser´a aplicado em um modelo de
regress˜ao geral, visando a seguir obter alguns casos particulares comuns em amostragem
de popula¸c˜ao finita.
Considere o seguinte modelo de regress˜ao
y = Xβ + , ∼ [0, V] , (3.4)
β ∼ [a, R] ,
onde β = (β0, . . . , βp−1) ´e um vetor p × 1 de parˆametros e ´e um vetor aleat´orio de
dimens˜ao N × 1 com vetor de m´edia 0 e matriz de covariˆancia V.
O vetor de respostas y ´e particionado em ys, de tamanho n, e ys¯, de tamanho N −n. A
matriz de covari´aveis X ´e totalmente conhecida e ´e particionada em Xs e Xs¯. O objetivo
´
e fazer previs˜oes sobre ys¯. Para isso vamos primeiramente estimar β usando o m´etodo
linear de Bayes e em seguida aplicar a propriedade da esperan¸ca condicional para obter
E (y¯s| ys) . Estes passos est˜ao detalhados a seguir.
Tendo observado o vetor associado a amostra ys, a estimativa de β via m´etodo linear
de Bayes ´e obtida a partir do modelo
ys = Xsβ + s, s ∼ [0, Vs] , (3.5)
β ∼ [a, R] .
Em seguida, adaptando a estrutura em (3.1) e utilizando os resultados em (3.2), o ELB
de β e sua medida de dispers˜ao s˜ao dados respectivamente por:
E(β | ys) = a + RX0s(XsRX0s+ Vs) −1 (ys− Xsa) , V (β | ys) = C = R − RX0s(XsRX0s+ Vs) −1 XsR. (3.6) A partir das seguintes igualdades:
C−1 = R−1+ X0sV−1s Xs e A = RX0sQ
−1
= CX0sVs−1,
para Q = XsRX0s+ Vs, podemos reescrever os resultados em (3.6) da forma
E(β | ys) = C (X0sV−1s ys+ R−1a) ,
C−1 = R−1+ X0sV−1s Xs.
Note que se tomarmos uma distribui¸c˜ao a priori vaga, fazendo a precis˜ao R−1 → 0,
obtemos o estimador de m´ınimos quadrados de β, dado por ˆβ = (X0sV−1s Xs)
−1
X0sV−1s ys.
Usando a propriedade da esperan¸ca condicional E (y¯s | ys) = E (E (y¯s| β) | ys) e da
variˆancia condicional V (ys¯| ys) = E (V (ys¯| β) | ys) + V (E (y¯s | β) | ys) , deduzimos
uma estimativa para ys¯ e sua variˆancia da seguinte forma:
E (ys¯| ys) = X¯sC (X0sV −1 s ys+ R−1a) , V (ys¯| ys) = X¯sCX0s¯+ V¯s, (3.8) para C = (R−1+ X0sV−1s Xs) −1 obtido em (3.7).
Logo, a estimativa para T e sua medida de dispers˜ao s˜ao dadas, respectivamente, por:
ˆ
T = 10sys+ 10s¯E(ys¯| ys), V (T | ys) = 10¯sV (y¯s| ys)1¯s
(3.9)
para E(y¯s | ys) e V (ys¯ | ys) obtidos em (3.8). Note novamente que (3.9) ´e idˆentica `a
express˜ao (2.4) e portanto `a (3.3).
Desenvolvemos a seguir exemplos de aplica¸c˜ao deste m´etodo em alguns casos
particulares do modelo (3.4), os quais apresentam estruturas semelhantes aos modelos
descritos na Se¸c˜ao 2.2. Veremos tamb´em que sob algumas restri¸c˜oes para a informa¸c˜ao
a priori, estimadores da amostragem convencional s˜ao obtidos.
3.2.1
Amostragem Aleat´
oria Simples
Em popula¸c˜oes cujas unidades se comportam de forma semelhante com rela¸c˜ao a
caracter´ıstica de interesse ´e adequado o uso do Modelo 1. A hip´otese de permutabilidade
´
e aplicada portanto `a todas as unidades.
Podemos definir os momentos a priori da seguinte forma:
E(yi) = m, V ar(yi) = v e Cov(yi, yj) = c, i, j = 1, . . . , N, ∀i 6= j. (3.10)
Para relacionar as quantidades definidas em (3.5) com as vari´aveis em (3.10) basta
E(ys) = a1s= m1s, V ar(ys) = R1s10s+ Vs = v c . . . c c v . . . c .. . ... . .. ... c c . . . c = c1s10s+ σ2Is, (3.11) onde σ2 = v − c.
Utilizando o resultado em (3.9) e a associa¸c˜ao feita em (3.11), obtemos que o ELB de
T e sua medida de dispers˜ao s˜ao dados, respectivamente por:
ˆ T = n¯ys+ (N − n)ˆµ, V (T | ys) = (N − n)σ2 + (N − n)2c σ2(σ2+ nc)−1, (3.12) onde ¯ ys= n−110sys ´e a m´edia amostral, ˆ
µ = ω ¯ys+ (1 − ω)m ´e o valor esperado dos n˜ao observados,
ω = nσ
−2
c−1+ nσ−2, para σ
2 = v − c.
Oberve que (3.12) ´e igual a express˜ao em (2.8). µ ´ˆ e uma combina¸c˜ao linear das
m´edias a priori e da m´edia amostral, no qual ω ´e a precis˜ao relativa, com pesos dados por
estimativas a priori de quantidades da popula¸c˜ao, cujas especifica¸c˜oes ser˜ao brevemente
descritas a seguir.
A m´edia m ´e especificada como uma estimativa a priori para cada yi, ou ainda como
uma estimativa a priori da m´edia amostral ¯y. A incerteza sobre cada yi ´e especificada a
partir de duas componentes, a incerteza sobre um n´ıvel geral dos yi, i = 1, . . . , N , e sobre
o quanto cada yi varia desse n´ıvel. De forma simplificadora, especificamos primeiramente
σ2 como estimativa a priori para variabilidade dentro da popula¸c˜ao dada por E(S2) =
v − c = σ2, em que S2 = 1
N −1
PN
i=1(yi− ¯y)
2 ´e a variˆancia populacional.
A componente v, especificada como V ar(yi), mede o quanto se espera de dispers˜ao
entre as vari´aveis de uma forma geral. Determinados v e σ2, que s˜ao em geral quantidades
Fazendo v → ∞ e σ2 fixo, isto ´e, tomando uma distribui¸c˜ao a priori vaga, ou ainda tomando n → ∞, as estimativas em (3.12) se aproximam das estimativas conhecidas
na amostragem convencional, para amostra aleat´oria simples, em que o estimador n˜ao
viciado de variˆancia m´ınima e sua variˆancia s˜ao dados, respectivamente por:
ˆ
T = N ¯ys e V ( ˆT ) = N2 1 −Nn
σ2
n,
conforme (2.5).
Lembremos ainda que, na pr´atica σ2 ´e desconhecido, e em geral, substituimos σ2
por S2, mas como este ´e desconhecido, podemos estim´a-lo a partir dos dados usando o
estimador n˜ao viciado dado por (2.6).
Sob o enfoque Bayesiano, substituimos σ2 em ω por uma estimativa a posteriori de
S2. Poder´ıamos ent˜ao usar o ELB de S2 que fosse linear em y2ij e em yijyik. Neste caso
as hip´oteses deveriam partir de momentos de 4a ordem. Esta alternativa ´e introduzida
por O’Hagan (1985), e em um problema mais simples Goldstein (1979) sugere o uso de
ELB para a variˆancia usando apenas fun¸c˜oes lineares dos dados.
Estimadores Raz˜ao e Regress˜ao
Quando a rela¸c˜ao entre a vari´avel resposta e a vari´avel explicativa ´e uma regress˜ao
linear passando pela origem, utiliza-se o estimador do tipo raz˜ao (ver Bolfarine e Zacks
(1992)). Para dados deste tipo usa-se o Modelo 2.
A hip´otese de permutabilidade agora ´e aplicada `a raz˜ao yi/xi, para todo i = 1, . . . , N ,
da seguinte forma: E yi xi = m, V ar yi xi = v e Cov yi xi , yj xj = c, i, j = 1, . . . , N, ∀i 6= j. (3.13)
Defina ys/xs, como o vetor composto pelas raz˜oes yi/xi, para todo i ∈ s. As
quantidades do modelo (3.5) podem ser relacionadas com as quantidades em (3.13) fazendo
Eys xs = a1s = m1s, V arys xs = R1s10s+ Vs= v c . . . c c v . . . c .. . ... . .. ... c c . . . c = c1s10s+ σ2Is, (3.14) onde σ2 = v − c.
Usando (3.9) e a associa¸c˜ao feita em (3.14), obt´em-se o ELB de T da seguinte forma:
ˆ T = n¯ys+ (N − n)ˆµ¯x¯s, (3.15) no qual ˆ µ = ωy¯s ¯ xs
+ (1 − ω)m, ´e o valor esperado dos n˜ao observados,
ω = σ −2n¯x s (c−1+ σ−2n¯x s) .
Assumindo distribui¸c˜ao a priori n˜ao informativa, fazendo v → ∞ e σ2fixo ou n → ∞,
recuperamos o estimador do tipo raz˜ao
ˆ
T = N ¯xy¯s ¯ xs
.
Para o caso em que os dados sugerem uma rela¸c˜ao, que embora linear, n˜ao passe pela
origem, usa-se estimadores do tipo regress˜ao (ver Bolfarine e Zacks (1992)). O Modelo 3
´
e adequado para dados com esta caracter´ıstica.
O ELB de T ´e obtido usando (3.9) e no caso particular em que tomamos uma
distribui¸c˜ao a priori vaga obtemos o estimador do tipo regress˜ao
ˆ T = N ¯ys+ N ˆβ1(¯x − ¯xs) , em que ˆ β1 = P i∈S(xi−¯xs)Pi∈S(yi−¯ys) P i∈S(xi−¯xs)2 e ˆβ0 = ¯ys− ˆβ1x¯s.
3.2.2
Popula¸
c˜
oes Estratificadas
Quando existe algum conhecimento a priori de estruturas mais complexas na
popula¸c˜ao n˜ao ´e adequado assumirmos que as unidades s˜ao todas permut´aveis entre
si. A popula¸c˜ao ´e dividida em estratos, tal que dentro dos estratos as unidades n˜ao
possuem qualquer outra estrutura relevante que leve o investigador a diferenci´a-las com
rela¸c˜ao a caracter´ıstica de interesse. O Modelo 4 ´e indicado quando a popula¸c˜ao apresenta
estruturas deste tipo.
Esta diferencia¸c˜ao entre unidades equivale a assumirmos hip´oteses de permutabilidade
para as unidades dentro de um mesmo estrato, mas entre unidades de diferentes estratos
n˜ao assumimos qualquer permutabilidade.
Como obtemos amostras em todos os estratos, o estimador ser´a uma fun¸c˜ao linear
dos totais observados por estratos, gh = nhy¯h, no qual ¯yh determina a m´edia da amostra
com nh observa¸c˜oes selecionada do h-´esimo estrato. Queremos prever
T = H X h=1 Th = H X h=1 Nh X i=1 yhi= H X h=1 nh X i=1 yhi+ H X h=1 Nh X i=nh+1 yhi.
onde a ´ultima parcela refere-se `as unidades que n˜ao pertencem a amostra.
Ser´a apresentado a seguir um estimador para popula¸c˜oes estratificadas sem utilizar
vari´aveis explicativas. Ou seja, ´e suficiente no Modelo 4 fazer Xh = 1Nh e Vh = σ
2
hINh,
para todo h = 1, . . . , H.
Com a hip´otese de permutabilidade a priori aplicada `as unidades dentro de um mesmo
estrato, podemos definir os momentos a priori da forma
E(yhi) = mh, V ar(yhi) = vh,
cov(yhi, yhj) = ch, i 6= j, cov(yhi, ylj) = dhl, h 6= l.
(3.16)
As quantidades definidas no modelo (3.5) podem ser relacionadas `as quantidades em
E(ys) = Xsa = Xs m1 .. . mH , V ar(ys) = Q = XsRX0s+ Vs = Xs c1 d12 · · · d1H d21 c2 · · · d2H .. . ... . .. ... dH1 dH2 · · · cH X0s+ diag (σ2 1In1, . . . , σ 2 HInH) , (3.17) onde σ2
h = vh− ch e a matriz Q ´e formada por blocos Qhl, h, l = 1, . . . , H, da forma
Qhh = vh ch . . . ch ch vh . . . ch .. . ... . .. ... ch ch . . . vh , Qhl = dhl dhl . . . dhl dhl dhl . . . dhl .. . ... . .. ... dhl dhl . . . dhl , h 6= l.
O ELB de T e sua medida de dispers˜ao s˜ao obtidos a partir de (3.9) e da rela¸c˜ao
descrita em (3.17).
Para fins anal´ıticos os estimadores que ser˜ao exibidos a seguir foram obtidos
assumindo hip´oteses acerca da covariˆancia entre estratos. Supomos inicialmente dhl =
d, d 6= 0, para todo h 6= l. Esta hip´otese ´e relevante para obter a forma anal´ıtica do
estimador, pois o resultado em (3.9) passa pela invers˜ao da matriz Q, a qual s´o ´e poss´ıvel
ser feita algebricamente sob tal hip´otese. Desta forma, o ELB de T e sua medida de
dispers˜ao s˜ao dados, respectivamente por:
ˆ T =PH h=1{nhy¯h+ (Nh− nh)ˆµh}, V (T | g) = PH h=1 (Nh− nh)σh2+ (Nh− nh)2σ2hγh/bh+ {(Nh−nh)2σh2γh/bh} 2 d−1+PH h=1nh/bh , (3.18)
em que ˆ µh = ωhy¯h+ (1 − ωh)(mh+ δ), ωh = nhγh bh , bh = σh2+ nhγh, γh = ch− d, σh2 = vh − ch, δ = PH h=1nh(¯yh− mh) /bh d−1+PH h=1nh/bh .
Sob esta hip´otese, o ELB da parte n˜ao observada, ˆµh, ´e uma combina¸c˜ao da m´edia
amostral por estrato e da m´edia a priori, mas com um fator de corre¸c˜ao δ. Este ´e um
fator comum a todas as estimativas das unidades n˜ao observadas por estrato, aplicado
a cada m´edia a priori mh. Ele mede o quanto essas m´edias a priori combinadas juntas
diferem da verdadeira m´edia geral da popula¸c˜ao.
Para o caso em que dhl = 0, para todo h 6= l, o ELB de T tem forma semelhante a
anterior. A principal diferen¸ca ´e que n˜ao existe este fator de corre¸c˜ao, j´a que com esta
hip´otese as informa¸c˜oes em um estrato n˜ao influenciariam nos outros a priori. Apesar
desta hip´otese ser restritiva, pois considera que a informa¸c˜ao obtida sobre um estrato n˜ao
modifica, de forma alguma, o conhecimento sobres os demais, ela ´e bastante utilizada nos
procedimentos da amostragem cl´assica tornando-se assim, um caso de interesse.
Lembrando que como todas as estimativas anteriores dependem do tamanho da
amostra por estrato nh, h = 1, . . . , H, pode-se ainda buscar uma aloca¸c˜ao ´otima destas
amostras. Este valor ´otimo pode ser obtido tomando como crit´erio a minimiza¸c˜ao da
variˆancia, por exemplo.
Quando assumimos uma priori n˜ao informativa, tomando vh → ∞ e fixando σh2 para
cada h, as estimativas em (3.18) se aproximam das estimativas conhecidas na amostragem
convencional, para amostragem por estratifica¸c˜ao. Nesta, o estimador n˜ao viciado de
variˆancia m´ınima e sua variˆancia s˜ao dados, respectivamente, por:
ˆ T = H X h=1 Nhy¯h e V ( ˆT ) = H X h=1 Nh(Nh − nh)σ2h/nh.
3.2.3
Amostragem por Conglomerados - Unidades Permut´
aveis
Quando alguns grupos determinam de forma significativa estat´ısticas para a
popula¸c˜ao, utiliza-se a t´ecnica de dividir a popula¸c˜ao em conglomerados. Este m´etodo
´
e mais interessante quando toda a variabilidade da popula¸c˜ao ´e capturada dentro dos
grupos, mas n˜ao entre eles. A t´ecnica ´e semelhante ao m´etodo de estratifica¸c˜ao, por´em
estratos, em geral, s˜ao poucos e cada um tem uma caracter´ıstica ´unica comum, enquanto
os conglomerados s˜ao em geral, pequenos, numerosos e semelhantes.
O modelo para este caso, assim como uma forma de empregar a permutabilidade
em popula¸c˜oes deste tipo est´a descrito para o Modelo 6. O’Hagan (1985) considera
duas formas distintas de introduzir permutabilidade entre os conglomerados. Exibiremos
neste trabalho a forma que assume permutabilidade para qualquer conjunto dos yhi,
onde cada elemento deste pertence a um conglomerado diferente, ou seja `a estrutura de
permutabilidade dentro dos grupos ser´a adicionada a permutabilidade entre os grupos.
Esta hip´otese ´e an´aloga a considerar que ¯yh sejam permut´aveis.
O modelo associado, portanto, deve ser uma combina¸c˜ao do modelo (3.16), assumindo
covariˆancia constante entre os conglomerados e que mh, σ2h e γh s˜ao iguais para todo
conglomerado h = 1, . . . , H, ou seja
E(yhi) = m, V ar(yhi) = σ2+ γ + d,
cov(yhi, yhj) = γ + d, i 6= j, (3.19)
cov(yhi, ylj) = d, h 6= j.
Lembrando que podemos assumir d 6= 0 ou d = 0, dependendo das hip´oteses que v˜ao ser
consideradas no procedimento de amostragem.
Para obter o estimador para T , basta simplesmente adaptar os resultados em (3.18)
utilizando as hip´oteses em (3.19) e considerando que neste contexto ´e comum estarmos
interessados em fazer amostragem em dois est´agios, selecionando amostras de unidades
dentro de uma amostra de conglomerados, como est´a descrito no Modelo 6.
A forma dos estimadores, interpreta¸c˜oes, especifica¸c˜oes a priori, assim como condi¸c˜oes
em que tais estimativas se aproximam de resultados da amostragem convencional, est˜ao