Estimadores Lineares Bayesianos em Amostragem de População Finita

(1)

Estimadores Lineares Bayesianos em

Amostragem de Popula¸

c˜

ao Finita

por

Kelly Cristina Mota Gon¸calves

Universidade Federal do Rio de Janeiro

Instituto de Matem´

atica

Departamento de M´

etodos Estat´ısticos

(2)

Estimadores Lineares Bayesianos em

Amostragem de Popula¸

c˜

ao Finita

Kelly Cristina Mota Gon¸

calves

Disserta¸c˜ao submetida ao Corpo Docente do Instituto de Matem´atica - Departamento

de M´etodos Estat´ısticos da Universidade Federal do Rio de Janeiro - UFRJ, como parte

dos requisitos necessários à obten¸cão do grau de Mestre em Estat´ıstica.

Aprovada por:

Prof. H´elio S. Migon.

PhD - UFRJ - Orientador.

Prof. Fernando A. S. Moura PhD - UFRJ - Co-Orientador.

Prof. Marina Silva Paez PhD - UFRJ.

Prof. Marcel de Toledo Vieira PhD - UFJF.

Rio de Janeiro, RJ - Brasil 2010

(3)

Gon€alves, Kelly Cristina.

G635

Estimadores lineares bayesianos em amostragem de

popula€•o finita / Kelly Cristina Gon€alves. -- Rio de Janeiro:

UFRJ/IM, 2010.

xix, 132f.: il. ; 30 cm.

Disserta€•o (mestrado) – UFRJ/IM. Programa de

Pƒs-gradua€•o em Estat„stica, 2010.

Orientador: H…lio dos Santos Migon.

Refer†ncias: f. 130-2.

1. Teoria da decis•o estat„stica bayesiana. 2. Modelos

lineares (Estat„stica). I. Migon, H…lio dos Santos. II.

Universidade Federal do Rio de Janeiro. Instituto de

Matem‡tica. III. T„tulo.

(4)

`

A minha m˜ae pelo seu apoio incondicional.

Ao meu pai (in memorian) pela sua dedica¸c˜ao.

(5)

“(...) Eu n˜ao sei se vocˆe se recorda do seu primeiro caderno, eu me recordo do meu.

Com ele eu aprendi muita coisa, foi nele que eu descobri que a experiˆencia dos erros, ela

´

e tão importante quanto às experiências dos acertos, porque vistos de um jeito certo, os

erros, eles nos preparam para nossas vitórias e conquistas futuras, porque não há

aprendizado na vida que n˜ao passe pelas experiˆencias dos erros (...)”.

(6)

Agradecimentos

Em primeir´ıssimo lugar a Deus, pelo dom da vida e por me dar for¸cas para chegar

at´e aqui. Obrigada meu Deus por nunca me desamparar.

`

A minha m˜ae Tereza, a pessoa que mais me ajudou e esteve presente comigo durante

todo este per´ıodo, me apoiando de forma incondicional, orando por mim, cuidando de

mim e torcendo por cada vitória conquistada. Mãe, o que seria de mim sem você?!

Ao meu pai Juarez (in memorian) por toda sua dedica¸c˜ao e esfor¸co em me dar

educa¸c˜ao. Paizinho, eu gostaria muito que o senhor estivesse aqui presente comemorando

comigo mais esta vit´oria, mas eu sei que no c´eu o senhor continua olhando por mim, como

um anjo da guarda. O senhor sempre dizia que eu era o seu maior orgulho, mas hoje

posso dizer:- Pai, o senhor sim ´e o meu orgulho! Obrigada por tudo!

Agrade¸co a minha fam´ılia, tios e primos, pelo incentivo e carinho demonstrados por

mim durante toda a minha vida. Tenho a sorte de ter vocˆes ao meu lado.

Ao Phellipe, pois com seu amor, paciˆencia e companheirismo, me ajudou muito nesta

caminhada, sobretudo nos momentos de desˆanimo e estresse. ´E muito bom poder contar

com vocˆe ao meu lado.

Aos amigos que conquistei durante toda a minha vida. Aos amigos de escola, com os quais ainda tenho contato, eu agrade¸co pelas lembran¸cas dos bons momentos de

infˆancia que passamos juntos e por estarem sempre torcendo por mim. Aos amigos de

gradua¸cão em Matemática da UFRJ, eu sou grata por ter compartilhado com vocês anos

inesquec´ıveis de minha vida. Nesses tempos, aprendi a ser mais independente (mesmo

andando o tempo todo em certos trios), vi o quanto ´e prazeroso ajudar o pr´oximo (ainda

(7)

que fossem para uma prova em que o ´unico objetivo era avaliar habilidades art´ısticas dos

alunos) e que matem´aticos podem ser pessoas normais.

A todos os meus amigos de laborat´orio, pelas muitas horas de convivˆencia, estudos

e descontra¸c˜ao. Em especial gostaria de agradecer `a Panela que fa¸co parte, composta

também por Camila, João e Larissa, pelos bons momentos também extra-laboratório.

Aliás, ao João e à Larissa eu não posso deixar de agradecer por dividir com vocês os

inúmeros momentos de tensão e noites em claro (o sofá do laboratório era extremamente

disputado nesta ´epoca! rs). Imposs´ıvel n˜ao agradecer aos outros amigos da minha querida

turminha de 2008: Nassif, Targino e Thiago. E aos demais amigos Val, Debora, Vini,

Sheila, Alexandre, Felipe, Josi, Mari e Patr´ıcia, o meu muito obrigada! Tamb´em gostaria

de agradecer `a Esther por ter me ajudado em alguns momentos, seja de d´uvidas ou com

códigos de programas. Amigos, todos vocês têm um lugarzinho super especial no meu

cora¸cão! Aliás, eu já disse para vocês que gosto muito, muito de vocês?! rs

Aos meus orientadores H´elio Migon e Fernando Moura, pelos momentos de paciˆencia

e dedica¸c˜ao para o desenvolvimento deste trabalho. Obrigada pelas experiˆencias trocadas

e por terem me ensinado que, neste caminho de pesquisa, n˜ao existe fim.

Agrade¸co também aos demais professores de pós-gradua¸cão do DME-UFRJ pela

oportunidade de aprender o novo com vocˆes, em particular `a Alexandra, pelos momentos

de bons conselhos quando d´uvidas apareceram em minha vida. N˜ao posso deixar de

agradecer tamb´em a todos os professores que acompanharam minha gradua¸c˜ao nesta

institui¸cão, entre eles: Jair, Rubinho, Wladimir, Ivo e Mônica. Vocês são exemplos de

profissionais e de pessoas.

Agrade¸co tamb´em aos professores Marcel Toledo e Marina Paez por aceitarem

participar desta banca.

Por fim, agrade¸co `a CAPES pelo apoio financeiro, sem o qual n˜ao seria poss´ıvel

(8)

Resumo

Este trabalho apresenta uma metodologia Bayesiana, livre de distribui¸c˜ao, baseada

em estimadores lineares, para previs˜ao em popula¸c˜oes finitas. Temos particular interesse

nesta abordagem, pois baseia-se em uma modelagem robusta, no sentido que

caracteriza-se a meio caminho entre duas ideias extremas: de um lado os procedimentos de

aleatoriza¸c˜ao e de outro modelos de superpopula¸c˜ao.

Dentro da perspectiva de amostragem de popula¸c˜ao finita, trabalhamos em alguns

contextos poss´ıveis. Em popula¸c˜oes associadas aos mais frequentes desenhos amostrais,

destacamos questões como permutabilidade e elicia¸cão de informa¸cões a priori, além

de estabelecer condi¸c˜oes para obter estimadores associados a amostragem cl´assica.

Para popula¸c˜oes com observa¸c˜oes caracterizadas por modelos na fam´ılia exponencial,

comparamos algumas distribui¸c˜oes preditivas, presentes na literatura, fornecidas pelas

abordagens Bayesiana e cl´assica. Os resultados obtidos exploram propriedades

frequentistas e mostram que distribui¸c˜oes preditivas, que levam em considera¸c˜ao a

incerteza inerente ao procedimento de estima¸c˜ao (o que caracteriza o paradigma

Bayesiano), apresentam-se mais eficientes que distribui¸c˜oes fornecidas pela metodologia

clássica, resultantes de práticas do tipo plug-in do parâmetro estimado.

Teremos ainda interesse em modelos que caracterizam pequenos dom´ınios. Neste

sentido, propomos o uso de um procedimento de inferˆencia baseado em m´etodos de

simula¸cão estocástica, em particular métodos de Monte Carlo via cadeias de Markov,

com a restri¸cão de elabora¸cão de uma distribui¸cão proposta via método linear de Bayes.

Uma aplica¸cão a dados reais de proficiência de estudantes será apresentada.

Palavras-chave: Previs˜ao Linear Bayesiana; Permutabilidade; Modelos Lineares

(9)

Abstract

This work present a Bayesian methodology, distribution-free, based upon linear

estimators, to prediction in finite populations. We have particular interest in this

approach because it is based upon robust modelling techniques as it is characterized midway between two extreme ideas: on one hand the procedures of randomization and on the other superpopulation models.

From the perspective of finite population sampling, we work in some possible contexts. In populations associated with the most frequent sampling designs, we highlight issues such as exchangeability and elicitation of prior information, in addition to establishing conditions for getting estimators associated with traditional sampling. For populations with observations characterized by models in the exponential family, we compare some predictive distributions, present in the literature, provided by the Bayesian and classical approaches. The results explore frequentist properties and show that predictive distributions that take into account the inherent uncertainty of the estimation procedure, which characterizes the Bayesian paradigm, are more efficient than distributions provided by classical methodology, resulting from plug-in practices of the estimated parameter.

We are also interested in models that characterize small area. We propose a sampling scheme based on methods of stochastic simulation, in particular the Markov Chain Monte Carlo, with the restriction of drafting a proposed distribution method using Linear Bayes. An application to real data of students proficiency will be presented.

Keywords: Bayes Linear Predictors; Exchangeability; Generalized Linear Models; Small Areas.

(10)

Sum´

ario

1 Introdu¸c˜ao 1

2 Amostragem Baseada em Modelos 4

2.1 Introdu¸c˜ao e Nota¸c˜ao . . . 4

2.2 Inferˆencia em Modelos de Superpopula¸c˜ao . . . 6

2.2.1 O Modelo de Regress˜ao . . . 7

2.2.2 Preditores ´Otimos de Quantidades da Popula¸c˜ao . . . 10

2.3 Inferˆencia Bayesiana em Popula¸c˜ao Finita . . . 12

3 Método Linear de Bayes em Popula¸cão Finita 14 3.1 Método Linear de Bayes . . . 15

3.2 Modelos de Regress˜ao . . . 17

3.2.1 Amostragem Aleat´oria Simples . . . 18

3.2.2 Popula¸c˜oes Estratificadas . . . 22

3.2.3 Amostragem por Conglomerados - Unidades Permut´aveis . . . 25

3.2.4 Dados Categ´oricos . . . 26

3.3 Elicia¸c˜ao de Informa¸c˜oes a Priori . . . 29

3.3.1 Exemplo da Ind´ustria de Tratamento de ´Agua . . . 29

3.3.2 Efeito da Priori em Estimadores Lineares Bayesianos para Dados Categ´oricos . . . 33

4 Estimadores Lineares Bayesianos em Popula¸c˜ao Finita em Modelos na

(11)

4.1 Distribui¸c˜oes na Fam´ılia Exponencial . . . 37

4.1.1 Distribui¸c˜ao Bernoulli . . . 39

4.1.2 Distribui¸c˜ao Poisson . . . 47

4.1.3 Distribui¸c˜ao Gamma . . . 54

4.2 Modelo Linear Generalizado . . . 62

4.2.1 Abordagem Bayesiana . . . 63

4.2.2 Abordagem Cl´assica . . . 67

4.3 Exemplo 1: Modelo Bernoulli . . . 68

4.3.1 Propriedades Frequentistas . . . 73

4.4 Exemplo 2: Modelo Poisson . . . 78

4.4.1 Propriedades Frequentistas . . . 82

5 Modelos Lineares Generalizados Hierárquicos em Pequenas Áreas 88 5.1 Introdu¸cão . . . 89

5.2 Elabora¸cão de uma Distribui¸cão Proposta Utilizando Método Linear de Bayes . . . 90

5.3 Distribui¸cões a Priori para Parâmetros de Variância . . . 92

5.4 Modelo de Efeito Aleat´orio de Um N´ıvel . . . 94

5.4.1 Aplica¸cão a Dados de Área com Replica¸cões de Mesmo Tamanho 94 5.4.2 Aplica¸cão a Dados de Área com Replica¸cões de Tamanhos Diferentes 98 5.5 Modelo Completamente Hierárquico . . . 101

5.5.1 Aplica¸cão a Dados de Área com Replica¸cões de Mesmo Tamanho 101 5.5.2 Aplica¸cão a Dados de Área com Replica¸cões de Tamanhos Diferentes105 5.6 Modelo de Dois N´ıveis . . . 108

5.6.1 Aplica¸c˜ao a Dados de ´Area . . . 109

5.7 Uma Aplica¸cão na Avalia¸cão de Proficiência de Alunos . . . 113

5.7.1 Dados . . . 113

5.7.2 Principais Resultados . . . 114

(12)

A Equa¸c˜oes para os Parˆametros a Priori e a Posteriori 123

(13)

Lista de Tabelas

3.1 Dados categ´oricos: efeito da priori nas propor¸c˜oes estimadas de alunos na

categoria 1, considerando duas amostras de tamanhos diferentes. . . 35

4.1 Modelo Bernoulli: M´edia das probabilidades de cobertura e percentual

médio de observa¸cões que se encontram à esquerda e à direita dos

intervalos de predi¸c˜ao para as distribui¸c˜oes Beta-Binomial e Normal

assintótica, considerando diferentes fra¸cões amostrais em uma popula¸cão

de tamanho N = 1000. . . 45

4.2 Modelo Poisson: M´edia das probabilidades de cobertura e percentual m´edio

de observa¸cões que se encontram à esquerda e à direita dos intervalos

de predi¸cão para as distribui¸cões Binomial-Negativa e Normal assintótica,

considerando diferentes fra¸c˜oes amostrais em uma popula¸c˜ao de tamanho

N = 1000. . . 52

4.3 Modelo Gamma: M´edia das probabilidades de cobertura e percentual m´edio

de observa¸cões que se encontram à esquerda e à direita dos intervalos

de predi¸cão para as distibui¸cões Gamma-Gamma e Normal assintótica,

considerando diferentes fra¸c˜oes amostrais em uma popula¸c˜ao de tamanho

N = 1000. . . 60

4.4 MLG Bernoulli: Sumário dos parâmetros de regressão estimados sob

abordagens Bayesiana e cl´assica, considerando diferentes fra¸c˜oes amostrais. 74

4.5 MLG Bernoulli: Sum´ario da previs˜ao decorrente das abordagens

(14)

4.6 MLG Bernoulli: Compara¸cão de métodos de estima¸cão. Erro Quadrático

M´edio (EQM) e V´ıcio Absoluto Relativo (VAREL). . . 75

4.7 MLG Bernoulli: Compara¸c˜ao de previs˜ao decorrente das abordagens

Bayesiana e clássica. Erro Quadrático Médio (EQM) e V´ıcio Absoluto

Relativo (VAREL). . . 76

4.8 MLG Bernoulli: M´edia das probabilidades de cobertura e percentual m´edio

de observa¸cões que se encontram à direita e à esquerda dos intervalos de

95% de credibilidade e de 95% de confian¸ca, para as distribui¸c˜oes preditivas. 77

4.9 MLG Poisson: Sumário dos parâmetros de regressão estimados sob

abordagens Bayesiana e cl´assica, considerando diferentes fra¸c˜oes amostrais. 83

4.10 MLG Poisson: Sum´ario da previs˜ao decorrente das abordagens Bayesiana

e cl´assica, considerando diferentes fra¸c˜oes amostrais. . . 84

4.11 MLG Poisson: Compara¸cão de métodos de estima¸cão. Erro Quadrático

M´edio (EQM) e V´ıcio Absoluto Relativo (VAREL). . . 84

4.12 MLG Poisson: Compara¸c˜ao de previs˜ao decorrente das abordagens

Bayesiana e clássica. Erro Quadrático Médio (EQM) e V´ıcio Absoluto

Relativo (VAREL). . . 85

4.13 MLG Poisson: M´edia das probabilidades de cobertura e percentual m´edio

de observa¸cões que se encontram à direita e à esquerda dos intervalos de

95% de credibilidade e de 95% de confian¸ca, para as distribui¸c˜oes preditivas. 86

(15)

Lista de Figuras

4.1 Modelo Bernoulli: Distribui¸c˜oes preditivas Beta-Binomial e Normal

assintótica com parâmetro π = 0.2, considerando diferentes fra¸cões

amostrais em uma popula¸c˜ao de tamanho N = 100. . . 42

4.4 Modelo Bernoulli: M´edia das probabilidades de cobertura geradas pelo

intervalo de (95 + )% de credibilidade para distribui¸c˜ao Beta-Binomial

(linha s´olida) e pelo intervalo de 95% de confian¸ca para distribui¸c˜ao

Normal assint´otica (linha pontilhada), para determinados valores de π,

fra¸c˜oes amostrais f = 5% (c´ırculo) e f = 1% (triˆangulo) para uma

popula¸c˜ao de tamanho N = 1000. A linha tracejada horizontal em

vermelho indica o n´ıvel de 95%. . . 46

4.5 Modelo Poisson: Distribui¸c˜oes preditivas Binomial-Negativa e Normal

assintótica com parâmetro λ = 0.5, considerando diferentes fra¸cões

assintótica com parâmetro λ = 5, considerando diferentes fra¸cões

(16)

assintótica com parâmetro λ = 10, considerando diferentes fra¸cões

4.8 Modelo Poisson: M´edia das probabilidades de cobertura geradas pelo

intervalo de (95+)% de credibilidade para distribui¸c˜ao Binomial-Negativa

Normal assint´otica (linha pontilhada), para determinados valores de λ,

fra¸c˜oes amostrais f = 5% (c´ırculo) e f = 1% (triˆangulo) para uma

popula¸c˜ao de tamanho N = 1000. A linha tracejada horizontal em

4.9 Modelo Gamma: Distribui¸c˜oes preditivas Gamma-Gamma e Normal

assintótica com parâmetro natural η = 5 e parâmetro de forma a = 0.5

conhecido, considerando diferentes fra¸c˜oes amostrais em uma popula¸c˜ao

de tamanho N = 100. . . 56

assintótica com parâmetro natural η = 10 e parâmetro de forma a = 0.5

de tamanho N = 100. . . 57

assintótica com parâmetro natural η = 5 e parâmetro de forma a = 1

de tamanho N = 100. . . 57

assintótica com parâmetro natural η = 10 e parâmetro de forma a = 1

(17)

4.13 Modelo Gamma: M´edia das probabilidades de cobertura geradas pelo

intervalo de (95 + )% de credibilidade para distribui¸c˜ao Gamma-Gamma

Normal assint´otica (linha pontilhada), para determinados valores de η, a

conhecido, fra¸c˜oes amostrais f = 5% (c´ırculo) e f = 1% (triˆangulo) para

uma popula¸c˜ao de tamanho N = 1000. A linha tracejada horizontal em

4.14 MLG Bernoulli: M´edia das probabilidades de cobertura geradas pelos

intervalos de 95% de credibilidade (linha s´olida) e de 95% de confian¸ca

(linha pontilhada) para as distribui¸c˜oes preditivas, considerando 4 distintos

conjuntos de dados e fra¸c˜oes amostrais f = 20% (c´ırculo) e f = 5%

(triˆangulo) para uma popula¸c˜ao de tamanho N = 1000. A linha tracejada

horizontal em vermelho indica o n´ıvel de 95%. . . 77

4.15 MLG Poisson: M´edia das probabilidades de cobertura geradas pelos

intervalos de 95% de credibilidade (linha s´olida) e de 95% de confian¸ca

(linha pontilhada) para as distribui¸c˜oes preditivas, considerando 4 distintos

conjuntos de dados e fra¸c˜oes amostrais f = 20% (c´ırculo) e f = 5%

(triˆangulo) para uma popula¸c˜ao de tamanho N = 1000. A linha tracejada

horizontal em vermelho indica o n´ıvel de 95%. . . 86

5.1 Modelo de efeito aleat´orio de um n´ıvel com replica¸c˜oes de mesmo tamanho:

Trajet´orias das cadeias dos parˆametros βk, k = 0, 1 e σ2. As linhas pretas

tracejadas s˜ao os valores verdadeiros do parˆametros. . . 96

Histogramas dos parˆametros βk, k = 0, 1 e σ2. As linhas pretas tracejadas

s˜ao os valores verdadeiros dos parˆametros. . . 97

Sumário da distribui¸cão a posteriori dos parâmetros estimados. O c´ırculo

cheio representa a mediana a posteriori, “×” ´e o valor verdadeiro e a linha

(18)

5.4 Modelo de efeito aleat´orio de um n´ıvel com replica¸c˜oes de tamanhos

diferentes: Trajet´orias das cadeias dos parˆametros βk, k = 0, 1 e σ2. As

linhas pretas tracejadas s˜ao os valores verdadeiros do parˆametros. . . 99

diferentes: Histogramas dos parˆametros βk, k = 0, 1 e σ2. As linhas pretas

tracejadas s˜ao os valores verdadeiros dos parˆametros. . . 100

diferentes: Sumário da distribui¸cão a posteriori dos parâmetros estimados.

O c´ırculo cheio representa a mediana a posteriori, “×” ´e o valor verdadeiro

e a linha ´e o intervalo de credibilidade de 95%. . . 100

5.7 Modelo completamente hier´arquico com replica¸c˜oes de mesmo tamanho:

Trajet´orias das cadeias dos parˆametros βk e σ2k, k = 0, 1. As linhas pretas

tracejadas s˜ao os valores verdadeiros do parˆametros. . . 103

Histogramas dos parˆametros βk e σ2k, k = 0, 1. As linhas pretas tracejadas

s˜ao os valores verdadeiros dos parˆametros. . . 104

Sumário da distribui¸cão a posteriori dos parâmetros estimados. O c´ırculo

cheio representa a mediana a posteriori, “×” ´e o valor verdadeiro e a linha

´e o intervalo de credibilidade de 95%. . . 104

5.10 Modelo completamente hier´arquico com replica¸c˜oes de tamanhos

diferentes: Trajet´orias das cadeias dos parˆametros βk e σ2k, k = 0, 1. As

linhas pretas tracejadas s˜ao os valores verdadeiros do parˆametros. . . 106

diferentes: Histogramas dos parˆametros βk e σ2k, k = 0, 1. As linhas

pretas tracejadas s˜ao os valores verdadeiros dos parˆametros. . . 107

diferentes: Sumário da distribui¸cão a posteriori dos parâmetros

estimados. O c´ırculo cheio representa a mediana a posteriori, “×”

(19)

5.13 Modelo de dois n´ıveis: Trajet´orias das cadeias dos parˆametros βk e σ2k, k =

0, 1. As linhas pretas tracejadas s˜ao os valores verdadeiros do parˆametros. 110

5.14 Modelo de dois n´ıveis: Histogramas dos parˆametros βk e σ2k, k = 0, 1. As

linhas pretas tracejadas s˜ao os valores verdadeiros dos parˆametros. . . 111

5.15 Modelo de dois n´ıveis: Sumário da distribui¸cão a posteriori dos parâmetros

estimados. O c´ırculo cheio representa a mediana a posteriori, “×” ´e o

valor verdadeiro e a linha ´e o intervalo de credibilidade de 95%. . . 111

5.16 Modelo de dois n´ıveis: Sumário da distribui¸cão a posteriori da propor¸cão

de sucessos nas pequenas ´areas. O c´ırculo cheio representa a mediana a

posteriori, “×” ´e o valor verdadeiro e a linha ´e o intervalo de credibilidade

de 95%. . . 112

5.17 Dados reais: Trajet´orias das cadeias dos parˆametros βk, k = 0, 1, 2, 3, 4. 115

5.18 Dados reais: Histogramas dos parˆametros βk, k = 0, 1, 2, 3, 4. . . 116

5.19 Dados reais: Trajet´orias das cadeias dos parˆametros σ2

k, k = 0, 1, 2, 3, 4. . 117

5.20 Dados reais: Histogramas dos parˆametros σ2_k, k = 0, 1, 2, 3, 4. . . 118

5.21 Dados reais: Sumário da distribui¸cão a posteriori da propor¸cão de alunos

com baixo grau de proficiˆencia em cada pequena ´area. O c´ırculo cheio

representa a mediana a posteriori, “×” ´e o valor verdadeiro e a linha ´e o

(20)

Cap´ıtulo 1

Introdu¸

c˜

ao

A teoria clássica de amostragem estuda as rela¸cões existentes entre uma popula¸cão e

amostras extra´ıdas desta, com o objetivo de avaliar grandezas desconhecidas associadas a

popula¸cão. Esta teoria, também conhecida como modelo de popula¸cão fixa, apresenta-se

livre de distribui¸c˜ao. Em algumas situa¸c˜oes espec´ıficas, esta teoria mostrou-se ineficiente,

fornecendo preditores inadequados, o que sugeriu um forte impulso no desenvolvimento de

teoria de previs˜ao baseada em modelos de superpopula¸c˜ao. Esta abordagem considera

os valores dos elementos da popula¸cão como variáveis aleatórias, as quais apresentam

distribui¸cões conjuntas. Zacks (2002) apresenta uma revisão destas metodologias, à luz

da filosofia de Basu.

Neste contexto, a inferˆencia Bayesiana tem tido um significante impacto na literatura

e em muitos destes trabalhos distribui¸c˜oes normais s˜ao utilizadas. Ericson (1969)

introduziu uma abordagem Bayesiana, livre de distribui¸c˜oes, baseada em um modelo

Multinomial-Dirichlet. Nesta, ´e necess´ario especificar todos os poss´ıveis valores que as

unidades da popula¸c˜ao podem assumir.

O’Hagan (1985) propˆos o uso de uma outra abordagem Bayesiana, livre de distribui¸c˜ao

e mais flex´ıvel, baseada em estimadores lineares Bayesianos. Esta metodologia ´e

alternativa aos m´etodos de aleatoriza¸c˜ao e apresenta-se a meio caminho entre duas

ideias extremas: de um lado os procedimentos de aleatoriza¸c˜ao e de outro os modelos

de superpopula¸c˜ao. Nestes modelos o desenho amostral ´e caracterizado apenas por

(21)

como permutabilidade de segunda ordem, e descrevem os conhecimentos a priori sobre

estruturas presentes na popula¸c˜ao. Neste sentido surge uma quest˜ao relevante do ponto

de vista da pesquisa atual na área Bayesiana, caracterizada por elicia¸cão de distribui¸cões

a priori.

Este trabalho trata de aplica¸cões deste método de inferência Bayesiana em diferentes

situa¸cões poss´ıveis inseridas no contexto de amostragem de popula¸cões finitas: popula¸cões

para as quais n˜ao admite-se nenhum tipo de modelo, apenas uma hip´otese de

permutabilidade de segunda ordem; casos em que os dados apresentam estruturas

determinadas por modelos na fam´ılia exponencial; e inferˆencia em pequenos dom´ınios

utilizando modelos lineares generalizados hier´arquicos.

Temos interesse especial em estudar as distribui¸c˜oes preditivas fornecidas por este

método de inferência Bayesiana, fazendo compara¸cões com distribui¸cões produzidas por

outras abordagens comuns na literatura nesta ´area de pesquisa.

Organiza¸c˜ao da Disserta¸c˜ao

Esta disserta¸c˜ao est´a organizada como descrito a seguir. O Cap´ıtulo 2 tem como

objetivo introduzir a nota¸cão, apresentar os modelos básicos e uma análise geral das

poss´ıveis abordagens empregadas em inferˆencia em popula¸c˜oes finitas. Seis modelos de

superpopula¸cão são introduzidos como casos particulares de um modelo de regressão e a

estrutura geral de preditores de quantidades da popula¸c˜ao, como o total, ´e apresentada e

ilustrada para um particular desenho. Tratamos de uma combina¸c˜ao de modelos baseados

no desenho amostral com modelos de superpopula¸c˜ao com a finalidade de atingir robustez.

Descrevemos tamb´em a an´alise Bayesiana para este contexto.

O Cap´ıtulo 3 ´e voltado para aplica¸c˜ao de estimadores lineares Bayesianos em alguns

desenhos amostrais frequentemente utilizados. O método de inferência será aplicado a

um modelo de regress˜ao geral e particularizado para estes desenhos. Estimadores do tipo

razão, regressão e para dados categóricos também serão desenvolvidos. Os estimadores

dependem de quantidades a priori, cuja interpreta¸c˜ao resgata uma quest˜ao relevante do

(22)

ausência dessas informa¸cões os estimadores da amostragem baseada na aleatoriza¸cão do

desenho ser˜ao obtidos.

No Cap´ıtulo 4 abordamos modelos mais estruturados pertencentes a fam´ılia

exponencial, pois em pesquisas amostrais ´e comum ter interesse em dados que n˜ao

s˜ao adequadamente modelados assumindo distribui¸c˜ao Normal. Neste contexto, temos

interesse especial em fazer previs˜oes para as unidades desconhecidas da popula¸c˜ao. Para

isso ser˜ao feitos estudos emp´ıricos para dados independentes e identicamente distribu´ıdos

e dados seguindo modelos lineares generalizados, a fim de comparar distribui¸c˜oes

preditivas decorrentes de paradigmas Bayesianos, as quais levam em considera¸c˜ao a

incerteza associada à estima¸cão dos parâmetros, e predi¸cões produzidas por abordagens

clássicas, as quais baseiam-se em práticas do tipo plug-in dos parâmetros estimados.

O Cap´ıtulo 5 prop˜oe um esquema de amostragem para modelos lineares generalizados

hier´arquicos que podem ser utilizados no contexto de estima¸c˜ao em pequenos dom´ınios.

O procedimento de inferência baseia-se em métodos de simula¸cão estocástica, com um

passo de elabora¸cão de distribui¸cão proposta via método linear de Bayes. O método será

aplicado a alguns exemplos de modelos hier´arquicos conhecidos na literatura de estima¸c˜ao

em pequenas ´areas e a dados reais de proficiˆencia de alunos de escolas municipais do

Rio de Janeiro no ano de 1996. Finalmente, no Cap´ıtulo 6 concluiremos a disserta¸c˜ao

com uma breve descri¸c˜ao das propostas de extens˜oes para o presente trabalho. Uma

demonstra¸c˜ao de um resultado utilizado no Cap´ıtulo 4 e algumas das distribui¸c˜oes

condicionais completas dos parˆametros envolvidos nos modelos apresentados no Cap´ıtulo

5, necessárias para o procedimento de inferência, são apresentados como apêndices no

final desta disserta¸c˜ao.

Utilizamos o software livre R 1 _{tanto para rodar os algoritmos quanto para a}

constru¸c˜ao dos gr´aficos apresentados nos Cap´ıtulos 4 e 5.

(23)

Cap´ıtulo 2

Amostragem Baseada em Modelos

Neste cap´ıtulo ser˜ao apresentados os principais fundamentos de inferˆencia em

popula¸cão finita, baseada na aleatoriza¸cão do desenho amostral. Será descrita também

em detalhes a metodologia de inferência baseada em modelos. Na Se¸cão 2.1 serão

apresentadas a nota¸cão e uma introdu¸cão à modelos baseados em popula¸cões fixas. Em

2.2 ser´a descrita a abordagem de modelos de superpopula¸c˜ao, bem como a forma de

obter-se preditores ´otimos de quantidades de interesse na popula¸c˜ao. Finalmente, concluiremos

o presente cap´ıtulo introduzindo a abordagem Bayesiana neste contexto.

2.1 Introdu¸

c˜

ao e Nota¸

c˜

ao

Considere uma popula¸cão finita como uma cole¸cão de N unidades, onde N é

conhecido, denotada por U = {u1, . . . , uN}. Sejam y = (y1, . . . , yN)0 o vetor de

quantidades desconhecidas da vari´avel de interesse, associado a U e X a matriz de ordem

N × p de covariáveis, cuja i-ésima linha é expressa pelo vetor Xi = (xi1, xi2, . . . , xip),

i = 1, . . . , N.

Estamos interessados em estimar fun¸c˜oes de y, como por exemplo o total populacional

da caracter´ıstica de interesse T = N X i=1 yi = 10Ny,

(24)

onde 1N é o vetor unitário de dimensão N × 1, a média populacional ¯y = T /N e a

variˆancia populacional S2 ₌PN

i=1(yi− ¯y)

2_/N.

Para obter informa¸c˜oes sobre o vetor y, uma amostra de tamanho n(≤ N ) ´e

selecionada. Sejam s = {i1, . . . , in} o conjunto ordenado dos ´ındices das unidades que

compreendem a amostra e ¯s o conjunto dos ´ındices que não estão em s. Após observar s,

defina ys = (yi1, . . . , yin)

0 _{como o vetor associado `}_{a amostra e y}

¯

s o vetor cujos elementos

n˜ao foram observados.

A amostragem de popula¸c˜ao finita convencional, ou seja, baseada na aleatoriza¸c˜ao do

desenho, se distingue de outras partes da estat´ıstica, pois ela ´e focada na popula¸c˜ao fixa

da qual a amostra faz parte. Em outras ´areas da estat´ıstica, observa¸c˜oes populacionais

são tipicamente representadas por realiza¸cões de variáveis aleatórias, e a inferência se

refere a uma popula¸cão hipotética, na qual uma lei de probabilidade governa as variáveis

de interesse.

O mecanismo probabil´ıstico como os dados s˜ao selecionados define um procedimento

predeterminado de aleatoriza¸c˜ao, denominado desenho amostral. Este ´e representado

por uma fun¸c˜ao de probabilidade, conhecida como planejamento amostral, definida no

conjunto S de todas as poss´ıveis amostras s. Esta fun¸c˜ao, p(.), satisfaz as seguintes

condi¸c˜oes:

(i) p(s) ≥ 0, para todo s ∈ S, e

(ii) P

s∈Sp(s) = 1.

Uma discuss˜ao detalhada das propriedades dessa fun¸c˜ao p pode ser vista, por exemplo,

em Cassel et al. (1977), onde alguns exemplos importantes s˜ao apresentados.

Os estimadores das quantidades de interesse s˜ao fun¸c˜oes de ys e, em geral, busca-se

estimadores não viciados com rela¸cão a essa distribui¸cão de probabilidade p.

De forma alternativa a p(.) podemos definir I(s) como vetor indicador de inclus˜ao

na amostra, s ∈ S, de cada unidade da popula¸c˜ao, isto ´e I(s) = (I1(s), . . . , IN(s)),

onde Ii(s) = 1 se i ∈ s e Ii(s) = 0 se i ∈ ¯s. O conjunto de dados observados pode

(25)

¯

s = {i : Ii(s) = 0}, i = 1, . . . , N. Al´em disso, Ii(s) segue uma distribu¸c˜ao de Bernoulli

com probabilidade de sucesso πi.

Assim, por exemplo, o estimador de Horvitz-Thompson para o total T e sua variˆancia

podem ser escritos como: ˆ T = N X i=1 yiIi(s) πi , V ( ˆT ) = N X i=1 1 − πi πi y2_i + 2 N X i=1 X j>i πij − πiπj πiπj yiyj, (2.1)

onde πij ´e a probabilidade de que as unidades i e j fa¸cam parte da amostra. Esta

probabilidade de inclus˜ao na amostra depende apenas do desenho amostral e ´e dada por:

πi = X s:i∈s p(s) = X s∈S p(s)Ii(s) = Ep[Ii(s)].

Em Zacks (2002) ´e feita uma revis˜ao de trabalhos de Basu, os quais retratam a

dificuldade de aceitar o uso de aleatoriza¸c˜ao do desenho amostral, realizando inferˆencias

independentes de variáveis na popula¸cão (parâmetros). Basu não aprovava estimadores

que incorporavam estas probabilidades de inclus˜ao, tais como o estimador em (2.1). Para

mostrar que estimadores n˜ao viciados podem produzir estimativas pouco razo´aveis, Basu

ilustra seu ponto de vista por meio de exemplos em Basu (1971).

Para estes e outros tipos de situa¸cões é inevitável se cogitar a utiliza¸cão de modelos de

superpopula¸cão, buscando inferências sobre a parte desconhecida que não sejam baseadas

apenas na parte observada, mas na distribui¸c˜ao conjunta das vari´aveis de interesse.

2.2 Inferˆ

encia em Modelos de Superpopula¸

c˜

ao

O processo de inferˆencia estat´ıstica, a partir de uma amostra, compreende um

conjunto de princ´ıpios e procedimentos que podem envolver, por exemplo, o conhecimento

de algum processo aleat´orio que possa ter gerado o verdadeiro valor desconhecido

da caracter´ıstica de interesse yi para cada unidade i da popula¸c˜ao. Este processo ´e

representado por um modelo que é utilizado como base para a realiza¸cão de inferências.

Esta abordagem ´e denominada modelagem de superpopula¸c˜ao e neste contexto a

(26)

Enquanto na teoria convencional de amostragem as unidades da popula¸c˜ao s˜ao

tratadas como constantes fixas (parâmetros), não expressando nenhuma rela¸cão entre

as unidades da amostra e as unidades n˜ao amostradas, sob o enfoque de modelos de

superpopula¸cão, os valores das caracter´ısticas de interesse são consideradas realiza¸cões

de variáveis aleatórias. A inferência sobre uma fun¸cão de y procede com respeito à

distribui¸c˜ao amostral de uma estat´ıstica, sob repetidas realiza¸c˜oes geradas pelo modelo,

com a amostra selecionada permanecendo fixa. Esta forma de inferˆencia em popula¸c˜oes

finitas pode ser vista com maiores detalhes em Cassel et al. (1977) e Bolfarine e Zacks (1992).

Um modelo de superpopula¸cão é constru´ıdo assumindo que o valor da variável de

interesse associada a i-ésima unidade da popula¸cão, yi, i = 1, . . . , N , é compreendido por

um elemento determin´ıstico µi e um elemento aleat´orio i, isto ´e

yi = µi+ i,

i = 1, . . . , N. O vetor aleatório = (1, . . . , N)0 tem média zero e matriz de covariância

V positiva definida.

Como veremos mais adiante, a modelagem expl´ıcita de estruturas populacionais

por meio de modelos de superpopula¸c˜ao resultam, para alguns casos especiais, nas

mesmas inferências pontuais de parâmetros de interesse da popula¸cão, realizadas sob

a amostragem convencional.

2.2.1 O Modelo de Regress˜

ao

O modelo de regress˜ao pode ser aplicado quando o elemento determin´ıstico µi ´e

modelado por fun¸c˜oes lineares das vari´aveis auxiliares. Considere o seguinte modelo

de superpopula¸c˜ao linear geral

y = Xβ + , E() = 0 e V () = V, (2.2)

onde X ´e uma matriz N × p, supostamente conhecida para todas as unidades de U , β

´

e um vetor p × 1 de parˆametros e V matriz de covariˆancia postiva definida. Veremos a

(27)

Modelo 1 Suponha que os elementos do modelo em (2.2) sejam X = 1N e V = σ2IN,

onde 1N é um vetor de 1’s de dimensão N e IN é a matriz identidade de dimensão

N × N . Este modelo é conhecido como modelo de loca¸cão simples, no qual β é um

parâmetro escalar de loca¸cão. Portanto, dado β, as variáveis aleatórias y1, . . . , yN são

n˜ao correlacionadas e permut´aveis.

Este modelo ´e usado no contexto de amostragem, quando trata-se de popula¸c˜oes que

apresentam unidades com comportamentos semelhantes com rela¸c˜ao a caracter´ıstica de

interesse.

Modelo 2 Considere em (2.2) que X = (x1, . . . , xN)0 e V = σ2diag(x1, . . . , xN), tal

que a fun¸c˜ao diag(.) representa uma matriz diagonal, cuja diagonal principal ´e formada

pelos argumentos desta fun¸c˜ao. Este modelo ´e conhecido na literatura como modelo de

regressão simples que passa pela origem. Em situa¸cões práticas, este é usado quando

o valor esperado de yi ´e porporcional a xi, assim como sua variˆancia. Estimadores do

tipo razão, comuns em amostragem de popula¸cão finita, são derivados de modelos desta

forma.

Modelo 3 Uma generaliza¸c˜ao do modelo anterior ´e obtida considerando

X =      1 x1 .. . ... 1 xN      , β =   β0 β1  

e V = σ2diag(xg₁, . . . , xg_N), onde g = 0, 1, 2. No caso em que g = 0, obt´em-se o modelo de

regressão simples. A partir deste modelo são derivados os estimadores do tipo regressão,

tamb´em usuais na amostragem de popula¸c˜ao finita.

Modelo 4 Considere novamente o Modelo 2, para o caso em que a popula¸c˜ao ´e

estratificada em H subgrupos, conhecidos como estratos, de tamanho Nh, h = 1, . . . , H,

tal que N = N1+ · · · + NH. Seja yhi a variável de interesse associada à i-ésima unidade

no h-´esimo estrato, onde i = 1, . . . , Nh, h = 1, . . . , H.

(28)

De cada estrato h, uma amostra de tamanho nh ´e selecionada e n = n1+ · · · + nH ´e o tamanho total da amostra.

Uma vers˜ao mais geral deste modelo ´e obtida considerando X uma matriz

bloco-diagonal com h-´esima diagonal dada por Xh = (xh1, . . . , xhNh)

0 _{e β = (β}

1, . . . , βH)0.

Al´em de V = diag(V1, . . . , VH), com h-´esimo elemento da diagonal dado por Vh =

σ2

hdiag(xh1, . . . , xhNh).

Este modelo, conhecido como modelo de regressão estratificado, aplica-se à popula¸cões

nas quais não é adequado assumir que as unidades são todas permutáveis entre si, com

rela¸cão a caracter´ıstica de interesse. A estratifica¸cão pode resultar em ganhos de precisão,

já que divide uma popula¸cão heterogênea em grupos homogêneos, nos quais a hipótese de

permutabilidade pode ser assumida.

Modelo 5 Suponha que os elementos do modelo em (2.2) s˜ao

X =      1 x1 · · · xJ1 .. . ... · · · ... 1 xN · · · xJN      , β =         β0 β1 .. . βJ         ,

tal que J ≥ 0, V = σ2_diag(f

1(X), f2(X), . . . , fN(X)), para fi(X) =

PJ

j=0cjxji e cj s˜ao

constantes. Este modelo é conhecido como modelo de regressão polinomial e é uma versão

mais geral do modelo 3.

Modelo 6 Suponha que a popula¸c˜ao seja dividida em H distintas subpopula¸c˜oes,

conhecidas como conglomerados, onde Nh determina o n´umero de unidades no h-´esimo

conglomerado. N =PH

h=1Nh é o tamanho da popula¸cão. Em um primeiro estágio, uma

amostra s de k(≤ H) conglomerados ´e selecionada. No segundo est´agio, uma amostra sh,

de tamanho nh, ´e retirada do h-´esimo conglomerado, h ∈ s. O tamanho total da amostra

´

e dado por n =P

h∈snh. O modelo assume que

E(yhi) = mh,

(29)

cov(yhi, ylj) =          σ2 h+ ch; h = l, i = j, ch; h = l, i 6= j, 0; h 6= l, onde i = 1, . . . , Nh, j = 1, . . . , Nl, e h, l = 1, . . . , H.

De acordo com este modelo, unidades dentro de um mesmo conglomerado s˜ao

correlacionadas, mas unidades em diferentes conglomerados n˜ao. Na nota¸c˜ao em (2.2),

X = (1N1, . . . 1NH)

0 _{e V = diag(V}

1, . . . , VH) ´e uma matriz bloco-diagonal, com Vh, uma

matriz de dimens˜ao Nh× Nh, cujos elementos da diagonal principal s˜ao dados por σh2+ ch

e os demais por ch, ou seja

Vh = σh2INh+ ch1Nh1

0

Nh.

Maiores detalhes destes e outros exemplos de modelos de regress˜ao podem ser vistos

em Bolfarine e Zacks (1992).

2.2.2 Preditores ´

Otimos de Quantidades da Popula¸

c˜

ao

Na Se¸c˜ao 2.2.1 foram apresentados modelos de superpopula¸c˜ao sob os quais podemos

obter preditores de quantidades populacionais. Estes modelos assumem apenas a

estrutura de primeiro e segundo momentos da distribui¸c˜ao conjunta de y. Neste caso,

preditores lineares ´otimos n˜ao viciados podem ser obtidos usando o Teorema de

Gauss-Markov. Ser´a apresentado a seguir a forma geral destes estimadores, particularizando

para o Modelo 1.

Particionamos o vetor y em ys e ys¯, de dimens˜oes n e N − n, respectivamente. O

mesmo ´e feito com X e V :

X =   Xs Xs¯   e V =   Vs Vs¯s V¯ss Vs¯  

(30)

Assim, as fórmulas do preditor não viciado de variância m´ınima e sua respectiva

variˆancia (ver em Bolfarine e Zacks (1992)) s˜ao dadas por:

E(ys¯| ys) = Xs¯β + Vˆ ss¯ V−1ss(ys− Xsβ),ˆ V (y¯s| ys) = Vs¯− Vss¯ V−1s Vs¯s+ (Xs¯− Vss¯ V−1s Xs)(X0sV −1 s X 0 s) −1 (X¯s− Vss¯ V−1s Xs)0. (2.3) ´

E poss´ıvel então reformular o problema de previsão de fun¸cões de y. Prevemos ys¯ e

em seguida agregamos a parte referente a amostra. Por exemplo, se a fun¸c˜ao de interesse

´

e o total T , podemos reescrevˆe-lo da forma

T = 10_sys+ 10s¯ys¯,

no qual 1s e 1¯s representam os vetores unit´arios de dimens˜oes iguais aos tamanhos de s

e ¯s, respectivamente. O estimador e sua variˆancia para o total tem a seguinte forma:

ˆ

T = 10_sys+ 10s¯E(ys¯| ys), V ( ˆT ) = 10_s_¯V (y¯s| ys)1s¯,

(2.4)

onde E(ys¯| ys) e V (ys¯| ys) s˜ao dados pelas express˜oes em (2.3).

Exemplo 2.2.1 No Modelo 1, usando o resultado em (2.4) obt´em-se que o preditor

linear não viciado de variância m´ınima para o total T e sua variância são dados,

respectivamente, por: ˆ T = N ¯ys, V ( ˆT ) = N2 σ2 n 1 − n N , (2.5) onde ¯ys= n−110sys.

As fórmulas de variância são semelhantes àquelas obtidas por meio da abordagem

convencional da teoria de popula¸c˜ao finita, para um plano de amostragem aleat´oria

simples sem reposi¸cão. Contudo, as estimativas não viciadas destas variâncias são iguais

nas duas abordagens, para o qual o parˆametro σ2 _{(ou S}2_{) ´}_{e estimado por:}

s2 = 1 n − 1 n X i=1 (yi− ¯y)2. (2.6)

Podemos adotar a abordagem Bayesiana possibilitando incluir informa¸c˜oes a priori

sobre os hiperparâmetros do modelo de superpopula¸cão proposto. Na próxima se¸cão

(31)

2.3 Inferˆ

encia Bayesiana em Popula¸

c˜

ao Finita

Duas abordagens em inferˆencia para popula¸c˜oes finitas foram apresentadas

anteriormente: a inferˆencia baseada na aleatoriza¸c˜ao do desenho amostral, na qual

as quantidades da popula¸c˜ao permanecem fixas, e os modelos de superpopula¸c˜ao

frequentistas, nos quais os valores das unidades da popula¸cão são realiza¸cões de um

modelo probabil´ıstico e a inferˆencia ´e feita a partir de uma amostra.

Será apresentada nesta se¸cão uma terceira abordagem e a qual será utilizada ao

longo deste trabalho: a inferência Bayesiana, na qual às variáveis na popula¸cão são

atribu´ıdas distribui¸c˜oes a priori, veja Ericson (1969), Basu (1971) e Scott (1977). Como

atribuir informa¸cões a priori ao espa¸co de todas as variáveis não é uma tarefa trivial,

o que se tem é a formula¸cão de um modelo de superpopula¸cão para y, no qual são

atribu´ıdas distribui¸c˜oes a priori para os hiperparˆametros do modelo. Neste sentido,

ainda surge a importância da hipótese de permutabilidade como hipótese simplificadora

no momento de eliciar quantidades a priori, veja Ericson (1969). Basicamente, a hip´otese

de permutabilidade caracteriza conhecimentos a priori acerca de estruturas da popula¸c˜ao.

Quando a informa¸cão a priori é vaga, assim como o tamanho da amostra é grande, esta

forma de inferência produz resultados numéricos próximos aos obtidos pela abordagem

frequentista. Porém, a inferência é baseada na distribui¸cão a posteriori e não na

distribui¸c˜ao de todas as poss´ıveis amostras geradas pelo modelo.

Retomando o modelo (2.2) podemos assumir que a distribui¸c˜ao de y, dados (β e V),

´

e Normal N -variada da forma

y | β ∼ N (Xβ, V),

para β desconhecido e V conhecido. Atribui-se em seguida uma distribui¸c˜ao a priori

para β Normal com média igual a µ e variância igual a τ . Então pode ser demonstrado

(veja Bolfarine e Zacks (1992)) que a distribui¸c˜ao preditiva de y¯s ´e Normal N -variada

(32)

E(y¯s| ys) = Xs¯β + Vˆ ¯ssV−1s (ys− Xsβ),ˆ V (y¯s| ys) = Vs¯− V¯ssV−1s Vs¯s+ (Xs¯− Vss¯ V−1s Xs)(X0sV −1 s X 0 s+ τ −1₎−1 (Xs¯− Vss¯ V−1s Xs)0, (2.7) onde ˆ β = (τ−1+ X0_sV−1_s Xs)−1(X0sV −1 s ys+ τ−1µ).

Observe que quando tomamos uma informa¸c˜ao a priori vaga, fazendo τ−1 → 0 o

resultado em (2.7) se aproxima do resultado em (2.3).

O estimador para T , por exemplo, e sua variˆancia nesse caso s˜ao dados por (2.4),

para E(y¯s| ys) e V (ys¯| ys) obtidos em (2.7).

Exemplo 2.3.1 Voltando ao Modelo 1, o preditor linear n˜ao viciado de variˆancia

m´ınima para o total T e sua variância são obtidos usando o resultado em (2.7) e são

dados por: ˆ T = n¯ys+ (N − n)ˆµ, V ( ˆT ) = N (N − n)_{τ +n}n−1−1σ2_σ2(τ + σ2/N ), (2.8) onde ˆ µ = τ ¯ys+ n −1_σ2 τ + n−1_σ2 .

Note que as express˜oes em (2.8) e (2.5) s˜ao semelhantes quando tomamos τ−1 → 0, o

que descreve uma distribui¸c˜ao a priori n˜ao informativa.

Contudo, métodos de inferência Bayesiana são algumas vezes questionados por

necessitarem de informa¸c˜ao a priori detalhada na forma de distribui¸c˜oes. Por outro lado,

os modelos apresentados na Se¸cão 2.2.1 são livres de distribui¸cão e assumem apenas

a existˆencia dos dois primeiros momentos finitos. De forma an´aloga, para contornar

a elicia¸cão completa desta distribui¸cão a priori, O’Hagan (1985) propôs o uso de uma

metodologia Bayesiana baseada em estimadores lineares, no contexto de previs˜ao em

(33)

Cap´ıtulo 3

M´

etodo Linear de Bayes em

Popula¸

c˜

ao Finita

Este m´etodo, proposto inicialmente por O’Hagan (1985) no contexto de previs˜ao em

popula¸cão finita, é alternativo a elicia¸cão completa de uma distribui¸cão a priori, exigindo

apenas as especifica¸c˜oes dos primeiro e segundo momentos.

´

E semelhante `a amostragem cl´assica no sentido de que ambas independem da

distribui¸cão das unidades da popula¸cão com rela¸cão à caracter´ıstica de interesse. Além

disso, caracteriza o desenho amostral apenas com hip´oteses acerca dos primeiro e segundo

momentos. Portanto, pode ser considerada como um meio caminho entre duas ideias

extremas: de um lado os procedimentos de aleatoriza¸c˜ao induzidos pelo plano amostral

e de outro os modelos de superpopula¸c˜ao.

Neste sentido, está a importância de hipóteses de permutabilidade, e em particular

permutabilidade de segunda ordem, caracterizada pelo conhecimento a priori acerca de

estruturas da popula¸c˜ao. Estes modelos robustos tˆem estruturas flex´ıveis, que permitem

assumir dependˆencia entre ind´ıviduos, estratos, conglomerados, entre outros.

O’Hagan (1985) apresenta o m´etodo para os desenhos amostrais mais comuns:

amostragem aleat´oria simples, popula¸c˜oes estratificadas e conglomerados. Nosso interesse

´

e aplicar esta metodologia em um modelo de regress˜ao mais geral, e a partir da´ı derivar

(34)

em O’Hagan (1985), desenvolvemos a metodologia para estimadores do tipo raz˜ao,

regress˜ao e para dados categ´oricos.

Em 3.1 o m´etodo ser´a apresentado primeiramente em um contexto geral. Em

seguida, este será aplicado a um modelo de regressão, do qual serão obtidos, como casos

particulares, alguns estimadores, utilizando como base os modelos descritos no Cap´ıtulo

2. Veremos que todos estes s˜ao idˆenticos aos obtidos pela abordagem convencional,

quando é assumida pouca informa¸cão a priori. E esta propriedade nos levará a abordar

brevemente na Se¸cão 3.3 um tópico relevante do ponto de vista de inferência Bayesiana,

caracterizado por elicia¸c˜ao de distribui¸c˜oes a priori.

3.1 M´

etodo Linear de Bayes

Este método de inferência Bayesiana semi-paramétrico pode ser visto com maiores

detalhes em Goldstein e Wooff (2007) e ser´a descrito a seguir.

Sejam ys um vetor de observa¸c˜oes e θ um vetor de parˆametros a ser estimado. Para

cada valor de θ e cada poss´ıvel estimativa d, pertencente ao espa¸co param´etrico Θ,

associamos uma fun¸c˜ao de perda L(θ, d). Estamos interessados em uma estimativa ´otima

para θ, ou seja

mindr(d) = mindE[L(θ, d) | ys].

Em particular, vamos considerar a fun¸c˜ao de perda quadr´atica

L(θ, d) = (θ − d)0(θ − d) = tr(θ − d)(θ − d)0.

Considere agora que a distribui¸cão conjunta de θ e ysé parcialmente conhecida através

dos dois primeiros momentos na forma   θ ys  ∼     a f  ,   R AQ QA0 Q    , (3.1)

onde a e f determinam o vetor de m´edias e R, AQ, QA0 e Q os elementos da matriz de

(35)

Para qualquer que seja a fun¸cão de perda considerada, a especifica¸cão em (3.1) não

garante informa¸cão suficiente para identifica¸cão da estimativa ótima a posteriori. Em

particular, considerando fun¸cão de perda quadrática, a estimativa ótima seria a média

a posteriori E(θ | ys). Contudo, sem a informa¸cão adicional sobre a distribui¸cão, não

podemos obtˆe-la.

Para contornar esse problema, utilizamos a perda esperada global E[L(θ, d)] e

restringimos os estimadores `a classe dos estimadores lineares da forma

d(ys) = h + Hys,

para h um vetor p × 1 e H uma matriz p × n. Este estimador ´e conhecido como estimador

linear Bayesiano (ELB).

No contexto de popula¸c˜ao finita queremos prever θ = ys¯ baseado em ys. O ELB de

y¯s e a matriz de risco associada s˜ao dados, respectivamente por:

E(y¯s| ys) = a + A (ys− f ) ,

V (y¯s| ys) = R − AQA0.

(3.2)

Estes valores podem ser interpretados como aproxima¸c˜oes para o primeiro e segundo

momentos a posteriori de ys¯.

N˜ao temos interesse, em geral, em prever o vetor y mas fun¸c˜oes deste. Assim, para o

total T por exemplo, temos

E(T | ys) = ˆT = 10sys+ 1s0¯E(ys¯| ys), V (T | ys) = 10s¯V (y¯s| ys)1s¯,

(3.3)

onde E(y¯s| ys) e V (ys¯| ys) foram obtidos em (3.2). Note que (3.3) ´e igual a express˜ao

em (2.4).

Assim, quaisquer hip´oteses de permutabilidade restringem-se aos primeiro e segundo

momentos. Denominamos este tipo de permutabilidade de permutabilidade de segunda

ordem. Vamos aplicar o m´etodo a seguir a alguns modelos de regress˜ao comuns no

(36)

3.2 Modelos de Regress˜

ao

O método de inferência Bayesiana utilizando ELB será aplicado em um modelo de

regress˜ao geral, visando a seguir obter alguns casos particulares comuns em amostragem

de popula¸c˜ao finita.

Considere o seguinte modelo de regress˜ao

y = Xβ + , ∼ [0, V] , (3.4)

β ∼ [a, R] ,

onde β = (β0, . . . , βp−1) é um vetor p × 1 de parâmetros e é um vetor aleatório de

dimensão N × 1 com vetor de média 0 e matriz de covariância V.

O vetor de respostas y ´e particionado em ys, de tamanho n, e ys¯, de tamanho N −n. A

matriz de covariáveis X é totalmente conhecida e é particionada em Xs e Xs¯. O objetivo

´

e fazer previs˜oes sobre ys¯. Para isso vamos primeiramente estimar β usando o m´etodo

linear de Bayes e em seguida aplicar a propriedade da esperan¸ca condicional para obter

E (y¯s| ys) . Estes passos est˜ao detalhados a seguir.

Tendo observado o vetor associado a amostra ys, a estimativa de β via m´etodo linear

de Bayes ´e obtida a partir do modelo

ys = Xsβ + s, s ∼ [0, Vs] , (3.5)

β ∼ [a, R] .

Em seguida, adaptando a estrutura em (3.1) e utilizando os resultados em (3.2), o ELB

de β e sua medida de dispers˜ao s˜ao dados respectivamente por:

E(β | ys) = a + RX0s(XsRX0s+ Vs) −1 (ys− Xsa) , V (β | ys) = C = R − RX0s(XsRX0s+ Vs) −1 XsR. (3.6) A partir das seguintes igualdades:

C−1 = R−1+ X0_sV−1_s Xs e A = RX0sQ

−1

= CX0_sV_s−1,

para Q = XsRX0s+ Vs, podemos reescrever os resultados em (3.6) da forma

E(β | ys) = C (X0sV−1s ys+ R−1a) ,

C−1 = R−1+ X0_sV−1_s Xs.

(37)

Note que se tomarmos uma distribui¸c˜ao a priori vaga, fazendo a precis˜ao R−1 → 0,

obtemos o estimador de m´ınimos quadrados de β, dado por ˆβ = (X0_sV−1_s Xs)

−1

X0_sV−1_s ys.

Usando a propriedade da esperan¸ca condicional E (y¯s | ys) = E (E (y¯s| β) | ys) e da

uma estimativa para ys¯ e sua variˆancia da seguinte forma:

E (ys¯| ys) = X¯sC (X0sV −1 s ys+ R−1a) , V (ys¯| ys) = X¯sCX0s¯+ V¯s, (3.8) para C = (R−1+ X0_sV−1_s Xs) −1 obtido em (3.7).

Logo, a estimativa para T e sua medida de dispers˜ao s˜ao dadas, respectivamente, por:

ˆ

T = 10_sys+ 10s¯E(ys¯| ys), V (T | ys) = 10¯sV (y¯s| ys)1¯s

(3.9)

para E(y¯s | ys) e V (ys¯ | ys) obtidos em (3.8). Note novamente que (3.9) é idêntica à

express˜ao (2.4) e portanto `a (3.3).

Desenvolvemos a seguir exemplos de aplica¸c˜ao deste m´etodo em alguns casos

particulares do modelo (3.4), os quais apresentam estruturas semelhantes aos modelos

descritos na Se¸cão 2.2. Veremos também que sob algumas restri¸cões para a informa¸cão

a priori, estimadores da amostragem convencional s˜ao obtidos.

3.2.1 Amostragem Aleat´

oria Simples

Em popula¸c˜oes cujas unidades se comportam de forma semelhante com rela¸c˜ao a

caracter´ıstica de interesse ´e adequado o uso do Modelo 1. A hip´otese de permutabilidade

´

e aplicada portanto `a todas as unidades.

Podemos definir os momentos a priori da seguinte forma:

E(yi) = m, V ar(yi) = v e Cov(yi, yj) = c, i, j = 1, . . . , N, ∀i 6= j. (3.10)

Para relacionar as quantidades definidas em (3.5) com as vari´aveis em (3.10) basta

(38)

E(ys) = a1s= m1s, V ar(ys) = R1s10s+ Vs =         v c . . . c c v . . . c .. . ... . .. ... c c . . . c         = c1s10s+ σ2Is, (3.11) onde σ2 _{= v − c.}

Utilizando o resultado em (3.9) e a associa¸c˜ao feita em (3.11), obtemos que o ELB de

T e sua medida de dispers˜ao s˜ao dados, respectivamente por:

ˆ T = n¯ys+ (N − n)ˆµ, V (T | ys) = (N − n)σ2 + (N − n)2c σ2(σ2+ nc)−1, (3.12) onde ¯ ys= n−110sys ´e a m´edia amostral, ˆ

µ = ω ¯ys+ (1 − ω)m ´e o valor esperado dos n˜ao observados,

ω = nσ

−2

c−1_{+ nσ}−2, para σ

2 _{= v − c.}

Oberve que (3.12) é igual a expressão em (2.8). µ ´ˆ e uma combina¸cão linear das

médias a priori e da média amostral, no qual ω é a precisão relativa, com pesos dados por

estimativas a priori de quantidades da popula¸cão, cujas especifica¸cões serão brevemente

descritas a seguir.

A m´edia m ´e especificada como uma estimativa a priori para cada yi, ou ainda como

uma estimativa a priori da m´edia amostral ¯y. A incerteza sobre cada yi ´e especificada a

partir de duas componentes, a incerteza sobre um n´ıvel geral dos yi, i = 1, . . . , N , e sobre

o quanto cada yi varia desse n´ıvel. De forma simplificadora, especificamos primeiramente

σ2 como estimativa a priori para variabilidade dentro da popula¸c˜ao dada por E(S2) =

v − c = σ2_{, em que S}2 ₌ 1

N −1

PN

i=1(yi− ¯y)

2 _´_{e a variˆ}_{ancia populacional.}

A componente v, especificada como V ar(yi), mede o quanto se espera de dispers˜ao

entre as vari´aveis de uma forma geral. Determinados v e σ2_{, que s˜}_{ao em geral quantidades}

(39)

Fazendo v → ∞ e σ2 fixo, isto ´e, tomando uma distribui¸c˜ao a priori vaga, ou ainda tomando n → ∞, as estimativas em (3.12) se aproximam das estimativas conhecidas

na amostragem convencional, para amostra aleat´oria simples, em que o estimador n˜ao

viciado de variância m´ınima e sua variância são dados, respectivamente por:

ˆ

T = N ¯ys e V ( ˆT ) = N2 1 −_Nn

_σ2

n,

conforme (2.5).

Lembremos ainda que, na pr´atica σ2 ´e desconhecido, e em geral, substituimos σ2

por S2_{, mas como este ´}_{e desconhecido, podemos estim´}_{a-lo a partir dos dados usando o}

estimador n˜ao viciado dado por (2.6).

Sob o enfoque Bayesiano, substituimos σ2 _{em ω por uma estimativa a posteriori de}

S2. Poder´ıamos ent˜ao usar o ELB de S2 que fosse linear em y2_i_j e em yijyik. Neste caso

as hip´oteses deveriam partir de momentos de 4a _{ordem. Esta alternativa ´}_{e introduzida}

por O’Hagan (1985), e em um problema mais simples Goldstein (1979) sugere o uso de

ELB para a variˆancia usando apenas fun¸c˜oes lineares dos dados.

Estimadores Raz˜ao e Regress˜ao

Quando a rela¸cão entre a variável resposta e a variável explicativa é uma regressão

linear passando pela origem, utiliza-se o estimador do tipo raz˜ao (ver Bolfarine e Zacks

(1992)). Para dados deste tipo usa-se o Modelo 2.

A hipótese de permutabilidade agora é aplicada à razão yi/xi, para todo i = 1, . . . , N ,

da seguinte forma: E yi xi = m, V ar yi xi = v e Cov yi xi , yj xj = c, i, j = 1, . . . , N, ∀i 6= j. (3.13)

Defina ys/xs, como o vetor composto pelas raz˜oes yi/xi, para todo i ∈ s. As

quantidades do modelo (3.5) podem ser relacionadas com as quantidades em (3.13) fazendo

(40)

Eys xs = a1s = m1s, V arys xs = R1s10s+ Vs=         v c . . . c c v . . . c .. . ... . .. ... c c . . . c         = c1s10s+ σ2Is, (3.14) onde σ2 _{= v − c.}

Usando (3.9) e a associa¸c˜ao feita em (3.14), obt´em-se o ELB de T da seguinte forma:

ˆ T = n¯ys+ (N − n)ˆµ¯x¯s, (3.15) no qual ˆ µ = ωy¯s ¯ xs

+ (1 − ω)m, ´e o valor esperado dos n˜ao observados,

ω = σ −2_n¯_x s (c−1_{+ σ}−2_n¯_x s) .

Assumindo distribui¸c˜ao a priori n˜ao informativa, fazendo v → ∞ e σ2fixo ou n → ∞,

recuperamos o estimador do tipo raz˜ao

ˆ

T = N ¯xy¯s ¯ xs

.

Para o caso em que os dados sugerem uma rela¸c˜ao, que embora linear, n˜ao passe pela

origem, usa-se estimadores do tipo regress˜ao (ver Bolfarine e Zacks (1992)). O Modelo 3

´

e adequado para dados com esta caracter´ıstica.

O ELB de T ´e obtido usando (3.9) e no caso particular em que tomamos uma

distribui¸c˜ao a priori vaga obtemos o estimador do tipo regress˜ao

ˆ T = N ¯ys+ N ˆβ1(¯x − ¯xs) , em que ˆ β1 = P i∈S(xi−¯xs)Pi∈S(yi−¯ys) P i∈S(xi−¯xs)2 e ˆβ0 = ¯ys− ˆβ1x¯s.

(41)

3.2.2 Popula¸

c˜

oes Estratificadas

Quando existe algum conhecimento a priori de estruturas mais complexas na

popula¸cão não é adequado assumirmos que as unidades são todas permutáveis entre

si. A popula¸cão é dividida em estratos, tal que dentro dos estratos as unidades não

possuem qualquer outra estrutura relevante que leve o investigador a diferenci´a-las com

rela¸cão a caracter´ıstica de interesse. O Modelo 4 é indicado quando a popula¸cão apresenta

estruturas deste tipo.

Esta diferencia¸c˜ao entre unidades equivale a assumirmos hip´oteses de permutabilidade

para as unidades dentro de um mesmo estrato, mas entre unidades de diferentes estratos

n˜ao assumimos qualquer permutabilidade.

Como obtemos amostras em todos os estratos, o estimador ser´a uma fun¸c˜ao linear

dos totais observados por estratos, gh = nhy¯h, no qual ¯yh determina a m´edia da amostra

com nh observa¸c˜oes selecionada do h-´esimo estrato. Queremos prever

T = H X h=1 Th = H X h=1 Nh X i=1 yhi= H X h=1 nh X i=1 yhi+ H X h=1 Nh X i=nh+1 yhi.

onde a última parcela refere-se às unidades que não pertencem a amostra.

Ser´a apresentado a seguir um estimador para popula¸c˜oes estratificadas sem utilizar

vari´aveis explicativas. Ou seja, ´e suficiente no Modelo 4 fazer Xh = 1Nh e Vh = σ

2

hINh,

para todo h = 1, . . . , H.

Com a hip´otese de permutabilidade a priori aplicada `as unidades dentro de um mesmo

estrato, podemos definir os momentos a priori da forma

E(yhi) = mh, V ar(yhi) = vh,

cov(yhi, yhj) = ch, i 6= j, cov(yhi, ylj) = dhl, h 6= l.

(3.16)

As quantidades definidas no modelo (3.5) podem ser relacionadas `as quantidades em

(42)

E(ys) = Xsa = Xs      m1 .. . mH      , V ar(ys) = Q = XsRX0s+ Vs = Xs         c1 d12 · · · d1H d21 c2 · · · d2H .. . ... . .. ... dH1 dH2 · · · cH         X0_s+ diag (σ2 1In1, . . . , σ 2 HInH) , (3.17) onde σ2

h = vh− ch e a matriz Q ´e formada por blocos Qhl, h, l = 1, . . . , H, da forma

Qhh =         vh ch . . . ch ch vh . . . ch .. . ... . .. ... ch ch . . . vh         , Qhl =         dhl dhl . . . dhl dhl dhl . . . dhl .. . ... . .. ... dhl dhl . . . dhl         , h 6= l.

O ELB de T e sua medida de dispersão são obtidos a partir de (3.9) e da rela¸cão

descrita em (3.17).

Para fins anal´ıticos os estimadores que ser˜ao exibidos a seguir foram obtidos

assumindo hip´oteses acerca da covariˆancia entre estratos. Supomos inicialmente dhl =

d, d 6= 0, para todo h 6= l. Esta hip´otese ´e relevante para obter a forma anal´ıtica do

estimador, pois o resultado em (3.9) passa pela inversão da matriz Q, a qual só é poss´ıvel

ser feita algebricamente sob tal hip´otese. Desta forma, o ELB de T e sua medida de

dispers˜ao s˜ao dados, respectivamente por:

ˆ T =PH h=1{nhy¯h+ (Nh− nh)ˆµh}, V (T | g) = PH h=1 (Nh− nh)σh2+ (Nh− nh)2σ2hγh/bh+ {(Nh−nh)2σh2γh/bh} 2 d−1₊PH h=1nh/bh , (3.18)

(43)

em que ˆ µh = ωhy¯h+ (1 − ωh)(mh+ δ), ωh = nhγh bh , bh = σh2+ nhγh, γ_h = ch− d, σh2 = vh − ch, δ = PH h=1nh(¯yh− mh) /bh d−1₊PH h=1nh/bh .

Sob esta hipótese, o ELB da parte não observada, ˆµh, é uma combina¸cão da média

amostral por estrato e da média a priori, mas com um fator de corre¸cão δ. Este é um

fator comum a todas as estimativas das unidades n˜ao observadas por estrato, aplicado

a cada m´edia a priori mh. Ele mede o quanto essas m´edias a priori combinadas juntas

diferem da verdadeira m´edia geral da popula¸c˜ao.

Para o caso em que dhl = 0, para todo h 6= l, o ELB de T tem forma semelhante a

anterior. A principal diferen¸ca é que não existe este fator de corre¸cão, já que com esta

hipótese as informa¸cões em um estrato não influenciariam nos outros a priori. Apesar

desta hipótese ser restritiva, pois considera que a informa¸cão obtida sobre um estrato não

modifica, de forma alguma, o conhecimento sobres os demais, ela ´e bastante utilizada nos

procedimentos da amostragem cl´assica tornando-se assim, um caso de interesse.

Lembrando que como todas as estimativas anteriores dependem do tamanho da

amostra por estrato nh, h = 1, . . . , H, pode-se ainda buscar uma aloca¸c˜ao ´otima destas

amostras. Este valor ótimo pode ser obtido tomando como critério a minimiza¸cão da

variˆancia, por exemplo.

Quando assumimos uma priori n˜ao informativa, tomando vh → ∞ e fixando σh2 para

cada h, as estimativas em (3.18) se aproximam das estimativas conhecidas na amostragem

convencional, para amostragem por estratifica¸c˜ao. Nesta, o estimador n˜ao viciado de

variância m´ınima e sua variância são dados, respectivamente, por:

ˆ T = H X h=1 Nhy¯h e V ( ˆT ) = H X h=1 Nh(Nh − nh)σ2h/nh.

(44)

3.2.3 Amostragem por Conglomerados - Unidades Permut´

aveis

Quando alguns grupos determinam de forma significativa estat´ısticas para a

popula¸cão, utiliza-se a técnica de dividir a popula¸cão em conglomerados. Este método

´

e mais interessante quando toda a variabilidade da popula¸c˜ao ´e capturada dentro dos

grupos, mas não entre eles. A técnica é semelhante ao método de estratifica¸cão, porém

estratos, em geral, s˜ao poucos e cada um tem uma caracter´ıstica ´unica comum, enquanto

os conglomerados s˜ao em geral, pequenos, numerosos e semelhantes.

O modelo para este caso, assim como uma forma de empregar a permutabilidade

em popula¸c˜oes deste tipo est´a descrito para o Modelo 6. O’Hagan (1985) considera

duas formas distintas de introduzir permutabilidade entre os conglomerados. Exibiremos

neste trabalho a forma que assume permutabilidade para qualquer conjunto dos yhi,

onde cada elemento deste pertence a um conglomerado diferente, ou seja `a estrutura de

permutabilidade dentro dos grupos ser´a adicionada a permutabilidade entre os grupos.

Esta hipótese é análoga a considerar que ¯yh sejam permutáveis.

O modelo associado, portanto, deve ser uma combina¸c˜ao do modelo (3.16), assumindo

covariˆancia constante entre os conglomerados e que mh, σ2h e γh s˜ao iguais para todo

conglomerado h = 1, . . . , H, ou seja

E(yhi) = m, V ar(yhi) = σ2+ γ + d,

cov(yhi, yhj) = γ + d, i 6= j, (3.19)

cov(yhi, ylj) = d, h 6= j.

Lembrando que podemos assumir d 6= 0 ou d = 0, dependendo das hip´oteses que v˜ao ser

consideradas no procedimento de amostragem.

Para obter o estimador para T , basta simplesmente adaptar os resultados em (3.18)

utilizando as hip´oteses em (3.19) e considerando que neste contexto ´e comum estarmos

interessados em fazer amostragem em dois est´agios, selecionando amostras de unidades

dentro de uma amostra de conglomerados, como est´a descrito no Modelo 6.

A forma dos estimadores, interpreta¸cões, especifica¸cões a priori, assim como condi¸cões

em que tais estimativas se aproximam de resultados da amostragem convencional, est˜ao