Modelo proposto sob amostragem dupla com vari´ avel auxiliar

4.5 Modelo de mistura sob amostragem adaptativa dupla

4.5.2 Modelo proposto sob amostragem dupla com vari´ avel auxiliar

auxiliar indicadora de presen¸ca

O modelo de mistura em (4.4) deve ser ajustado a popula¸cões raras e agrupadas, as quais são amostradas de forma adaptativa. Por outro lado, como o desenho amostral adaptativo por conglomerados é informativo, à verossimilhan¸ca completa do modelo (4.4) acrescenta-se a probabilidade de inclusão da amostra, dada em (4.5). Neste momento a ideia é substituir este desenho amostral, pelo proposto por Felix-Medina e Thompson (2004). Esta pequena mudan¸ca traz adapta¸cões na verossimilhan¸ca, por conta da probabilidade de inclusão, e em alguns aspectos do procedimento de inferência, os quais serão descritos a seguir.

Assim como no exemplo do mexilhão, há particular interesse em uma variável auxiliar H binária, que assume o valor 1 se há ao menos uma observa¸cão de interesse, ou seja se Yi > 0, e 0 caso contrário. Além disso, suponha que s2 e s3i, (i = 1, . . . , m2) são sorteadas

segundo um desenho amostral aleat´orio simples. Este estudo ser´a restrito a um plano amostral adaptativo duplo com estas caracter´ısticas.

Desta forma, a amostra final s ´e composta pelas unidades que comp˜oem s1 e s3.

Ou seja, pelas m1 redes amostradas de forma adaptativa na primeira fase e pelas n3i,

i = 1, . . . , m2 unidades selecionadas dentro das m2 redes amostradas no segundo est´agio.

Note que de s1 s´o se extrai informa¸c˜oes acerca da estrutura das redes, sem observar Y

dentro destas. Enquanto que de s3i, para i = 1, . . . , m2, se extrai informa¸c˜oes acerca da

variável de interesse Y dentro das unidades primárias selecionadas. Por esse motivo s é caracterizada pela união de s1 e s3.

Portanto, ao selecionar uma amostra adaptativa dupla as informa¸cões observadas surgem em etapas. Na primeira fase, a amostragem adaptativa com a variável auxiliar do tipo presen¸ca/ ausência, fornece informa¸cões acerca das variáveis X, R e C. Portanto, de s1 tem-se Xs, Rs e Cs no modelo (4.4). O segundo estágio não fornece nenhuma

informa¸cão a mais sobre as variáveis do modelo. Finalmente, na terceira fase uma parte da variável de interesse Y é observada, ou seja Ys, o qual neste caso indica os totais

observados em uma subamostra de unidades de uma subamostra de redes n˜ao-vazias. Portanto, ao aplicar este planejamento amostral ao modelo proposto, este continua com a mesma estrutura descrita em (4.4). Entretanto, a probabilidade de sele¸c˜ao de uma amostra s deve ser revista, pois o planejamento amostral foi alterado. Em particular, `

a probabilidade de inclus˜ao dada em (4.5), devem ser acrescentadas a probabilidade de inclus˜ao de s2 e s3. Em particular, neste caso, em que consideramos s2 e s3 selecionadas

aleatoriamente, esta probabilidade ´e obtida da seguinte forma:

[s | X, R, C] = m1 Y l=1 zil× gil,l PN −X+R i=1 zi− Pj−1 k=0zik × m2 Y h=1 1 m1− (h − 1) × × m2 Y h=1 n3h Y i=1 1 Ch− (i − 1) . (4.6)

O segundo termo da multiplica¸cão na equa¸cão em (4.6) refere-se justamente à amostra s2, e é a probabilidade de sele¸cão de m2 redes dentre m1 sob amostragem aleatória simples

sem reposi¸cão. O terceiro fator refere-se à amostra s3, ou seja é a probabilidade de sele¸cão

que como os planos amostrais da segunda e terceira fases constituem-se de amostragem aleatória simples, os quais são desenhos ignoráveis, estes não fornecem informa¸cão a mais para a previsão das variáveis não observadas. A única parcela que depende das variáveis não observadas vem da expressão em (4.5), logo as outras parcelas são constantes na distribui¸cão a posteriori.

4.5.2.1 Inferˆencia

O procedimento de inferência baseia-se na obten¸cão da distribui¸cão a posteriori para o vetor paramétrico Θ = (X¯s, R¯s, ¯s, C¯s, Y¯s, Ys∩¯s3, α, β, λ). Note que, à primeira vista,

a diferen¸ca entre aplicar o modelo a este planejamento ou ao anterior está na inser¸cão de Ys∩¯s3. Pois neste caso, além da previsão de Yi para as unidades i ∈ ¯s, também devem

ser preditos Yi para as unidades i que apesar de fazerem parte da amostra s, n˜ao foram

observadas em s3 e portanto s˜ao desconhecidas, ou seja, para i ∈ s ∩ ¯s3. Uma vantagem

e que, com este plano amostral menos custoso, a amostra s pode aumentar, portanto ¯s diminui e, portanto a dimensão do vetor paramétrico diminui. Esta e outras diferen¸cas serão apresentadas a seguir.

Note que, diferente da amostragem adaptativa por conglomerados, o atual planejamento induz uma nova parti¸c˜ao, de Y, tal que Y = (Ys3, Ys∩¯s3, Ys¯)

. Note que apesar de usarmos a nota¸cão de s para as unidades que pertencem a amostra, como a amostra é formada pela união de subamostras e apenas em s3 é que valores de Y

são observados, Ys3 é a única parte conhecida de Y e portanto Ys∩¯s3 e Y¯s devem ser

preditos. A diferen¸ca entre estes dos últimos é que existem informa¸cões adicionais sobre a estrutura das redes que contém as unidades em s ∩ ¯s3, o que auxilia na previsão de

Ys∩¯s3, melhorando assim a qualidade das previs˜oes dos totais nestas unidades, quando

comparado a ¯s. Portanto, no processo de inferência com base na obten¸cão da distribui¸cão a posteriori, é necessário incluir às distribui¸cões condicionais completas do Apêndice B a distribui¸cão de Ys∩¯s3. Dessa forma a expressão em (2.2) dada no Apêndice B é reescrita

[Ys∩¯s3, Y¯s| ·] ∝    Y {j:j∈Λ} Y {i:i=j} λYi j Yi!       Y {j:j∈s2} Y {i∈¯s3:i=j} λYi j Yi!    , tal que Λ = ¯s ∪ {s1∩ ¯s2}.

Com rela¸cão a estima¸cão de λ também existe uma diferen¸ca. O atual desenho amostral induz a uma parti¸cão deste parâmetro um pouco diferente da obtida quando se realiza somente a amostragem adaptativa por conglomerados em um único estágio. No caso da amostragem dupla ter´ıamos uma parti¸cão da forma λ = (λs2, λs1∩¯s2, λs¯)

0_,

onde λs2 est´a associado `as redes que foram amostradas em s2 e portanto apresentam

informa¸cão adicional Y para algumas unidades que as compõem, λs1∩¯s2 às redes que foram

amostradas em s1, mas que n˜ao fazem parte de s2, e λ¯s continua se referindo a parte de

λ associada às redes não amostradas, sequer no primeiro estágio. Observe a distribui¸cão condicional completa de λ na equa¸cão (2.1) no Apêndice B, esta depende das variáveis Y e C, logo quanto maior o conhecimento acerca destas variáveis, melhor a estima¸cão deste parâmetro. Portanto, espera-se que λs2 seja o parâmetro melhor estimado, pois

al´em do conhecimento de uma parte de C proveniente de s1, s3 fornece adicionalmente

informa¸c˜oes sobre Y para as redes selecionadas em s2. Por outro lado, λs1∩¯s2 deve ser o

segundo melhor estimado pois para as redes em s1∩ ¯s2 h´a apenas o conhecimento de uma

parte de C. Finalmente, o subvetor λ¯s continua sendo o mais dif´ıcil de ser estimado, por

falta de informa¸c˜ao.

Portanto, como este planejamento amostral permite aumentar o número de observa¸cões com um custo controlado, espera-se melhorar a estima¸cão de parâmetros e previsão de quantidades populacionais que apresentaram alguma dificuldade. Isso porque com este método é poss´ıvel diminuir o número de redes não-vazias para as quais não se tem nenhum conhecimento. Com o desenho amostral constru´ıdo em 3 estágios, é poss´ıvel ao menos conhecer para algumas redes o tamanho destas, mesmo sem observar diretamente a variável de interesse Y . Inclusive esta foi a maior motiva¸cão para estendermos o modelo (4.4) para um plano amostral alternativo que extra´ısse maiores informa¸cões da popula¸cão, sem extrapolar os custos operacionais. Neste caso escolheu-se a amostragem adaptativa dupla, com variável auxiliar do tipo ausência/ presen¸ca da caracter´ıstica de interesse.

4.5.3 Avalia¸c˜ao

do

modelo

proposto

sob

amostragem

No documento Modelos de Previsão para Populações Raras e Agrupadas sob Amostragem Adaptativa (páginas 117-121)