4.5 Modelo de mistura sob amostragem adaptativa dupla
4.5.2 Modelo proposto sob amostragem dupla com vari´ avel auxiliar
auxiliar indicadora de presen¸ca
O modelo de mistura em (4.4) deve ser ajustado a popula¸c˜oes raras e agrupadas, as quais s˜ao amostradas de forma adaptativa. Por outro lado, como o desenho amostral adaptativo por conglomerados ´e informativo, `a verossimilhan¸ca completa do modelo (4.4) acrescenta-se a probabilidade de inclus˜ao da amostra, dada em (4.5). Neste momento a ideia ´e substituir este desenho amostral, pelo proposto por Felix-Medina e Thompson (2004). Esta pequena mudan¸ca traz adapta¸c˜oes na verossimilhan¸ca, por conta da probabilidade de inclus˜ao, e em alguns aspectos do procedimento de inferˆencia, os quais ser˜ao descritos a seguir.
Assim como no exemplo do mexilh˜ao, h´a particular interesse em uma vari´avel auxiliar H bin´aria, que assume o valor 1 se h´a ao menos uma observa¸c˜ao de interesse, ou seja se Yi > 0, e 0 caso contr´ario. Al´em disso, suponha que s2 e s3i, (i = 1, . . . , m2) s˜ao sorteadas
segundo um desenho amostral aleat´orio simples. Este estudo ser´a restrito a um plano amostral adaptativo duplo com estas caracter´ısticas.
Desta forma, a amostra final s ´e composta pelas unidades que comp˜oem s1 e s3.
Ou seja, pelas m1 redes amostradas de forma adaptativa na primeira fase e pelas n3i,
i = 1, . . . , m2 unidades selecionadas dentro das m2 redes amostradas no segundo est´agio.
Note que de s1 s´o se extrai informa¸c˜oes acerca da estrutura das redes, sem observar Y
dentro destas. Enquanto que de s3i, para i = 1, . . . , m2, se extrai informa¸c˜oes acerca da
vari´avel de interesse Y dentro das unidades prim´arias selecionadas. Por esse motivo s ´e caracterizada pela uni˜ao de s1 e s3.
Portanto, ao selecionar uma amostra adaptativa dupla as informa¸c˜oes observadas surgem em etapas. Na primeira fase, a amostragem adaptativa com a vari´avel auxiliar do tipo presen¸ca/ ausˆencia, fornece informa¸c˜oes acerca das vari´aveis X, R e C. Portanto, de s1 tem-se Xs, Rs e Cs no modelo (4.4). O segundo est´agio n˜ao fornece nenhuma
informa¸c˜ao a mais sobre as vari´aveis do modelo. Finalmente, na terceira fase uma parte da vari´avel de interesse Y ´e observada, ou seja Ys, o qual neste caso indica os totais
observados em uma subamostra de unidades de uma subamostra de redes n˜ao-vazias. Portanto, ao aplicar este planejamento amostral ao modelo proposto, este continua com a mesma estrutura descrita em (4.4). Entretanto, a probabilidade de sele¸c˜ao de uma amostra s deve ser revista, pois o planejamento amostral foi alterado. Em particular, `
a probabilidade de inclus˜ao dada em (4.5), devem ser acrescentadas a probabilidade de inclus˜ao de s2 e s3. Em particular, neste caso, em que consideramos s2 e s3 selecionadas
aleatoriamente, esta probabilidade ´e obtida da seguinte forma:
[s | X, R, C] = m1 Y l=1 zil× gil,l PN −X+R i=1 zi− Pj−1 k=0zik × m2 Y h=1 1 m1− (h − 1) × × m2 Y h=1 n3h Y i=1 1 Ch− (i − 1) . (4.6)
O segundo termo da multiplica¸c˜ao na equa¸c˜ao em (4.6) refere-se justamente `a amostra s2, e ´e a probabilidade de sele¸c˜ao de m2 redes dentre m1 sob amostragem aleat´oria simples
sem reposi¸c˜ao. O terceiro fator refere-se `a amostra s3, ou seja ´e a probabilidade de sele¸c˜ao
que como os planos amostrais da segunda e terceira fases constituem-se de amostragem aleat´oria simples, os quais s˜ao desenhos ignor´aveis, estes n˜ao fornecem informa¸c˜ao a mais para a previs˜ao das vari´aveis n˜ao observadas. A ´unica parcela que depende das vari´aveis n˜ao observadas vem da express˜ao em (4.5), logo as outras parcelas s˜ao constantes na distribui¸c˜ao a posteriori.
4.5.2.1 Inferˆencia
O procedimento de inferˆencia baseia-se na obten¸c˜ao da distribui¸c˜ao a posteriori para o vetor param´etrico Θ = (X¯s, R¯s, ¯s, C¯s, Y¯s, Ys∩¯s3, α, β, λ). Note que, `a primeira vista,
a diferen¸ca entre aplicar o modelo a este planejamento ou ao anterior est´a na inser¸c˜ao de Ys∩¯s3. Pois neste caso, al´em da previs˜ao de Yi para as unidades i ∈ ¯s, tamb´em devem
ser preditos Yi para as unidades i que apesar de fazerem parte da amostra s, n˜ao foram
observadas em s3 e portanto s˜ao desconhecidas, ou seja, para i ∈ s ∩ ¯s3. Uma vantagem
´
e que, com este plano amostral menos custoso, a amostra s pode aumentar, portanto ¯s diminui e, portanto a dimens˜ao do vetor param´etrico diminui. Esta e outras diferen¸cas ser˜ao apresentadas a seguir.
Note que, diferente da amostragem adaptativa por conglomerados, o atual planejamento induz uma nova parti¸c˜ao, de Y, tal que Y = (Ys3, Ys∩¯s3, Ys¯)
0
. Note que apesar de usarmos a nota¸c˜ao de s para as unidades que pertencem a amostra, como a amostra ´e formada pela uni˜ao de subamostras e apenas em s3 ´e que valores de Y
s˜ao observados, Ys3 ´e a ´unica parte conhecida de Y e portanto Ys∩¯s3 e Y¯s devem ser
preditos. A diferen¸ca entre estes dos ´ultimos ´e que existem informa¸c˜oes adicionais sobre a estrutura das redes que cont´em as unidades em s ∩ ¯s3, o que auxilia na previs˜ao de
Ys∩¯s3, melhorando assim a qualidade das previs˜oes dos totais nestas unidades, quando
comparado a ¯s. Portanto, no processo de inferˆencia com base na obten¸c˜ao da distribui¸c˜ao a posteriori, ´e necess´ario incluir `as distribui¸c˜oes condicionais completas do Apˆendice B a distribui¸c˜ao de Ys∩¯s3. Dessa forma a express˜ao em (2.2) dada no Apˆendice B ´e reescrita
[Ys∩¯s3, Y¯s| ·] ∝ Y {j:j∈Λ} Y {i:i=j} λYi j Yi! Y {j:j∈s2} Y {i∈¯s3:i=j} λYi j Yi! , tal que Λ = ¯s ∪ {s1∩ ¯s2}.
Com rela¸c˜ao a estima¸c˜ao de λ tamb´em existe uma diferen¸ca. O atual desenho amostral induz a uma parti¸c˜ao deste parˆametro um pouco diferente da obtida quando se realiza somente a amostragem adaptativa por conglomerados em um ´unico est´agio. No caso da amostragem dupla ter´ıamos uma parti¸c˜ao da forma λ = (λs2, λs1∩¯s2, λs¯)
0,
onde λs2 est´a associado `as redes que foram amostradas em s2 e portanto apresentam
informa¸c˜ao adicional Y para algumas unidades que as comp˜oem, λs1∩¯s2 `as redes que foram
amostradas em s1, mas que n˜ao fazem parte de s2, e λ¯s continua se referindo a parte de
λ associada `as redes n˜ao amostradas, sequer no primeiro est´agio. Observe a distribui¸c˜ao condicional completa de λ na equa¸c˜ao (2.1) no Apˆendice B, esta depende das vari´aveis Y e C, logo quanto maior o conhecimento acerca destas vari´aveis, melhor a estima¸c˜ao deste parˆametro. Portanto, espera-se que λs2 seja o parˆametro melhor estimado, pois
al´em do conhecimento de uma parte de C proveniente de s1, s3 fornece adicionalmente
informa¸c˜oes sobre Y para as redes selecionadas em s2. Por outro lado, λs1∩¯s2 deve ser o
segundo melhor estimado pois para as redes em s1∩ ¯s2 h´a apenas o conhecimento de uma
parte de C. Finalmente, o subvetor λ¯s continua sendo o mais dif´ıcil de ser estimado, por
falta de informa¸c˜ao.
Portanto, como este planejamento amostral permite aumentar o n´umero de observa¸c˜oes com um custo controlado, espera-se melhorar a estima¸c˜ao de parˆametros e previs˜ao de quantidades populacionais que apresentaram alguma dificuldade. Isso porque com este m´etodo ´e poss´ıvel diminuir o n´umero de redes n˜ao-vazias para as quais n˜ao se tem nenhum conhecimento. Com o desenho amostral constru´ıdo em 3 est´agios, ´e poss´ıvel ao menos conhecer para algumas redes o tamanho destas, mesmo sem observar diretamente a vari´avel de interesse Y . Inclusive esta foi a maior motiva¸c˜ao para estendermos o modelo (4.4) para um plano amostral alternativo que extra´ısse maiores informa¸c˜oes da popula¸c˜ao, sem extrapolar os custos operacionais. Neste caso escolheu-se a amostragem adaptativa dupla, com vari´avel auxiliar do tipo ausˆencia/ presen¸ca da caracter´ıstica de interesse.