Avalia¸c˜ ao do modelo proposto sob amostragem adaptativa e

4.5 Modelo de mistura sob amostragem adaptativa dupla

4.5.3 Avalia¸c˜ ao do modelo proposto sob amostragem adaptativa e

Este estudo baseia-se na avalia¸cão do modelo de mistura proposto em (4.4) quando se considera os dois planejamentos amostrais estudados neste trabalho: amostragem adaptativa por conglomerados e a amostragem dupla. Note que neste particular estudo optou-se por não utilizar a popula¸cão real de marrecos da asa azul, descrito na Subse¸cão 3.1.3, pois seu tamanho é relativamente pequeno para fins desta compara¸cão. Portanto, foram geradas 500 popula¸cões com N = 600 unidades, X = 15%N unidades não-vazias e R = 10%X = 9 redes não-vazias, e de cada uma destas foram simuladas as seguintes amostras:

(i) adaptativa por conglomerados com tamanho inicial n1 = 10%N produzindo m1

redes na amostra;

(ii) adaptativa dupla por conglomerados com tamanho inicial n1 = 10%N produzindo

m1 redes na amostra e

(a) m2 = 100%m1 e n3i= 70%Ci, i = 1, . . . , m2;

(b) m2 = 70%m1 e n3i = 100%Ci, i = 1, . . . , m2;

O interesse é comparar o ajuste do modelo sob estes quatro planejamentos. Os cenários (ii-a), (ii-b), (ii-c) tratam-se de varia¸cões do plano amostral duplo. Observe que, apesar do cenário (ii-b) estar caracterizado como uma amostragem adaptativa dupla, este também pode ser tratado como o planejamento (i), porém com um menor tamanho inicial de amostra.

Para este estudo, foi utilizada a mesma distribui¸cão a priori usada na Subse¸çcão 4.3, supondo a distribui¸cão a priori para λ independente. Após 200000 itera¸cões, com um burn-in de 10000 e espa¸camento de 190, foram obtidas 1000 amostras independentes da distribui¸cão a posteriori do vetor paramétrico Θ. Para todos os parâmetros observou-se a convergência.

Na Tabela 4.9 estão os EQMR, EAR, probabilidade de cobertura do intervalo HPD de 95% e sua respectiva amplitude média relativizada para a previsão do total populacional T . Note que para todos os planejamentos temos erros pequenos e intervalos HPD com probabilidade de cobertura próxima do n´ıvel desejado de 95%. Mesmo no planejamento (ii-c), em que se reduz de forma mais significante o tamanho da amostra quando comparado aos demais, tem-se resultados que mostram boas previsões neste caso. Portanto, mesmo com um número menor de observa¸cões da variável de interesse é poss´ıvel obter resultados tão eficientes quanto os obtidos usando a amostragem adaptativa em um estágio.

Tabela 4.9: Sum´ario a posteriori do total populacional T para os quatro planejamentos considerados com base nas 500 amostras simuladas.

Amostra EQMR EAR Cobertura (%) Amplitude relativa

(i) 0.02 0.12 96.0 0.61

(ii-a) 0.03 0.14 95.9 0.62

(ii-b) 0.02 0.12 93.3 0.69

(ii-c) 0.03 0.13 95.8 0.62

Com rela¸cão aos planos amostrais (i) e (ii-a) a diferen¸ca está no número de unidades que são observadas dentro das redes amostradas. O segundo observa um número menor de unidades com rela¸cão a variável de interesse, portanto em contextos em que observar Y é altamente custoso, pode-se preferir o plano (ii-a). Desta forma, o interesse agora concentrar-se-á em comparar a performance do modelo de mistura sob estes dois planos em particular. Quando comparados ambos os planejamentos com rela¸cão a previsão do total populacional T , não foram observadas grandes diferen¸cas, portanto com base neste critério ambos mostraram-se eficientes. Portanto, será feita uma compara¸cão de ambas as metodologias a partir da estima¸cão do parâmetro λs2. A ideia em usar λ como critério

de compara¸cão dá-se pois este é um parâmetro importante para a previsão do total e está relacionado diretamente com as informa¸cões extra´ıdas dentro das redes.

Na Figura 4.12 está um sumário da distribui¸cão a posteriori de λ ao longo das 500 simula¸cões. Nesta são apresentados o EAR, a probabilidade de cobertura do intervalo HPD de 95% e sua respectiva amplitude média relativizada com rela¸cão ao valor verdadeiro. O triângulo com linha cheia representa o plano amostral (i) e o c´ırculo cheio com linha pontilhada o plano amostral (ii-a). Note que o plano (i) produz erros relativos ligeiramente menores que o plano (ii-a), o que era de se esperar pois este apresenta um maior tamanho de amostra final. Além disso, os intervalos HPD de 95% são mais precisos para todos os λjs sob o plano amostral (i). Com rela¸cão as probabilidades de

cobertura não há nada conclusivo sobre qual plano é mais eficiente, ora um se apresenta mais próximo do n´ıvel desejado, ora outro se apresenta. Observe que λ6 apresenta

uma subestima¸c˜ao da probabilidade de cobertura, mas este fato ocorre para os dois planejamentos em quest˜ao.

EAR ● ● ● ● ● ● ● ● ● λ1λ2λ3 λ4 λ5 λ6 λ7 λ8 λ9 0.01 0.03 0.05 Cober tur a ● ● ● ● ● ● ● ● ● λ1 λ2 λ3 λ4 λ5 λ6λ7 λ8 λ9 0.88 0.92 0.96 Amplitude ● ● ● ● ● ● _● ● ● λ1 λ2 λ3 λ4λ5λ6 λ7 λ8 λ9 0.3 0.5 0.7 0.9

Figura 4.12: Sum´ario a posteriori de λs2 para os planejamentos (i) e (ii-a) com base nas

500 amostras simuladas.

4.6 Conclus˜oes

Neste cap´ıtulo apresentou-se a principal contribui¸cão deste trabalho, que foi a proposta de um modelo desagregado que se ajuste a amostras adaptativas selecionadas de popula¸cões raras e agrupadas. O modelo é constru´ıdo no n´ıvel das unidades da grade, o que permitiu a inser¸cão da suposi¸cão de heterogeneidade entre redes distintas. A inferência Bayesiana para o modelo é feita usando o método RJMCMC, pois neste caso o tamanho do espa¸co paramétrico é desconhecido. Portanto, o ajuste do modelo proposto

necessita de métodos mais custosos computacionalmente do que o modelo agregado, onde apenas o MCMC é necessário.

No geral, o modelo apresentou uma boa performance nos estudos de simula¸cão realizados e ao ajustá-lo com a popula¸cão real do marreco da asa azul, resultados mais satisfatórios foram obtidos quando comparado com o modelo agregado. Por outro lado, foi poss´ıvel observar que ao diminuir o grau de heterogeneidade da popula¸cão o desempenho do modelo agregado com rela¸cão a estima¸cão de T , o qual é o maior interesse neste trabalho, tende a melhorar e a tornar-se mais próximo ao obtido quando ajustado o modelo de mistura. Portanto, recomenda-se o uso do modelo proposto quando de fato a heterogeneidade é um comportamento presente nos dados, visto que o custo computacional é maior neste caso.

Um sumário das conclusões mais relevantes extra´ıdas dos estudos de simula¸cão realizados neste cap´ıtulo é apresentado na Tabela 4.10.

Finalmente, com o propósito de melhorar a previsão e estima¸cão do modelo de mistura, foi apresentada uma aplica¸cão do modelo de mistura ao plano amostral adaptativo duplo. Este planejamento tende a fornecer mais informa¸cões sobre a popula¸cão de pesquisa, com um custo operacional controlado. Nesta extensão verificou-se que é poss´ıvel obter resultados eficientes ainda que com um número menor de observa¸cões da variável de interesse e usando uma variável auxiliar indicadora de presen¸ca da caracter´ıstica de interesse.

Tabela 4.10: Resumo das principais conclus˜oes acerca dos estudos simulados realizados com o modelo de mistura proposto em (4.4).

Variando N , α e β

(1) Melhores resultados `a medida que os valores de N , α e β aumentam. (2) Maiores dificuldades de estima¸c˜ao de λ¯s que λ¯s.

Distribui¸c˜ao a priori de λ

(1) Distribui¸cão a posteriori de R sens´ıvel à escolha de τ . (2) Escolha de τ não afeta a distribui¸cão a posteriori de T .

(3) Os EQMR obtidos na previsão de T são menores quando assume-se distribui¸cão a priori dependente para λ.

N´ıvel de heterogeneidade

(1) Mesmo sob n´ıveis mais intensos de homogeneidade bons resultados são atingidos na previsão de T , mas surgem problemas na estima¸cão de ν e β.

(2) Comparando com o modelo agregado, percebe-se que o modelo proposto é adequado principalmente para popula¸cões heterogêneas. Sob maiores n´ıveis de homogeneidade, o desempenho dos modelos torna-se similar.

Cap´ıtulo 5

Conclus˜oes e trabalhos futuros

Ao longo deste trabalho foram revisadas duas poss´ıveis formas de fazer previsão em popula¸cões raras e agrupadas: a inferência baseada na aleatoriza¸cão do plano amostral e a abordagem baseada em modelos de superpopula¸cão. No primeiro caso, apresentou- se o planejamento amostral adaptativo por conglomerados e, no segundo, o modelo proposto por Rapley e Welsh (2008), o qual é ajustado sob o enfoque Bayesiano. Estudos simulados com base em popula¸cões artificiais e real foram apresentados e ambas as abordagens foram comparadas principalmente em n´ıveis de eficiência da previsão do total populacional. Tendo em vista um bom desempenho do modelo de Rapley e Welsh (2008), as metodologias propostas neste trabalho permanecem no contexto de inferência em popula¸cão finita baseada em modelos.

Realizar pesquisas em popula¸cões raras e agrupadas é uma tarefa árdua e necessita em geral de metodologias espec´ıficas que usem na sua formula¸cão a estrutura da popula¸cão. No entanto, estas popula¸cões podem ser ainda mais problemáticas se apresentarem uma dinâmica populacional, o que é uma caracter´ıstica também comum neste contexto. Buscando tratar situa¸cões como esta, foi apresentada uma extensão do modelo de Rapley e Welsh (2008). Em particular, a extensão é voltada principalmente para popula¸cões em crescimento ou decrescimento e final estabiliza¸cão com a evolu¸cão do tempo.

Por outro lado, questões como a modelagem no n´ıvel agregado das redes, suposi¸cões de homogeneidade entre as redes e de rela¸cão direta entre a frequência esperada de um fenômeno e o tamanho de uma rede no qual ele é observado, restringem o modelo

de Rapley e Welsh (2008) a algumas espec´ıficas popula¸cões com estas caracter´ısticas. Com o objetivo de tratar destas questões, foi proposto um modelo de mistura a n´ıvel desagregado que supõe heterogeneidade entre as redes, e consequentemente que o número de ocorrências de um fenômeno em uma rede não depende necessariamente apenas do tamanho desta. Como foi visto, para fazer inferência para este modelo fez-se necessário técnicas mais sofisticadas, pois a dimensão do vetor paramétrico é também um parâmetro. Em particular, foi utilizado o método de RJMCMC. O modelo mostrou-se mais eficiente que o modelo agregado em casos de heterogeneidade. Por outro lado, à medida que o n´ıvel de heterogeneidade diminui a performance dos modelos torna-se semelhante.

Finalmente, a metodologia proposta foi aplicada ao plano amostral adaptativo duplo por conglomerados, com o objetivo de adquirir mais informa¸cões que auxiliem a estimar os parâmetros do modelo de mistura proposto em (4.4) associados às unidades que não foram observadas. Em particular, a variável auxiliar utilizada nesta extensão caracteriza- se como uma indicadora da ausência ou presen¸ca da observa¸cão de interesse, ou seja, está totalmente relacionada com a variável de pesquisa.

5.1 Trabalhos futuros

Na extensão apresentada na Se¸cão 3.2 do Cap´ıtulo 3 supor uma amostra independente a cada instante de tempo pode não ser viável em algumas situa¸cões práticas. No entanto, como o modelo é formulado de forma agregada, isto traz dificuldades a incorporar outros planejamentos mais viáveis. Com isso, há interesse em aplicar o modelo de mistura proposto a planos amostrais que apresentem dependência temporal.

Com rela¸cão ao desenho amostral adaptativo duplo, seria interessante investigar um tamanho de amostra ótimo na primeira e/ou na segunda fase, de modo a ser eficiente e minimizar o custo operacional. Além disso, há interesse também em aplicar a metodologia, supondo outras variáveis auxiliares relacionadas com a variável de interesse que não somente indicadoras de presen¸ca da caracter´ıstica de interesse.

Além disso, dentro de uma rede é comum que unidades tenham frequência de observa¸cões que varia de acordo com a distância ao centroide da rede. Por exemplo,

espera-se que unidades dentro de uma rede tenham frequência de observa¸cões que varia de acordo com a distância ao centroide da rede. O processo pontual conglomerado de Poisson (ver Diggle et al. (1983)) é um exemplo de popula¸cão com este comportamento. Dessa forma, uma ideia futura para o modelo de mistura proposto é a inser¸cão de componentes espaciais na média da distribui¸cão da variável resposta que dependam da distância. Um importante aspecto a ser considerado nesta proposta futura é a defini¸cão do centroide, visto que uma rede em geral não é regular. Além disso, a proposta seria incorporar esta estrutura espacial na parte do modelo que se ajusta à amostra coletada, pois para a parte não amostrada não há conhecimento da localiza¸cão e nem das unidades que compõem as redes, o que inviabilizaria a ideia nestas unidades.

No documento Modelos de Previsão para Populações Raras e Agrupadas sob Amostragem Adaptativa (páginas 121-128)