4.5 Modelo de mistura sob amostragem adaptativa dupla
4.5.3 Avalia¸c˜ ao do modelo proposto sob amostragem adaptativa e
Este estudo baseia-se na avalia¸c˜ao do modelo de mistura proposto em (4.4) quando se considera os dois planejamentos amostrais estudados neste trabalho: amostragem adaptativa por conglomerados e a amostragem dupla. Note que neste particular estudo optou-se por n˜ao utilizar a popula¸c˜ao real de marrecos da asa azul, descrito na Subse¸c˜ao 3.1.3, pois seu tamanho ´e relativamente pequeno para fins desta compara¸c˜ao. Portanto, foram geradas 500 popula¸c˜oes com N = 600 unidades, X = 15%N unidades n˜ao-vazias e R = 10%X = 9 redes n˜ao-vazias, e de cada uma destas foram simuladas as seguintes amostras:
(i) adaptativa por conglomerados com tamanho inicial n1 = 10%N produzindo m1
redes na amostra;
(ii) adaptativa dupla por conglomerados com tamanho inicial n1 = 10%N produzindo
m1 redes na amostra e
(a) m2 = 100%m1 e n3i= 70%Ci, i = 1, . . . , m2;
(b) m2 = 70%m1 e n3i = 100%Ci, i = 1, . . . , m2;
(c) m2 = 70%m1 e n3i = 70%Ci, i = 1, . . . , m2.
O interesse ´e comparar o ajuste do modelo sob estes quatro planejamentos. Os cen´arios (ii-a), (ii-b), (ii-c) tratam-se de varia¸c˜oes do plano amostral duplo. Observe que, apesar do cen´ario (ii-b) estar caracterizado como uma amostragem adaptativa dupla, este tamb´em pode ser tratado como o planejamento (i), por´em com um menor tamanho inicial de amostra.
Para este estudo, foi utilizada a mesma distribui¸c˜ao a priori usada na Subse¸c¸c˜ao 4.3, supondo a distribui¸c˜ao a priori para λ independente. Ap´os 200000 itera¸c˜oes, com um burn-in de 10000 e espa¸camento de 190, foram obtidas 1000 amostras independentes da distribui¸c˜ao a posteriori do vetor param´etrico Θ. Para todos os parˆametros observou-se a convergˆencia.
Na Tabela 4.9 est˜ao os EQMR, EAR, probabilidade de cobertura do intervalo HPD de 95% e sua respectiva amplitude m´edia relativizada para a previs˜ao do total populacional T . Note que para todos os planejamentos temos erros pequenos e intervalos HPD com probabilidade de cobertura pr´oxima do n´ıvel desejado de 95%. Mesmo no planejamento (ii-c), em que se reduz de forma mais significante o tamanho da amostra quando comparado aos demais, tem-se resultados que mostram boas previs˜oes neste caso. Portanto, mesmo com um n´umero menor de observa¸c˜oes da vari´avel de interesse ´e poss´ıvel obter resultados t˜ao eficientes quanto os obtidos usando a amostragem adaptativa em um est´agio.
Tabela 4.9: Sum´ario a posteriori do total populacional T para os quatro planejamentos considerados com base nas 500 amostras simuladas.
Amostra EQMR EAR Cobertura (%) Amplitude relativa
(i) 0.02 0.12 96.0 0.61
(ii-a) 0.03 0.14 95.9 0.62
(ii-b) 0.02 0.12 93.3 0.69
(ii-c) 0.03 0.13 95.8 0.62
Com rela¸c˜ao aos planos amostrais (i) e (ii-a) a diferen¸ca est´a no n´umero de unidades que s˜ao observadas dentro das redes amostradas. O segundo observa um n´umero menor de unidades com rela¸c˜ao a vari´avel de interesse, portanto em contextos em que observar Y ´e altamente custoso, pode-se preferir o plano (ii-a). Desta forma, o interesse agora concentrar-se-´a em comparar a performance do modelo de mistura sob estes dois planos em particular. Quando comparados ambos os planejamentos com rela¸c˜ao a previs˜ao do total populacional T , n˜ao foram observadas grandes diferen¸cas, portanto com base neste crit´erio ambos mostraram-se eficientes. Portanto, ser´a feita uma compara¸c˜ao de ambas as metodologias a partir da estima¸c˜ao do parˆametro λs2. A ideia em usar λ como crit´erio
de compara¸c˜ao d´a-se pois este ´e um parˆametro importante para a previs˜ao do total e est´a relacionado diretamente com as informa¸c˜oes extra´ıdas dentro das redes.
Na Figura 4.12 est´a um sum´ario da distribui¸c˜ao a posteriori de λ ao longo das 500 simula¸c˜oes. Nesta s˜ao apresentados o EAR, a probabilidade de cobertura do intervalo HPD de 95% e sua respectiva amplitude m´edia relativizada com rela¸c˜ao ao valor verdadeiro. O triˆangulo com linha cheia representa o plano amostral (i) e o c´ırculo cheio com linha pontilhada o plano amostral (ii-a). Note que o plano (i) produz erros relativos ligeiramente menores que o plano (ii-a), o que era de se esperar pois este apresenta um maior tamanho de amostra final. Al´em disso, os intervalos HPD de 95% s˜ao mais precisos para todos os λjs sob o plano amostral (i). Com rela¸c˜ao as probabilidades de
cobertura n˜ao h´a nada conclusivo sobre qual plano ´e mais eficiente, ora um se apresenta mais pr´oximo do n´ıvel desejado, ora outro se apresenta. Observe que λ6 apresenta
uma subestima¸c˜ao da probabilidade de cobertura, mas este fato ocorre para os dois planejamentos em quest˜ao.
EAR ● ● ● ● ● ● ● ● ● λ1λ2λ3 λ4 λ5 λ6 λ7 λ8 λ9 0.01 0.03 0.05 Cober tur a ● ● ● ● ● ● ● ● ● λ1 λ2 λ3 λ4 λ5 λ6λ7 λ8 λ9 0.88 0.92 0.96 Amplitude ● ● ● ● ● ● ● ● ● λ1 λ2 λ3 λ4λ5λ6 λ7 λ8 λ9 0.3 0.5 0.7 0.9
Figura 4.12: Sum´ario a posteriori de λs2 para os planejamentos (i) e (ii-a) com base nas
500 amostras simuladas.
4.6
Conclus˜oes
Neste cap´ıtulo apresentou-se a principal contribui¸c˜ao deste trabalho, que foi a proposta de um modelo desagregado que se ajuste a amostras adaptativas selecionadas de popula¸c˜oes raras e agrupadas. O modelo ´e constru´ıdo no n´ıvel das unidades da grade, o que permitiu a inser¸c˜ao da suposi¸c˜ao de heterogeneidade entre redes distintas. A inferˆencia Bayesiana para o modelo ´e feita usando o m´etodo RJMCMC, pois neste caso o tamanho do espa¸co param´etrico ´e desconhecido. Portanto, o ajuste do modelo proposto
necessita de m´etodos mais custosos computacionalmente do que o modelo agregado, onde apenas o MCMC ´e necess´ario.
No geral, o modelo apresentou uma boa performance nos estudos de simula¸c˜ao realizados e ao ajust´a-lo com a popula¸c˜ao real do marreco da asa azul, resultados mais satisfat´orios foram obtidos quando comparado com o modelo agregado. Por outro lado, foi poss´ıvel observar que ao diminuir o grau de heterogeneidade da popula¸c˜ao o desempenho do modelo agregado com rela¸c˜ao a estima¸c˜ao de T , o qual ´e o maior interesse neste trabalho, tende a melhorar e a tornar-se mais pr´oximo ao obtido quando ajustado o modelo de mistura. Portanto, recomenda-se o uso do modelo proposto quando de fato a heterogeneidade ´e um comportamento presente nos dados, visto que o custo computacional ´e maior neste caso.
Um sum´ario das conclus˜oes mais relevantes extra´ıdas dos estudos de simula¸c˜ao realizados neste cap´ıtulo ´e apresentado na Tabela 4.10.
Finalmente, com o prop´osito de melhorar a previs˜ao e estima¸c˜ao do modelo de mistura, foi apresentada uma aplica¸c˜ao do modelo de mistura ao plano amostral adaptativo duplo. Este planejamento tende a fornecer mais informa¸c˜oes sobre a popula¸c˜ao de pesquisa, com um custo operacional controlado. Nesta extens˜ao verificou-se que ´e poss´ıvel obter resultados eficientes ainda que com um n´umero menor de observa¸c˜oes da vari´avel de interesse e usando uma vari´avel auxiliar indicadora de presen¸ca da caracter´ıstica de interesse.
Tabela 4.10: Resumo das principais conclus˜oes acerca dos estudos simulados realizados com o modelo de mistura proposto em (4.4).
Variando N , α e β
(1) Melhores resultados `a medida que os valores de N , α e β aumentam. (2) Maiores dificuldades de estima¸c˜ao de λ¯s que λ¯s.
Distribui¸c˜ao a priori de λ
(1) Distribui¸c˜ao a posteriori de R sens´ıvel `a escolha de τ . (2) Escolha de τ n˜ao afeta a distribui¸c˜ao a posteriori de T .
(3) Os EQMR obtidos na previs˜ao de T s˜ao menores quando assume-se distribui¸c˜ao a priori dependente para λ.
N´ıvel de heterogeneidade
(1) Mesmo sob n´ıveis mais intensos de homogeneidade bons resultados s˜ao atingidos na previs˜ao de T , mas surgem problemas na estima¸c˜ao de ν e β.
(2) Comparando com o modelo agregado, percebe-se que o modelo proposto ´e adequado principalmente para popula¸c˜oes heterogˆeneas. Sob maiores n´ıveis de homogeneidade, o desempenho dos modelos torna-se similar.
Cap´ıtulo 5
Conclus˜oes e trabalhos futuros
Ao longo deste trabalho foram revisadas duas poss´ıveis formas de fazer previs˜ao em popula¸c˜oes raras e agrupadas: a inferˆencia baseada na aleatoriza¸c˜ao do plano amostral e a abordagem baseada em modelos de superpopula¸c˜ao. No primeiro caso, apresentou- se o planejamento amostral adaptativo por conglomerados e, no segundo, o modelo proposto por Rapley e Welsh (2008), o qual ´e ajustado sob o enfoque Bayesiano. Estudos simulados com base em popula¸c˜oes artificiais e real foram apresentados e ambas as abordagens foram comparadas principalmente em n´ıveis de eficiˆencia da previs˜ao do total populacional. Tendo em vista um bom desempenho do modelo de Rapley e Welsh (2008), as metodologias propostas neste trabalho permanecem no contexto de inferˆencia em popula¸c˜ao finita baseada em modelos.
Realizar pesquisas em popula¸c˜oes raras e agrupadas ´e uma tarefa ´ardua e necessita em geral de metodologias espec´ıficas que usem na sua formula¸c˜ao a estrutura da popula¸c˜ao. No entanto, estas popula¸c˜oes podem ser ainda mais problem´aticas se apresentarem uma dinˆamica populacional, o que ´e uma caracter´ıstica tamb´em comum neste contexto. Buscando tratar situa¸c˜oes como esta, foi apresentada uma extens˜ao do modelo de Rapley e Welsh (2008). Em particular, a extens˜ao ´e voltada principalmente para popula¸c˜oes em crescimento ou decrescimento e final estabiliza¸c˜ao com a evolu¸c˜ao do tempo.
Por outro lado, quest˜oes como a modelagem no n´ıvel agregado das redes, suposi¸c˜oes de homogeneidade entre as redes e de rela¸c˜ao direta entre a frequˆencia esperada de um fenˆomeno e o tamanho de uma rede no qual ele ´e observado, restringem o modelo
de Rapley e Welsh (2008) a algumas espec´ıficas popula¸c˜oes com estas caracter´ısticas. Com o objetivo de tratar destas quest˜oes, foi proposto um modelo de mistura a n´ıvel desagregado que sup˜oe heterogeneidade entre as redes, e consequentemente que o n´umero de ocorrˆencias de um fenˆomeno em uma rede n˜ao depende necessariamente apenas do tamanho desta. Como foi visto, para fazer inferˆencia para este modelo fez-se necess´ario t´ecnicas mais sofisticadas, pois a dimens˜ao do vetor param´etrico ´e tamb´em um parˆametro. Em particular, foi utilizado o m´etodo de RJMCMC. O modelo mostrou-se mais eficiente que o modelo agregado em casos de heterogeneidade. Por outro lado, `a medida que o n´ıvel de heterogeneidade diminui a performance dos modelos torna-se semelhante.
Finalmente, a metodologia proposta foi aplicada ao plano amostral adaptativo duplo por conglomerados, com o objetivo de adquirir mais informa¸c˜oes que auxiliem a estimar os parˆametros do modelo de mistura proposto em (4.4) associados `as unidades que n˜ao foram observadas. Em particular, a vari´avel auxiliar utilizada nesta extens˜ao caracteriza- se como uma indicadora da ausˆencia ou presen¸ca da observa¸c˜ao de interesse, ou seja, est´a totalmente relacionada com a vari´avel de pesquisa.
5.1
Trabalhos futuros
Na extens˜ao apresentada na Se¸c˜ao 3.2 do Cap´ıtulo 3 supor uma amostra independente a cada instante de tempo pode n˜ao ser vi´avel em algumas situa¸c˜oes pr´aticas. No entanto, como o modelo ´e formulado de forma agregada, isto traz dificuldades a incorporar outros planejamentos mais vi´aveis. Com isso, h´a interesse em aplicar o modelo de mistura proposto a planos amostrais que apresentem dependˆencia temporal.
Com rela¸c˜ao ao desenho amostral adaptativo duplo, seria interessante investigar um tamanho de amostra ´otimo na primeira e/ou na segunda fase, de modo a ser eficiente e minimizar o custo operacional. Al´em disso, h´a interesse tamb´em em aplicar a metodologia, supondo outras vari´aveis auxiliares relacionadas com a vari´avel de interesse que n˜ao somente indicadoras de presen¸ca da caracter´ıstica de interesse.
Al´em disso, dentro de uma rede ´e comum que unidades tenham frequˆencia de observa¸c˜oes que varia de acordo com a distˆancia ao centroide da rede. Por exemplo,
espera-se que unidades dentro de uma rede tenham frequˆencia de observa¸c˜oes que varia de acordo com a distˆancia ao centroide da rede. O processo pontual conglomerado de Poisson (ver Diggle et al. (1983)) ´e um exemplo de popula¸c˜ao com este comportamento. Dessa forma, uma ideia futura para o modelo de mistura proposto ´e a inser¸c˜ao de componentes espaciais na m´edia da distribui¸c˜ao da vari´avel resposta que dependam da distˆancia. Um importante aspecto a ser considerado nesta proposta futura ´e a defini¸c˜ao do centroide, visto que uma rede em geral n˜ao ´e regular. Al´em disso, a proposta seria incorporar esta estrutura espacial na parte do modelo que se ajusta `a amostra coletada, pois para a parte n˜ao amostrada n˜ao h´a conhecimento da localiza¸c˜ao e nem das unidades que comp˜oem as redes, o que inviabilizaria a ideia nestas unidades.