Ap´os a realiza¸c˜ao das simula¸c˜oes foi poss´ıvel concluir que a inferˆencia realizada sob amos- tragem preferencial ´e complexa, dependendo de fatores ligados `a intensidade deste efeito, da
Figura 6.15: Histogramas das distribui¸c˜oes a posteriori dos parˆametros do modelo sob efeito da amostragem preferencial para o processo simulado bidimensional II (os c´ırculos representam os valores verdadeiros dos parˆametros).
configura¸c˜ao do planejamento amostral e tamb´em do n´ıvel de discretiza¸c˜ao utilizado para obten¸c˜ao das distribui¸c˜oes a posteriori.
Em rela¸c˜ao ao n´ıvel da discretiza¸c˜ao, as simula¸c˜oes evidenciaram que a utiliza¸c˜ao de 100 sub-regi˜oes no caso unidimensional e 225 no caso bidimensional foram suficientes para produzir boas estimativas dos parˆametros envolvidos nos processos. Especificamente no caso bidimensional, uma discretiza¸c˜ao um pouco mais fina (simula¸c˜ao bidimensional II), com 400 sub-regi˜oes, n˜ao produziu ganhos significativamente superiores aos obtidos com 225 (si- mula¸c˜ao bidimensional I).
Figura 6.16: Histogramas das distribui¸c˜oes a posteriori dos parˆametros que configuram o efeito da amostragem preferencial para o processo simulado bidimensional II (os c´ırculos representam os valores verdadeiros dos parˆametros).
Tamb´em ´e importante mencionar que as simula¸c˜oes apresentadas neste Cap´ıtulo refle- tiram situa¸c˜oes onde o n´umero de pontos amostrais observados n˜ao era elevado. Entretanto, mesmo nestas condi¸c˜oes, a utiliza¸c˜ao dos modelos supondo a existˆencia da amostragem prefe- rencial produziu variogramas e superf´ıcies de krigagem, em geral, mais pr´oximas dos valores verdadeiros quando comparadas `as estimativas produzidas sem considerar este efeito.
Outra grande vantagem da utiliza¸c˜ao destes modelos est´a na corre¸c˜ao produzida na inferˆencia a respeito da m´edia do processo subjacente µ. Este resultado foi satisfat´orio prin- cipalmente no caso de pequenas amostras, onde as estimativas tradicionais deste parˆametro tendem a ser superestimadas (ou subestimadas, quando β < 0).
Por fim, tamb´em foi observada a capacidade que este modelo possui de identificar ´areas da regi˜ao de estudo onde o processo subjacente assume valores extremos, mesmo nas situa¸c˜oes em que n˜ao dispomos de amostras pr´oximas.
A compara¸c˜ao entre as predi¸c˜oes supondo θ conhecido refor¸cou a conclus˜ao de que que um m´etodo baseado na simples corre¸c˜ao de v´ıcio no variograma n˜ao ´e suficiente para reproduzir a verdadeira incerteza associada `a distribui¸c˜ao preditiva do processo subjacente S. Conclus˜ao equivalente foi obtida no caso da simula¸c˜ao unidimensional, onde a inferˆencia
Figura 6.17: Histogramas das distribui¸c˜oes a posteriori dos parˆametros do modelo sem considerar o efeito da amostragem preferencial para o processo simulado bidimensional II (os c´ırculos represen- tam os valores verdadeiros dos parˆametros).
para os parˆametros do modelo produziu resultados bastante semelhantes, mas o resultado da predi¸c˜ao foi significativamente distinto.
Realizando diferentes cen´arios simulados de predi¸c˜ao sob efeito de amostragem prefe- rencial, Gelfand et al. (2012) tamb´em conclu´ıram que estes efeitos afetam de forma mais significativa a predi¸c˜ao espacial do que a estima¸c˜ao dos parˆametros do modelo. Ainda neste artigo, eles discutem algumas formas de avaliar os efeitos da amostragem preferencial por meio da compara¸c˜ao de duas superf´ıcies preditas. Uma das formas de compara¸c˜ao mencio- nada por estes autores est´a associada ao erro quadr´atico de predi¸c˜ao, produzindo uma medida
Figura 6.18: Mediana a posteriori e respectivos IC 95% dos variogramas estimados pelo modelo sob amostragem preferencial (esquerda) e sem considerar este efeito (direita) para o processo simu- lado bidimensional II . Os c´ırculos representam o variograma amostral observado e a linha preta representa o verdadeiro variograma.
Figura 6.19: M´edia a posteriori da distribui¸c˜ao preditiva de S considerando (esquerda) e sem con- siderar (direita) o efeito da amostragem preferencial para o processo simulado bidimensional II.
local e uma medida global de erro.
O Erro de Predi¸c˜ao Local associado ao local x0, denotado EP L(x0), ´e definido como
Tabela 6.1: Erro de Predi¸c˜ao Global (EPG) para cada uma das simula¸c˜oes realizadas.
Simula¸c˜ao Sem Amostragem Preferencial Sob Amostragem Preferencial
Unidimensional 0.9496 0.7301
Bidimensional I 2.1336 1.6789
Bidimensional II 1.6214 1.3482
onde ˆS(x0) representa o preditor de S no local x0, isto ´e, [S(x0) | θ, y]. A partir dos EPL’s,
definimos o Erro de Predi¸c˜ao Global como
EP G = 1 |D|
Z
D
EP L(x)dx.
A Tabela 6.1 apresenta os valores de EPG para cada uma das simula¸c˜oes realizadas. Com base nesta tabela, pode-se observar a redu¸c˜ao obtida ao se considerar os efeitos da amostragem preferencial. As Figuras 6.20 e 6.21 detalham um pouco mais este resultado apresentando a distribui¸c˜ao do EPL.
Analisando-se a Figura 6.20, podemos observar que os erros de predi¸c˜ao sofrem uma redu¸c˜ao significativa para o modelo sob amostragem preferencial. Os mapas na Figura 6.21 fornecem conclus˜oes semelhantes, uma vez que os erros continuam a ser menores nas regi˜oes onde a magnitude de S ´e baixa quando o efeito da amostragem preferencial ´e levado em conta na modelagem.
Outras simula¸c˜oes de utiliza¸c˜ao desta abordagem em situa¸c˜oes onde efetivamente n˜ao h´a efeito de amostragem preferencial foram tamb´em realizadas. Nestes casos, em geral, a utiliza¸c˜ao desta abordagem produziu distribui¸c˜oes a posteriori de β centradas no valor zero e distribui¸c˜oes preditivas muito semelhantes `aquelas obtidas sem considerar o efeito da amostragem preferencial. Esta observa¸c˜ao evidencia a utilidade desta abordagem quando utilizada na forma de um teste de existˆencia de efeito de amostragem preferencial.
Figura 6.20: Boxplots dos Erros de Predi¸c˜ao Locais (EPL) considerando (esquerda) e sem considerar (direita) os efeitos da amostragem preferencial no estudo simulado unidimensional.
larmente espa¸cado, com grandes ´areas sem amostras e sem nenhum indicativo de que exista justificativa te´orica ou emp´ırica para se assumir a existˆencia de efeito de amostragem prefe- rencial, a utiliza¸c˜ao desta abordagem pode produzir resultados enganosos.
Nestes casos, a existˆencia de grandes ´areas da regi˜ao D sem observa¸c˜oes conduzir´a `a subestima¸c˜ao (quando ˆβ > 0) ou superestima¸c˜ao (quando ˆβ < 0) da m´edia do processo e produzir´a predi¸c˜oes tendenciosas, uma vez que o enganoso padr˜ao espacial das amostras ser´a levado em conta na estima¸c˜ao e predi¸c˜ao.
Figura 6.21: Mapas com os Erros de Predi¸c˜ao Locais (EPL) considerando (esquerda) e sem conside- rar (direita) os efeitos da amostragem preferencial nos estudos simulados bidimensionais I (acima) e II (abaixo).
Cap´ıtulo 7
Planejamento Amostral ´Otimo sob
Efeito de Amostragem Preferencial
Baseando-se na abordagem de M¨uller (1999) descrita no Cap´ıtulo 5, o problema de escolha do local ´otimo d∗ do planejamento amostral para processos espaciais cujas observa¸c˜oes foram obtidas via amostragem preferencial baseia-se na otimiza¸c˜ao de
U (d) = Eθ,yd|x,y[u(d, θ, yd)]. (7.1)
Para o caso onde a avalia¸c˜ao de U (d) ´e realizada com base em simula¸c˜oes de θ a partir de p(θ), temos U (d) = Eθ,yd[u(d, θ, yd)] = Z u(d, θ, yd)p(θ, yd)dθdyd = Z
u(d, θ, yd)p(yd| θ)p(θ)dθdyd
ou seja, conforme esperado, o planejamento amostral ´otimo a priori n˜ao depende do processo pontual gerador de pontos amostrais x. Sendo assim, a influˆencia da amostragem preferencial
n˜ao impacta o planejamento amostral ´otimo.
Por outro lado, quando est˜ao dispon´ıveis observa¸c˜oes x e y, utilizamos simula¸c˜oes de θ a partir de p(θ | x, y) para avalia¸c˜ao de U (d). Assim, temos
U (d) = Eθ,yd|x,y[u(d, θ, yd)]
= Z
u(d, θ, yd)p(θ, yd | x, y)dθdyd
= Z
u(d, θ, yd)p(yd| θ, x, y)p(θ | x, y)dθdyd
onde p(θ | x, y) ´e obtida conforme apresentado no Cap´ıtulo 6. Por fim, dada a distribui¸c˜ao a posteriori de θ e a fun¸c˜ao utilidade, procede-se ao planejamento amostral ´otimo por meio da obten¸c˜ao da moda a posteriori da pseudo-distribui¸c˜ao de d.
A dificuldade maior nesta etapa consiste em analisar os efeitos da amostragem prefe- rencial na fun¸c˜ao utilidade u(d, θ, yd). Em muitos casos, a pr´opria avalia¸c˜ao desta fun¸c˜ao
torna-se n˜ao-trivial.
Conforme observado no Cap´ıtulo anterior, a amostragem preferencial impacta direta- mente na estima¸c˜ao da m´edia µ do processo Gaussiano subjacente. Se a fun¸c˜ao utilidade u(d, θ, yd) depender diretamente deste parˆametro, como nos casos em que existe uma maior
utilidade quando o processo assume valores extremos, o planejamento amostral ´otimo ser´a grandemente afetado.
Por outro lado, seria esperado que a amostragem preferencial tamb´em afetasse significa- tivamente fun¸c˜oes utilidade definidas de forma a quantificar redu¸c˜oes de incerteza associadas ao ponto amostral escolhido. A raz˜ao para isto reside no fato da configura¸c˜ao espacial dos pontos amostrais tamb´em fornecer informa¸c˜ao a respeito do processo subjacente. Em outras palavras, se β > 0 e em determinada sub-regi˜ao D0, D0 ⊂ D, se observa que n˜ao h´a pon- tos amostrais observados, podemos concluir que a magnitude do processo subjacente S(x) ´e baixa em x ∈ D0. Conclus˜oes an´alogas podem ser obtidas caso β < 0.
cluir a informa¸c˜ao obtida por meio da configura¸c˜ao observada do processo pontual x, isto ´e,
u(d, θ, yd) =
Z
[V (S(x) | θ, x, y) − V (S | θ, x, y, yd)]dx, (7.2)
e precisar´ıamos conhecer a variˆancia da distribui¸c˜ao de [S | θ, x, y]. Apesar de obtermos amostras desta distribui¸c˜ao durante a implementa¸c˜ao do MCMC descrito no Cap´ıtulo 6, n˜ao temos como obter diretamente estimativas desta variˆancia a cada itera¸c˜ao do algoritmo. Para contornar esta dificuldade uma aproxima¸c˜ao desta distribui¸c˜ao ser´a obtida a fim de que seja poss´ıvel avaliar os impactos da amostragem preferencial no planejamento amostral ´otimo. Como alternativa, optou-se por realizar uma simples aproxima¸c˜ao na fun¸c˜ao
p(x | S, α, β) ∝ M Y i=1 [exp(α + βS(xi))]niexp(−∆ X i exp(α + βS(xi))).
Mais especificamente, utilizando o resultado da expans˜ao da fun¸c˜ao exponencial em s´eries de Taylor at´e o termo de segunda ordem em torno do ponto zero, foi obtida a seguinte aproxima¸c˜ao X i exp(α + βS(xi)) ≈ eα 1M+ β1M0S + β2 2 S 0 S .
Inserindo esta aproxima¸c˜ao em p(x | S, α, β), pode-se mostrar que a distribui¸c˜ao con- dicional completa de [S | θ, y, x] torna-se Gaussiana com vetor de m´edias Θ e matriz de covariˆancias Σ dados por
Θ = Σ × (yn− µn)τ−2+ βn − ∆βeαn −∆βeα1 N (7.3) e
Σ = (τ−2+ ∆β2eα)I n+ R−1n Rn,NA−1RN,nRn−1+ σ−2R−1n −R−1n Rn,NA−1 −A−1R N,nR−1n ∆β2eαIN + A−1 −1 , (7.4) onde A = σ2R
N− σ2RN,nR−1n Rn,N e os vetores n e yn representam o n´umero de observa¸c˜oes
e os totais observados em cada sub-regi˜ao de D. Assim, a variˆancia preditiva para um local n˜ao-observado xNi pode ser aproximada pelo elemento correspondente da diagonal de Σ, isto
´e, ΣNi,Ni.
Caso β = 0, esta matriz torna-se equivalente `a matriz de covariˆancias da distribui¸c˜ao preditiva de S tradicionalmente obtida pelos m´etodos de inferˆencia em Geoestat´ıstica, pro- duzindo
V (SNi | θ, y, x) ≈ σ
2R
N − σ2RN,n(σ2Rn+ Inτ2)−1σ2Rn,N,
onde os ´ındices n e N indicam os blocos da matriz de covariˆancia associados aos locais observados e n˜ao-observados, respectivamente.
7.1
Estudo de simula¸c˜ao unidimensional
Utilizando o exemplo simulado apresentado no Cap´ıtulo 6, vamos ilustrar os efeitos da amos- tragem preferencial no processo de defini¸c˜ao do planejamento amostral ´otimo unidimensional. Para posterior avalia¸c˜ao da fun¸c˜ao utilidade, foi utilizada ainda uma grade auxiliar de 83 pon- tos para o c´alculo da redu¸c˜ao m´edia das variˆancias preditivas.
A partir das amostras das distribui¸c˜oes a posteriori foram obtidas as amostras da pseudo-distribui¸c˜ao u(d) no caso onde existe a influˆencia da amostragem preferencial e para o caso onde este efeito n˜ao est´a presente.
e para o caso onde esta suposi¸c˜ao n˜ao ´e realizada, respectivamente.
Figura 7.1: Histograma da pseudo-distribui¸c˜ao a posteriori de d considerando (esquerda) e sem considerar (direita) o efeito da amostragem preferencial no exemplo simulado unidimensional.
Analisando-se os histogramas pode-se notar que o planejamento amostral ´otimo sem considerar o efeito da amostragem preferencial aponta fortemente para a escolha de um local na regi˜ao menos amostrada da s´erie, isto ´e, no intervalo [5, 35]. Por outro lado, quando o efeito da amostragem preferencial ´e captado, esta percep¸c˜ao ´e totalmente alterada. Neste caso, exceto no intervalo onde existem v´arias amostras observadas, os demais intervalos possuem utilidade esperada aproximadamente equivalentes. Em resumo, a considera¸c˜ao do efeito da amostragem preferencial alterou significativamente o processo decis´orio do planejamento amostral ´otimo.
7.2
Estudo de simula¸c˜ao bidimensional I
Partindo do caso bidimensional I analisado anteriormente, foram obtidas as amostras da pseudo-distribui¸c˜ao u(d) nos casos onde temos a influˆencia da amostragem preferencial e para o caso onde este efeito n˜ao est´a presente. Foi utilizada ainda uma grade auxiliar de 900
pontos para o c´alculo da redu¸c˜ao m´edia das variˆancias preditivas para posterior avalia¸c˜ao da fun¸c˜ao utilidade.
As Figuras 7.2 e 7.3 apresentam as pseudo-distribui¸c˜oes do local amostral ´otimo d obtidas para os dois casos. Analisando-se ambas as figuras pode-se notar que as ´areas com maior utilidade esperada s˜ao significativamente diferentes para os dois modelos. Conforme esperado, o planejamento amostral ´otimo sem considerar o efeito da amostragem preferencial acaba sendo direcionado para os locais mais distantes dos pontos amostrais observados. Por outro lado, o modelo que considera estes efeitos distribui as maiores utilidades esperadas entre v´arias sub-regi˜oes da regi˜ao D, alocando baixa utilidade apenas nas sub-regi˜oes onde foram observados os pontos amostrais.
Figura 7.2: Pseudo-distribui¸c˜ao a posteriori de d considerando o efeito da amostragem preferen- cial para o exemplo simulado bidimensional I. Os valores da densidade desta pseudo-distribui¸c˜ao encontram-se multiplicados por 100 para melhor visualiza¸c˜ao.
Figura 7.3: Pseudo-distribui¸c˜ao a posteriori de d sem considerar o efeito da amostragem preferen- cial para o exemplo simulado bidimensional I. Os valores da densidade desta pseudo-distribui¸c˜ao encontram-se multiplicados por 100 para melhor visualiza¸c˜ao.
7.3
Estudo de simula¸c˜ao bidimensional II
Por fim, as Figuras 7.4 e 7.5 apresentam as pseudo-distribui¸c˜oes do local amostral ´otimo d obtidas para os dados da simula¸c˜ao bidimensional II no caso onde supomos a presen¸ca do efeito da amostragem preferencial e no caso onde esta suposi¸c˜ao n˜ao ´e realizada, respecti- vamente. Foi utilizada ainda uma grade auxiliar de 400 pontos para o c´alculo da redu¸c˜ao m´edia das variˆancias preditivas para posterior avalia¸c˜ao da fun¸c˜ao utilidade.
Assim como nas simula¸c˜oes anteriores, o padr˜ao de altera¸c˜ao na decis˜ao do planejamento amostral ´otimo sob amostragem preferencial parece seguir a mesma dire¸c˜ao, isto ´e, apontando para uma distribui¸c˜ao de utilidades mais homogˆenea entre os diferentes locais candidatos a novo ponto amostral.
Figura 7.4: Pseudo-distribui¸c˜ao a posteriori de d considerando o efeito da amostragem preferen- cial para o exemplo simulado bidimensional II. Os valores da densidade desta pseudo-distribui¸c˜ao encontram-se multiplicados por 100 para melhor visualiza¸c˜ao.
7.4
Considera¸c˜oes a respeito das simula¸c˜oes
Ap´os a realiza¸c˜ao das simula¸c˜oes pode-se concluir que a considera¸c˜ao do efeito da amostra- gem preferencial altera significativamente o processo decis´orio de escolha de um novo ponto amostral.
Os trˆes casos simulados envolviam processos cujos resultados obtidos no processo de inferˆencia pelos dois modelos variavam significativamente. Curiosamente, mesmo no caso da simula¸c˜ao unidimensional, onde os variogramas estimados eram bastante pr´oximos, o pro- cesso de obten¸c˜ao do planejamento amostral ´otimo conduziu `a resultados significativamente distintos.
Figura 7.5: Pseudo-distribui¸c˜ao a posteriori de d sem considerar o efeito da amostragem preferen- cial para o exemplo simulado bidimensional II. Os valores da densidade desta pseudo-distribui¸c˜oes encontra-se multiplicado por 100 para melhor visualiza¸c˜ao.
e intrinsicamente associada aos objetivos da Geoestat´ıstica, outras fun¸c˜oes poderiam ser consideradas. De acordo com os resultados obtidos nesta tese, acredita-se que a utiliza¸c˜ao de fun¸c˜oes utilidade que dependam da m´edia do processo subjacente podem ser tamb´em bastante impactadas pelos efeitos da amostragem preferencial, conforme ser´a evidenciado na aplica¸c˜ao descrita no Cap´ıtulo 8.
Existem ainda outros fatores com elevado potencial de influˆencia nos resultados, como a escolha da malha auxiliar (utilizada para avalia¸c˜ao da redu¸c˜ao da variˆancia preditiva), bem como o n´ıvel de discretiza¸c˜ao da regi˜ao D em estudo. Entretanto, o elevado custo computacional associado `a aplica¸c˜ao de metodologias de otimiza¸c˜ao de fun¸c˜oes torna-se um desafio e uma barreira para a avalia¸c˜ao de grau de influˆencia marginal de cada um destes efeitos.
pode-se ainda utilizar a estrat´egia de MCMC com simulated annealing, descrita no Cap´ıtulo 5, para evitar a obten¸c˜ao de pseudo-distribui¸c˜oes U (d) demasiadamente planas e auxiliar na identifica¸c˜ao das ´areas com maior utilidade esperada.