Considera¸c˜ oes a respeito das simula¸c˜ oes

Após a realiza¸cão das simula¸cões foi poss´ıvel concluir que a inferência realizada sob amostragem preferencial é complexa, dependendo de fatores ligados à intensidade deste efeito, da

Figura 6.15: Histogramas das distribui¸cões a posteriori dos parâmetros do modelo sob efeito da amostragem preferencial para o processo simulado bidimensional II (os c´ırculos representam os valores verdadeiros dos parâmetros).

configura¸cão do planejamento amostral e também do n´ıvel de discretiza¸cão utilizado para obten¸cão das distribui¸cões a posteriori.

Em rela¸cão ao n´ıvel da discretiza¸cão, as simula¸cões evidenciaram que a utiliza¸cão de 100 sub-regiões no caso unidimensional e 225 no caso bidimensional foram suficientes para produzir boas estimativas dos parâmetros envolvidos nos processos. Especificamente no caso bidimensional, uma discretiza¸cão um pouco mais fina (simula¸cão bidimensional II), com 400 sub-regiões, não produziu ganhos significativamente superiores aos obtidos com 225 (simula¸cão bidimensional I).

Figura 6.16: Histogramas das distribui¸cões a posteriori dos parâmetros que configuram o efeito da amostragem preferencial para o processo simulado bidimensional II (os c´ırculos representam os valores verdadeiros dos parâmetros).

Também é importante mencionar que as simula¸cões apresentadas neste Cap´ıtulo refle- tiram situa¸cões onde o número de pontos amostrais observados não era elevado. Entretanto, mesmo nestas condi¸cões, a utiliza¸cão dos modelos supondo a existência da amostragem preferencial produziu variogramas e superf´ıcies de krigagem, em geral, mais próximas dos valores verdadeiros quando comparadas às estimativas produzidas sem considerar este efeito.

Outra grande vantagem da utiliza¸cão destes modelos está na corre¸cão produzida na inferência a respeito da média do processo subjacente µ. Este resultado foi satisfatório prin- cipalmente no caso de pequenas amostras, onde as estimativas tradicionais deste parâmetro tendem a ser superestimadas (ou subestimadas, quando β < 0).

Por fim, também foi observada a capacidade que este modelo possui de identificar áreas da região de estudo onde o processo subjacente assume valores extremos, mesmo nas situa¸cões em que não dispomos de amostras próximas.

A compara¸cão entre as predi¸cões supondo θ conhecido refor¸cou a conclusão de que que um método baseado na simples corre¸cão de v´ıcio no variograma não é suficiente para reproduzir a verdadeira incerteza associada à distribui¸cão preditiva do processo subjacente S. Conclusão equivalente foi obtida no caso da simula¸cão unidimensional, onde a inferência

Figura 6.17: Histogramas das distribui¸cões a posteriori dos parâmetros do modelo sem considerar o efeito da amostragem preferencial para o processo simulado bidimensional II (os c´ırculos representam os valores verdadeiros dos parâmetros).

para os parˆametros do modelo produziu resultados bastante semelhantes, mas o resultado da predi¸c˜ao foi significativamente distinto.

Realizando diferentes cenários simulados de predi¸cão sob efeito de amostragem preferencial, Gelfand et al. (2012) também conclu´ıram que estes efeitos afetam de forma mais significativa a predi¸cão espacial do que a estima¸cão dos parâmetros do modelo. Ainda neste artigo, eles discutem algumas formas de avaliar os efeitos da amostragem preferencial por meio da compara¸cão de duas superf´ıcies preditas. Uma das formas de compara¸cão mencio- nada por estes autores está associada ao erro quadrático de predi¸cão, produzindo uma medida

Figura 6.18: Mediana a posteriori e respectivos IC 95% dos variogramas estimados pelo modelo sob amostragem preferencial (esquerda) e sem considerar este efeito (direita) para o processo simulado bidimensional II . Os c´ırculos representam o variograma amostral observado e a linha preta representa o verdadeiro variograma.

Figura 6.19: M´edia a posteriori da distribui¸c˜ao preditiva de S considerando (esquerda) e sem considerar (direita) o efeito da amostragem preferencial para o processo simulado bidimensional II.

local e uma medida global de erro.

O Erro de Predi¸c˜ao Local associado ao local x0, denotado EP L(x0), ´e definido como

Tabela 6.1: Erro de Predi¸c˜ao Global (EPG) para cada uma das simula¸c˜oes realizadas.

Simula¸c˜ao Sem Amostragem Preferencial Sob Amostragem Preferencial

Unidimensional 0.9496 0.7301

Bidimensional I 2.1336 1.6789

Bidimensional II 1.6214 1.3482

onde ˆS(x0) representa o preditor de S no local x0, isto ´e, [S(x0) | θ, y]. A partir dos EPL’s,

definimos o Erro de Predi¸c˜ao Global como

EP G = 1 |D|

EP L(x)dx.

A Tabela 6.1 apresenta os valores de EPG para cada uma das simula¸cões realizadas. Com base nesta tabela, pode-se observar a redu¸cão obtida ao se considerar os efeitos da amostragem preferencial. As Figuras 6.20 e 6.21 detalham um pouco mais este resultado apresentando a distribui¸cão do EPL.

Analisando-se a Figura 6.20, podemos observar que os erros de predi¸cão sofrem uma redu¸cão significativa para o modelo sob amostragem preferencial. Os mapas na Figura 6.21 fornecem conclusões semelhantes, uma vez que os erros continuam a ser menores nas regiões onde a magnitude de S é baixa quando o efeito da amostragem preferencial é levado em conta na modelagem.

Outras simula¸cões de utiliza¸cão desta abordagem em situa¸cões onde efetivamente não há efeito de amostragem preferencial foram também realizadas. Nestes casos, em geral, a utiliza¸cão desta abordagem produziu distribui¸cões a posteriori de β centradas no valor zero e distribui¸cões preditivas muito semelhantes àquelas obtidas sem considerar o efeito da amostragem preferencial. Esta observa¸cão evidencia a utilidade desta abordagem quando utilizada na forma de um teste de existência de efeito de amostragem preferencial.

Figura 6.20: Boxplots dos Erros de Predi¸c˜ao Locais (EPL) considerando (esquerda) e sem considerar (direita) os efeitos da amostragem preferencial no estudo simulado unidimensional.

larmente espa¸cado, com grandes áreas sem amostras e sem nenhum indicativo de que exista justificativa teórica ou emp´ırica para se assumir a existência de efeito de amostragem preferencial, a utiliza¸cão desta abordagem pode produzir resultados enganosos.

Nestes casos, a existência de grandes áreas da região D sem observa¸cões conduzirá à subestima¸cão (quando ˆβ > 0) ou superestima¸cão (quando ˆβ < 0) da média do processo e produzirá predi¸cões tendenciosas, uma vez que o enganoso padrão espacial das amostras será levado em conta na estima¸cão e predi¸cão.

Figura 6.21: Mapas com os Erros de Predi¸c˜ao Locais (EPL) considerando (esquerda) e sem considerar (direita) os efeitos da amostragem preferencial nos estudos simulados bidimensionais I (acima) e II (abaixo).

Cap´ıtulo 7

Planejamento Amostral ´Otimo sob

Efeito de Amostragem Preferencial

Baseando-se na abordagem de Müller (1999) descrita no Cap´ıtulo 5, o problema de escolha do local ótimo d∗ do planejamento amostral para processos espaciais cujas observa¸cões foram obtidas via amostragem preferencial baseia-se na otimiza¸cão de

U (d) = Eθ,yd|x,y[u(d, θ, yd)]. (7.1)

Para o caso onde a avalia¸cão de U (d) é realizada com base em simula¸cões de θ a partir de p(θ), temos U (d) = Eθ,yd[u(d, θ, yd)] = Z u(d, θ, yd)p(θ, yd)dθdyd = Z

u(d, θ, yd)p(yd| θ)p(θ)dθdyd

ou seja, conforme esperado, o planejamento amostral ótimo a priori não depende do processo pontual gerador de pontos amostrais x. Sendo assim, a influência da amostragem preferencial

n˜ao impacta o planejamento amostral ´otimo.

Por outro lado, quando estão dispon´ıveis observa¸cões x e y, utilizamos simula¸cões de θ a partir de p(θ | x, y) para avalia¸cão de U (d). Assim, temos

U (d) = Eθ,yd|x,y[u(d, θ, yd)]

= Z

u(d, θ, yd)p(θ, yd | x, y)dθdyd

= Z

u(d, θ, yd)p(yd| θ, x, y)p(θ | x, y)dθdyd

onde p(θ | x, y) é obtida conforme apresentado no Cap´ıtulo 6. Por fim, dada a distribui¸cão a posteriori de θ e a fun¸cão utilidade, procede-se ao planejamento amostral ótimo por meio da obten¸cão da moda a posteriori da pseudo-distribui¸cão de d.

A dificuldade maior nesta etapa consiste em analisar os efeitos da amostragem preferencial na fun¸cão utilidade u(d, θ, yd). Em muitos casos, a própria avalia¸cão desta fun¸cão

torna-se n˜ao-trivial.

Conforme observado no Cap´ıtulo anterior, a amostragem preferencial impacta diretamente na estima¸cão da média µ do processo Gaussiano subjacente. Se a fun¸cão utilidade u(d, θ, yd) depender diretamente deste parâmetro, como nos casos em que existe uma maior

utilidade quando o processo assume valores extremos, o planejamento amostral ´otimo ser´a grandemente afetado.

Por outro lado, seria esperado que a amostragem preferencial também afetasse significativamente fun¸cões utilidade definidas de forma a quantificar redu¸cões de incerteza associadas ao ponto amostral escolhido. A razão para isto reside no fato da configura¸cão espacial dos pontos amostrais também fornecer informa¸cão a respeito do processo subjacente. Em outras palavras, se β > 0 e em determinada sub-região D0, D0 ⊂ D, se observa que não há pontos amostrais observados, podemos concluir que a magnitude do processo subjacente S(x) é baixa em x ∈ D0. Conclusões análogas podem ser obtidas caso β < 0.

cluir a informa¸cão obtida por meio da configura¸cão observada do processo pontual x, isto é,

u(d, θ, yd) =

[V (S(x) | θ, x, y) − V (S | θ, x, y, yd)]dx, (7.2)

e precisar´ıamos conhecer a variância da distribui¸cão de [S | θ, x, y]. Apesar de obtermos amostras desta distribui¸cão durante a implementa¸cão do MCMC descrito no Cap´ıtulo 6, não temos como obter diretamente estimativas desta variância a cada itera¸cão do algoritmo. Para contornar esta dificuldade uma aproxima¸cão desta distribui¸cão será obtida a fim de que seja poss´ıvel avaliar os impactos da amostragem preferencial no planejamento amostral ótimo. Como alternativa, optou-se por realizar uma simples aproxima¸cão na fun¸cão

p(x | S, α, β) ∝ M Y i=1 [exp(α + βS(xi))]niexp(−∆ X i exp(α + βS(xi))).

Mais especificamente, utilizando o resultado da expansão da fun¸cão exponencial em séries de Taylor até o termo de segunda ordem em torno do ponto zero, foi obtida a seguinte aproxima¸cão X i exp(α + βS(xi)) ≈ eα 1M+ β1M0S + β2 2 S 0 S .

Inserindo esta aproxima¸cão em p(x | S, α, β), pode-se mostrar que a distribui¸cão con- dicional completa de [S | θ, y, x] torna-se Gaussiana com vetor de médias Θ e matriz de covariâncias Σ dados por

Θ = Σ ×   (yn− µn)τ−2+ βn − ∆βeαn −∆βeα₁ N   (7.3) e

Σ =   (τ−2+ ∆β2_eα_)I n+ R−1n Rn,NA−1RN,nRn−1+ σ−2R−1n −R−1n Rn,NA−1 −A−1_R N,nR−1n ∆β2eαIN + A−1   −1 , (7.4) onde A = σ2_R

N− σ2RN,nR−1n Rn,N e os vetores n e yn representam o n´umero de observa¸c˜oes

e os totais observados em cada sub-região de D. Assim, a variância preditiva para um local não-observado xNi pode ser aproximada pelo elemento correspondente da diagonal de Σ, isto

´e, ΣNi,Ni.

Caso β = 0, esta matriz torna-se equivalente à matriz de covariâncias da distribui¸cão preditiva de S tradicionalmente obtida pelos métodos de inferência em Geoestat´ıstica, produzindo

V (SNi | θ, y, x) ≈ σ

2_R

N − σ2RN,n(σ2Rn+ Inτ2)−1σ2Rn,N,

onde os ´ındices n e N indicam os blocos da matriz de covariˆancia associados aos locais observados e n˜ao-observados, respectivamente.

7.1 Estudo de simula¸c˜ao unidimensional

Utilizando o exemplo simulado apresentado no Cap´ıtulo 6, vamos ilustrar os efeitos da amostragem preferencial no processo de defini¸cão do planejamento amostral ótimo unidimensional. Para posterior avalia¸cão da fun¸cão utilidade, foi utilizada ainda uma grade auxiliar de 83 pontos para o cálculo da redu¸cão média das variâncias preditivas.

A partir das amostras das distribui¸cões a posteriori foram obtidas as amostras da pseudo-distribui¸cão u(d) no caso onde existe a influência da amostragem preferencial e para o caso onde este efeito não está presente.

e para o caso onde esta suposi¸cão não é realizada, respectivamente.

Figura 7.1: Histograma da pseudo-distribui¸c˜ao a posteriori de d considerando (esquerda) e sem considerar (direita) o efeito da amostragem preferencial no exemplo simulado unidimensional.

Analisando-se os histogramas pode-se notar que o planejamento amostral ótimo sem considerar o efeito da amostragem preferencial aponta fortemente para a escolha de um local na região menos amostrada da série, isto é, no intervalo [5, 35]. Por outro lado, quando o efeito da amostragem preferencial é captado, esta percep¸cão é totalmente alterada. Neste caso, exceto no intervalo onde existem várias amostras observadas, os demais intervalos possuem utilidade esperada aproximadamente equivalentes. Em resumo, a considera¸cão do efeito da amostragem preferencial alterou significativamente o processo decisório do planejamento amostral ótimo.

7.2 Estudo de simula¸c˜ao bidimensional I

Partindo do caso bidimensional I analisado anteriormente, foram obtidas as amostras da pseudo-distribui¸cão u(d) nos casos onde temos a influência da amostragem preferencial e para o caso onde este efeito não está presente. Foi utilizada ainda uma grade auxiliar de 900

pontos para o cálculo da redu¸cão média das variâncias preditivas para posterior avalia¸cão da fun¸cão utilidade.

As Figuras 7.2 e 7.3 apresentam as pseudo-distribui¸cões do local amostral ótimo d obtidas para os dois casos. Analisando-se ambas as figuras pode-se notar que as áreas com maior utilidade esperada são significativamente diferentes para os dois modelos. Conforme esperado, o planejamento amostral ótimo sem considerar o efeito da amostragem preferencial acaba sendo direcionado para os locais mais distantes dos pontos amostrais observados. Por outro lado, o modelo que considera estes efeitos distribui as maiores utilidades esperadas entre várias sub-regiões da região D, alocando baixa utilidade apenas nas sub-regiões onde foram observados os pontos amostrais.

Figura 7.2: Pseudo-distribui¸cão a posteriori de d considerando o efeito da amostragem preferencial para o exemplo simulado bidimensional I. Os valores da densidade desta pseudo-distribui¸cão encontram-se multiplicados por 100 para melhor visualiza¸cão.

Figura 7.3: Pseudo-distribui¸cão a posteriori de d sem considerar o efeito da amostragem preferencial para o exemplo simulado bidimensional I. Os valores da densidade desta pseudo-distribui¸cão encontram-se multiplicados por 100 para melhor visualiza¸cão.

7.3 Estudo de simula¸c˜ao bidimensional II

Por fim, as Figuras 7.4 e 7.5 apresentam as pseudo-distribui¸cões do local amostral ótimo d obtidas para os dados da simula¸cão bidimensional II no caso onde supomos a presen¸ca do efeito da amostragem preferencial e no caso onde esta suposi¸cão não é realizada, respectivamente. Foi utilizada ainda uma grade auxiliar de 400 pontos para o cálculo da redu¸cão média das variâncias preditivas para posterior avalia¸cão da fun¸cão utilidade.

Assim como nas simula¸cões anteriores, o padrão de altera¸cão na decisão do planejamento amostral ótimo sob amostragem preferencial parece seguir a mesma dire¸cão, isto é, apontando para uma distribui¸cão de utilidades mais homogênea entre os diferentes locais candidatos a novo ponto amostral.

Figura 7.4: Pseudo-distribui¸cão a posteriori de d considerando o efeito da amostragem preferencial para o exemplo simulado bidimensional II. Os valores da densidade desta pseudo-distribui¸cão encontram-se multiplicados por 100 para melhor visualiza¸cão.

7.4 Considera¸c˜oes a respeito das simula¸c˜oes

Após a realiza¸cão das simula¸cões pode-se concluir que a considera¸cão do efeito da amostragem preferencial altera significativamente o processo decisório de escolha de um novo ponto amostral.

Os três casos simulados envolviam processos cujos resultados obtidos no processo de inferência pelos dois modelos variavam significativamente. Curiosamente, mesmo no caso da simula¸cão unidimensional, onde os variogramas estimados eram bastante próximos, o processo de obten¸cão do planejamento amostral ótimo conduziu à resultados significativamente distintos.

Figura 7.5: Pseudo-distribui¸cão a posteriori de d sem considerar o efeito da amostragem preferencial para o exemplo simulado bidimensional II. Os valores da densidade desta pseudo-distribui¸cões encontra-se multiplicado por 100 para melhor visualiza¸cão.

e intrinsicamente associada aos objetivos da Geoestat´ıstica, outras fun¸cões poderiam ser consideradas. De acordo com os resultados obtidos nesta tese, acredita-se que a utiliza¸cão de fun¸cões utilidade que dependam da média do processo subjacente podem ser também bastante impactadas pelos efeitos da amostragem preferencial, conforme será evidenciado na aplica¸cão descrita no Cap´ıtulo 8.

Existem ainda outros fatores com elevado potencial de influência nos resultados, como a escolha da malha auxiliar (utilizada para avalia¸cão da redu¸cão da variância preditiva), bem como o n´ıvel de discretiza¸cão da região D em estudo. Entretanto, o elevado custo computacional associado à aplica¸cão de metodologias de otimiza¸cão de fun¸cões torna-se um desafio e uma barreira para a avalia¸cão de grau de influência marginal de cada um destes efeitos.

pode-se ainda utilizar a estratégia de MCMC com simulated annealing, descrita no Cap´ıtulo 5, para evitar a obten¸cão de pseudo-distribui¸cões U (d) demasiadamente planas e auxiliar na identifica¸cão das áreas com maior utilidade esperada.

No documento Planejamento Amostral Ótimo em Geoestatística sob Efeito de Amostragem Preferencial (páginas 73-90)