• Nenhum resultado encontrado

Estimação do variograma por meio da máxima verossimilhança

N/A
N/A
Protected

Academic year: 2022

Share "Estimação do variograma por meio da máxima verossimilhança"

Copied!
50
0
0

Texto

(1)

Universidade de Bras´ılia Instituto de Ciˆ encias Exatas Departamento de Estat´ıstica

Estima¸ c˜ ao do Variograma por meio da M´ axima Verossimilhan¸ ca.

Winderson Ronielli Soares Junior 13/0018716

Bras´ılia

2017

(2)

Winderson Ronielli Soares Junior 13/0018716

Estima¸ c˜ ao do Variograma por meio da M´ axima Verossimilhan¸ ca.

Relat´orio apresentado `a disciplina Est´agio Supervisionado II do curso de gradua¸c˜ao em Estat´ıstica, Departamento de Es- tat´ıstica, Instituto de Exatas, Universidade de Bras´ılia, como parte dos requisitos necess´arios para o grau de Bacharel em Estat´ıstica.

Orientador: Prof. Dr. Alan Ricardo da Silva

Bras´ılia

2017

(3)

Agradecimentos

Agrade¸co primeiramente aos meus pais, Winderson e Maria, por todo o apoio, amor e investimento na minha forma¸c˜ao pessoal e profissional. `A minha irm˜a, Julia, por ter me aturado durante toda a sua vida e, principalmente, aguentado meus mo- mentos de estresse durante a elabora¸c˜ao desse trabalho. Agrade¸co `a minha incr´ıvel namorada, Karina, pelos nossos perfeitos momentos juntos e por todo o amor, cari- nho, paciˆenca, compreens˜ao e dedica¸c˜ao dados a mim e ao nosso relacionamento.

Agrade¸co `a minha fam´ılia, em especial meus tios Cleisson, Vˆania, Doney e Junior, por todo apoio e ajuda, por acreditarem no meu potencial e por todo o entendimento nos momentos de fam´ılia que n˜ao pude estar presente. Agrade¸co aos meus amigos de curso, em especial Marina, Isabella, Bruno, Lais, Filipi e Giovanna, um imenso obrigado por todos os momentos de ajuda, companheirismo e estudo que tivemos.

Agrade¸co `a ESTAT Consultoria, DETRAN-DF e CDS University por todo o conhecimento repassado, as experiˆencias e desafios que me fizeram crescer como pessoa e profissional.

Agrade¸co a todos os professores do Departamento de Estat´ıstica da Universidade de Bras´ılia pela dedica¸c˜ao e conhecimentos repassados, em especial `a professora Ana Maria, pelas oportunidades de inicia¸c˜ao cient´ıfica, `a professora Maria Teresa, por todo o apoio e ajuda durante a gradua¸c˜ao e ao professor e orientador Alan Ricardo, por ter me dado essa oportunidade de desenvolvimento intelectual e suporte durante a realiza¸c˜ao deste trabalho.

(4)

Resumo

A geoestat´ıstica tem por objetivo caracterizar espacialmente uma vari´avel com um atributo de interesse mediante o estudo de sua distribui¸c˜ao e variabilidade es- pacial, determinando desta forma, suas incertezas associadas. O variograma ´e o primeiro passo na busca do conhecimento sobre a distribui¸c˜ao e o comportamento dos dados e a krigagem ´e uma t´ecnica de interpola¸c˜ao que auxilia no entendimento da variabilidade e que parte da premissa que pontos pr´oximos tendem a ter valores mais homogˆeneos do que pontos mais distantes.

Realizar o ajuste do variograma aos dados ´e, em geral, um trabalho subjetivo e que requer muita cautela na hora de escolher qual o melhor conjunto de parˆametros lagelag distance. Este trabalho prop˜oe implementar a t´ecnica de m´axima verossimi- lhan¸ca para estima¸c˜ao do variograma no software SAS 9.4 e comparar os resultados com a t´ecnica de minimos quadrados.

O m´etodo de M´axima Verossimilhan¸ca ´e uma t´ecnica bastante difundida nos

´

ultimos anos, devido aos avan¸cos computacionais, e ´e capaz de estimar a fun¸c˜ao de distribui¸c˜ao sem a necessidade de parˆametros subjetivos. Sua problem´atica est´a no fato de ter um certo grau de sensibilidade na hora de convergˆencia para o ponto

´

otimo e isso pode acarretar, dependendo das informa¸c˜oes iniciais, na convergˆencia para parˆametros n˜ao-´otimos. Al´em disso, ´e proposto um algoritmo em SAS/IML para a automatiza¸c˜ao da t´ecnica.

Os resultados obtidos mostram que os parˆametros estimados pela m´axima veros- similhan¸ca se ajustam melhor aos dados do que os obtidos pelos m´ınimos quadrados, e al´em disso, os erros padr˜ao de estima¸c˜ao da krigagem foram menores nessa t´ecnica.

Palavras-chaves: m´axima verossimilhan¸ca, m´ınimos quadrados, variograma, kriga- gem.

(5)

Lista de Tabelas

4.1 Estat´ısticas Descritivas do log de Chumbo . . . 24 4.2 Modelos de semivariograma para o log de Chumbo . . . 25 4.3 Estimativas dos m´etodos de estima¸c˜ao pelo modelo Seno para o log

de Chumbo . . . 26 4.4 Estat´ısticas Descritivas das Estimativas da Krigagem Ordin´aria para

o log de Chumbo . . . 28 4.5 Estat´ısticas Descritivas das Diferen¸cas (MV - MQP) para o log de

Chumbo . . . 29 4.6 Estat´ısticas Descritivas da eleva¸c˜ao . . . 31 4.7 Modelos de semivariograma para a eleva¸c˜ao . . . 32 4.8 Estimativas dos m´etodos de estima¸c˜ao pelo modelo Seno para a eleva¸c˜ao 33 4.9 Estat´ısticas Descritivas das Estimativas da Krigagem Ordin´aria para

a eleva¸c˜ao . . . 34 4.10 Estat´ısticas Descritivas das Diferen¸cas (MV - MQP) para a eleva¸c˜ao . 37

(6)

Lista de Figuras

2.1 Parˆametros do semivariograma . . . 6

2.2 Variograma e Covariograma . . . 9

3.1 Rio Meuse . . . 17

3.2 Eleva¸c˜ao da superf´ıcie nos pontos de coleta . . . 18

4.1 Modelo de semivariograma te´orico ajustado ao experimental para o log de Chumbo . . . 25

4.2 Krigagem Ordin´aria atrav´es do m´etodo de m´ınimos quadrados para o log de Chumbo . . . 27

4.3 Krigagem Ordin´aria atrav´es do m´etodo de m´axima verossimilhan¸ca para o log de Chumbo . . . 28

4.4 Krigagem Ordin´aria da diferen¸ca entre os m´etodos (MV - MQP) - ltpb 31 4.5 Modelo de semivariograma te´orico ajustado ao experimental para a eleva¸c˜ao . . . 32

4.6 Krigagem Ordin´aria atrav´es do m´etodo de m´ınimos quadrados para a eleva¸c˜ao . . . 34

4.7 Krigagem Ordin´aria atrav´es do m´etodo de m´axima verossimilhan¸ca para a eleva¸c˜ao . . . 35

4.8 Krigagem Ordin´aria da diferen¸ca entre os m´etodos (MV - MQP) para a eleva¸c˜ao . . . 36

(7)

Sum´ ario

Resumo iii

1 INTRODUC¸ ˜AO 1

1.1 OBJETIVOS . . . 2

2 GEOESTAT´ISTICA 3 2.1 INTRODUC¸ ˜AO . . . 3

2.2 TEORIA DAS VARI ´AVEIS REGIONALIZADAS . . . 4

2.3 VARIOGRAMA . . . 4

2.4 ESTIMAC¸ ˜AO DOS PAR ˆAMETROS . . . 10

2.4.1 M´ınimos Quadrados Ponderados . . . 10

2.4.2 M´axima Verossimilhan¸ca . . . 11

2.5 KRIGAGEM . . . 13

2.5.1 Krigagem Ordin´aria . . . 14

3 MATERIAL E M´ETODOS 16 3.1 INTRODUC¸ ˜AO . . . 16

3.1.1 Rio Meuse . . . 16

3.1.2 Eleva¸c˜ao da Superf´ıcie . . . 18

3.2 M´ETODOS . . . 19

3.3 ALGORITMO IML . . . 20

3.3.1 Macro Maxlikfit . . . 21

4 AN ´ALISE DOS RESULTADOS 23 4.1 Introdu¸c˜ao . . . 23

4.2 Resultados . . . 24

4.2.1 Rio Meuse - Chumbo . . . 24

4.2.2 Eleva¸c˜ao da Superf´ıcie . . . 31

(8)

5 CONCLUS ˜OES 38

REFERˆENCIAS 41

(9)

Cap´ıtulo 1

INTRODUC ¸ ˜ AO

Assim como a an´alise descritiva ´e importante para a explora¸c˜ao dos dados em uma an´alise inferencial, a an´alise do variograma ´e o primeiro passo para a explora¸c˜ao de dados espaciais para a utiliza¸c˜ao da t´ecnica de Krigagem, que visa a interpola¸c˜ao de dados cont´ınuos. Essa fun¸c˜ao ´e capaz de medir o grau de dependˆencia espacial entre pares de observa¸c˜oes separados por uma distˆancia h (Cressie, 1993).

Uma poss´ıvel forma de estimar os parˆametros de um variograma ´e atrav´es do M´etodo dos M´ınimos Quadrados. Segundo Cressie (1985) esse m´etodo fornece au- tomaticamente maior peso `as classes (ou do inglˆes lags) pr´oximas e menor peso

`

aquelas com um pequeno n´umero de pares. No entanto, para a utiliza¸c˜ao da t´ecnica de M´ınimos Quadrados, ´e necess´ario conhecer a priori a quantidade de classes e suas respectivas amplitudes (lag distance). A problem´atica est´a em qual ´e o melhor par de classes e amplitudes otimizado. Uma maneira, como mostra Cressie (1993), ´e utilizar a regra do histograma para encontrar esses parˆametros.

Em contrapartida, uma t´ecnica bastante difundida nos ´ultimos anos ´e a estima¸c˜ao dos parˆametros do variograma por meio da M´axima Verossimilhan¸ca sem a preo- cupa¸c˜ao de escolher o melhor conjunto de lag e lag distance. Um pacote desenvol-

(10)

vido para o sof tware R chamado geoR j´a utiliza esse m´etodo, por´em, ainda n˜ao ´e poss´ıvel utilizar essa t´ecnica no sof tware SAS 9.4. Devido `a grande quantidade de estudos realizados utilizando o m´etodo dos M´ınimos Quadrados e tamb´em devido aos avan¸cos computacionais, o objetivo deste trabalho ´e apresentar o m´etodo de M´axima Verossimilhan¸ca para estimar os parˆametros do variograma al´em de implement´a-lo, atrav´es de um algoritmo em IML, no sof tware SAS 9.4.

1.1 OBJETIVOS

O objetivo geral deste trabalho ´e realizar uma estima¸c˜ao dos parˆametros do variograma, por meio da t´ecnica de M´axima Verossimilhan¸ca, com o prop´osito de ajustar um modelo que apresente a real distribui¸c˜ao dos dados.

Os objetivos espec´ıficos s˜ao:

• Desenvolver uma macro em IML nosof tware SAS 9.4;

• Comparar o ajuste do modelo com o m´etodo de m´ınimos quadrados;

• Comparar os resultados da Krigagem.

(11)

Cap´ıtulo 2

GEOESTAT´ ISTICA

Este cap´ıtulo ir´a abordar t´opicos pertinentes para ajustar um modelo te´orico de variograma a partir de um modelo experimental atrav´es da estima¸c˜ao de seus parˆametros pelo m´etodo de M´ınimos Quadrados Ponderados. Deseja-se tamb´em es- timar os parˆametros pela M´axima Verossimilhan¸ca, com o intuito de serem utilizados na t´ecnica de Krigagem.

2.1 INTRODUC ¸ ˜ AO

Uma das ideias fundamentais para a geoestat´ıstica ´e a da primeira lei da Geogra- fia, que diz que todas as coisas s˜ao parecidas, por´em coisas mais pr´oximas se parecem mais do que as coisas mais distantes (Tobler, 1970). Isso quer dizer que observa¸c˜oes mais pr´oximas tendem a ser mais parecidas e `a medida que elas se distanciam a variabilidade tende a aumentar caso exista dependˆencia.

Outro fator importante ´e a escolha de qual modelo de distribui¸c˜ao aleat´oria uti- lizar. A curva Gaussiana, ou curva normal, ´e uma das distribui¸c˜oes mais difundidas devido ao fato de poder ser resumida em apenas dois parˆametros: a m´edia µ e a variˆancia σ2. Para o caso da Normal Multivariada, se Z ´e um vetor aleat´orio com

(12)

m´edias µ e matriz de covariˆancia P

, ent˜ao sua fun¸c˜ao densidade de probabilidade conjunta ´e dada por

fZ(z) = (2π)n2

X

1

2 exp

−1

2(z−µ)tX−1

(z−µ)

. (2.1)

2.2 TEORIA DAS VARI ´ AVEIS REGIONALI- ZADAS

A teoria foi primeiramente proposta por Matheron (1963) e leva em considera¸c˜ao que, para cada observa¸c˜ao, uma determinada vari´avel atributo est´a associada `a sua localiza¸c˜ao no espa¸co. Uma nota¸c˜ao comum ´e identificar a vari´avel regionalizada como sendo a fun¸c˜ao aleat´oriaZ(u) em queu´e o conjunto de coordenadas geogr´aficas (latitude e longitude) de onde foi mensurado o valor de atributo.

Para assegurar uma interpola¸c˜ao de dados confi´avel, ´e preciso garantir alguns pressupostos a fim de que a vari´avel regionalizada seja estacion´aria, ou seja, a m´edia e a variˆancia devem manter-se invariantes sob varia¸c˜oes do vetor de distˆancias h (Diggle and Ribeiro Junior, 2007).

2.3 VARIOGRAMA

A an´alise variogr´afica ´e o primeiro passo ao analisar vari´aveis regionalizadas.

Atrav´es dela ´e poss´ıvel averiguar se existe dependˆencia entre os poss´ıveis pares de observa¸c˜oes da amostra. Conforme a suposi¸c˜ao de estacionariedade e de que o fenˆomeno estudado ´e cont´ınuo, existem dois tipos de variograma: o experimental e o te´orico. O primeiro ´e encontrado a partir dos valores observados na amostra e o segundo ´e ajustado atrav´es de modelos matem´aticos.

(13)

Pode-se constatar o n´ıvel de dependˆencia entre dois pontos atrav´es do c´alculo do variograma, dado por

2γ(h) =E[Z(u)−Z(u+h)]2 =V ar[Z(u)−Z(u+h)]. (2.2) Se houver n dados observados, existemn(n−1)/2 pares de observa¸c˜oes. Assim, mesmo um conjunto moderado de dados gera uma enorme quantidade de pares. O variograma experimental ´e representado por 2ˆγ(h) e na maioria dos casos, devido

`

a multiplica¸c˜ao por 2, ´e utilizada a metade do variograma, que recebe o nome de semivariograma.

A equa¸c˜ao de estima¸c˜ao do modelo experimental foi proposta por Matheron (1962) e ´e definida por

ˆ

γ(h) = 1 2N(h)

N(h)

X

i=1

[Z(ui)−Z(ui+h)]2, (2.3) em que N(h) ´e o n´umero de pares medidos e Z(ui) e Z(ui +h) s˜ao os atributos regionalizados separados pelo vetor de distˆancias h.

Para uma determina¸c˜ao mais precisa do gr´afico do variograma experimental ´e preciso definir classes de distˆancias (lags) e tamb´em a distˆancia entre elas (lag dis- tance). Uma maneira de encontrar a quantidade de classes quando os dados s˜ao normalmente distribu´ıdos se d´a atrav´es da regra do histograma, desenvolvida por Sturges (1926) e definida como

lag= 1 + 3,3×log10(m), (2.4) em que m ´e o n´umero poss´ıvel de pares de observa¸c˜oes. Para encontrar a distˆancia interclasse basta dividir a amplitude total das distˆancias pelo n´umero de classes.

(14)

N˜ao existe um m´etodo matem´atico que ir´a funcionar para todo e qualquer con- junto de dados. Em geral essas duas medidas s˜ao definidas via experimenta¸c˜ao, ou seja, observa-se o gr´afico gerado por um chute inicial e, a partir disso, elas v˜ao sendo alterados at´e que se encontre um ajuste razo´avel da curva do semivariograma experimental aos dados.

Al´em dessas medidas, como mostra a Figura 2.1, o semivariograma possui outros trˆes parˆametros:

Figura 2.1: Parˆametros do semivariograma

• Alcance (a): tamb´em chamado de Range, ´e a distˆancia na qual as amostras, que est˜ao correlacionadas espacialmente, est˜ao inseridas;

• Patamar (C): tamb´em chamado deSill, ´e o valor que corresponde ao alcance do semivariograma. Atingido o limite, a variabilidade n˜ao ´e mais significativa, ou seja, a variˆancia da diferen¸ca entre os pares de amostraV ar[Z(u)−Z(u+h)]

(15)

torna-se constante;

• Efeito Pepita (C0): tamb´em chamado de nugget effect ´e o valor do semivario- grama para a distˆancia zero. ´E desej´avel que seja igual a zero, mas, na pr´atica, o efeito pepita tende a um n´umero real positivo `a medida queh tende a zero, manifestando assim a descontinuidade do semivariograma para distˆancias me- nores que a menor distˆancia entre os pares. Se C0 > 0 ent˜ao esse efeito ´e definido por C1 =C−C0 (Druck et al., 2004).

A estima¸c˜ao desses parˆametros ´e feita de maneira iterativa atrav´es de algum m´etodo de estima¸c˜ao em conjunto com um m´etodo de otimiza¸c˜ao. Estes m´etodos ser˜ao apresentados na se¸c˜ao 2.4.

Outro fator importante a ser levado em considera¸c˜ao s˜ao os conceitos de isotropia e anisotropia. No primeiro caso, a determina¸c˜ao do semivariograma s´o depende das distˆancias entre as observa¸c˜oes e no segundo caso, al´em de depender das distˆancias, depende da dire¸c˜ao em que os dados est˜ao localizados no espa¸co com rela¸c˜ao aos outros pontos.

Feito o ajuste do semivariograma experimental ´e preciso escolher o semivario- grama te´orico a partir de um conjunto de fun¸c˜oes matem´aticas que descrevem a rela¸c˜ao espacial. O modelo apropriado ´e escolhido quando a forma da curva do variograma experimental combina com a forma da curva da fun¸c˜ao matem´atica, re- presentando assim a tendˆencia do modelo inicial. Alguns dos modelos matem´aticos mais empregados ser˜ao apresentados a seguir:

(16)

Modelo Gaussiano de Semivariograma:

γ(h) =

( 0 , h= 0;

C0+C1h

1−exp −ha2i

, h6= 0. (2.5) Modelo Exponencial de Semivariograma:

γ(h) =

0 , h= 0;

C0+C1

1−exp −ha

, h6= 0. (2.6) Modelo Seno de Semivariograma:

γ(h) =

0 , h= 0;

C0+C1

1− sen(πha)

πh a

, h >0. (2.7) Modelo Esf´erico de Semivariograma:

γ(h) =





0 , h= 0;

C0+C1h

3 2

h a

12 ha3i

,0< h≤a;

C0+C1 , h > a.

(2.8)

Modelo C´ubico de Semivariograma:

γ(h) =





0 , h= 0;

C0 +C1

h 7 ha2

354 ha3

+ 72 ha5

+ 34 ha7i

,0< h≤a;

C0 +C1 , h > a.

(2.9)

Modelo Mat´ern de Semivariograma:

γ(h) =

0 , h= 0;

C0 +C1

1− Γ(k)2

h k a

k

Kk

2h k a

, h >0, k > 0. (2.10) em que k ´e o parˆametro de suaviza¸c˜ao e K ´e a fun¸c˜ao Bessel de terceira ordem.

Um rela¸c˜ao que ser´a utilizada na se¸c˜ao 2.4.2 ´e a entre a fun¸c˜ao de covariˆancia e a fun¸c˜ao de correla¸c˜ao, expressada por:

ρ(h) = C(h)

C(0). (2.11)

Para que a fun¸c˜ao de covariˆancia possa ser expressa por covariograma e a fun¸c˜ao de correla¸c˜ao por correlograma ´e preciso que a covariˆancia no pontoh= 0 seja maior

(17)

do que zero (Cressie, 1993). Outra rela¸c˜ao importante ´e a entre o covariograma e o variograma, apresentada na Figura 2.2, definida por

γ(h) = C(0)−C(h). (2.12)

Figura 2.2: Variograma e Covariograma

Uma maneira alternativa de expressar o variograma ´e por meio da fun¸c˜ao de correla¸c˜ao, utilizando (2.11) e (2.12) obt´em-se

γ(h) = C(0)[1−ρ(h)]. (2.13)

(18)

2.4 ESTIMAC ¸ ˜ AO DOS PAR ˆ AMETROS

2.4.1 M´ınimos Quadrados Ponderados

O m´etodo de m´ınimos quadrados ponderados ´e utilizado para encontrar o melhor conjunto de parˆametros θ para o ajuste do modelo de semivariograma. Nesse caso ao minimizar a soma de quadrados dos res´ıduos, onde cada diferen¸ca ´e ponderada, encontra-se os parˆametros otimizados. Logo, a equa¸c˜ao a ser minimizada ´e

1 2

k

X

i=1

N(hi)

γ(h(i))ˆ γ(h(i);θ) −1

, (2.14)

na qual i´e o lag eθ ´e o conjunto de parˆametros (Cressie, 1985).

Como as estimativas s˜ao encontradas atrav´es de um m´etodo de otimiza¸c˜ao, ´e preciso fornecer os parˆametros iniciais. Quanto mais pr´oximos esses parˆametros iniciais estiverem dos ´otimos, mais r´apida ser´a a convergˆencia do m´etodo. Uma maneira de encontrar os parˆametros iniciais ´e proposta por Jian et al. (1996)

ainicial= hk

2 (2.15)

C0inicial=max

0,ˆγ(h1)− h1 h2−h1

(ˆγ(h2)−γ(hˆ 1))

(2.16) C1inicial = γˆ(hk−2) + ˆγ(hk−1) + ˆγ(hk)

3 −C0inicial, (2.17)

em que hk indica o k-´esimo lag.

Ap´os qualquer processo de modelagem ´e sempre importante verificar a qualidade de ajustamento do modelo te´orico em rela¸c˜ao ao modelo baseado nos dados. E´ utilizado, segundo Cressie (1985), o Crit´erio de Informa¸c˜ao de Akaike (AIC), dado por (2.18), para analisar esse ajuste.

AICM QP =klog(QM R) + 2p, (2.18)

(19)

em que p´e o n´umero de parˆametros, k ´e o n´umero de classes do semivariograma e QM R´e o quadrado m´edio dos res´ıduos, calculado por

QM R=

k

X

i=1

1

k [ˆγ(h(i))−γ(h(i);θ)]2. (2.19)

2.4.2 M´ axima Verossimilhan¸ ca

O m´etodo de m´axima verossimilhan¸ca ´e uma alternativa ao m´etodo de m´ınimos quadrados e ´e largamente utilizado para a estima¸c˜ao de diversos parˆametros simul- taneamente. Encontramos a fun¸c˜ao de verossimilhan¸ca L atrav´es de

L(θ;z1, ..., zn) =

n

Y

i=1

fZ(zi;θ), (2.20)

tal que fZ(z;θ) ´e a fun¸c˜ao de densidade conjunta da normal multivariada e θ ´e o vetor de parˆametros a serem estimados. Aplicando o logaritmo e derivando essa fun¸c˜ao com rela¸c˜ao a θ, ser´a encontrada a equa¸c˜ao a ser maximizada proposta por Diggle and Ribeiro Junior (2007)

L(β, τ2, σ2, φ) = −1 2

nlog(2π) + log

X

+ (z−µ(z))tX−1

(z−µ(z))

,

(2.21) em que µ(z) = Dβ e P

= σ2R(φ) +τ2I com tamanho n ×n que ´e encontrada por meio da equa¸c˜ao (2.11) e conforme o modelo de semivariograma desejado para a modelagem. Os parˆametros β, τ2, σ2, φ s˜ao, respectivamente: os coeficientes da regress˜ao, o efeito pepita, a variˆancia amostral e a amplitude das distˆanciash. Para a estima¸c˜ao inicial desses parˆametros n˜ao ´e necess´aria a utiliza¸c˜ao de variograma, todos eles s˜ao calculados diretamente na amostra de dados.

(20)

A matriz de covari´aveis D tem tamanho n × (1 + p) quando h´a p vari´aveis explicativas. Quando n˜ao h´a vari´aveis explicativas D´e um vetor de n´umeros 1 com tamanho n.

OR(φ) ´e a fun¸c˜ao de correla¸c˜ao da distribui¸c˜ao entre as distˆancias e o parˆametro φ e ´e definida para os modelos:

Modelo Gaussiano:

R(φ) =exp

−h2 φ2

(2.22) Modelo Exponencial:

R(φ) = exp

−h φ

(2.23) Modelo Seno:

R(φ) = φ

πh

sen πh

φ

(2.24) Modelo M´atern:

R(φ, k) =

2k−1Γ(k) −1 h

φ k

Kk h

φ

(2.25)

Feita a estima¸c˜ao inicial dos parˆametros, ser´a utilizado um m´etodo de otimiza¸c˜ao que ir´a maximizar a fun¸c˜ao de verossimilhan¸ca de modo a determinar o conjunto de parˆametros θ que tem maior probabilidade de gerar os dados observados.

A qualidade de ajustamento ´e avaliada pelo Crit´erio de Informa¸c˜ao proposto por Akaike (1973), dado por

AICM V =−2 log(Lθ) + 2(p), (2.26) em que Lθ ´e a fun¸c˜ao de log verossimilhan¸ca maximizada e p ´e o n´umero de parˆametros incluindo a variˆancia.

(21)

Quando o tamanho da amostra ´e pequeno com rela¸c˜ao `a quantidade de parˆametros estimados np < 40, utiliza-se a metodologia de corre¸c˜ao do vi´es apre- sentada por Hurvich and Tsai (1989)

AICM Vc =AICM V + 2(p+ 1)(p+ 2)

n−p−2 . (2.27)

2.5 KRIGAGEM

A Krigagem ´e um m´etodo de interpola¸c˜ao e seu objetivo ´e realizar predi¸c˜oes e estimar uma superf´ıcie com base na ideia de dependˆencia espacial. A diferen¸ca entre a krigagem e outros m´etodos de interpola¸c˜ao est´a na maneira como os pesos s˜ao atribu´ıduos `as diferentes amostras. Nessa t´ecnica o procedimento ´e semelhante ao de interpola¸c˜ao por m´edia m´ovel ponderada, exceto que os pesos s˜ao determinados com base no semivariograma experimental. Al´em disso a krigagem fornece, em m´edia, estimativas n˜ao tendenciosas e com variˆancia m´ınima (Druck et al., 2004).

Com base em uma ´area que possui n pontos amostrados de um atributo de interesseZ com suas respectivas coordenadas (xi, yi) denotadas pelo vetorui, obt´em- se os valores:

S = [Z(ui) :i= 1,2, ..., n]. (2.28) Para estimar o valor de Z em um ponto u0, utiliza-se a f´ormula geral:

Zˆ(u0) =λ0+

n

X

i=1

λiZ(ui), (2.29)

em que ˆZ(u0) ´e o valor estimado para a caracter´ıstica de interesse,λ0´e uma constante que depende do pontou0 e λi ´e o peso atribu´ıdo a Z(ui).

(22)

H´a trˆes principais tipos de krigagem, s˜ao elas:

• Krigagem Simples: M´edia constante e conhecida (estacion´aria);

• Krigagem Ordin´aria: M´edia constante e desconhecida (estacionariedade intr´ınseca);

• Krigagem Universal: M´edia vari´avel e desconhecida (n˜ao estacion´aria).

Neste trabalho somente ser´a abordada a Krigagem ordin´aria por se tratar de uma estacionariedade intr´ınseca na qual se faz necess´ario o uso do variograma para representar a varia¸c˜ao esperada do atributo em estudo.

2.5.1 Krigagem Ordin´ aria

A krigagem ordin´aria pode ser considerada uma extens˜ao natural da krigagem simples (Bailey and Gatrell, 1995). Pela suposi¸c˜ao do m´etodo, para que a m´edia seja constante ´e preciso que λ0 = 0 e Pn

i=1λi = 1, o que resulta em Z(uˆ 0) =

n

X

i=1

λiZ(ui). (2.30)

Para encontrar o melhor estimador ´e preciso minimizar a variˆancia do erro V ar( ˆZ(u0)− Z0) levando em considera¸c˜ao a condi¸c˜ao Pn

i=1λi = 1. Com base no variograma definido em (2.2), deve-se minimizar

E

n

X

i=1

λiZ(ui)−Z(u0)

!2

−2α

n

X

i=1

λi−1

!

, (2.31)

no qualα´e o multiplicador de Lagrange que garantePn

i=1λi = 1. Isso significa que

n

X

i=1

λiZ(ui)−Z(u0)

!2

=−

n

X

i=1 n

X

j=1

λiλj[Z(ui)−Z(uj)]2+ 2

n

X

i=1

λi[Z(u0)−Z(ui)]2. (2.32)

(23)

Substituindo (2.32) em (2.31), teremos

n

X

i=1 n

X

j=1

λiλjγ(ui−uj) + 2

n

X

i=1

λiγ(u0−ui)−2α

n

X

i=1

λi−1

!

. (2.33)

Derivando com rela¸c˜ao aos pesos λ1, ..., λn e igualando a equa¸c˜ao a 0, obt´em-se

n

X

j=1

λjγ(ui−uj) +γ(u0−ui)−α= 0. (2.34)

Com base nisso, os pesos λi podem ser encontrados atrav´es do sistema de equa¸c˜oes (2.35), conhecido como sistema de krigagem ordin´aria:

−Pn

j=1λjγ(ui−uj) +γ(u0−ui)−α= 0 Pn

i=1λi = 1

, (2.35)

em quei= 1, .., n;γ(ui−uj) e γ(u0−ui) s˜ao, respectivamente, a semivariˆancia entre os pontos ui e uj e entre os pontos u0 e ui. O α ´e o Multiplicador de Lagrange e a variˆancia da krigagem ordin´aria ´e dada por

σ2ko0

n

X

i=1

λiγ(u0−ui)−α. (2.36)

(24)

Cap´ıtulo 3

MATERIAL E M´ ETODOS

3.1 INTRODUC ¸ ˜ AO

Neste cap´ıtulo ser˜ao apresentados os materiais utilizados para ilustrar o m´etodo e o algoritmo desenvolvido na linguagem SAS/IML para estimar os parˆametros do variograma por m´axima verossimilhan¸ca. Os bancos de dados que ir˜ao ser utilizados dizem respeito `a concentra¸c˜ao de metais pesados presentes no solo ao longo das margens do rio Meuse e a eleva¸c˜ao de uma determinada superf´ıcie de estudo. Os dados podem ser encontrados, respectivamente, nos trabalho de Rikken and Van Rijn (1993) e Davis (1973). O algoritmo desenvolvido na linguagem SAS/IML ser´a aplicado nessas duas amostras de dados para realizar a estima¸c˜ao dos parˆametros do variograma para avaliar as vari´aveis de interesse atrav´es da t´ecnica de Krigagem.

3.1.1 Rio Meuse

O Rio Meuse tem um comprimento de 950km e tem sua nascente na Fran¸ca, em Bassigny. Ele atravessa a B´elgica e os Pa´ıses Baixos e, por fim, mistura-se ao rio Reno no Mar do Norte. Devido `a polui¸c˜ao dos rios Reno e Meuse durante muitos anos, quantidades consider´aveis de metais pesados se acumularam nos dep´ositos

(25)

geol´ogicos aluviais de sedimentos das plan´ıcies de inunda¸c˜ao na parte mais baixa do rio (Middelkoop, 2000).

O banco de dados trata de pequenas amostras em uma determinada sec¸c˜ao de tamanho 15m×15m, da plan´ıcie de inunda¸c˜ao pr´oxima `a aldeia de Stein nos Pa´ıses Baixos. Foram coletadas 155 amostras do solo onde dep´ositos de C´admio, Cobre, Chumbo e Zinco foram mensurados durante a inunda¸c˜ao de alta-magnitude em De- zembro de 1993 (Middelkoop, 2000). Dos metais pesados mensurados o Chumbo e o Zinco ser˜ao utilizados como vari´aveis atributo para as an´alises e, por quest˜ao de praticidade no ajuste dos modelos te´oricos, as vari´aveis ir˜ao passar por uma trans- forma¸c˜ao logaritmica e haver´a uma amostragem sistem´atica, come¸cando na primeira coleta de amostra do solo, com intervalo igual a 3. A Figura 3.1 ilustra onde foram mensuradas as amostras.

Figura 3.1: Rio Meuse

(26)

3.1.2 Eleva¸ c˜ ao da Superf´ıcie

Os dados deste exemplo foram tirados do estudo de Davis (1973). Eles d˜ao a mensura¸c˜ao da superf´ıcie de eleva¸c˜ao zi em cada um dos 52 pontos de localiza¸c˜ao (xi, yi) dentro de um quadrado com tamanho dos lados igual a 6,7 unidades de distˆancia. Cada unidade de distˆancia representa 50 p´es (aproximadamente 15,24 metros), enquanto que uma unidade dez representa 10 p´es (aproximadamente 3,05 metros) de eleva¸c˜ao.

Figura 3.2: Eleva¸c˜ao da superf´ıcie nos pontos de coleta

A Figura 3.2 representa os dados. Cada coordenada ´e representada por um c´ırculo com centro no ponto de localiza¸c˜ao e raio proporcional a zi. As eleva¸c˜oes observadas variam entre 690 e 960 unidades. O objetivo desta an´alise ´e de construir um mapa de eleva¸c˜ao cont´ınuo por toda a regi˜ao do quadrado.

(27)

3.2 M´ ETODOS

Para esse estudo, ser˜ao utilizadas as t´ecnicas de m´ınimos quadrados pondera- dos e m´axima verossimilhan¸ca para a estima¸c˜ao dos parˆametros do variograma. O primeiro m´etodo consiste em minimizar (2.14) atrav´es de:

• Definir o lag e o lag distancepara gerar um variograma experimental;

• Definir parˆametros iniciais com base no variograma experimental;

• Criar uma fun¸c˜ao que fa¸ca a equa¸c˜ao receber os parˆametros a cada itera¸c˜ao;

• Utilizar o m´etodo de otimiza¸c˜ao n˜ao-linear de Newton-Raphson para minimi- zar a fun¸c˜ao;

• Obter os parˆametros otimizados;

• Aplicar oAICM QP para avaliar a qualidade de ajustamento do modelo te´orico ao experimental.

Para o segundo m´etodo, que n˜ao depende da estima¸c˜ao de um variograma expe- rimental, ser´a utilizada a seguinte metodologia para maximizar (2.21):

• Definir a matriz de distˆancias entre pontos h;

• Definir os parˆametros iniciais;

• Definir qual modelo da fun¸c˜ao de correla¸c˜aoR(φ) ser´a utilizado;

• Criar uma fun¸c˜ao que fa¸ca a equa¸c˜ao receber os parˆametros a cada itera¸c˜ao;

(28)

• Utilizar o m´etodo de otimiza¸c˜ao n˜ao-linear de Newton-Raphson para maximi- zar a fun¸c˜ao;

• Obter os parˆametros otimizados;

• Aplicar o AICM V para avaliar a qualidade de ajustamento do modelo aos dados.

Com base nos AIC0s encontrados para os dois m´etodos de estima¸c˜ao, n˜ao ´e poss´ıvel verificar qual m´etodo se ajusta melhor aos dados devido ao fato de que ambas metodologias de AIC (2.18) e (2.26) n˜ao s˜ao compar´aveis. Uma abordagem poss´ıvel para a compara¸c˜ao seria aplicar os parˆametros encontrados pelo m´etodo de m´ınimos quadrados na fun¸c˜ao de log-verossimilhan¸ca sem otimiza¸c˜ao e obter um AICM V compar´avel `a metodologia de m´axima verossimilhan¸ca. Encontrado o melhor conjunto de parˆametros otimizados com base na qualidade do ajuste, ser´a poss´ıvel realizar a an´alise da vari´avel regionalizada na superf´ıcie utilizando a t´ecnica Krigagem Ordin´aria.

3.3 ALGORITMO IML

O algoritmo desenvolvido foi constru´ıdo utilizando-se o procedimento IML (In- teractive Matrix Language), dosoftware SAS 9.4, pois os c´odigos implementados em IML s˜ao facilmente adapt´aveis para outras linguagens de programa¸c˜ao. O algoritmo

´e composto por uma macro que encontra os melhores parˆametros de entrada para a krigagem pelo m´etodo de m´axima verossimilhan¸ca com base na distribui¸c˜ao dos dados de interesse.

(29)

3.3.1 Macro Maxlikfit

A macro maxlikfit realiza, atrav´es do m´etodo de m´axima verossimilhan¸ca, a es- tima¸c˜ao e otimiza¸c˜ao dos parˆametros beta, sill, range e nugget que servem como parˆametros iniciais para a utiliza¸c˜ao da t´ecnica krigagem. Encontrar o melhor con- junto de parˆametros ´e primordial para se obter uma interpola¸c˜ao de dados mais precisa e com menores erros de estima¸c˜ao.

Os parˆametros necess´arios para a execu¸c˜ao da macro s˜ao:

%macro maxlikfit(tab=, var=, long=, lat=, beta=, sill=, range=, nugget=, model=, kappa=, optim=, tabout=);

em que: tab ´e o banco de dados que cont´em as observa¸c˜oes do atributo em estudo coletadas na amostra, assim como suas respectivas coordenadas geogr´aficas; var

´e o nome da vari´avel atributo em estudo contida no banco de dados; long ´e a vari´avel correspondente `a coordenada de longitude; lat ´e a vari´avel correspondente

`

a coordenada de latitude;beta´e a vari´avel correspondente ao coeficiente intercepto da regress˜ao, que tamb´em pode ser interpretado como a m´edia;sill,rangeenugget especificam os valores iniciais para patamar, alcance e efeito pepita utilizados na maximiza¸c˜ao da fun¸c˜ao de log verossimilhan¸ca. Caso n˜ao sejam especificados, a macro encontra estimativas iniciais para esses parˆametros. Os parˆametros sill e nugget podem assumir valores maiores ou iguais a 0, j´a orange deve ser maior do que 0;modelespecifica qual o modelo que ser´a utilizado como fun¸c˜ao de correla¸c˜ao. Os modelos implementados s˜ao: o modelo gaussiano (gaussian), o modelo exponencial (exponential), o modelo seno (sine), o modelo esf´erico (spherical), o modelo c´ubico

(30)

(cubic) e o modelo m´atern (matern); kappa´e o valor num´erico para o parˆametro adicional de suaviza¸c˜ao da fun¸c˜ao de correla¸c˜ao. S´o ´e requerido para a fun¸c˜ao de correla¸c˜ao m´atern e deve ser n˜ao-negativo e diferente de 0; optim´e um parˆametro booleano para indicar se ´e desejado realizar a otimiza¸c˜ao dos parˆametros iniciais.

Caso igual a true ocorrer´a a otimiza¸c˜ao dos parˆametros iniciais atrav´es do m´etodo de otimiza¸c˜ao n˜ao-linear de Newton-Raphson. No caso false a otimiza¸c˜ao n˜ao ser´a realizada e o valor da fun¸c˜ao de log verossimilhan¸ca e o AICM V ser˜ao calculados com base nos parˆametos iniciais; tabout corresponde ao nome que se deseja dar a tabela deoutput.

Problemas relacionados `a convergˆencia do m´etodo de otimiza¸c˜ao podem ocorrer dependendo dos parˆametros iniciais. ´E importante ter bom senso na hora de definir os parˆametros ou conhecer melhor o fenˆomeno em estudo a fim de evitar poss´ıveis convergˆencias para parˆametros que n˜ao traduzem a realidade do estudo.

(31)

Cap´ıtulo 4

AN ´ ALISE DOS RESULTADOS

4.1 Introdu¸ c˜ ao

Neste cap´ıtulo ser˜ao apresentados os resultados obtidos pela da t´ecnica de kri- gagem ordin´aria com base nos m´etodos de M´ınimos Quadrados (MQP) e M´axima Verossimilhan¸ca (MV) atrav´es da macro variogram demonstrada por Kaqui (2014) e da macro implementada nesse trabalho. Foram utilizadas duas vari´aveis com atri- buto, a primeira ´e o logaritmo do Chumbo presente nas amostras do rio Meuse e a segunda diz respeito `a eleva¸c˜ao de uma determinada superf´ıcie.

Primeiramente foi realizada uma breve an´alise descritiva sobre as vari´aveis e em seguida foram levantados poss´ıveis semivariogramas te´oricos para o ajuste aos dados atrav´es da t´ecnica de MQP. Com o modelo escolhido, temos uma aproxima¸c˜ao para a fun¸c˜ao de distribui¸c˜ao dos dados a partir da qual ´e poss´ıvel realizar estimativas para os dados n˜ao observados com seus respectivos erros de mensura¸c˜ao atrav´es da krigagem. Em seguida foi utilizada a t´ecnica de MV com fun¸c˜ao de correla¸c˜ao an´aloga ao modelo de semivariograma escolhido e, atrav´es do crit´erio de informa¸c˜ao de Akaike (AIC) e pela amplitude das estimativas da krigagem, pode-se observar

(32)

qual t´ecnica melhor se ajusta aos dados.

Com a krigagem realizada, ´e feita uma diferen¸ca das estimativas e erros padr˜ao entre os m´etodos a fim de verificar a qualidade de interpola¸c˜ao.

4.2 Resultados

4.2.1 Rio Meuse - Chumbo

A primeira abordagem que ser´a feita nos dados de chumbo, ap´os aplica¸c˜ao de lo- garitmo, ser´a um estudo explorat´orio. Na Tabela 4.1 encontra-se algumas estat´ısticas de tendˆencia central e dispers˜ao. Segundo o teste de normalidade de Kolmogorov- Smirnov igual a 0,141 (p-valor<0,010) ´e poss´ıvel constatar que h´a evidˆencias, a um n´ıvel de significˆancia de 5%, para rejeitar a hip´otese de que os dados seguem uma distribui¸c˜ao normal.

Tabela 4.1: Estat´ısticas Descritivas do log de Chumbo Estat´ıstica Valor

n 52

M´edia 2,117 Mediana 2,139 Desvio Padr˜ao 0,308 M´ınimo 1,681 M´aximo 2,683

O pr´oximo passo ´e ajustar um modelo de semivariograma que melhor se adequa

`

a distribui¸c˜ao dos dados em estudo. A Tabela 4.2 apresenta os principais modelos de semivariograma, seus parˆametros otimizados pela t´ecnica de MQP supracitada na se¸c˜ao 2.4.1 e seus respectivosAIC0s.

(33)

Tabela 4.2: Modelos de semivariograma para o log de Chumbo Modelo Patamar Alcance Efeito Pepita AICM QP Gaussiano 0,128 897,193 0,037 -125,315

Seno 0,110 632,899 0,039 -128,457

Exponencial 0,221 3794,784 0,026 -108,481 Esf´erico 0,128 1091,929 0,026 -111,951 C´ubico 0,126 1203,394 0,036 -124,877

O modelo que mais se ajustou aos dados foi o Seno devido ao seu quadrado m´edio dos res´ıduos ser menor que os demais, o que levou a obter um AICM QP menor. Pode-se observar na Figura 4.1 um bom ajuste do semivariograma te´orico ao semivariograma experimental com 12lagselag distance de 90,749. Com o modelo ajustado, tem-se uma fun¸c˜ao que reflete como ´e a distribui¸c˜ao da vari´avel chumbo.

Figura 4.1: Modelo de semivariograma te´orico ajustado ao experimental para o log de Chumbo

(34)

Compara¸c˜ao entre os M´etodos de Estima¸c˜ao

Como foco do estudo ´e desej´avel saber qual metodologia se sobressai no quesito de melhor estimador dos parˆametros do semivariograma. A m´axima verossimilhan¸ca n˜ao necessita dos parˆametros iniciaislag elag distance como no m´etodo de m´ınimos quadrados. O m´etodo faz uma estima¸c˜ao com base nos pontos observados sem a necessidade de se ajustar um modelo. A Tabela 4.3 apresenta os parˆametros otimizados para os dois m´etodos de estima¸c˜ao. Pode-se observar que o alcance da MV ´e maior do que dos MQP e tamb´em que o patamar, parˆametro que simboliza a variˆancia, ´e menor na MV. A m´edia e o efeito pepita est˜ao bem pr´oximos. OAICM Vc, conforme explicado no final da se¸c˜ao 3.2, sugere que a m´axima verossimilhan¸ca encontrou os melhores parˆametros para aplica¸c˜ao na t´ecnica de krigagem.

Tabela 4.3: Estimativas dos m´etodos de estima¸c˜ao pelo modelo Seno para o log de Chumbo

M´etodo de estima¸c˜ao M´edia Patamar Alcance Efeito Pepita AICM Vc

M´ınimos Quadrados 2,117 0,110 632,899 0,039 17,043 M´axima Verossimilhan¸ca 2,140 0,072 716,343 0,037 14,911

Na Figura 4.2 observa-se atrav´es da t´ecnica de krigagem, com umgrid de 127.617 pontos, as estimativas do log do chumbo com seus respectivos erros de estima¸c˜ao pelo m´etodo de m´ınimos quadrados. Para as estimativas, ´e poss´ıvel constatar que pr´oximo `as margens do rio, h´a uma maior concentra¸c˜ao de chumbo, enquanto que quanto mais longe do rio h´a uma menor concentra¸c˜ao. Este pensamento pode ser embasado pelas estimativas de erro padr˜ao da krigagem, que mostram que o erro ´e menor pr´oximo aos pontos de coleta, e quanto mais distantes desses pontos, maior

´e o erro de estima¸c˜ao.

(35)

Estimativas Erro Padr˜ao

Figura 4.2: Krigagem Ordin´aria atrav´es do m´etodo de m´ınimos quadrados para o log de Chumbo

Para a Figura 4.3, a metodologia de m´axima verossimilhan¸ca obteve estima¸c˜oes dentro de uma amplitude menor do que a apresentada pelos m´ınimos quadrados, com isso tiveram mais dados coletados que ultrapassaram o limite m´aximo de estima¸c˜ao proposto pelo m´etodo. Por´em quando se compara as estimativas de erro padr˜ao, ´e poss´ıvel verificar que a variabilidade de interpola¸c˜ao ´e menor nesse m´etodo.

A Tabela 4.4 retrata as principais estat´ısticas descritivas das estimativas e erros das duas t´ecnicas. Para as estimativas, as m´edias, medianas e desvios padr˜ao tiveram diferen¸cas em torno de 0,008 e a amplitude dos valores para MQP foi maior do que para MV e, inclusive, ficaram mais pr´oximos dos valores de m´ınimo e m´aximo observados nos dados, o que significa uma melhor estima¸c˜ao. Para os erros padr˜ao, houve uma redu¸c˜ao de aproximadamente 0,039 na m´edia e mediana, o desvio padr˜ao

(36)

caiu quase que pela metade e a amplitude dos erros estimados foi menor para MV em cerca de 0,051.

Estimativas Erro Padr˜ao

Figura 4.3: Krigagem Ordin´aria atrav´es do m´etodo de m´axima verossimilhan¸ca para o log de Chumbo

Tabela 4.4: Estat´ısticas Descritivas das Estimativas da Krigagem Ordin´aria para o log de Chumbo

Estat´ıstica Estimativa MQP

Estimativa MV

Erro Padr˜ao MQP

Erro Padr˜ao MV

M´edia 2,113 2,120 0,280 0,242

Mediana 2,117 2,122 0,284 0,244

Desvio Padr˜ao 0,172 0,160 0,041 0,023

M´ınimo 1,670 1,718 0,212 0,204

M´aximo 2,516 2,490 0,334 0,275

Amplitude 0,846 0,772 0,122 0,071

(37)

Diferen¸ca entre os M´etodos de Estima¸c˜ao

Uma maneira mais efetiva de compara¸c˜ao dos dois m´etodos ´e saber qual ´e a diferen¸ca de estima¸c˜ao e de erro padr˜ao nos pr´oprios pontos estimados, por isso ser´a calculada a diferen¸ca de cada um dos 127.617 pontos entre a MV e os MQP e ser´a realizada a an´alise visual e descritiva dessas informa¸c˜oes.

Diferen¸ca Estimativas = Estimativa MV - Estimativa MQP Diferen¸ca Erros = Erro MV - Erro MQP

Vale ressaltar que quando essa diferen¸ca for negativa, significa que o valor en- contrado para os MQP foi maior do que para a MV e quando esse valor for positivo a interpreta¸c˜ao ´e inversa. Outra no¸c˜ao ´e a de que, quanto menor for o valor da dife- ren¸ca, maior ´e a semelhan¸ca de estima¸c˜ao das duas t´ecnicas para o ponto em estudo e quanto maior for o valor da diferen¸ca, significa que h´a diferen¸ca de estima¸c˜ao.

Tabela 4.5: Estat´ısticas Descritivas das Diferen¸cas (MV - MQP) para o log de Chumbo

Estat´ıstica Diferen¸ca entre Estimativas Diferen¸ca entre Erros Padr˜ao

M´edia 0,006 -0,037

Mediana 0,012 -0,040

Desvio Padr˜ao 0,070 0,018

M´ınimo -0,204 -0,063

M´aximo 0,191 -0,008

Amplitude 0,395 0,055

Segundo a Tabela 4.5 e a Figura 4.4 ´e poss´ıvel inferir que, para as estimativas, nos locais onde a colora¸c˜ao tende ao azul, significa que os MQP estimaram valores maiores para a concentra¸c˜ao de chumbo, e nos locais onde a colora¸c˜ao tende ao branco, a MV estimou valores maiores. Tamb´em ´e poss´ıvel observar que nas regi˜oes

(38)

pr´oximas ao rio, a colora¸c˜ao ficou no meio termo, ou seja, a estima¸c˜ao dos m´etodos foi pr´oxima. Os valores de m´ınimo e m´aximo tiveram distˆancias parecidas com rela¸c˜ao a m´edia e essa teve um valor pr´oximo ao zero.

Com base nos erros-padr˜ao das estimativas ´e observado que todos eles foram superestimados para o m´etodo de MQP e tamb´em fica n´ıtido no gr´afico que, pr´oximo

`

as margens do rio, a diferen¸ca do erro entre os m´etodos foi pequena e, quanto maior a distˆancia das margens do rio, o m´etodo de MQP tem estimativas maiores de erro do que a MV.

Verificando a normalidade das diferen¸cas entre os m´etodos, segundo o teste de Kolmogorov-Smirnov igual a 0,031 (p-valor<0,010), ´e poss´ıvel constatar que as es- timativas n˜ao seguem uma distribui¸c˜ao normal. Observando tamb´em o intervalo de confian¸ca pelo testet de student igual a 33,456 (p-valor<0,001), no qual a hip´otese de que a m´edia das estimativas ´e iguais `a zero, ´e rejeitada a um n´ıvel de significˆancia de 5%, ou seja, h´a evidˆencias para dizer que a m´edia da diferen¸ca das estimativas n˜ao ´e igual `a zero e, em m´edia, as estimativas da MV s˜ao maiores do que as en- contradas pelos MQP. Para as diferen¸cas entre os erros padr˜ao tamb´em n˜ao existe normalidade, segundo o teste de Kolmogorov-Smirnov igual a 0,151 (p-valor<0,010), e o teste t de student igual a -730,416 (p-valor<0,001) sugere que a m´edia das dife- ren¸cas n˜ao ´e igual a zero, ou seja, o erro padr˜ao das estimativas ´e, em m´edia, maior no m´etodo de MQP do que na MV.

(39)

Estimativas Erro Padr˜ao

Figura 4.4: Krigagem Ordin´aria da diferen¸ca entre os m´etodos (MV - MQP) - ltpb

4.2.2 Eleva¸ c˜ ao da Superf´ıcie

O primeiro passo para a an´alise dos dados de eleva¸c˜ao da superf´ıcie ser´a um es- tudo explorat´orio. Na Tabela 4.6 tem-se algumas estat´ısticas descritivas da vari´avel.

Segundo o teste de Kolmogorov-Smirnov igual a 0,097 (p-valor>0,150) n˜ao h´a evidˆencias, a um n´ıvel de significˆancia de 5%, para rejeitar a hip´otese de que os dados seguem uma distribui¸c˜ao normal.

Tabela 4.6: Estat´ısticas Descritivas da eleva¸c˜ao Estat´ıstica Valor

n 52

M´edia 827,077 Mediana 830,000 Desvio Padr˜ao 61,997

M´ınimo 690,000 M´aximo 960,000

(40)

Em seguida ajustamos modelos de semivariograma e verificamos qual deles me- lhor se adequa `a distribui¸c˜ao dos dados coletados. A Tabela 4.7 apresenta os dois modelos mais relevantes de semivariograma do estudo, seus parˆametros otimizados por MQP e seus respectivosAIC0s.

Tabela 4.7: Modelos de semivariograma para a eleva¸c˜ao Modelo Patamar Alcance Efeito Pepita AICM QP

Gaussiano 7531,592 7,227 454,442 84,231 Seno 5426,014 4,544 458,867 80,082

O modelo que mais se ajustou aos dados foi o Seno devido ao menor AICM QP. Pode-se observar na Figura 4.5 o ajuste do semivariograma te´orico ao semivario- grama experimental com 6 lags e lag distance de 1,220. Com o modelo ajustado, tem-se uma fun¸c˜ao de distribui¸c˜ao do comportamento do atributo eleva¸c˜ao.

Figura 4.5: Modelo de semivariograma te´orico ajustado ao experimental para a eleva¸c˜ao

(41)

Compara¸c˜ao entre os M´etodos de Estima¸c˜ao

A Tabela 4.8 mostra os parˆametros otimizados dos m´etodos. ´E poss´ıvel observar que a m´edia e o efeito pepita estimados por MV s˜ao maiores, em contra partida, o patamar e o alcance dos MQP s˜ao maiores. Como o patamar ´e interpretado como a variˆancia, os MQP possuem uma variabilidade muito maior do que a MV. OAICM Vc sugere que a m´axima verossimilhan¸ca encontrou os melhores parˆametros.

Tabela 4.8: Estimativas dos m´etodos de estima¸c˜ao pelo modelo Seno para a eleva¸c˜ao M´etodo de estima¸c˜ao M´edia Patamar Alcance Efeito Pepita AICM Vc

M´ınimos Quadrados 827,077 5426,014 4,544 458,867 508,725 M´axima Verossimilhan¸ca 847,790 3129,840 3,832 462,930 505,683

A Figura 4.6 apresenta as estimativas da eleva¸c˜ao e seus respectivos erros de krigagem pelos MQP com umgrid de 161.002 pontos. Para as estimativas, ´e poss´ıvel observar que quanto mais pr´oximo ao topo central menor ´e a eleva¸c˜ao, e quanto mais pr´oximo do canto inferior esquerdo maior ´e a eleva¸c˜ao. Os erros padr˜ao da krigagem sugerem que no centro do mapa os valores s˜ao menores at´e um determinado valor de raio e a partir disso o erro de estima¸c˜ao come¸ca a aumentar.

Ao compararmos a Figura 4.7 com a Figura 4.6 a ´unica diferen¸ca aparente est´a na parte inferior do gr´afico de estimativas. Para a metodologia de MV foram obtidas estimativas e erros padr˜ao dentro de uma amplitude menor do que a apresentada pelos MQP.

A Tabela 4.9 apresenta as estat´ısticas descritivas das estimativas e erros das t´ecnicas. Para as estimativas, as m´edias, medianas e desvios padr˜ao ficaram pr´oximas, sendo que os menores valores foram encontrados pela MV. A amplitude

(42)

Estimativas Erro Padr˜ao

Figura 4.6: Krigagem Ordin´aria atrav´es do m´etodo de m´ınimos quadrados para a eleva¸c˜ao

dos valores para MQP foi maior do que para MV, o que sugere melhor estima¸c˜ao se esses valores de m´ınimo e m´aximo forem mais pr´oximos aos encontrados nos dados.

Para os erros padr˜ao, a m´edia e a mediana foram maiores e o desvio padr˜ao foi me- nor para a MV, o que significa que a variabilidade dos erros, mesmo com pequena diferen¸ca com rela¸c˜ao aos MQP, ´e menor para a t´ecnica de MV.

Tabela 4.9: Estat´ısticas Descritivas das Estimativas da Krigagem Ordin´aria para a eleva¸c˜ao

Estat´ıstica Estimativa MQP

Estimativa MV

Erro Padr˜ao MQP

Erro Padr˜ao MV

M´edia 844,148 842,859 24,917 25,070

Mediana 860,646 859,508 23,665 23,876

Desvio Padr˜ao 53,393 50,953 2,985 2,830

M´ınimo 722,535 724,213 22,242 22,409

M´aximo 938,658 920,560 41,483 39,569

Amplitude 216,123 196,347 19,241 17,160

(43)

Estimativas Erro Padr˜ao

Figura 4.7: Krigagem Ordin´aria atrav´es do m´etodo de m´axima verossimilhan¸ca para a eleva¸c˜ao

Diferen¸ca entre os M´etodos de Estima¸c˜ao

A interpreta¸c˜ao para as diferen¸cas de estimativas e erros padr˜ao ´e an´aloga `aquelas apresentada no estudo de caso anterior. Segundo a Figura 4.8 ´e poss´ıvel notar que, para as estimativas, nos locais onde a colora¸c˜ao tende ao azul, significa que os MQP estimaram valores maiores para a eleva¸c˜ao da superf´ıcie, enquanto que nos locais onde a colora¸c˜ao tende ao cinza, a MV estimou valores maiores. Na parte central da figura de estimativas, h´a ´areas de transi¸c˜ao onde os valores tendem a uma colora¸c˜ao entre cinza e azul, o que sugere que nessas faixas os dois m´etodos tiveram estimativas mais pr´oximas.

(44)

Estimativas Erro Padr˜ao

Figura 4.8: Krigagem Ordin´aria da diferen¸ca entre os m´etodos (MV - MQP) para a eleva¸c˜ao

Analisando os erros padr˜ao das estimativas foi verificado que h´a uma ´area, em um formato de trevo, onde os erros calculados foram pr´oximos para os m´etodos. Quando nos aproximamos das extremidades, ´e poss´ıvel constatar que os MQP tiveram valores maiores de erro do que a MV, por´em, h´a uma ´area na parte central inferior onde a MV obteve estimativas maiores de erro.

Aplicando o teste de Kolmogorov-Smirnov igual a 0,062 (p-valor<0,010) nas diferen¸cas entre os m´etodos ´e poss´ıvel constatar que as estimativas n˜ao seguem uma distribui¸c˜ao normal. Verificando tamb´em o intervalo de confian¸ca t de student igual a -100,732 (p-valor<0,001) no qual a hip´otese de que a m´edia das estimativas ´e iguais

`

a zero ´e rejeitada, ou seja, como mostra a Tabela 4.10 as estimativas dos MQP s˜ao, em m´edia, maiores do que as encontradas pela MV. Observando tamb´em os valores

(45)

de m´ınimo, m´aximo e a mediana podemos chegar na mesma conclus˜ao.

Para as diferen¸cas entre os erros padr˜ao, conforme pode ser visto pelo teste de Kolmogorov-Smirnov igual a 0,263 (p-valor<0,010), tamb´em n˜ao existe normalidade e o teste t de student igual a 305,734 (p-valor<0,001) sugere que a m´edia das dife- ren¸cas n˜ao ´e igual a zero, ou seja, o erro padr˜ao das estimativas ´e, em m´edia, maior no m´etodo de MV do que nos MQP.

Tabela 4.10: Estat´ısticas Descritivas das Diferen¸cas (MV - MQP) para a eleva¸c˜ao Estat´ıstica Diferen¸ca entre Estimativas Diferen¸ca entre Erros Padr˜ao

M´edia -1,288 0,151

Mediana -0,579 0,212

Desvio Padr˜ao 5,129 0,198

M´ınimo -18,098 -1,914

M´aximo 10,208 0,401

Amplitude 28,306 2,315

(46)

Cap´ıtulo 5

CONCLUS ˜ OES

Em geral os dois m´etodos tiveram desempenhos pr´oximos quando analisadas as estimativas da krigagem de maneira visual, o que confere certa complexidade ao se decidir qual o melhor m´etodo. Por isso um melhor objeto de estudo apresentado foi a diferen¸ca entre as estimativas dos m´etodos. Quando ´e realizada uma an´alise visual dos erros padr˜ao, embora os formatos possam ser semelhantes quando apresentados de maneira separada, o m´etodo de m´axima verossimilhan¸ca consegue reduzir o erro de suas estimativas de maneira pontual e `a medida que a interpola¸c˜ao se afasta da massa de dados amostrados o erro aumenta de maneira mais controlada. Em contrapartida, o que se pode perceber dos dois estudos de caso, ´e que os erros de estima¸c˜ao por m´ınimos quadrados s˜ao em geral maiores e quando distanciamos dos pontos de dados coletados esse aumento do erro ´e mais acentuado. Como ambos os m´etodos tiveram melhores resultados atrav´es do modelo seno, o pressuposto de normalidade dos erros n˜ao foi levado em considera¸c˜ao.

A fim de saber qual a melhor t´ecnica, primeiro ´e preciso explicitar os pr´os e contras de cada um deles. O m´etodo de minimos quadrados possui uma larga di- fus˜ao e implementa¸c˜ao em softwares por ser de f´acil compreens˜ao e baixo custo

(47)

computacional. Quando tratamos de an´alise espacial o m´etodo ´e utilizado para a otimiza¸c˜ao dos parˆametros encontrados no semivariograma experimental. O grande problema existente se d´a pelo fato de ser preciso ajustar um modelo que ´e baseado em parˆametros iniciais subjetivos. Existem m´etodos que ajudam a estipular lags e lags distance, por´em n˜ao existe uma regra geral bem fundamentada. Cada estudo tem suas caracter´ısticas e isso acarreta em abordagens distintas. No inicio o ajuste desses parˆametros era feito pelo olhar (by eye), o que dependia da subjetividade do pesquisador. Em seguida aplicou-se a regra do histograma para casos em que existia normalidade nos dados e, por ´ultimo, automatizaram o m´etodo by eye com parˆametros de folga para encontrar os melhores parˆametros. Ap´os ser escolhido o conjunto de parˆametros iniciais, ´e feita a otimiza¸c˜ao e selecionado o melhor modelo de semivariograma a fim de encontrar a pseudo fun¸c˜ao de distribui¸c˜ao dos dados.

O m´etodo de m´axima verossimilhan¸ca quebra esse paradigma da utiliza¸c˜ao de um semivariograma e utiliza a modelagem para encontrar os parˆametros da krigagem que representam a real distribui¸c˜ao dos dados. Os seus contras est˜ao na dificuldade em encontrar suporte te´orico para sua aplica¸c˜ao na krigagem e a dificuldade de convergˆencia pelos m´etodos de otimiza¸c˜ao, pois se n˜ao forem estipulados parˆametros iniciais pr´oximos aos parˆametros ´otimos, a convergˆencia pode ser dispendiosa ou pode ocorrer a convergˆencia para parˆametros secund´arios.

O foco deste trabalho foi buscar na teoria existente a forma de utiliza¸c˜ao do m´etodo de m´axima verossimilhan¸ca e apresent´a-lo de maneira descomplicada, al´em de implementar uma macro em SAS/IML para a utiliza¸c˜ao deste m´etodo at´e ent˜ao

(48)

presente somente no pacote geoR do software R. Os resultados obtidos pela macro maxlikfit foram comparados com a fun¸c˜ao likfit do pacote geoR e foram iguais ou pr´oximos devido ao m´etodo de convergˆencia. O c´odigo desenvolvido em SAS/IML

´e ´util pois amplia as op¸c˜oes de t´ecnicas de estima¸c˜ao espacial para os usu´arios do SAS, pode ser atualizado com outros modelos te´oricos e ´e de f´acil convers˜ao para outras linguagens.

(49)

Referˆ encias Bibliogr´ aficas

Akaike, H. (1973). Information theory and an extension of the maximum like- lihood principle. 2nd International Symposium on Information Theory. Budapest:

Akad´emiai Kiad´o, pp. 267-281.

Bailey, T. C. & Gatrell, A. C. (1995). Interactive Spatial Data Analysis, (2nd ed.).

Prentice Hall.

Concei¸c˜ao, S. F. (2013). Discuss˜ao sobre a obten¸c˜ao de fun¸c˜oes semivariograma a partir de distribui¸c˜oes de probabilidade. Disserta¸c˜ao de Mestrado - Departamento de Estat´ıstica - Universidade de Bras´ılia.

Cressie, N. A. C. (1985). Fitting variogram models using weighted least squares.

Journal of the International Association of Mathematical Geology, 17:563–586.

Cressie, N. A. C. (1993). Statistics for Spatial Data. Wiley-Interscience.

Davis, J. C. (1973). Statistics and Data Analysis in Geology. Wiley.

Diggle, P. J. & Ribeiro Junior, P. J. (2007). Model-Based Geostatistics. Springer.

Druck, S., Cˆamara, G., Monteiro, A. M. V., & Carvalho, M. S. (2004). An´alise Espacial de Dados Geogr´aficos. Embrapa.

Hurvich, C. M. & Tsai, C. L. (1989). Regression and time series model selection in small samples. Biometrika, 76:297–307.

Jian, X., Olea, R. A., & Yu, Y. S. (1996). Semivariogram modeling by weighted least squares. Computers and Geosciences, 22:381–391.

Kaqui, R. L. (2014). Krigagem e cokrigagem universal: incorporando a heteroge- neidade espacial. Monografia - Departamento de Estat´ıstica - Universidade de Bras´ılia.

Matheron, G. (1962). Trait´e de g´eostatistique appliqu´ee. ´Editions Technip.

(50)

Matheron, G. (1963). Principles of geostatistics. Econ. Geo., 58:1246–1266.

Middelkoop, H. (2000). Heavy-metal pollution of the river rhine and meuse flood- plains in the netherlands. Netherlands Journal of Geosciences, 4:411–428.

Rikken, M. G. J. & Van Rijn, R. P. G. (1993). Soil pollution with heavy metals - an inquiry into spatial variation, cost of mapping and the risk evaluation of copper, cadmium, lead and zinc in the floodplains of the meuse west of stein, the netherlands. Doctoraalveldwerkverslag, Dept. of Physical Geography, University of Utrecht.

Sturges, H. A. (1926). The choice of a class interval. American Statistical Associa- tion, 21:65–66.

Tobler, W. R. (1970). A computer model simulating urban growth in the detroit region. Econ. Geo., 46:234–240.

Webster, R. & Oliver, M. A. (2007). Geostatistics for Environmental Scientists.

Wiley.

Yamamoto, J. K. & Landim, P. M. B. (2013).Geoestat´ıstica. Conceitos e Aplica¸c˜oes.

Oficina de Textos.

Referências

Documentos relacionados

Conforme mencionado anteriormente, os basidiomicetos de podridão branca são mais utilizados em processos de micorremediação mediado pela biodegradação enzimática, mas a

A saúde do trabalhador, segundo Faria (1990), está intimamente ligada à organização do ambiente de trabalho, ao estilo de vida, a fatores internos e externos ou ao somatório

Assistência Social, com a atribuição de avaliar a Política de Assistência Social do município de Wenceslau Guimarães, e propor diretrizes para o aperfeiçoamento do

Considerando o exposto e o Parecer n.º 1177/08-CEF/SEED, somos pela Renovação do Credenciamento do SENAI – Centro de Educação Profissional de Maringá do Município de

O modelo de toxicidade reprodutiva empregado para realização deste trabalho consiste da administração prolongada do eugenol durante a gestação de ratas Wistar,

Discussion The present results show that, like other conditions that change brain excitability, early environmental heat exposure also enhanced CSD propagation in adult rats.. The

Water and wastewater treatment produces a signi ficant amount of methane and nitrous oxide, so reducing these emissions is one of the principal challenges for sanitation companies

Pode haver alguns acordos prévios, como visto na classificação proposta em trabalho anterior (GUERRERO, 2006), mas estes são propostos sempre mantendo elevado