Um modelo para dados geoestatísticos: uma aplicação na temperatura das Regiões Sul e Sudeste do Brasil

(1)

Julia Hosken de Moura

Um Modelo para Dados Geoestat´ısticos:

Uma Aplica¸

c˜

ao na Temperatura das Regi˜

oes

Sul e Sudeste do Brasil

Niter´oi - RJ, Brasil 08 de julho de 2015

(2)

Universidade Federal Fluminense

Julia Hosken de Moura

Um Modelo para Dados

Geoestat´ısticos: Uma Aplica¸

c˜

ao na

Temperatura das Regi˜

oes Sul e

Sudeste do Brasil

Trabalho de Conclus˜ao de Curso

Monografia apresentada para obten¸c˜ao do grau de Bacharel em Estat´ıstica pela Universidade Federal Fluminense.

Orientador: Prof. Jony Arrais Pinto Junior

Niter´oi - RJ, Brasil 08 de julho de 2015

(3)

Universidade Federal Fluminense

Julia Hosken de Moura

Um Modelo para Dados Geoestat´ısticos:

Uma Aplica¸

c˜

ao na Temperatura das Regi˜

oes

Sul e Sudeste do Brasil

Monografia de Projeto Final de Gradua¸cão sob o t´ıtulo “Um Modelo para Dados Geoestat´ısticos: Uma Aplica¸cão na Tem-peratura das Regiões Sul e Sudeste do Brasil”, defendida por Julia Hosken de Moura e aprovada em 08 de julho de 2015, na cidade de Niterói, no Estado do Rio de Janeiro, pela banca examinadora constitu´ıda pelos professores:

Prof. Dr. Jony Arrais Pinto Junior Orientador Departamento de Estat´ıstica – UFF

Profa. Ma. Renata Souza Bueno Co-Orientadora Departamento de Estat´ıstica – ENCE

Prof. Dr. Luis Guillermo Coca Velarde Departamento de Estat´ıstica – UFF

(4)

Moura, Julia Hosken de

Um modelo para dados geoestatísticos: uma aplicação na

temperatura das regiões sul e sudeste do Brasil / Julia Hosken de Moura; Jony Arrais Pinto Junior, orientador.

Niterói, 2015.

76 f. : il.

Trabalho de Conclusão de Curso (Graduação em Estatísticaa ) – Universidade Federal Fluminense, Instituto de Matemática e Estatística, Niterói, 2015.

1. Geoestatística. 2. Temperatura compensada média. 3. Modelo gaussiano. 4. Krigagem. I. Pinto Junior, Jony Arrais, orientador. II. Universidade Federal Fluminense. Instituto de Matemática e Estatística. III. Título.

(5)

Resumo

A temperatura compensada média é um dos elementos meteorológicos mais impor-tantes por ser uma alternativa para explicar a temperatura local com apenas algumas observa¸cões diárias. A partir do pressuposto de que a temperatura compensada média é georreferenciada, ferramentas da análise espacial foram utilizadas para visualizar o seu comportamento, modelar e realizar predi¸cão espacial, durante o inverno e o verão para as regiões Sul e Sudeste do Brasil. As análises foram feitas sob os enfoques frequentista e Bayesiano.

Os dados usados foram obtidos pelo BDMEP (Banco de dados meteorológicos para ensino e pesquisa) que é fornecido pelo INMET (Instituto Nacional de Meteorologia) para um per´ıodo de três anos. Como este estudo não lida com o tempo em sua análise, as observa¸cões da temperatura compensada média foram trabalhadas de forma a laborar com a média da variável por esta¸cão meteorológica tanto para o verão como para o inverno.

Ferramentas da análise exploratória evidenciaram certa dependência espacial nos da-dos, porém se ajustada uma superf´ıcie de tendência quadrática, esta dependência enfra-quecia exigindo que fosse testado um modelo que não inclu´ısse estrutura de dependência espacial.

Quatro modelos foram ajustados sob enfoque frequentista e, para ambas esta¸cões do ano, o modelo Gaussiano supondo superf´ıcie de tendência quadrática foi considerado o de melhor ajuste. O ajuste Bayesiano foi feito apenas para o modelo que teve melhor desempenho. Ao comparar os ajustes, para as duas esta¸cões do ano, as estimativas refe-rentes aos parâmetros da estrutura de segunda ordem foram os que apresentaram maior discrepância, sendo as estimativas Bayesianas maiores que as frequentistas.

Finalmente, foi realizada a predi¸cão espacial e o comportamento da temperatura com-pensada média foi bem similar para ambos os enfoques. Predi¸cões para o verão foram bem homogêneas sobre toda região. Para o inverno, a conduta dos valores previstos não foi intuitiva mostrando menores valores para regiões ao norte do mapa.

Palavras-chaves: Geoestat´ıstica; Temperatura compensada m´edia; Modelo Gaussiano; Krigagem.

(6)

Agradecimentos

`

A minha m˜ae, por sempre me apoiar e incentivar.

Aos meus avós Sandra e Paulo, por serem fundamentais na minha educa¸cão e assim sendo muito mais do que simples avós.

Ao Lucas, por compreender esta etapa que n˜ao pude ser t˜ao presente. `

A Thain´a, por estar junto em todos os momentos de desespero sendo sempre meu bra¸co direito durante a gradua¸c˜ao.

`

A todos os outros amigos, que me fizeram por alguns momentos distrair e relaxar. `

A Nilza, pela ideia inicial deste trabalho.

Ao Jony, Renata e Guillermo, pela orienta¸c˜ao e conhecimento de cada um de vocˆes sobre geoestat´ıstica.

`

A todos os professores que participaram da minha forma¸c˜ao.

(7)

Sum´

ario

Lista de Figuras

Lista de Tabelas

1 Introdu¸c˜ao p. 11

2 Objetivos p. 14

3 Análise para Dados Georreferenciados de Superf´ıcie Cont´ınua p. 15 3.1 Tipos de Dados em Estat´ıstica Espacial . . . p. 15 3.2 Análise Exploratória . . . p. 16 3.2.1 Distância Euclidiana . . . p. 18 3.2.2 Variograma Emp´ırico . . . p. 18 3.2.3 Efeitos Direcionais . . . p. 20 3.3 Modelo Gaussiano . . . p. 21 3.3.1 Superf´ıcie de Tendência . . . p. 23 3.3.2 Variograma Teórico . . . p. 24 3.3.3 Fun¸cões de Correla¸cão . . . p. 26 3.4 Estima¸cão dos Parâmetros . . . p. 28 3.4.1 Frequentista . . . p. 28 3.4.2 Bayesiana . . . p. 29 3.5 Predi¸cão Espacial . . . p. 31 3.5.1 Predi¸cão Frequentista . . . p. 32

(8)

3.5.2 Predi¸c˜ao Bayesiana . . . p. 35 3.6 geoR . . . p. 35

4 Resultados p. 39

4.1 Base de Dados . . . p. 39 4.2 Verão . . . p. 42 4.2.1 Análise Exploratória . . . p. 42 4.2.2 Ajuste do Modelo . . . p. 49 4.2.2.1 Ajuste Frequentista . . . p. 49 4.2.2.2 Ajuste Bayesiano . . . p. 51 4.2.3 Predi¸cão Espacial . . . p. 54 4.3 Inverno . . . p. 57 4.3.1 Análise Exploratória . . . p. 57 4.3.2 Ajuste do Modelo . . . p. 63 4.3.2.1 Ajuste Frequentista . . . p. 63 4.3.2.2 Ajuste Bayesiano . . . p. 65 4.3.3 Predi¸cão Espacial . . . p. 70 5 Conclusões p. 72 Referências p. 75

(9)

Lista de Figuras

1 Exemplos de ferramentas da análise exploratória . . . p. 17 2 Exemplo de variograma emp´ırico . . . p. 19 3 Exemplo variogram teórico . . . p. 26 4 Localiza¸cão esta¸cões meteorolóogicas . . . p. 41 5 Gráficos de dispersão 3D verão . . . p. 42 6 Tendência constante: (superior) gráfico de dispersão separado por quartis

de YV e gr´afico de YV contra latitude. (inferior) gr´afico de YV contra

latitude e histograma de YV. . . p. 43

7 Tendˆencia constante: gr´aficos de s´ımbolos proporcionais de YV . . . p. 44

8 Tendˆencia constante: variograma direcional e variograma omnidirecional

de YV . . . p. 45

9 Tendência linear: (superior) gráfico de dispersão separado por quartis dos res´ıduos de YV e gráfico dos res´ıduos de YV contra latitude. (inferior)

gr´afico dos res´ıduos de YV contra longitude e histograma dos res´ıduos de

YV. . . p. 45

10 Tendˆencia linear: gr´aficos de s´ımbolos proporcionais dos res´ıduos de YV p. 46

11 Tendˆencia linear: variograma direcional e variograma omnidirecional dos

res´ıduos de YV . . . p. 46

12 Tendência quadrática: (superior) gráfico de dispersão separado por quar-tis dos res´ıduos de YV e gráfico dos res´ıduos de YV contra latitude.

(inferior) gr´afico dos res´ıduos de YV contra longitude e histograma dos

res´ıduos de YV. . . p. 47

13 Tendência quadrática: gráficos de s´ımbolos proporcionais dos res´ıduos de

(10)

14 Tendˆencia quadr´atica: variograma direcional e variograma

omnidirecio-nal dos res´ıduos de YV . . . p. 48

15 Cadeias de 1000 itera¸c˜oes e histogramas da posteriori de β0, β1 e β2 . . p. 53

17 Cadeias de 1000 itera¸c˜oes e histogramas da posteriori de σ2_{, φ e τ}2 _{. .} _{p. 55}

18 Verão: gráfico de calor frequentista e Bayesiano . . . p. 56 19 Gráficos de dispersão 3D inverno . . . p. 57 20 Tendência constante: (superior) gráfico de dispersão separado por quartis

de YI e gr´afico de YI contra latitude. (inferior) gr´afico de YI contra

latitude e histograma de YI. . . p. 58

21 Tendˆencia constante: gr´aficos de s´ımbolos proporcionais de YI . . . p. 59

22 Tendˆencia constante: variograma direcional e variograma omnidirecional

de YI . . . p. 59

23 Tendência linear: (superior) gráfico de dispersão separado por quartis dos res´ıduos de YI e gráfico dos res´ıduos de YI contra latitude. (inferior)

gr´afico dos res´ıduos de YI contra longitude e histograma dos res´ıduos de

YI. . . p. 60

24 Tendˆencia linear: gr´aficos de s´ımbolos proporcionais dos res´ıduos de YI p. 60

25 Tendˆencia linear: variograma direcional e variograma omnidirecional dos

res´ıduos de YI . . . p. 61

26 Tendência quadrática: (superior) gráfico de dispersão separado por quar-tis dos res´ıduos de YI e gráfico dos res´ıduos de YI contra latitude.

(infe-rior) gr´afico dos res´ıduos de YIcontra longitude e histograma dos res´ıduos

de YI. . . p. 62

27 Tendência quadrática: gráficos de s´ımbolos proporcionais dos res´ıduos de

YI . . . p. 62

28 Tendˆencia quadr´atica: variograma direcional e variograma

omnidirecio-nal dos res´ıduos de YI . . . p. 63

(11)

31 Cadeias de 1000 itera¸c˜oes e histogramas da posteriori de σ2, φ e τ2 . . p. 69 32 Inverno: gr´afico de calor frequentista e Bayesiano . . . p. 70

(12)

Lista de Tabelas

1 Medidas resumo verão . . . p. 42 2 Estimativas dos parâmetros - verão . . . p. 50 3 Medidas de qualidade de ajuste - verão . . . p. 50 4 Estimativas Bayesiana dos parâmetros - verão . . . p. 52 5 Medidas resumo inverno . . . p. 57 6 Estimativas dos parâmetros - inverno . . . p. 64 7 Medidas de qualidade de ajuste - inverno . . . p. 65 8 Estimativas Bayesiana dos parâmetros - inverno . . . p. 66

(13)

11

1 Introdu¸

c˜

ao

O funcionamento do movimento de transla¸cão da Terra e, também, a inclina¸cão do eixo terrestre com rela¸cão ao plano orbital são agentes causadores da mutabilidade da energia solar que chega à superf´ıcie terrestre. Essa desigualdade de radia¸cão solar decorreu na cria¸cão das esta¸cões do ano conhecidas como: verão, outono, inverno e primavera.

Ao longo do verão, uma parte do planeta Terra está mais próxima do Sol, proporcio-nando temperaturas mais altas. Contrariamente, durante o inverno, a incidência de raios solares para a mesma região será inferior, acarretando temperaturas igualmente menores. As regiões Sul e Sudeste do Brasil fazem fronteira e estão alocadas em diferentes zonas climáticas. A região Sudeste está presente na zona tropical, apontada como a mais quente do planeta. Já a região Sul tem maioria de sua área presente na zona temperada que é assinalada pelas suas esta¸cões do ano bem definidas. Esses fatos despertam o interesse de compara¸cão dessas regiões nas esta¸cões do ano que apresentam valores mais discrepantes, verão e inverno, quando o assunto é temperatura.

O Brasil possui cinco zonas climáticas e em cada uma delas acontecem diferentes aspectos climáticos caracter´ısticos. A temperatura é um desses aspectos que podem ser estudados para melhor compreensão do comportamento de tais zonas, ou ainda, regiões do globo.

O estudo da temperatura é de extrema importância para estudos hidrobiológicos e também atividades agropecuárias, como, por exemplo, auxiliando na sele¸cão de um am-biente de inser¸cão para um projeto. Porém, mesmo existindo a facilidade para medir a temperatura por meio de termômetros, existem complica¸cões para mensura¸cão dessa quan-tidade. Os valores de temperatura variam conforme os momentos do dia tornando dificul-toso o armazenamento destes valores, bem como, não há a disponibilidade de termômetros em qualquer localidade almejada, ou seja, só existe acesso às esta¸cões meteorológicas que monitoram essa variável.

(14)

importan-1 Introdu¸c˜ao 12

tes por ser uma alternativa a explicar a temperatura local com apenas algumas observa¸cões diárias, devido a existência de muitas esta¸cões meteorológicas convencionais, e seu objetivo é obter a temperatura média diária mais aproximada da realidade. Além disso, espera-se que exista dependência espacial entre as esta¸cões observadas. Dessa forma, acredita-se que esta¸cões vizinhas tenham maior correla¸cão do que esta¸cões mais afastadas.

Andrade (2005) [1] comparou estimativas da temperatura média deliberadas pela me-todologia adotada pelo Instituto Nacional de Meteorologia com o método que analisa apenas as temperaturas máximas e m´ınimas e o primeiro método se mostrou mais ade-quado.

A partir do fato de que a variável que será analisada nesse estudo, a temperatura compensada média, tem suas coordenadas geográficas conhecidas, pode-se utilizar ferra-mentas da área de estat´ıstica espacial para visualizar o comportamento da temperatura compensada média durante os per´ıodos a serem estudados e também realizar inferências sobre os modelos propostos.

A geoestat´ıstica é um acrescento à análise clássica estat´ıstica pois emprega a concep¸cão de fun¸cões aleatórias para que se possa adicionar uma certa dependência espacial no modelo a ser estimado, cuidando das variáveis regionalizadas para abrangir uma ampla diversidade de procedimentos de estima¸cão. Usualmente é aplicada para apontar e mapear padronagens espaciais na área estudada, conseguindo definir se há autocorrela¸cão espacial entre os elementos amostrados.

Ademais, a variável temperatura compensada média será definida como um processo aleatório. Esta defini¸cão é necessária pois para realizar modelagem da temperatura será empregado o modelo Gaussiano, muito usado para dados geoestat´ısticos.

Como acredita-se que exista uma influência do espa¸co sobre a temperatura, o objetivo deste trabalho será modelar a temperatura compensada média por meio de um modelo Gaussiano para as esta¸cões do ano de verão e de inverno. Inicialmente, será realizada uma análise exploratória utilizando ferramentas usuais para dados georreferenciados. Posteri-ormente, existe a necessidade de estimar parâmetros da tendência central e variabilidade dos dados. Essa estima¸cão de parâmetros será feita sob o enfoque frequentista e, também, Bayesiano, possibilitando a compara¸cão por meio de medidas como critério de informa¸cão de Akaike (AIC) e critério de informa¸cão Bayesiano (BIC). Confere-se, também, amiu-dadamente, a imprescindibilidade de aferir sobre locais não amostrados, ou seja, efetuar predi¸cão espacial por meio de métodos interpoladores como a krigagem.

(15)

1 Introdu¸c˜ao 13

O Cap´ıtulo 2 elucida os objetivos desse trabalho. Ao decorrer do Cap´ıtulo 3, toda a parte teórica a ser utilizada neste trabalho será enunciada, incluindo análise exploratória, estima¸cão dos parâmetros do modelo e a predi¸cão espacial sobre a variável a ser estudada. O Cap´ıtulo 4 será composto pelos resultados das análises feitas utilizando a teoria decla-rada anteriormente. Por fim, será apresentada uma avalia¸cão da observa¸cão dos resultados obtidos como forma de conclusão.

(16)

14

2 Objetivos

O objetivo principal deste trabalho é estudar modelos para dados de superf´ıcie cont´ınua para as esta¸cões do ano de verão e inverno, separadamente, de modo a ajustar a tempe-ratura compensada média para as regiões Sul e Sudeste do Brasil.

Como objetivo secund´ario deseja-se:

• Aplicar técnicas de análise exploratória para os dados de superf´ıcie cont´ınua a fim de constatar como estes se comportam no espa¸co,

• Comparar diversos modelos, sendo estes modelos que supõem uma estrutura de dependência espacial, como também uma superf´ıcie de tendência que pode ser cons-tante, linear ou quadrática e ainda regressão linear simples no caso de não ser relevante a dependência espacial,

• Estimar os parâmetros de todos os modelos definidos sob o enfoque frequentista e a partir de medidas de qualidade de ajuste escolher um modelo será escolhido para realizar a estima¸cão Bayesiana,

• Realizar predi¸c˜ao para localidades n˜ao amostradas utilizando o modelo que se mos-trar mais adequado sob ambos os enfoques,

• Por fim, buscar associa¸cões entre as análises que serão feitas à parte para cada esta¸cão do ano.

(17)

15

3 An´

alise para Dados

Georreferenciados de Superf´ıcie

Cont´ınua

Os métodos a serem utilizados neste trabalho são todos ligados aos princ´ıpios da análise estat´ıstica em que se dá ênfase ao espa¸co no qual se propaga o estudo, como foi mencionado anteriormente, por se acreditar na existência da influência espacial sobre a variável de interesse.

Neste cap´ıtulo, será realizada uma discussão sobre o tipo de dado a ser trabalhado, assim como ferramentas de análise exploratória. Também será mencionado o modelo Gaussiano e estruturas que o compõem. Posteriormente, serão especificados os instru-mentos para realizar estima¸cão dos parâmetros do modelo. Por fim, será apresentado o método de interpola¸cão espacial, chamado de “krigagem”, que é utilizado para realizar predi¸cão para locais não amostrados.

Dessa forma, antes dos métodos de análise serem esclarecidos, é preciso saber o tipo, comportamento e armazenamento do dado que será estudado.

3.1 Tipos de Dados em Estat´ıstica Espacial

Dados espaciais, como o nome já diz, referem-se a fenômenos que apresentam uma localiza¸cão geográfica. Porém, muitos dados apresentam alguma forma de localiza¸cão e nem sempre se quer inferir sobre a influência da localiza¸cão na análise. A diferen¸ca entre a estat´ıstica espacial e a estat´ıstica não espacial é o uso da referência geográfica de maneira relevante nas análises realizadas.

Quando se emprega a estat´ıstica clássica não espacial, as posi¸cões relativas da amostra são desprezadas e acredita-se que os valores amostrais tem mesma probabilidade de serem eleitos. Dessa forma, é intuitivo pensar na independência de variáveis. A estat´ıstica

(18)

3.2 An´alise Explorat´oria 16

espacial funciona de maneira distinta, apresentando resultados mais robustos, neste tipo de dados ou situa¸cões, devido à dependência espacial.

Segundo Landim (2003) [2], na área da estat´ıstica espacial, os dados espaciais podem ser divididos em três tipos: dados de processos pontuais, dados de áreas com contagens e taxas agregadas e dados de superf´ıcies cont´ınuas. Estas classifica¸cões são necessárias devido aos diferentes métodos estat´ısticos que serão aplicados a cada tipo de dado.

Os dados de processos pontuais, ou ainda padrão de pontos, baseiam-se em aconte-cimentos explicados por meio de pontos encontrados no espa¸co, sendo, neste contexto, a localiza¸cão do evento de interesse aleatório. Interessante para procurar padrões na loca-liza¸cão dos pontos amostrados. Exemplos desse tipo de dado são: local de ocorrência de crimes, local de existência de uma certa espécie animal ou vegetal, etc.

Já os dados de área dedicam-se a fundamentos que agregam o mapa geográfico a uma base de dados. O mapa é dividido em áreas - por exemplo, dividir uma cidade em mu-nic´ıpios - e um valor é atribu´ıdo para cada região que foi delimitada. Nesta circunstância, não é disposta a localiza¸cão certeira da variável que se quer medir. Um exemplo deste tipo de aplica¸cão poderia ser o estudo sobre determinada doen¸ca em um pa´ıs por estados. Para o estudo da temperatura compensada média, dá-se ênfase aos dados de superf´ıcies cont´ınuas, também denominados dados geoestat´ısticos. Os dados geoestat´ısticos, frequen-temente utilizados para fins relacionados a recursos naturais, são compostos de pontos amostrados fixos xi em que estes podem estar regularmente ou irregularmente alocados

e apresentam uma ou mais variáveis associadas a cada ponto local amostrado. Neste trabalho será utilizada como variável resposta a Temperatura Compensada Média que se distribui ao longo de toda a região de análise determinada a priori - regiões Sul e Sudeste do Brasil.

Definida a variável de interesse, neste trabalho, nas próximas se¸cões, serão apresenta-dos métodos de análise exploratória e modelagem para dados de superf´ıcie cont´ınua.

3.2 An´

alise Explorat´

oria

No ramo da geoestat´ıstica, a análise exploratória é uma análise introdutória dos as-pectos espaciais dos dados utilizada para resumir e descrevê-los, porém, aspectos não espaciais também devem ser analisados. Por exemplo, pode ser interessante observar o comportamento do histograma dos dados e ver como este se comporta posto que este é

(19)

um artif´ıcio para acomodar e compendiar um grupamento de valores.

Covariáveis podem trazer informa¸cões para o modelo a ser ajustado, porém muitas vezes haverá disponibilidade, apenas, das coordenadas geográficas. Muitas das técnicas descritivas utilizam as coordenadas geográficas para entender melhor a dependência es-pacial do fenômeno de interesse.

Gráficos dos dados contra as coordenadas geográficas - latitude e longitude - podem ser considerados ferramentas exploratórias espaciais. Assim, pode-se visualizar a existência de uma correla¸cão entre a variável regionalizada e sua localiza¸cão no espa¸co. Gráficos de dispersão 3D serão eficientes para a percep¸cão dessas tendências espaciais. Pode-se notar a existência de tendências espaciais sendo aconselhável um ajuste de superf´ıcie de tendência.

Figura 1: Exemplos de ferramentas da an´alise explorat´oria

A Figura 1 exemplifica duas ferramentas da análise exploratória para dados geoes-tat´ısticos. O gráfico à esquerda mostra que de acordo com maiores valores da latitude, a variável associada tende a valores mais altos. Já o gráfico à direita ostenta da mesma caracter´ıstica do gráfico anterior, podendo notar que conforme a latitude cresce, o valor da variável também aumenta, além de detectar a maneira como a variável se distribui no espa¸co.

Uma medida que é essencial e sempre mencionada em decorrência da a¸cão do espa¸co no estudo de dados geoestat´ısticos é a distância entre os pontos amostrados. A subse¸cão a seguir apresenta a distância utilizada neste trabalho.

(20)

3.2.1 Distˆ

ancia Euclidiana

A métrica utilizada para computar as distâncias entre pontos neste trabalho foi a distância euclidiana, facilmente calculada pelo teorema de Pitágoras. Na matemática, a distância euclidiana, para o caso bidimensional, pode ser determinada pela fórmula:

h = d(xi, xj) =

q

(xi1− xj1)2+ (xi2− xj2)2, (3.1)

em que xi1 é a ordenada de xi, xi2 é a abscissa de xi, xj1 é a ordenada de xj e xj2 é a

abscissa de xj. Ordenada e abscissa podem ser compreendidas como longitude e latitude,

respectivamente.

Como a região a ser estudada pode ser considerada bem vasta geograficamente, talvez o ideal fosse aplicar um outro tipo de medida que por sua vez considerasse a curvatura do globo terrestre, para medir a distância entre esta¸cões meteorológicas, no caso. Segundo Banerjee (2005) [3], o método escolhido para mensurar a distância pode agir tanto no cômputo das estimativas dos parâmetros quanto na predi¸cão espacial.

Como as coordenadas geográficas estão representadas em graus, as distâncias apu-radas também estarão na mesma unidade de medida. Porém, é poss´ıvel converter essas medidas para quilômetros (Km), usando a equivalência de que cada 1 grau equivale, apro-ximadamente, a 111,12 quilômetros. Essa conversão é justificada como sendo a divisão do comprimento da terra por 360 graus.

A análise da correla¸cão espacial por meio de gráficos de c´ırculos proporcionais, ou seja, gráficos que apresentam s´ımbolos de tamanho proporcional aos valores tomados pela variável de estudo, pode ser complicada. O uso do variograma emp´ırico pode tornar esta análise mais compreens´ıvel pois evidencia quantitivamente a varia¸cão de um fenômeno regionalizado no espa¸co.

3.2.2 Variograma Emp´ırico

Para a defini¸cão do variograma, considere inicialmente Y (x) como sendo o vetor que contém os dados observados de acordo com cada localiza¸cão amostrada x. Neste trabalho, Y (x) representa a temperatura compensada média na localiza¸cão x.

Segundo Diggle e Ribeiro (2007) [4], o variograma emp´ırico é medido por meio da quantidade υij = 1₂(yi − yj)2, em que yi e yj representam observa¸cões da variável de

(21)

será σ2{1 − ρ(yi, yj; φ)}, em que σ2 denota a variância do termo estocástico da variável

Y (x) e ρ(yi, yj; φ) uma fun¸cão de correla¸cão válida, entre yi e yj, isto é, uma fun¸cão

positiva definida que depende possivelmente de φ, se Y (x) possuir média e variância espacialmente constantes. Além disso, ρ(·) apenas dependerá da distância h entre xi e

xj. Sendo assim, a esperan¸ca de υij inclinar´a para σ2 conforme a distˆancia aumenta

dado que ρ(h) propenderia para zero. Se os yi n˜ao forem correlacionados, a esperan¸ca

para todo υij ser´a σ2. E esperado que observa¸c˜´ oes vizinhas geograficamente ajam de

maneira afim. Quando a amostra está irregularmente espa¸cada, são utilizadas “faixas”de distâncias para calcular o variograma. O variograma emp´ırico não será empregado para realizar inferência, este será utilizado exclusivamente como uma ferramenta de análise exploratória.

Figura 2: Exemplo de variograma emp´ırico

Os parâmetros presentes no variograma são: o patamar, o alcance e o efeito pepita. O alcance, denotado por φ, é a distância limite em que a amostra se exibe espacialmente correlacionada, ou seja, acredita-se que amostras a uma distância maior que φ não apre-sentem dependência espacial. O patamar, denotado por τ2_{+ σ}2_{, ´}_{e o valor do variograma}

que concorda com o valor de φ sendo invariante para valores maiores que φ.

O efeito pepita, denotado por τ2_{, ´}_{e o valor do variograma para h = 0, difundindo a}

descontinuidade do variograma para distâncias menores que a menor distância na amostra. Essa descontinuidade pode, ademais, ocorrer em razão de erros de medi¸cão ou, ainda, varia¸cão de pequena escala não atra´ıda pela amostragem.

(22)

O alcance dos valores do variograma emp´ırico está em torno da variância dos res´ıduos. A redu¸cão do alcance aponta como a admissão de modelos para a média clarificam a varia¸cão emp´ırica dos dados iniciais.

Quando a média para a localidade i, µ(xi), não é constante, o variograma emp´ırico

baseado nos valores Y (xi) pode ser enganoso. O que ocorre ´e que o variograma emp´ırico

confere a varia¸cão instigada pela média não constante à constru¸cão de covariância em larga escala do processo não observado. A maneira de contornar este problema é aplicar Ri = Y (xi) − ˆµ(xi) convertendo as observa¸cões em res´ıduos.

3.2.3 Efeitos Direcionais

Quando o padrão espacial de uma variável regionalizada é igual para cada dire¸cão, o cenário em questão é considerado isotrópico e é checado mediante o variograma omni-direcional, ou seja, um variograma que acredita ter a mesma propriedade independente da dire¸cão.

A suposi¸cão de isotropia, isto é, a prognose de que as caracter´ısticas da variável estudada são autônoma da dire¸cão, é necessária para a aplica¸cão do modelo Gaussiano estacionário, sendo de suma importância para estima¸cão em localidades não amostradas. Porém, a anisotropia é um aspecto constante quando o fundamento a ser estudado se trata de eventos naturais.

A anisotropia expressa que a distribui¸cão espacial de uma certa variável ocorra ex-cessivamente numa dire¸cão e não necessariamente para todas. Se houver anisotropia no processo em estudo, esta deverá ser considerada na modelagem.

Na geoestat´ıstica, encontram-se diferentes perfis de anisotropia e neste estudo serão aludidos apenas dois: anisotropia geométrica e anisotropia zonal. Por meio dos variogra-mas emp´ıricos direcionais pode-se advir que estes tenham o mesmo valor para o patamar no entanto alcances desiguais - anisotropia geométrica - ou distintos patamares e alcan-ces afins - anisotropia zonal. A anisotropia combinada é o arranjo entre as anisotropias apresentadas anteriormente.

Para a modelagem de anisotropia, é necessário apontar os eixos alusivos a menor e a maior variabilidade e adaptá-los a um modelo compacto coerente para todas as dire¸cões. Os parâmetros da anisotropia geométrica - fator e ângulo - podem ser encontrados por meio de uma elipse formada pelos alcances em diferentes dire¸cões. O maior eixo da elipse corresponderá ao maior alcance, ou seja, a máxima continuidade. Analogamente,

(23)

3.3 Modelo Gaussiano 21

o menor eixo corresponderá à menor continuidade. O fator será a razão entre o alcance de menor continuidade e o alcance de maior continuidade e o ângulo de anisotropia será o ângulo da dire¸cão de máxima continuidade. Segundo Camargo (1998) [5], para o caso de anisotropia zonal, se o fator de anisotropia for grande, utiliza-se apenas a dire¸cão de maior continuidade.

Para obter a matriz de coordenadas transformadas e isotr´opicas X_i∗ ´e usada:

X_i∗ = XiU T, (3.2)

em que Xi ´e matriz composta pelas coordenadas originais, U rotaciona as coordenadas

de acordo com o ângulo de anisotropia e T encolhe as coordenadas de acordo com o fator de anisotropia. Uma vez feita a modelagem das coordenadas geográficas, agora deve-se trabalhar com o espa¸co isotrópico.

Com base na análise exploratória, é poss´ıvel realizar uma modelagem por meio do ajuste de um modelo Gaussiano que será definido na se¸cão seguinte.

3.3 Modelo Gaussiano

Processos estocásticos Gaussianos são muito usados como modelos para dados geo-estat´ısticos. Segundo Diggle e Ribeiro (2007) [4], esses modelos raramente tem alguma justificativa f´ısica. São usados como modelos emp´ıricos que conseguem amplamente al-can¸car a a¸cão espacial compreendida na constitui¸cão da fun¸cão de correla¸cão.

Um processo espacial Gaussiano {S(x) : x ∈ R2} é um processo estocástico em que para todos os locais x1, . . . , xn, pertencentes à região R2, a distribui¸cão conjunta

{S(x1), . . . , S(xn)} assume uma distribui¸c˜ao normal multivariada. Esse processo ´e

des-crito pelas suas fun¸cões de média e covariância que são designadas por E[S(x)] = µ(x) e Cov{S(xi), S(xj)} = γ(xi, xj), respectivamente.

Neste trabalho, o interesse se dá em processos Gaussianos homogêneos, isto é, pro-cessos com variˆ_{ancias constantes ao longo de R}2, logo V ar(S(x)) = σ2_{, ∀x ∈ R}2. Desta forma, pode-se escrever a matriz de covariância de S(·) como γ(xi, xj) = σ2ρ(xi, xj; φ),

i, j = 1, ..., n, em que ρ(·, φ) denota uma fun¸cão de correla¸cão válida.

Desta maneira, fica clara a conveniência dos processos Gaussianos homogêneos, pois a estrutura de covariância do processo pode ser modelada por meio dos parâmetros σ2 _e

(24)

´e,

µ(x) = µ, ∀x ∈ R2 e (3.3)

ρ(xi, xj; φ) = ρ(||xi− xj||; φ), ∀xi, xj ∈ R2, (3.4)

em que || · || denota a distˆancia euclidiana.

Sendo assim, a partir de agora um processo S(·), definido em R2, é dito Gaussiano estacionário e isotrópico se ∀n > 1 e um conjunto {x1, . . . , xn} ∈ R2,

(S(x1), . . . , S(xn)) ∼ Nn(µ1, σ2Rφ), (3.5)

em que 1 é um vetor inteiramente composto pelo valor 1 de dimensão n × 1 e Rφé uma

matriz de correla¸c˜ao com elementos Rij = ρ(||xi− xj||; φ), i, j = 1, . . . , n.

O modelo Gaussiano é estabelecido para interpretar a dependência espacial da amos-tra. As pressuposi¸cões impl´ıcitas sobre o modelo Gaussiano s˜_{ao: {Y (x) : x ∈ R}2} ser um processo Gaussiano de média µ(x), variância σ2+ τ2 e fun¸cão de correla¸cão ρ(h), em que h caracteriza a distância entre dois pontos, y(x) é formado por realiza¸cões aleatórias da variável Y (x) que deve ser normalmente distribu´ıda.

Assim, segundo Oda-Souza (2009) [6], o modelo ser´a definido como:

Y (xi) = S(xi) + e(xi), i = 1, . . . , n, (3.6)

em que S(xi) é um processo Gaussiano e e(xi) são variáveis aleatórias independentes com

distribui¸c˜ao N (0, τ2).

Veja que uma das suposi¸cões do modelo Gaussiano é que a variável segue uma distri-bui¸cão Normal. Caso isto não seja verdade, uma possibilidade para utiliza¸cão do modelo é lidar com uma transforma¸cão da variável em questão. Uma das formas de se alcan¸car a normalidade dos dados é empregando a tranforma¸cão de Box-Cox.

A transforma¸cão de Box-Cox baseia-se no valor do coeficiente de transforma¸cão λ que altera os dados transformando-os para que aproximem-se da distribui¸cão gaussiana. A aplicabilidade da Transforma¸cão de Box-Cox é dada por intermédio da equa¸cão:

Y (xi) ∗ = ( log(Y (xi)) , se λ = 0 Y (x_i)λ−1 λ , se λ 6= 0 (3.7)

em que Y (xi)∗ será a variável transformada, Y (xi) a variável a ser transformada e λ é o

(25)

Se for necessária a transforma¸cão da variável, as análises serão baseadas nos dados transformados. Para averiguar se a transforma¸cão foi adequada, pode-se aplicar o teste de Kolmogorov-Smirnov ou explorar o histograma da variável transformada. Outros métodos para a averigua¸cão podem ser vistos em Diggle e Ribeiro (2007) [4].

Primeiramente, será definido o conceito de efeito de primeira ordem e efeito de segunda ordem. O efeito de primeira ordem interpreta a varia¸cão espacial em larga escala em seu valor médio e o efeito de segunda ordem atende aos desvios estocásticos ao redor da média. Após a averigua¸cão dos pré-requisitos do modelo Gaussiano, serão introduzidas mai-ores explica¸cões sobre a estrutura de primeira ordem presente neste tipo de modelagem.

3.3.1 Superf´ıcie de Tendˆ

encia

O estudo espacial de variáveis que apresentam valores para pontos espec´ıficos no espa¸co demonstram complexidade em análises estat´ısticas triviais. Na estat´ıstica clássica, acredita-se que os valores amostrais tem mesma probabilidade de serem designados e suas posi¸cões inerentes não influem sobre suas propriedades. Em estat´ıstica espacial, o valor do ponto amostrado será fun¸cão de sua localiza¸cão no espa¸co, dando aten¸cão aos locais dos pontos amostrais. Dessa maneira, será poss´ıvel inferir sobre a amostra em fun¸cão da distância entre esta¸cões.

Segundo Landim (2003) [2], a análise de superf´ıcie de tendência é uma prática inte-lig´ıvel para quando mapas de tendências e seus respectivos res´ıduos podem ser represen-tados a partir do ponto de vista espacial, ou ainda, quando o número de observa¸cões é limitado podendo-se aplicar a interpola¸cão. Para Diggle e Ribeiro (2007) [4], qualquer varia¸cão da média pode ser chamada de tendência espacial.

Para realizar o ajuste da superf´ıcie de tendência, utiliza-se o método da regressão por m´ınimos quadrados ordinários das coordenadas espaciais. Esta metodologia permite a composi¸cão de uma reta ou parábola em que a soma das diferen¸cas ao quadrado menos os correspondentes apurados será m´ınima. Para o caso tridimensional o método é análogo, porém, calculando um plano ao invés de uma reta ou um parabolóide ao invés de uma parábola que se adeque ao conjunto de dados fornecendo uma superf´ıcie concreta. Através dessa prática consegue-se desagregar os dados em dois elementos: um representando a caracter´ıstica local, ou seja, a superf´ıcie em si; e outro representando a oscila¸cão local, o res´ıduo.

(26)

O modelo ajustado de regress˜ao m´ultipla pode ser reescrito como:

Y (xi) = µ(xi) + S(xi) + ei, (3.8)

em que Y (xi) é a variável que representa o processo no ponto xi, µ(xi) é a tendência

estimada no ponto xi, S(xi) agora será um processo Gaussiano de média zero e ei é um

erro aleat´orio i.i.d. N (0, τ2_{) sendo evidente que E[Y (x}

i)] = µ(xi).

A primeira componente da equa¸c˜ao (3.8), µ(xi), i = 1, . . . , n, pode ser decomposta

da seguinte forma:

µ(xi) = XiTβ, (3.9)

em que ´e utilizada Xi = (1)T e β = (β0)T para tendˆencia constante, Xi = (1, xi1, xi2)T

e β = (β0, β1, β2)T para tendˆencia linear e Xi = (1, xi1, xi2, x2i1, x2i2, xi1xi2)T e β =

(β0, β1, β2, β3, β4, β5)T para tendˆencia quadr´atica.

Será limitada a apresenta¸cão de apenas três poss´ıveis ajustes de superf´ıcie de tendência, sendo eles: superf´ıcie de tendência constante, superf´ıcie de tendência linear e superf´ıcie de tendência quadrática. Fortuitamente, a escolha de qual superf´ıcie se basear tem em-basamento técnico. Diggle e Ribeiro (2007) [4] afirmam que superf´ıcies de grau elevado devem ser evitadas pois tendências complicadas são melhores descritas pela componente estocástica do modelo.

´

E poss´ıvel adicionar covariáveis ao modelo para melhor ajustar a superf´ıcie de tendência. Contudo, existem empecilhos. Seria necessário que houvesse observa¸cão dessas covariáveis nos pontos não observados e dificilmente isso ocorre. Há a op¸cão de estimar esta covariável para pontos não observados, entretanto, esta alternativa gera maiores erros para o modelo que será estimado.

3.3.2 Variograma Te´

orico

Já foi comentado sobre o variograma emp´ırico na análise exploratória dos dados na se¸cão 3.2. Apesar disso, o variograma emp´ırico será importante para a estima¸cão do variograma teórico. Ao relacionar o variograma emp´ırico com o variograma teórico num cenário estacionário, as estimativas υij não serão viesadas.

A partir do momento em que um variograma emp´ırico não for capaz de desvelar correla¸cão espacial, os dados podem ser adaptáveis a um modelo do tipo Y (xi) = µ(xi) +

(27)

Para um processo espacial S(x), o variograma pode ser definido pela fun¸c˜ao:

V (xi, xj) =

1

2V ar{S(xi) − S(xj)}. (3.10)

Se, eventualmente, existe a presen¸ca de um cenário estacionário, a equa¸cão 3.10 poderá ser elucidada como sendo V (h) = E[{S(xi) − S(xj)}2] ou ainda para a seguinte

V (h) = σ2{1 − ρ(h)}.

A correspondência entre a fun¸cão de covariância e o variograma se dá por meio da rela¸cão V (h) = γ(0) − γ(h). Hipoteticamente, o variograma é análogo a fun¸cão de cor-rela¸cão. Apesar disso, o variograma apresenta benef´ıcios quando utilizado para explorar os dados.

O variograma pode ser bem definido como uma fun¸cão de h para uma classe delimitada de processos não estacionários. Quando isso ocorre, esses processos são chamados de fun¸cões aleatórias intr´ınsecas.

De modo que já foi definido o modelo na equa¸cão (3.8), o variograma do processo pode ser esclarecido por meio da expressão:

V (h) = τ2+ σ2{1 − ρ(h)}. (3.11)

A fun¸cão de correla¸cão ρ(h) é monótona decrescente e o variograma teórico V (h) é uma fun¸cão monótona crescente. Assim, as caracter´ısticas cruciais de um modelo geoestat´ıstico estarão agrupadas na expressão apresentada acima.

Os parˆametros que precisam ser decretados s˜ao o efeito pepita designado por τ2_{, o}

patamar designado por τ2_{+ σ}2 _{e condiz com a variˆ}_{ancia do processo observado e o}

al-cance designado por φ que reflete a distância h para quando ρ(h) = 0. O alcance pode ser indefinido. Isso ocorre quando a fun¸cão de correla¸cão abeira-se de zero assintotica-mente, nunca assumindo este valor. Uma maneira de determinar φ é utilizar o alcance prátrico, uma conven¸cão geoestat´ıstica que explica tal parâmetro por intermédio da ex-pressão V (h) = τ2+ 0, 95σ2, ou seja, o valor de h corresponde a ρ(h) = 0, 05.

O efeito pepita é um parâmetro considerável quando o assunto é predi¸cão espacial pois a medida τ2abala a intensidade que a superf´ıcie de tendência seguirá os dados observados. Para aperfei¸coar a conduta do variograma emp´ırico como estimador das ordenadas V (h) do variograma teórico pode ser empregada suaviza¸cão. V (h) é uma fun¸cão de h

(28)

Figura 3: Exemplo variogram te´orico

que varia suavemente, sendo assim, a m´edia de υij por meio de espa¸cos intervalares entre

pontos conterá a variância sem incluir viés.

3.3.3 Fun¸

c˜

oes de Correla¸

c˜

ao

O variograma emp´ırico, na análise geoestat´ıstica clássica, é ainda utilizado para rea-lizar estima¸cão de parâmetros delineando um ajuste de uma fun¸cão de correla¸cão sendo considerável que esta desempenhe a tendência do variograma emp´ırico. Assim, as esti-mativas alcan¸cadas mediante a técnica de krigagem são mais adequadas. As fun¸cões de correla¸cão usadas para modelagem que apresentam um patamar são classificadas como transitivas.

Empiricamente, a a¸cão da estrutura de covariância estacionária é de que a correla¸cão entre S(xi) e S(xj) diminua assim que a distância h aumente. À vista disso, é coerente

buscar por modelos que tenham estrutura de correla¸cão teórica que ajam desta forma. Dessemelhantes empregos dessas fun¸cões podem apresentar distintos graus de suavidade para o processo espacial S(x).

Para este estudo serão apresentadas três diferentes fam´ılias de importantes fun¸cões de correla¸cão e são elas: fam´ılia exponencial potência, fam´ılia Matérn e fam´ılia esférica.

(29)

A equa¸cão que expressa a fam´ılia exponecial potência é representada por:

ρ(h) = exp ( − h φ k) , (3.12)

em que φ > 0 é o parâmetro de escala. O parâmetro de forma é definido como 0 < k ≤ 2. k concebe fun¸cões de correla¸cão monótonas decrescentes em h. A associa¸cão entre o alcance prático e o parâmetro de escala segue o valor de k.

A fun¸cão de correla¸cão gaussiana e a fun¸cão de correla¸cão exponencial são casos particulares da fam´ılia exponencial potência sendo k = 2 para fun¸cão gaussiana e k = 1 para fun¸cão exponencial.

A fam´ılia Matérn de fun¸cões de correla¸cão é descrita por meio da expressão:

ρ(h) = 1 2k−1_Γ(k) h φ k Kk h φ , (3.13)

em que Kk anuncia a fun¸cão modificada de Bessel de ordem k, φ > 0 é um parâmetro de

escala de mesma grandeza que h e k > 0 ´e um parˆametro de forma que define a suavidade do processo S(x).

Para k = 0, 5, a fun¸cão de correla¸cão Matérn será reduzida para uma fun¸cão de correla¸cão Exponencial. Já para k → ∞, a fun¸cão de correla¸cão Matérn estará contida na fun¸cão de correla¸cão Gaussiana. Parâmetros de escala correspondentes a ordens desiguais da familia de correla¸cão Matérn, ou seja, diferentes valores de k, não são análogos de modo direto. A rela¸cão entre o alcance prático e φ obedece o valor de k.

Comparada com as fam´ılias apresentadas anteriormente, a fam´ılia esférica é composta por apenas um parâmetro. Ainda, o alcance será finito, isto é, ρ(h) = 0 quando h → ∞. Quando confrontada com a fam´ılia Matérn, a desvantagem sobre a fam´ılia esférica se deve à ausência de flexibidade.

A fun¸cão de correla¸cão da fam´ılia esférica é designado pelo termo a seguir:

ρ(h) =    1 − 1.5h_φ+ 0.5h_φ 3 , se h < φ 0, c.c. (3.14)

Existem outras fam´ılias de fun¸cão de correla¸cão dispon´ıveis na literatura como também existem fun¸cões de correla¸cão sem patamar.

(30)

3.4 Estima¸c˜ao dos Parˆametros 28

subsequente deste estudo é a estima¸cão dos parâmetros do modelo.

3.4 Estima¸

c˜

ao dos Parˆ

ametros

Para um modelo Gaussiano estacionário, os parâmetros que serão aferidos serão a média e os demais que são necessários para explicar a natureza da covariância dos dados. Esses parâmetros serão estimados sob dois enfoques: Frequentista e Bayesiano.

3.4.1 Frequentista

Acolhendo um campo aleatório estacionário, pode-se escolher estimadores funda-mentados no conceito da verossimilhan¸ca ou verossimilhan¸ca restrita. Isto depende da aplica¸cão das medidas observadas da variável de estudo para descobrir o vetor ˆθ que torna-se o ponto de máximo da fun¸cão de verossimilhan¸ca afiliado a θ. Para realizar a estima¸cão, utiliza-se a fun¸cão de verossimilhan¸ca da seguinte forma:

L(θ; y) =

n

Y

i=1

f (yi; θ), (3.15)

em que y é uma amostra aleatória e f (·) é fun¸cão de densidade.

Segundo Diggle e Ribeiro (2007) [4], no ambiente geoestat´ıstico, ampara-se a repara-metriza¸cão ν = τ /σ, auxiliando a estima¸cão de θ. O vetor de parâmetros θ será reescrito como θ = (β, σ2_{, φ, ν}2_{) e a matriz Σ}

Y estabelecida como ΣY = σ2(Rφ+ν2I) em que Rφ

re-presenta a matriz de fam´ılia de correla¸cão escolhida. Por fim, a fun¸cão de verossimilhan¸ca será: L(θ; y) =(2π)−n2|σ2(R φ+ ν2I)|− 1 2 exp ( −1 2 n X i=1 (yi− Xβ)T(σ2(Rφ+ ν2I))−1(yi− Xβ) ) , (3.16)

em que Rφ ´e matriz de covariˆancia de Y = y e X uma matriz composta de uma primeira

coluna formada de 1’s e as demais compostas pelas coordenadas geogr´aficas referentes a superf´ıcie de tendˆencia aderida.

Para ν2 e φ, não encontram-se formas anal´ıticas para os estimadores, ou seja, não há modo de clarificar os estimadores por meio da separa¸cão em parcelas intelig´ıveis. Todavia, há formas anal´ıticas para os estimadores ˆσ2 _{e ˆ}_{β. Al´}_{em disso, estes ´}_{ultimos s˜}_{ao fun¸c˜}_oes

(31)

3.4 Estima¸c˜ao dos Parˆametros 29 ˆ β = (XT(σ2(Rφ+ ν2I))−1X)(XT(σ2(Rφ+ ν2I))−1Y ), (3.17) ˆ σ2 _{= n}−1_{(Y − Xβ)}T_(σ2_(R φ+ ν2I))−1(Y − Xβ). (3.18)

Segundo [9], para se descobrir ˆθ, pode-se lidar com métodos numéricos existentes de maximiza¸cão de fun¸cões em que serão computadas as estimativas de ν2 e φ. Posterior-mente, por invariância, pode-se constatar as demais estimativas de β, τ2 e σ2.

No sentido a mensurar a qualidade do ajuste dos modelos, pode-se utilizar o critério de Akaike e o critério Bayesiano, em que modelos que apresentam menores valores dessas quantidades são considerados melhores ajustes. Para obter maiores informa¸cões sobre o AIC e o BIC, consultar Emiliano (2014) [7].

3.4.2 Bayesiana

O enfoque Bayesiano é munido de instrumentos próprios com a finalidade de incorpo-rar a incerteza sobre os parâmetros por meio de distribui¸cões de probabilidade.

A estima¸cão por meio da máxima verossimilhan¸ca manuseia somente informa¸cões resultantes dos dados. Num ambiente Bayesiano, lida-se com os parâmetros como quan-tidades aleatórias, como é feito com as observa¸cões. Os parâmetros são desconhecidos e emprega-se informa¸cões a priori sobre tais. Dessa forma, tem-se uma base introdutória a respeito dos parâmetros dito por meio das distribui¸cões a priori.

A escolha das distribui¸cões de probabilidade afiliadas aos parâmetros, seguindo a problemática de cada estudo, é capaz de ser relativamente informativa. Certamente que pressuposi¸cões desiguais conduzem a distintos modelos de probabilidades e, portanto, a diversos efeitos inferenciais e predi¸cões.

O incremento do conhecimento sobre os parâmetros é avaliado pelo teorema de Bayes depois da observa¸cão de uma medida aleatória Y = y:

p(θ|y) = p(θ, y) p(y) =

p(y|θ)p(θ)

p(y) , (3.19)

em que θ é o vetor paramétrico de interesse e o termo p(y) é uma constante.

A defini¸cão de distribui¸cão a posteriori se dá a probabilidade condicional de um evento aleatório que é dada na ocasião em que θ é levado em conta para um demarcado

(32)

3.4 Estima¸c˜ao dos Parˆametros 30

grupamento de dados. Pode-se represent´a-la como sendo:

p(θ|y) ∝ L(θ; y)p(θ), (3.20)

em que o s´ımbolo ∝ proporcional permite com que se possa desprezar constantes norma-lizadoras que possam vir a aparecer para auxiliar a estima¸cão dos parâmetros, L(θ; y) é a fun¸cão de verossimilhan¸ca agregada ao modelo sob estudo e p(θ) é a distribui¸cão a priori dos parâmetros.

Assumindo independência entre os parâmetros que compõem θ, a distribui¸cão a priori de θ será o produto da distribui¸cão de todos os parâmetros envolvidos e pode ser escrito como:

p(θ) = p(β)p(φ)p(ν2)p(σ2). (3.21)

A fun¸cão de verossimilhan¸ca L(θ; y) é descrita pela equa¸cão 3.16. Conquanto, é preciso resgatar as quantidades dessas constantes que foram esquecidas. Para isso, como p(θ|y) = kp(y|θ)p(θ) e ao integrar esta equa¸cão com rela¸cão a θ pode-se, então, descobrir o valor da constante normalizadora k.

Se forem definidas as seguintes prioris:

β ∼ Np+1(m, vI),

φ ∼ exp(l), σ2 ∼ U (a, b), ν2 ∼ U (c, d)

(3.22)

em que m é um vetor de médias, v é um escalar que multiplica I que é a matriz identidade de ordem p + 1, l > 0, a < σ2 _{< b e c < ν}2 _{< d.}

A escolha da distribui¸cão normal para β tem vantagem ao retornar uma distribui¸cão a posteriori também normal, como espera-se de um modelo Gaussiano. Para φ utiliza-se a distribui¸cão exponencial pelo proveito dessa distribui¸cão ser flex´ıvel quanto sua forma. Por fim, para σ2 e ν2 utiliza-se prioris não informativas, isto é, não é passada informa¸cão relevante para a posteriori. A fun¸cão de correla¸cão a ser empregada é a exponencial.

(33)

3.5 Predi¸c˜ao Espacial 31

priori em 3.22, pode-se escrever a distribui¸c˜ao a posteriori de θ: p(θ|y) ∝|σ2(Rφ+ ν2I)|− 1 2exp −lφ − 1 2 (β − m)T(vI)−1(β − m) + n X i=1 (yi− Xβ)T(σ2(Rφ+ ν2I))−1(yi− Xβ) ) , (3.23)

em que o s´ımbolo ∝ é referente a proporcionalidade e |·| representa a fun¸cão determinante. Depois de aclarar a distribui¸cão a posteriori dos parâmetros, é realizável a reunião de informa¸cões a respeito dos parâmetros por meio de práticas inferenciais e dependendo da complica¸cão da questão não serão determinadas analiticamente. Logo, é imprescind´ıvel a aplica¸cão de métodos computacionais intensivos, sendo os métodos do algoritmo de Metropolis-Hastings e o amostrador de Gibbs os mais exercidos no âmbito geoestat´ıstico e podem ser vistos em Gamerman e Lopes (2006) [10].

Feito isso, agora, torna-se poss´ıvel encontrar as distribui¸cões condicionais completas a posteriori de cada parâmetro separadamente e são elas:

p(β|·) ∝exp ( −1 2 (β − m)TvI(β − m) + n X i=1 (yi− Xβ)T(σ2(Rφ+ ν2I))−1(yi− Xβ) ) , p(φ|·) ∝|Rφ+ ν2I|− 1 2exp ( −lφ − 1 2 n X i=1 (yi− Xβ)T(σ2(Rφ+ ν2I))−1(yi− Xβ) ) , p(ν2|·) ∝|Rφ+ ν2I|− 1 2exp ( −1 2 n X i=1 (yi− Xβ)T(σ2(Rφ+ ν2I))−1(yi− Xβ) ) , p(σ2|·) ∝(σ2₎−n 2exp ( −1 2 n X i=1 (yi− Xβ)T(σ2(Rφ+ ν2I))−1(yi− Xβ) ) . (3.24) Após realizar modelagem dos dados observados, deseja-se mapear a variável de estudo de forma a estimar valores para locais não amostrados permitindo notar o comportamento da variável sobre toda a região estudada.

3.5 Predi¸

c˜

ao Espacial

A seguir será discutida a predi¸cão espacial para as localidades não amostradas. Dessa forma, pode-se observar o comportamento da variável de estudo continuamente em todo o espa¸co estudado.

(34)

3.5.1 Predi¸

c˜

ao Frequentista

A expressão “Krigagem”é consequente do chamado Danie Gerhardus Krige, um inicia-dor sul-africano em incorporar a aplica¸cão de médias móveis para fugir da superestima¸cão sistemática de reservas de mineira¸cão.

Krigagem é um método geoestat´ıstico de regressão para aproximar ou interpolar da-dos que leva em considera¸cão caracter´ısticas espaciais de autocorrela¸cão de variáveis re-gionalizadas. Uma variável que apresenta uma distribui¸cão no espa¸co com certo grau de correla¸cão espacial é chamada de variável regionalizada. Para isso, a presen¸ca de continui-dade espacial das variáveis regionalizadas é fundamental, pois nos permite usar os dados obtidos por amostragem de certos pontos para parametrizar a estima¸cão de pontos onde tal variável tem valores desconhecidos. Também será necessário um sistema de equa¸cões normais em matrizes em que são usados parâmetros variográficos para a obten¸cão de pesos para o cálculo do ponto que será estimado.

A estimativa por krigagem utiliza distâncias baseadas na análise variográfica. Logo, quando um variograma é elaborado adequadamente, a estimativa resultante por meio da krigagem será a melhor estimativa linear não viesada.

Existem alguns tipos de estima¸cão por meio da Krigagem sendo eles: krigagem sim-ples, krigagem ordinária, krigagem universal e outros. A tendência admitida por cada tipo de krigagem será o que as discrimina.

Quando a média do acontecimento sob estudo, µ(x), é constante para todos os locais amostrados, isto é, não existe enormes varia¸cões em larga escala, utiliza-se interpoladores de krigagem ordinária. Assim, a medida esperada, para qualquer localiza¸cão, da fun¸cão aleatória será similar a µ, provocando a igualdade E[Y (x) − Y (x + h)] = 0. O caso a ser estudado também deverá ser estacionário de segunda ordem, o que causa a estacionarie-dade da variância, por consequência. Quando a tendência é uma constante conhecida e igual a zero, chamamos de krigagem simples.

Segundo Folle (2009) [8], na krigagem ordin´aria, uma quantidade desconhecida Y (x0)

é capaz de ser estimada a come¸car por uma combina¸cão linear das n medidas que foram observadas junto do parâmetro adicional λ0:

Y∗(x0) = λ0+ n

X

i=1

λiY (xi). (3.25)

(35)

3.5 Predi¸c˜ao Espacial 33 forma, E[Y (x0)] = E[Y∗(x0)] ⇒ m = λ0 + n X i=1 λim, (3.26) em que m ´e a esperan¸ca de Y (x0).

Não é necessário o conhecimento adiantado do valor m, no caso da krigagem ordinária. Porém, é necessário que λ0 = 0 e

n

P

i=1

λi = 1. Ent˜ao, depois disso, o estimador de krigagem

ordin´aria ser´a:

Y∗(x0) = n X i=1 λiY (xi) , com n X i=1 λi = 1. (3.27)

Para reduzir a variˆancia do erro, V ar[Y (x0)–Y∗(x0)], arrumam-se os pesos λisegundo

o sistema de krigagem ordin´aria que pode ser visto a seguir:

n X j=1 λjV (xi, xj) − α = V (xi, x0), (3.28) n X j=1 λj = 1, (3.29)

em que α é o multiplicador de Lagrange que é preciso para a minimiza¸cão da variância do erro. A variância associada e minimizada do erro é dada pela senten¸ca σ2_ko = V (0) −

n

P

i=1

λiV (xi, x0)−α e, tamb´em, viabiliza informa¸c˜ao sobre a confiabilidade das quantidades

interpoladas.

Na krigagem universal, ocorre a mudan¸ca na obriga¸cão da presen¸ca de uma média conhecida como também elimina a primordialidade de uma média constante. A sa´ıda, então, será aceitar que Y (x) é uma fun¸cão aleatória não-estacionária completa por duas parcelas, sendo a primeira uma fun¸cão aleatória estacionária Z(x) com média igual a zero e um item determin´ıstico, m(x).

A separa¸c˜ao pode ser dita:

Y (x) = m(x) + Z(x), em que m(x) =

m

X

i=1

aifi(x), (3.30)

e fi_{(x) interpreta o grupo de fun¸c˜}_{oes base e a}

i desempenha o papel dos coeficientes

desconhecidos das fun¸c˜oes.

Reputando combina¸c˜oes lineares de dados, para a estimativa Y (x0), o estimador n˜ao

(36)

Fundamentado nas manifesta¸c˜oes feitas anteriormente e utilizando a melhor conjuntura (E[R] = 0), surge: E[Y (x)] = 0 + m(x) = m X i=1 aifi(x), (3.31) n X α λαfαi = f i 0. (3.32)

O erro associado às estimativas, R, não sujeita-se às constantes desconhecidas da tendência. A minimiza¸cão do erro R é estabelicida por R =

n

P

α=1

λα[Z(xα) − Z(x0)]. A

variˆancia do erro, utilizando o m´etodo multiplicador de Lagrange, origina σ_R2 =X α X β λαλβγ(xα, xβ) − 2 X α λαγ(xα, x0) + γ(x0, x0) − k X i=0 αi ( _n X i=0 λαfβi − xi0 ) , (3.33)

em que αi e λ s˜ao desconhecidos. Por fim, o sistema de krikagem universal provido:

λαγ(xα, xβ) + αifαi = γ(x0, xβ), (3.34)

λαfαi = f0i. (3.35)

Na ocasião de presen¸ca de tendência, o incoveniente da fun¸cão de covariância consegue ser extra´ıdo num sistema de krigagem ordinária dos res´ıduos de uma variável aleatória ulteriormente a retirada da tendência. Em primeiro lugar, filtra-se o res´ıduo e presume-se os res´ıduos estacionários, para, então, adaptar a parte do res´ıduo krigado à tendência estimada. Assim, conquista-se a estimativa da variável.

O fato da krigagem universal acolher uma tendência influencia na realiza¸cão de es-timativas para localidades não amostradas exterior aos limites numerais das amostras, concebendo extrapola¸cões. Logo, a repercussão suavizadora da krigagem ordinária não é tão simples quanto na krigagem universal.

A seguir será definida a predi¸cão espacial de maneira Bayesiana para que à frente seja poss´ıvel comparar as estimativas de ambos enfoques.

(37)

3.6 geoR 35

3.5.2 Predi¸

c˜

ao Bayesiana

Posteriormente à observa¸cão de Y = y, para implementar a distribui¸cão preditiva para um valor não observado Y0 e, segundo Fonseca (2008) [9], pode-se executar do modo:

p(y0|y) =

Z

p(y0, θ|y)dθ =

Z

p(y0|θ, y)p(θ|y)dθ, (3.36)

em que p(y0|θ, y) é a distribui¸cão das medidas não observadas dado as medidas já

obser-vadas e p(θ|y) ´e a distribui¸c˜ao a posteriori de θ

A maior parte das ocorrências não dispõem de uma solu¸cão anal´ıtica da integral acima, por consequência, usa-se táticas de aproxima¸cão. Para qualquer amostra l, l = 1, . . . , L, conquistado no algoritmo de Monte Carlo via cadeias de Markov, que é aprofundado em Gamerman e Lopes (2006) [10], pode-se conseguir uma aproxima¸cão amostrando de p(y0|θ) e computando p(y0|y) ≈ 1 L L X l=1 p(y0|θl). (3.37)

A média amostral de y0 serve como estimativa para a média da distribui¸cão preditiva

de y0|y.

3.6 geoR

O R Project [11] foi criado por Robert Gentleman e Ross Ihaka do Departamento de Estat´ıstica da University of Auckland em 1995, porém, o R conta com a colabora¸cão de voluntários para aperfei¸coamento de suas capacidades. O Software estat´ıstico R é livre, de fácil instala¸cão e com uma linguagem de fácil manuseio, no entanto, é desejável um conhecimento básico prévio em programa¸cão estat´ıstica para uma boa interpreta¸cão das sa´ıdas que o programa retorna. O software conta com uma vasta variedade de técnicas gráficas e estat´ısticas.

Uma importante ferramenta para aplica¸cão de toda a metodologia neste trabalho foram as fun¸cões do pacote geoR [12], criado por Paulo J. Ribeiro Jr e Peter J. Diggle em 2001, apresentando fun¸cões para análise de dados geoestat´ısticos relacionados a modelos Gaussianos e Gaussianos transformados incluindo os métodos frequentista e Bayesiano. O geoR nos permite ler e preparar os dados, realizar análise exploratória dos dados, inferir sobre os parâmetros do modelo baseando-se no variograma ou na verossimilhan¸ca

(38)

3.6 geoR 36

e ainda realizar interpola¸cão espacial. Também consegue-se implementar diferentes tipos de krigagem, incluir algoritmos para simula¸cão condicional e utilizar métodos Bayesianos para predi¸cão em localiza¸cões espec´ıficas.

Primeiramente, será necessário alterar o banco de dados para um objeto da classe “ge-odata”. Tal feito pode ser realizado por intermédio da fun¸cão as.geodata() que transforma uma matriz ou data-frame em uma lista que, obrigatoriamente, terá duas componentes sendo elas os dados e as coordenadas, não sendo permitido valores faltantes nessa última. ´

E preciso que essa transforma¸cão seja feita para facilitar a aplica¸cão das análises geo-estat´ısticas utilizando o geoR porém, essa conversão não é obrigatória. Além disso, um objeto da classe “geodata”também pode conter componentes opcionais como um vetor ou uma matriz de covariáveis.

A fun¸cão summary() para um objeto da classe “geodata”traz uma lista com medidas resumo, sendo elas: número de observa¸cões - que nesse caso seriam o número total de esta¸cões que apresentam dados, m´ınimo e máximo das coordenadas - longitude e latitude, m´ınimo e máximo das distâncias entre esta¸cões e, por fim, um sumário dos dados cont´ınuos - ou melhor Temperaturas Compensadas Médias.

Para realizar análise exploratória, a fun¸cão plot() para objetos da classe “geodata”devolve quatro gráficos distintos. Esses quatro gráficos serão: o gráfico dos pontos amostrados em que os valores referentes a cada ponto será dividido pelos quartis, dois gráficos dos da-dos contra cada coordenada separadamente e um histograma da-dos dada-dos. Se o argumento “trend”for utilizado para especificar uma tendência linear ou uma tendência quadrática, os gráficos serão gerados automaticamente para os res´ıduos. O argumento “lowess”aplicará uma regressão local suavizadora aos dados. Se o valor de “lambda”for alterado para qualquer que difira de 1, acontecerá uma transforma¸cão Box-Cox.

Ainda na parte de análise exploratória, a fun¸cão points() fornece um gráfico dos locais das esta¸cões em c´ırculos representados proporcionalmente aos valores atribu´ıdos a cada ponto. Podem ser aplicadas diferentes aparta¸cões dos dados em categorias por meio do argumento “pt.divide”. Aqui também pode-se aplicar os argumentos “trend”e “lambda”e as consequências serão as mesmas. Outros argumentos podem ser passados a estas fun¸cões além dos mencionados.

Para calcular o variograma emp´ırico, usa-se a fun¸cão variog(). Com esta fun¸cão, também estimam-se parâmetros de covariância e também comparar o variograma teórico e modelos ajustados com o variograma amostral. A fun¸cão variog() nos permite escolher o tipo de estimador: clássico ou robusto. Além disso, tal fun¸cão pode nos retornar a nuvem

(39)

3.6 geoR 37

de variograma, o variograma suavizado ou simplesmente o variograma amostral. Com esta fun¸cão, tendência podem ser especificadas e serão ajustadas por m´ınimos quadrados ordinários no caso do variograma ser computado usando os res´ıduos. Os estimadores implementados são o método dos momentos e o estimador de módulo de Hawkins e Cressie (Hawkins and Cressie’s modulus estimator). A sa´ıda desta fun¸cão será uma lista com diversas informa¸cões como vetor com as distâncias entre os pontos, número de pares para cada trecho de distância, limites que definem cada um desses trechos, entre outras coisas. A fun¸cão likfit() estimará os parâmetros de modelos Gaussianos para campos aleatórios por meio da máxima verossimilhan¸ca ou da máxima verossimilhan¸ca restrita. Em geral, é utilizada a fun¸cão optim() para minimizar a log-verossimilhan¸ca negativa encontrada pela fun¸cão negloglik.GRF(). No entanto, se os parâmetros do efeito pepita, anisotropia, suavidade e transforma¸cão permanecerem fixos, a minimiza¸cão poderá ser reduzida para uma dimensão e então a fun¸cão optimize() substituirá a fun¸cão optim().

Já que os valores dos parâmetros são achados por otimiza¸cão numérica pela fun¸cão optim(), em algumas circunstâncias o algoritmo pode não convergir para os valores corre-tos dos parâmetros quando usadas as op¸cões default. O usuário deverá tentar diferentes valores iniciais e se os parâmetros tiverem diferentes ordens de magnitude, será necessário dimensionar esses parâmetros. Existem solu¸cões alternativas à essas apresentadas ante-riormente como redimensionar os dados dividindo-os por uma constante, redimensionar as coordenadas ou usar o mecanismo de passar o argumento control() para o otimizador internamente.

O argumento ini.cov.pars aceita objetos das classes “eyefit”ou “variomodel”e isso per-mite o uso das sa´ıdas das fun¸cões eyefit(), variofit() ou likfit() para ser usada como valor inicial. O argumento realisations assume independentes replica¸cões do mesmo processo do conjunto de dados. Dados coletados em diversos tempos podem ser agrupados para a estima¸cão dos parâmetros assumindo independência quanto ao tempo.

O resumo da fun¸cão likfit() também será uma lista contendo, por exemplo, nome da fun¸cão de correla¸cão, vetor com as estimativas dos parâmetros σ2 _{e φ e estimativa da}

m´edia do parˆametro β.

Para realizar a predi¸cão espacial, será definida uma grade de pontos. A fun¸cão que realizará a krigagem tem como default a krigagem ordinária.

A fun¸cão krige.bayes() faz uma interpreta¸cão Bayesiana dos dados geoestat´ısticos deixando peculiarizar distintos graus de incerteza para os parâmetros do modelo. A fun¸cão

(40)

3.6 geoR 38

torna os efeitos da distribui¸cão a posteriori dos parâmetros do modelo, como também as distribui¸cões preditivas para os locais de previsão. Esta fun¸cão depende de outras duas e são elas: model.control() e prior.control().

A fun¸cão model.control() é exercida para classificar a tendência dos pontos amostra-dos, indicar a fun¸cão de correla¸cão a ser utilizada e ainda se é necessária a realiza¸cão da corre¸cão de anisotropia. A fun¸cão prior.control() define as prioris a serem utilizadas para os parâmetros β, σ2, φ e ν2.

A sa´ıda da fun¸cão krige.bayes() é composta pelo efeito da distribui¸cão a posteriori dos parâmetros do modelo. Se for realizada a krigagem, a fun¸cão também retornará a resultância da distribui¸cão preditiva para os locais que era desejável suceder previsão.

(41)

39

4 Resultados

Este cap´ıtulo será destinado à apresenta¸cão da base de dados que será trabalhada e os resultados obtidos por meio de análises da estat´ıstica espacial. A pesquisa será dividida nas esta¸cões do ano de verão e inverno e, portanto, ostentado dessa maneira.

4.1 Base de Dados

Os dados utilizados neste trabalho são provenientes do Instituto Nacional de Meteo-rologia, o INMET [13]. O INMET disponibiliza para fins de estudo e pesquisa o Banco de Dados Meteorológicos para Ensino e Pesquisa, o BDMEP. O BDMEP é contido de dados meteorológicos diários em forma digital, a partir do ano de 1961, da rede de esta¸cões do INMET, formada por 291 esta¸cões meteorológicas convencionais, relacionado às medi¸cões diárias de acordo com as normas técnicas internacionais da Organiza¸cão Meteorológica Mundial (OMM). A série histórica do BDMEP é dividida em três tipos de dados que apresentam diferentes variáveis. Os tipos de dados são: dados horários, dados mensais e dados diários.

Os dados horários são representados por três observa¸cões diárias para sete variáveis. Essas variáveis são: temperatura do bulbo seco, temperatura do bulbo úmido, umidade relativa, pressão atmosférica ao n´ıvel da esta¸cão, nebulosidade, dire¸cão e velocidade do vento.

Os dados diários são alimentados duas vezes ao dia, porém, a segunda observa¸cão é necessária apenas para inclusão da variável temperatura m´ınima. Além de temperatura m´ınima, as demais variáveis são: precipita¸cão, temperatura máxima, temperatura com-pensada média, insola¸cão, evapora¸cão do piche, umidade relativa média e velocidade do vento média.

Os dados mensais apresentam, essencialmente, média e valores acumulados das variáveis apresentadas pelos dados horários e dados diários para cada mês, sendo exibido no último