Julia Hosken de Moura
Um Modelo para Dados Geoestat´ısticos:
Uma Aplica¸
c˜
ao na Temperatura das Regi˜
oes
Sul e Sudeste do Brasil
Niter´oi - RJ, Brasil 08 de julho de 2015
Universidade Federal Fluminense
Julia Hosken de Moura
Um Modelo para Dados
Geoestat´ısticos: Uma Aplica¸
c˜
ao na
Temperatura das Regi˜
oes Sul e
Sudeste do Brasil
Trabalho de Conclus˜ao de Curso
Monografia apresentada para obten¸c˜ao do grau de Bacharel em Estat´ıstica pela Universidade Federal Fluminense.
Orientador: Prof. Jony Arrais Pinto Junior
Niter´oi - RJ, Brasil 08 de julho de 2015
Universidade Federal Fluminense
Julia Hosken de Moura
Um Modelo para Dados Geoestat´ısticos:
Uma Aplica¸
c˜
ao na Temperatura das Regi˜
oes
Sul e Sudeste do Brasil
Monografia de Projeto Final de Gradua¸c˜ao sob o t´ıtulo “Um Modelo para Dados Geoestat´ısticos: Uma Aplica¸c˜ao na Tem-peratura das Regi˜oes Sul e Sudeste do Brasil”, defendida por Julia Hosken de Moura e aprovada em 08 de julho de 2015, na cidade de Niter´oi, no Estado do Rio de Janeiro, pela banca examinadora constitu´ıda pelos professores:
Prof. Dr. Jony Arrais Pinto Junior Orientador Departamento de Estat´ıstica – UFF
Profa. Ma. Renata Souza Bueno Co-Orientadora Departamento de Estat´ıstica – ENCE
Prof. Dr. Luis Guillermo Coca Velarde Departamento de Estat´ıstica – UFF
Moura, Julia Hosken de
Um modelo para dados geoestatísticos: uma aplicação na
temperatura das regiões sul e sudeste do Brasil / Julia Hosken de Moura; Jony Arrais Pinto Junior, orientador.
Niterói, 2015.
76 f. : il.
Trabalho de Conclusão de Curso (Graduação em Estatísticaa ) – Universidade Federal Fluminense, Instituto de Matemática e Estatística, Niterói, 2015.
1. Geoestatística. 2. Temperatura compensada média. 3. Modelo gaussiano. 4. Krigagem. I. Pinto Junior, Jony Arrais, orientador. II. Universidade Federal Fluminense. Instituto de Matemática e Estatística. III. Título.
Resumo
A temperatura compensada m´edia ´e um dos elementos meteorol´ogicos mais impor-tantes por ser uma alternativa para explicar a temperatura local com apenas algumas observa¸c˜oes di´arias. A partir do pressuposto de que a temperatura compensada m´edia ´e georreferenciada, ferramentas da an´alise espacial foram utilizadas para visualizar o seu comportamento, modelar e realizar predi¸c˜ao espacial, durante o inverno e o ver˜ao para as regi˜oes Sul e Sudeste do Brasil. As an´alises foram feitas sob os enfoques frequentista e Bayesiano.
Os dados usados foram obtidos pelo BDMEP (Banco de dados meteorol´ogicos para ensino e pesquisa) que ´e fornecido pelo INMET (Instituto Nacional de Meteorologia) para um per´ıodo de trˆes anos. Como este estudo n˜ao lida com o tempo em sua an´alise, as observa¸c˜oes da temperatura compensada m´edia foram trabalhadas de forma a laborar com a m´edia da vari´avel por esta¸c˜ao meteorol´ogica tanto para o ver˜ao como para o inverno.
Ferramentas da an´alise explorat´oria evidenciaram certa dependˆencia espacial nos da-dos, por´em se ajustada uma superf´ıcie de tendˆencia quadr´atica, esta dependˆencia enfra-quecia exigindo que fosse testado um modelo que n˜ao inclu´ısse estrutura de dependˆencia espacial.
Quatro modelos foram ajustados sob enfoque frequentista e, para ambas esta¸c˜oes do ano, o modelo Gaussiano supondo superf´ıcie de tendˆencia quadr´atica foi considerado o de melhor ajuste. O ajuste Bayesiano foi feito apenas para o modelo que teve melhor desempenho. Ao comparar os ajustes, para as duas esta¸c˜oes do ano, as estimativas refe-rentes aos parˆametros da estrutura de segunda ordem foram os que apresentaram maior discrepˆancia, sendo as estimativas Bayesianas maiores que as frequentistas.
Finalmente, foi realizada a predi¸c˜ao espacial e o comportamento da temperatura com-pensada m´edia foi bem similar para ambos os enfoques. Predi¸c˜oes para o ver˜ao foram bem homogˆeneas sobre toda regi˜ao. Para o inverno, a conduta dos valores previstos n˜ao foi intuitiva mostrando menores valores para regi˜oes ao norte do mapa.
Palavras-chaves: Geoestat´ıstica; Temperatura compensada m´edia; Modelo Gaussiano; Krigagem.
Agradecimentos
`
A minha m˜ae, por sempre me apoiar e incentivar.
Aos meus av´os Sandra e Paulo, por serem fundamentais na minha educa¸c˜ao e assim sendo muito mais do que simples av´os.
Ao Lucas, por compreender esta etapa que n˜ao pude ser t˜ao presente. `
A Thain´a, por estar junto em todos os momentos de desespero sendo sempre meu bra¸co direito durante a gradua¸c˜ao.
`
A todos os outros amigos, que me fizeram por alguns momentos distrair e relaxar. `
A Nilza, pela ideia inicial deste trabalho.
Ao Jony, Renata e Guillermo, pela orienta¸c˜ao e conhecimento de cada um de vocˆes sobre geoestat´ıstica.
`
A todos os professores que participaram da minha forma¸c˜ao.
Sum´
ario
Lista de Figuras
Lista de Tabelas
1 Introdu¸c˜ao p. 11
2 Objetivos p. 14
3 An´alise para Dados Georreferenciados de Superf´ıcie Cont´ınua p. 15 3.1 Tipos de Dados em Estat´ıstica Espacial . . . p. 15 3.2 An´alise Explorat´oria . . . p. 16 3.2.1 Distˆancia Euclidiana . . . p. 18 3.2.2 Variograma Emp´ırico . . . p. 18 3.2.3 Efeitos Direcionais . . . p. 20 3.3 Modelo Gaussiano . . . p. 21 3.3.1 Superf´ıcie de Tendˆencia . . . p. 23 3.3.2 Variograma Te´orico . . . p. 24 3.3.3 Fun¸c˜oes de Correla¸c˜ao . . . p. 26 3.4 Estima¸c˜ao dos Parˆametros . . . p. 28 3.4.1 Frequentista . . . p. 28 3.4.2 Bayesiana . . . p. 29 3.5 Predi¸c˜ao Espacial . . . p. 31 3.5.1 Predi¸c˜ao Frequentista . . . p. 32
3.5.2 Predi¸c˜ao Bayesiana . . . p. 35 3.6 geoR . . . p. 35
4 Resultados p. 39
4.1 Base de Dados . . . p. 39 4.2 Ver˜ao . . . p. 42 4.2.1 An´alise Explorat´oria . . . p. 42 4.2.2 Ajuste do Modelo . . . p. 49 4.2.2.1 Ajuste Frequentista . . . p. 49 4.2.2.2 Ajuste Bayesiano . . . p. 51 4.2.3 Predi¸c˜ao Espacial . . . p. 54 4.3 Inverno . . . p. 57 4.3.1 An´alise Explorat´oria . . . p. 57 4.3.2 Ajuste do Modelo . . . p. 63 4.3.2.1 Ajuste Frequentista . . . p. 63 4.3.2.2 Ajuste Bayesiano . . . p. 65 4.3.3 Predi¸c˜ao Espacial . . . p. 70 5 Conclus˜oes p. 72 Referˆencias p. 75
Lista de Figuras
1 Exemplos de ferramentas da an´alise explorat´oria . . . p. 17 2 Exemplo de variograma emp´ırico . . . p. 19 3 Exemplo variogram te´orico . . . p. 26 4 Localiza¸c˜ao esta¸c˜oes meteorol´oogicas . . . p. 41 5 Gr´aficos de dispers˜ao 3D ver˜ao . . . p. 42 6 Tendˆencia constante: (superior) gr´afico de dispers˜ao separado por quartis
de YV e gr´afico de YV contra latitude. (inferior) gr´afico de YV contra
latitude e histograma de YV. . . p. 43
7 Tendˆencia constante: gr´aficos de s´ımbolos proporcionais de YV . . . p. 44
8 Tendˆencia constante: variograma direcional e variograma omnidirecional
de YV . . . p. 45
9 Tendˆencia linear: (superior) gr´afico de dispers˜ao separado por quartis dos res´ıduos de YV e gr´afico dos res´ıduos de YV contra latitude. (inferior)
gr´afico dos res´ıduos de YV contra longitude e histograma dos res´ıduos de
YV. . . p. 45
10 Tendˆencia linear: gr´aficos de s´ımbolos proporcionais dos res´ıduos de YV p. 46
11 Tendˆencia linear: variograma direcional e variograma omnidirecional dos
res´ıduos de YV . . . p. 46
12 Tendˆencia quadr´atica: (superior) gr´afico de dispers˜ao separado por quar-tis dos res´ıduos de YV e gr´afico dos res´ıduos de YV contra latitude.
(inferior) gr´afico dos res´ıduos de YV contra longitude e histograma dos
res´ıduos de YV. . . p. 47
13 Tendˆencia quadr´atica: gr´aficos de s´ımbolos proporcionais dos res´ıduos de
14 Tendˆencia quadr´atica: variograma direcional e variograma
omnidirecio-nal dos res´ıduos de YV . . . p. 48
15 Cadeias de 1000 itera¸c˜oes e histogramas da posteriori de β0, β1 e β2 . . p. 53
16 Cadeias de 1000 itera¸c˜oes e histogramas da posteriori de β3, β4 e β5 . . p. 54
17 Cadeias de 1000 itera¸c˜oes e histogramas da posteriori de σ2, φ e τ2 . . p. 55
18 Ver˜ao: gr´afico de calor frequentista e Bayesiano . . . p. 56 19 Gr´aficos de dispers˜ao 3D inverno . . . p. 57 20 Tendˆencia constante: (superior) gr´afico de dispers˜ao separado por quartis
de YI e gr´afico de YI contra latitude. (inferior) gr´afico de YI contra
latitude e histograma de YI. . . p. 58
21 Tendˆencia constante: gr´aficos de s´ımbolos proporcionais de YI . . . p. 59
22 Tendˆencia constante: variograma direcional e variograma omnidirecional
de YI . . . p. 59
23 Tendˆencia linear: (superior) gr´afico de dispers˜ao separado por quartis dos res´ıduos de YI e gr´afico dos res´ıduos de YI contra latitude. (inferior)
gr´afico dos res´ıduos de YI contra longitude e histograma dos res´ıduos de
YI. . . p. 60
24 Tendˆencia linear: gr´aficos de s´ımbolos proporcionais dos res´ıduos de YI p. 60
25 Tendˆencia linear: variograma direcional e variograma omnidirecional dos
res´ıduos de YI . . . p. 61
26 Tendˆencia quadr´atica: (superior) gr´afico de dispers˜ao separado por quar-tis dos res´ıduos de YI e gr´afico dos res´ıduos de YI contra latitude.
(infe-rior) gr´afico dos res´ıduos de YIcontra longitude e histograma dos res´ıduos
de YI. . . p. 62
27 Tendˆencia quadr´atica: gr´aficos de s´ımbolos proporcionais dos res´ıduos de
YI . . . p. 62
28 Tendˆencia quadr´atica: variograma direcional e variograma
omnidirecio-nal dos res´ıduos de YI . . . p. 63
29 Cadeias de 1000 itera¸c˜oes e histogramas da posteriori de β0, β1 e β2 . . p. 67
31 Cadeias de 1000 itera¸c˜oes e histogramas da posteriori de σ2, φ e τ2 . . p. 69 32 Inverno: gr´afico de calor frequentista e Bayesiano . . . p. 70
Lista de Tabelas
1 Medidas resumo ver˜ao . . . p. 42 2 Estimativas dos parˆametros - ver˜ao . . . p. 50 3 Medidas de qualidade de ajuste - ver˜ao . . . p. 50 4 Estimativas Bayesiana dos parˆametros - ver˜ao . . . p. 52 5 Medidas resumo inverno . . . p. 57 6 Estimativas dos parˆametros - inverno . . . p. 64 7 Medidas de qualidade de ajuste - inverno . . . p. 65 8 Estimativas Bayesiana dos parˆametros - inverno . . . p. 66
11
1
Introdu¸
c˜
ao
O funcionamento do movimento de transla¸c˜ao da Terra e, tamb´em, a inclina¸c˜ao do eixo terrestre com rela¸c˜ao ao plano orbital s˜ao agentes causadores da mutabilidade da energia solar que chega `a superf´ıcie terrestre. Essa desigualdade de radia¸c˜ao solar decorreu na cria¸c˜ao das esta¸c˜oes do ano conhecidas como: ver˜ao, outono, inverno e primavera.
Ao longo do ver˜ao, uma parte do planeta Terra est´a mais pr´oxima do Sol, proporcio-nando temperaturas mais altas. Contrariamente, durante o inverno, a incidˆencia de raios solares para a mesma regi˜ao ser´a inferior, acarretando temperaturas igualmente menores. As regi˜oes Sul e Sudeste do Brasil fazem fronteira e est˜ao alocadas em diferentes zonas clim´aticas. A regi˜ao Sudeste est´a presente na zona tropical, apontada como a mais quente do planeta. J´a a regi˜ao Sul tem maioria de sua ´area presente na zona temperada que ´e assinalada pelas suas esta¸c˜oes do ano bem definidas. Esses fatos despertam o interesse de compara¸c˜ao dessas regi˜oes nas esta¸c˜oes do ano que apresentam valores mais discrepantes, ver˜ao e inverno, quando o assunto ´e temperatura.
O Brasil possui cinco zonas clim´aticas e em cada uma delas acontecem diferentes aspectos clim´aticos caracter´ısticos. A temperatura ´e um desses aspectos que podem ser estudados para melhor compreens˜ao do comportamento de tais zonas, ou ainda, regi˜oes do globo.
O estudo da temperatura ´e de extrema importˆancia para estudos hidrobiol´ogicos e tamb´em atividades agropecu´arias, como, por exemplo, auxiliando na sele¸c˜ao de um am-biente de inser¸c˜ao para um projeto. Por´em, mesmo existindo a facilidade para medir a temperatura por meio de termˆometros, existem complica¸c˜oes para mensura¸c˜ao dessa quan-tidade. Os valores de temperatura variam conforme os momentos do dia tornando dificul-toso o armazenamento destes valores, bem como, n˜ao h´a a disponibilidade de termˆometros em qualquer localidade almejada, ou seja, s´o existe acesso `as esta¸c˜oes meteorol´ogicas que monitoram essa vari´avel.
importan-1 Introdu¸c˜ao 12
tes por ser uma alternativa a explicar a temperatura local com apenas algumas observa¸c˜oes di´arias, devido a existˆencia de muitas esta¸c˜oes meteorol´ogicas convencionais, e seu objetivo ´e obter a temperatura m´edia di´aria mais aproximada da realidade. Al´em disso, espera-se que exista dependˆencia espacial entre as esta¸c˜oes observadas. Dessa forma, acredita-se que esta¸c˜oes vizinhas tenham maior correla¸c˜ao do que esta¸c˜oes mais afastadas.
Andrade (2005) [1] comparou estimativas da temperatura m´edia deliberadas pela me-todologia adotada pelo Instituto Nacional de Meteorologia com o m´etodo que analisa apenas as temperaturas m´aximas e m´ınimas e o primeiro m´etodo se mostrou mais ade-quado.
A partir do fato de que a vari´avel que ser´a analisada nesse estudo, a temperatura compensada m´edia, tem suas coordenadas geogr´aficas conhecidas, pode-se utilizar ferra-mentas da ´area de estat´ıstica espacial para visualizar o comportamento da temperatura compensada m´edia durante os per´ıodos a serem estudados e tamb´em realizar inferˆencias sobre os modelos propostos.
A geoestat´ıstica ´e um acrescento `a an´alise cl´assica estat´ıstica pois emprega a concep¸c˜ao de fun¸c˜oes aleat´orias para que se possa adicionar uma certa dependˆencia espacial no modelo a ser estimado, cuidando das vari´aveis regionalizadas para abrangir uma ampla diversidade de procedimentos de estima¸c˜ao. Usualmente ´e aplicada para apontar e mapear padronagens espaciais na ´area estudada, conseguindo definir se h´a autocorrela¸c˜ao espacial entre os elementos amostrados.
Ademais, a vari´avel temperatura compensada m´edia ser´a definida como um processo aleat´orio. Esta defini¸c˜ao ´e necess´aria pois para realizar modelagem da temperatura ser´a empregado o modelo Gaussiano, muito usado para dados geoestat´ısticos.
Como acredita-se que exista uma influˆencia do espa¸co sobre a temperatura, o objetivo deste trabalho ser´a modelar a temperatura compensada m´edia por meio de um modelo Gaussiano para as esta¸c˜oes do ano de ver˜ao e de inverno. Inicialmente, ser´a realizada uma an´alise explorat´oria utilizando ferramentas usuais para dados georreferenciados. Posteri-ormente, existe a necessidade de estimar parˆametros da tendˆencia central e variabilidade dos dados. Essa estima¸c˜ao de parˆametros ser´a feita sob o enfoque frequentista e, tamb´em, Bayesiano, possibilitando a compara¸c˜ao por meio de medidas como crit´erio de informa¸c˜ao de Akaike (AIC) e crit´erio de informa¸c˜ao Bayesiano (BIC). Confere-se, tamb´em, amiu-dadamente, a imprescindibilidade de aferir sobre locais n˜ao amostrados, ou seja, efetuar predi¸c˜ao espacial por meio de m´etodos interpoladores como a krigagem.
1 Introdu¸c˜ao 13
O Cap´ıtulo 2 elucida os objetivos desse trabalho. Ao decorrer do Cap´ıtulo 3, toda a parte te´orica a ser utilizada neste trabalho ser´a enunciada, incluindo an´alise explorat´oria, estima¸c˜ao dos parˆametros do modelo e a predi¸c˜ao espacial sobre a vari´avel a ser estudada. O Cap´ıtulo 4 ser´a composto pelos resultados das an´alises feitas utilizando a teoria decla-rada anteriormente. Por fim, ser´a apresentada uma avalia¸c˜ao da observa¸c˜ao dos resultados obtidos como forma de conclus˜ao.
14
2
Objetivos
O objetivo principal deste trabalho ´e estudar modelos para dados de superf´ıcie cont´ınua para as esta¸c˜oes do ano de ver˜ao e inverno, separadamente, de modo a ajustar a tempe-ratura compensada m´edia para as regi˜oes Sul e Sudeste do Brasil.
Como objetivo secund´ario deseja-se:
• Aplicar t´ecnicas de an´alise explorat´oria para os dados de superf´ıcie cont´ınua a fim de constatar como estes se comportam no espa¸co,
• Comparar diversos modelos, sendo estes modelos que sup˜oem uma estrutura de dependˆencia espacial, como tamb´em uma superf´ıcie de tendˆencia que pode ser cons-tante, linear ou quadr´atica e ainda regress˜ao linear simples no caso de n˜ao ser relevante a dependˆencia espacial,
• Estimar os parˆametros de todos os modelos definidos sob o enfoque frequentista e a partir de medidas de qualidade de ajuste escolher um modelo ser´a escolhido para realizar a estima¸c˜ao Bayesiana,
• Realizar predi¸c˜ao para localidades n˜ao amostradas utilizando o modelo que se mos-trar mais adequado sob ambos os enfoques,
• Por fim, buscar associa¸c˜oes entre as an´alises que ser˜ao feitas `a parte para cada esta¸c˜ao do ano.
15
3
An´
alise para Dados
Georreferenciados de Superf´ıcie
Cont´ınua
Os m´etodos a serem utilizados neste trabalho s˜ao todos ligados aos princ´ıpios da an´alise estat´ıstica em que se d´a ˆenfase ao espa¸co no qual se propaga o estudo, como foi mencionado anteriormente, por se acreditar na existˆencia da influˆencia espacial sobre a vari´avel de interesse.
Neste cap´ıtulo, ser´a realizada uma discuss˜ao sobre o tipo de dado a ser trabalhado, assim como ferramentas de an´alise explorat´oria. Tamb´em ser´a mencionado o modelo Gaussiano e estruturas que o comp˜oem. Posteriormente, ser˜ao especificados os instru-mentos para realizar estima¸c˜ao dos parˆametros do modelo. Por fim, ser´a apresentado o m´etodo de interpola¸c˜ao espacial, chamado de “krigagem”, que ´e utilizado para realizar predi¸c˜ao para locais n˜ao amostrados.
Dessa forma, antes dos m´etodos de an´alise serem esclarecidos, ´e preciso saber o tipo, comportamento e armazenamento do dado que ser´a estudado.
3.1
Tipos de Dados em Estat´ıstica Espacial
Dados espaciais, como o nome j´a diz, referem-se a fenˆomenos que apresentam uma localiza¸c˜ao geogr´afica. Por´em, muitos dados apresentam alguma forma de localiza¸c˜ao e nem sempre se quer inferir sobre a influˆencia da localiza¸c˜ao na an´alise. A diferen¸ca entre a estat´ıstica espacial e a estat´ıstica n˜ao espacial ´e o uso da referˆencia geogr´afica de maneira relevante nas an´alises realizadas.
Quando se emprega a estat´ıstica cl´assica n˜ao espacial, as posi¸c˜oes relativas da amostra s˜ao desprezadas e acredita-se que os valores amostrais tem mesma probabilidade de serem eleitos. Dessa forma, ´e intuitivo pensar na independˆencia de vari´aveis. A estat´ıstica
3.2 An´alise Explorat´oria 16
espacial funciona de maneira distinta, apresentando resultados mais robustos, neste tipo de dados ou situa¸c˜oes, devido `a dependˆencia espacial.
Segundo Landim (2003) [2], na ´area da estat´ıstica espacial, os dados espaciais podem ser divididos em trˆes tipos: dados de processos pontuais, dados de ´areas com contagens e taxas agregadas e dados de superf´ıcies cont´ınuas. Estas classifica¸c˜oes s˜ao necess´arias devido aos diferentes m´etodos estat´ısticos que ser˜ao aplicados a cada tipo de dado.
Os dados de processos pontuais, ou ainda padr˜ao de pontos, baseiam-se em aconte-cimentos explicados por meio de pontos encontrados no espa¸co, sendo, neste contexto, a localiza¸c˜ao do evento de interesse aleat´orio. Interessante para procurar padr˜oes na loca-liza¸c˜ao dos pontos amostrados. Exemplos desse tipo de dado s˜ao: local de ocorrˆencia de crimes, local de existˆencia de uma certa esp´ecie animal ou vegetal, etc.
J´a os dados de ´area dedicam-se a fundamentos que agregam o mapa geogr´afico a uma base de dados. O mapa ´e dividido em ´areas - por exemplo, dividir uma cidade em mu-nic´ıpios - e um valor ´e atribu´ıdo para cada regi˜ao que foi delimitada. Nesta circunstˆancia, n˜ao ´e disposta a localiza¸c˜ao certeira da vari´avel que se quer medir. Um exemplo deste tipo de aplica¸c˜ao poderia ser o estudo sobre determinada doen¸ca em um pa´ıs por estados. Para o estudo da temperatura compensada m´edia, d´a-se ˆenfase aos dados de superf´ıcies cont´ınuas, tamb´em denominados dados geoestat´ısticos. Os dados geoestat´ısticos, frequen-temente utilizados para fins relacionados a recursos naturais, s˜ao compostos de pontos amostrados fixos xi em que estes podem estar regularmente ou irregularmente alocados
e apresentam uma ou mais vari´aveis associadas a cada ponto local amostrado. Neste trabalho ser´a utilizada como vari´avel resposta a Temperatura Compensada M´edia que se distribui ao longo de toda a regi˜ao de an´alise determinada a priori - regi˜oes Sul e Sudeste do Brasil.
Definida a vari´avel de interesse, neste trabalho, nas pr´oximas se¸c˜oes, ser˜ao apresenta-dos m´etodos de an´alise explorat´oria e modelagem para dados de superf´ıcie cont´ınua.
3.2
An´
alise Explorat´
oria
No ramo da geoestat´ıstica, a an´alise explorat´oria ´e uma an´alise introdut´oria dos as-pectos espaciais dos dados utilizada para resumir e descrevˆe-los, por´em, aspectos n˜ao espaciais tamb´em devem ser analisados. Por exemplo, pode ser interessante observar o comportamento do histograma dos dados e ver como este se comporta posto que este ´e
3.2 An´alise Explorat´oria 17
um artif´ıcio para acomodar e compendiar um grupamento de valores.
Covari´aveis podem trazer informa¸c˜oes para o modelo a ser ajustado, por´em muitas vezes haver´a disponibilidade, apenas, das coordenadas geogr´aficas. Muitas das t´ecnicas descritivas utilizam as coordenadas geogr´aficas para entender melhor a dependˆencia es-pacial do fenˆomeno de interesse.
Gr´aficos dos dados contra as coordenadas geogr´aficas - latitude e longitude - podem ser considerados ferramentas explorat´orias espaciais. Assim, pode-se visualizar a existˆencia de uma correla¸c˜ao entre a vari´avel regionalizada e sua localiza¸c˜ao no espa¸co. Gr´aficos de dispers˜ao 3D ser˜ao eficientes para a percep¸c˜ao dessas tendˆencias espaciais. Pode-se notar a existˆencia de tendˆencias espaciais sendo aconselh´avel um ajuste de superf´ıcie de tendˆencia.
Figura 1: Exemplos de ferramentas da an´alise explorat´oria
A Figura 1 exemplifica duas ferramentas da an´alise explorat´oria para dados geoes-tat´ısticos. O gr´afico `a esquerda mostra que de acordo com maiores valores da latitude, a vari´avel associada tende a valores mais altos. J´a o gr´afico `a direita ostenta da mesma caracter´ıstica do gr´afico anterior, podendo notar que conforme a latitude cresce, o valor da vari´avel tamb´em aumenta, al´em de detectar a maneira como a vari´avel se distribui no espa¸co.
Uma medida que ´e essencial e sempre mencionada em decorrˆencia da a¸c˜ao do espa¸co no estudo de dados geoestat´ısticos ´e a distˆancia entre os pontos amostrados. A subse¸c˜ao a seguir apresenta a distˆancia utilizada neste trabalho.
3.2 An´alise Explorat´oria 18
3.2.1
Distˆ
ancia Euclidiana
A m´etrica utilizada para computar as distˆancias entre pontos neste trabalho foi a distˆancia euclidiana, facilmente calculada pelo teorema de Pit´agoras. Na matem´atica, a distˆancia euclidiana, para o caso bidimensional, pode ser determinada pela f´ormula:
h = d(xi, xj) =
q
(xi1− xj1)2+ (xi2− xj2)2, (3.1)
em que xi1 ´e a ordenada de xi, xi2 ´e a abscissa de xi, xj1 ´e a ordenada de xj e xj2 ´e a
abscissa de xj. Ordenada e abscissa podem ser compreendidas como longitude e latitude,
respectivamente.
Como a regi˜ao a ser estudada pode ser considerada bem vasta geograficamente, talvez o ideal fosse aplicar um outro tipo de medida que por sua vez considerasse a curvatura do globo terrestre, para medir a distˆancia entre esta¸c˜oes meteorol´ogicas, no caso. Segundo Banerjee (2005) [3], o m´etodo escolhido para mensurar a distˆancia pode agir tanto no cˆomputo das estimativas dos parˆametros quanto na predi¸c˜ao espacial.
Como as coordenadas geogr´aficas est˜ao representadas em graus, as distˆancias apu-radas tamb´em estar˜ao na mesma unidade de medida. Por´em, ´e poss´ıvel converter essas medidas para quilˆometros (Km), usando a equivalˆencia de que cada 1 grau equivale, apro-ximadamente, a 111,12 quilˆometros. Essa convers˜ao ´e justificada como sendo a divis˜ao do comprimento da terra por 360 graus.
A an´alise da correla¸c˜ao espacial por meio de gr´aficos de c´ırculos proporcionais, ou seja, gr´aficos que apresentam s´ımbolos de tamanho proporcional aos valores tomados pela vari´avel de estudo, pode ser complicada. O uso do variograma emp´ırico pode tornar esta an´alise mais compreens´ıvel pois evidencia quantitivamente a varia¸c˜ao de um fenˆomeno regionalizado no espa¸co.
3.2.2
Variograma Emp´ırico
Para a defini¸c˜ao do variograma, considere inicialmente Y (x) como sendo o vetor que cont´em os dados observados de acordo com cada localiza¸c˜ao amostrada x. Neste trabalho, Y (x) representa a temperatura compensada m´edia na localiza¸c˜ao x.
Segundo Diggle e Ribeiro (2007) [4], o variograma emp´ırico ´e medido por meio da quantidade υij = 12(yi − yj)2, em que yi e yj representam observa¸c˜oes da vari´avel de
3.2 An´alise Explorat´oria 19
ser´a σ2{1 − ρ(yi, yj; φ)}, em que σ2 denota a variˆancia do termo estoc´astico da vari´avel
Y (x) e ρ(yi, yj; φ) uma fun¸c˜ao de correla¸c˜ao v´alida, entre yi e yj, isto ´e, uma fun¸c˜ao
positiva definida que depende possivelmente de φ, se Y (x) possuir m´edia e variˆancia espacialmente constantes. Al´em disso, ρ(·) apenas depender´a da distˆancia h entre xi e
xj. Sendo assim, a esperan¸ca de υij inclinar´a para σ2 conforme a distˆancia aumenta
dado que ρ(h) propenderia para zero. Se os yi n˜ao forem correlacionados, a esperan¸ca
para todo υij ser´a σ2. E esperado que observa¸c˜´ oes vizinhas geograficamente ajam de
maneira afim. Quando a amostra est´a irregularmente espa¸cada, s˜ao utilizadas “faixas”de distˆancias para calcular o variograma. O variograma emp´ırico n˜ao ser´a empregado para realizar inferˆencia, este ser´a utilizado exclusivamente como uma ferramenta de an´alise explorat´oria.
Figura 2: Exemplo de variograma emp´ırico
Os parˆametros presentes no variograma s˜ao: o patamar, o alcance e o efeito pepita. O alcance, denotado por φ, ´e a distˆancia limite em que a amostra se exibe espacialmente correlacionada, ou seja, acredita-se que amostras a uma distˆancia maior que φ n˜ao apre-sentem dependˆencia espacial. O patamar, denotado por τ2+ σ2, ´e o valor do variograma
que concorda com o valor de φ sendo invariante para valores maiores que φ.
O efeito pepita, denotado por τ2, ´e o valor do variograma para h = 0, difundindo a
descontinuidade do variograma para distˆancias menores que a menor distˆancia na amostra. Essa descontinuidade pode, ademais, ocorrer em raz˜ao de erros de medi¸c˜ao ou, ainda, varia¸c˜ao de pequena escala n˜ao atra´ıda pela amostragem.
3.2 An´alise Explorat´oria 20
O alcance dos valores do variograma emp´ırico est´a em torno da variˆancia dos res´ıduos. A redu¸c˜ao do alcance aponta como a admiss˜ao de modelos para a m´edia clarificam a varia¸c˜ao emp´ırica dos dados iniciais.
Quando a m´edia para a localidade i, µ(xi), n˜ao ´e constante, o variograma emp´ırico
baseado nos valores Y (xi) pode ser enganoso. O que ocorre ´e que o variograma emp´ırico
confere a varia¸c˜ao instigada pela m´edia n˜ao constante `a constru¸c˜ao de covariˆancia em larga escala do processo n˜ao observado. A maneira de contornar este problema ´e aplicar Ri = Y (xi) − ˆµ(xi) convertendo as observa¸c˜oes em res´ıduos.
3.2.3
Efeitos Direcionais
Quando o padr˜ao espacial de uma vari´avel regionalizada ´e igual para cada dire¸c˜ao, o cen´ario em quest˜ao ´e considerado isotr´opico e ´e checado mediante o variograma omni-direcional, ou seja, um variograma que acredita ter a mesma propriedade independente da dire¸c˜ao.
A suposi¸c˜ao de isotropia, isto ´e, a prognose de que as caracter´ısticas da vari´avel estudada s˜ao autˆonoma da dire¸c˜ao, ´e necess´aria para a aplica¸c˜ao do modelo Gaussiano estacion´ario, sendo de suma importˆancia para estima¸c˜ao em localidades n˜ao amostradas. Por´em, a anisotropia ´e um aspecto constante quando o fundamento a ser estudado se trata de eventos naturais.
A anisotropia expressa que a distribui¸c˜ao espacial de uma certa vari´avel ocorra ex-cessivamente numa dire¸c˜ao e n˜ao necessariamente para todas. Se houver anisotropia no processo em estudo, esta dever´a ser considerada na modelagem.
Na geoestat´ıstica, encontram-se diferentes perfis de anisotropia e neste estudo ser˜ao aludidos apenas dois: anisotropia geom´etrica e anisotropia zonal. Por meio dos variogra-mas emp´ıricos direcionais pode-se advir que estes tenham o mesmo valor para o patamar no entanto alcances desiguais - anisotropia geom´etrica - ou distintos patamares e alcan-ces afins - anisotropia zonal. A anisotropia combinada ´e o arranjo entre as anisotropias apresentadas anteriormente.
Para a modelagem de anisotropia, ´e necess´ario apontar os eixos alusivos a menor e a maior variabilidade e adapt´a-los a um modelo compacto coerente para todas as dire¸c˜oes. Os parˆametros da anisotropia geom´etrica - fator e ˆangulo - podem ser encontrados por meio de uma elipse formada pelos alcances em diferentes dire¸c˜oes. O maior eixo da elipse corresponder´a ao maior alcance, ou seja, a m´axima continuidade. Analogamente,
3.3 Modelo Gaussiano 21
o menor eixo corresponder´a `a menor continuidade. O fator ser´a a raz˜ao entre o alcance de menor continuidade e o alcance de maior continuidade e o ˆangulo de anisotropia ser´a o ˆangulo da dire¸c˜ao de m´axima continuidade. Segundo Camargo (1998) [5], para o caso de anisotropia zonal, se o fator de anisotropia for grande, utiliza-se apenas a dire¸c˜ao de maior continuidade.
Para obter a matriz de coordenadas transformadas e isotr´opicas Xi∗ ´e usada:
Xi∗ = XiU T, (3.2)
em que Xi ´e matriz composta pelas coordenadas originais, U rotaciona as coordenadas
de acordo com o ˆangulo de anisotropia e T encolhe as coordenadas de acordo com o fator de anisotropia. Uma vez feita a modelagem das coordenadas geogr´aficas, agora deve-se trabalhar com o espa¸co isotr´opico.
Com base na an´alise explorat´oria, ´e poss´ıvel realizar uma modelagem por meio do ajuste de um modelo Gaussiano que ser´a definido na se¸c˜ao seguinte.
3.3
Modelo Gaussiano
Processos estoc´asticos Gaussianos s˜ao muito usados como modelos para dados geo-estat´ısticos. Segundo Diggle e Ribeiro (2007) [4], esses modelos raramente tem alguma justificativa f´ısica. S˜ao usados como modelos emp´ıricos que conseguem amplamente al-can¸car a a¸c˜ao espacial compreendida na constitui¸c˜ao da fun¸c˜ao de correla¸c˜ao.
Um processo espacial Gaussiano {S(x) : x ∈ R2} ´e um processo estoc´astico em que para todos os locais x1, . . . , xn, pertencentes `a regi˜ao R2, a distribui¸c˜ao conjunta
{S(x1), . . . , S(xn)} assume uma distribui¸c˜ao normal multivariada. Esse processo ´e
des-crito pelas suas fun¸c˜oes de m´edia e covariˆancia que s˜ao designadas por E[S(x)] = µ(x) e Cov{S(xi), S(xj)} = γ(xi, xj), respectivamente.
Neste trabalho, o interesse se d´a em processos Gaussianos homogˆeneos, isto ´e, pro-cessos com variˆancias constantes ao longo de R2, logo V ar(S(x)) = σ2, ∀x ∈ R2. Desta forma, pode-se escrever a matriz de covariˆancia de S(·) como γ(xi, xj) = σ2ρ(xi, xj; φ),
i, j = 1, ..., n, em que ρ(·, φ) denota uma fun¸c˜ao de correla¸c˜ao v´alida.
Desta maneira, fica clara a conveniˆencia dos processos Gaussianos homogˆeneos, pois a estrutura de covariˆancia do processo pode ser modelada por meio dos parˆametros σ2 e
3.3 Modelo Gaussiano 22
´e,
µ(x) = µ, ∀x ∈ R2 e (3.3)
ρ(xi, xj; φ) = ρ(||xi− xj||; φ), ∀xi, xj ∈ R2, (3.4)
em que || · || denota a distˆancia euclidiana.
Sendo assim, a partir de agora um processo S(·), definido em R2, ´e dito Gaussiano estacion´ario e isotr´opico se ∀n > 1 e um conjunto {x1, . . . , xn} ∈ R2,
(S(x1), . . . , S(xn)) ∼ Nn(µ1, σ2Rφ), (3.5)
em que 1 ´e um vetor inteiramente composto pelo valor 1 de dimens˜ao n × 1 e Rφ´e uma
matriz de correla¸c˜ao com elementos Rij = ρ(||xi− xj||; φ), i, j = 1, . . . , n.
O modelo Gaussiano ´e estabelecido para interpretar a dependˆencia espacial da amos-tra. As pressuposi¸c˜oes impl´ıcitas sobre o modelo Gaussiano s˜ao: {Y (x) : x ∈ R2} ser um processo Gaussiano de m´edia µ(x), variˆancia σ2+ τ2 e fun¸c˜ao de correla¸c˜ao ρ(h), em que h caracteriza a distˆancia entre dois pontos, y(x) ´e formado por realiza¸c˜oes aleat´orias da vari´avel Y (x) que deve ser normalmente distribu´ıda.
Assim, segundo Oda-Souza (2009) [6], o modelo ser´a definido como:
Y (xi) = S(xi) + e(xi), i = 1, . . . , n, (3.6)
em que S(xi) ´e um processo Gaussiano e e(xi) s˜ao vari´aveis aleat´orias independentes com
distribui¸c˜ao N (0, τ2).
Veja que uma das suposi¸c˜oes do modelo Gaussiano ´e que a vari´avel segue uma distri-bui¸c˜ao Normal. Caso isto n˜ao seja verdade, uma possibilidade para utiliza¸c˜ao do modelo ´e lidar com uma transforma¸c˜ao da vari´avel em quest˜ao. Uma das formas de se alcan¸car a normalidade dos dados ´e empregando a tranforma¸c˜ao de Box-Cox.
A transforma¸c˜ao de Box-Cox baseia-se no valor do coeficiente de transforma¸c˜ao λ que altera os dados transformando-os para que aproximem-se da distribui¸c˜ao gaussiana. A aplicabilidade da Transforma¸c˜ao de Box-Cox ´e dada por interm´edio da equa¸c˜ao:
Y (xi) ∗ = ( log(Y (xi)) , se λ = 0 Y (xi)λ−1 λ , se λ 6= 0 (3.7)
em que Y (xi)∗ ser´a a vari´avel transformada, Y (xi) a vari´avel a ser transformada e λ ´e o
3.3 Modelo Gaussiano 23
Se for necess´aria a transforma¸c˜ao da vari´avel, as an´alises ser˜ao baseadas nos dados transformados. Para averiguar se a transforma¸c˜ao foi adequada, pode-se aplicar o teste de Kolmogorov-Smirnov ou explorar o histograma da vari´avel transformada. Outros m´etodos para a averigua¸c˜ao podem ser vistos em Diggle e Ribeiro (2007) [4].
Primeiramente, ser´a definido o conceito de efeito de primeira ordem e efeito de segunda ordem. O efeito de primeira ordem interpreta a varia¸c˜ao espacial em larga escala em seu valor m´edio e o efeito de segunda ordem atende aos desvios estoc´asticos ao redor da m´edia. Ap´os a averigua¸c˜ao dos pr´e-requisitos do modelo Gaussiano, ser˜ao introduzidas mai-ores explica¸c˜oes sobre a estrutura de primeira ordem presente neste tipo de modelagem.
3.3.1
Superf´ıcie de Tendˆ
encia
O estudo espacial de vari´aveis que apresentam valores para pontos espec´ıficos no espa¸co demonstram complexidade em an´alises estat´ısticas triviais. Na estat´ıstica cl´assica, acredita-se que os valores amostrais tem mesma probabilidade de serem designados e suas posi¸c˜oes inerentes n˜ao influem sobre suas propriedades. Em estat´ıstica espacial, o valor do ponto amostrado ser´a fun¸c˜ao de sua localiza¸c˜ao no espa¸co, dando aten¸c˜ao aos locais dos pontos amostrais. Dessa maneira, ser´a poss´ıvel inferir sobre a amostra em fun¸c˜ao da distˆancia entre esta¸c˜oes.
Segundo Landim (2003) [2], a an´alise de superf´ıcie de tendˆencia ´e uma pr´atica inte-lig´ıvel para quando mapas de tendˆencias e seus respectivos res´ıduos podem ser represen-tados a partir do ponto de vista espacial, ou ainda, quando o n´umero de observa¸c˜oes ´e limitado podendo-se aplicar a interpola¸c˜ao. Para Diggle e Ribeiro (2007) [4], qualquer varia¸c˜ao da m´edia pode ser chamada de tendˆencia espacial.
Para realizar o ajuste da superf´ıcie de tendˆencia, utiliza-se o m´etodo da regress˜ao por m´ınimos quadrados ordin´arios das coordenadas espaciais. Esta metodologia permite a composi¸c˜ao de uma reta ou par´abola em que a soma das diferen¸cas ao quadrado menos os correspondentes apurados ser´a m´ınima. Para o caso tridimensional o m´etodo ´e an´alogo, por´em, calculando um plano ao inv´es de uma reta ou um parabol´oide ao inv´es de uma par´abola que se adeque ao conjunto de dados fornecendo uma superf´ıcie concreta. Atrav´es dessa pr´atica consegue-se desagregar os dados em dois elementos: um representando a caracter´ıstica local, ou seja, a superf´ıcie em si; e outro representando a oscila¸c˜ao local, o res´ıduo.
3.3 Modelo Gaussiano 24
O modelo ajustado de regress˜ao m´ultipla pode ser reescrito como:
Y (xi) = µ(xi) + S(xi) + ei, (3.8)
em que Y (xi) ´e a vari´avel que representa o processo no ponto xi, µ(xi) ´e a tendˆencia
estimada no ponto xi, S(xi) agora ser´a um processo Gaussiano de m´edia zero e ei ´e um
erro aleat´orio i.i.d. N (0, τ2) sendo evidente que E[Y (x
i)] = µ(xi).
A primeira componente da equa¸c˜ao (3.8), µ(xi), i = 1, . . . , n, pode ser decomposta
da seguinte forma:
µ(xi) = XiTβ, (3.9)
em que ´e utilizada Xi = (1)T e β = (β0)T para tendˆencia constante, Xi = (1, xi1, xi2)T
e β = (β0, β1, β2)T para tendˆencia linear e Xi = (1, xi1, xi2, x2i1, x2i2, xi1xi2)T e β =
(β0, β1, β2, β3, β4, β5)T para tendˆencia quadr´atica.
Ser´a limitada a apresenta¸c˜ao de apenas trˆes poss´ıveis ajustes de superf´ıcie de tendˆencia, sendo eles: superf´ıcie de tendˆencia constante, superf´ıcie de tendˆencia linear e superf´ıcie de tendˆencia quadr´atica. Fortuitamente, a escolha de qual superf´ıcie se basear tem em-basamento t´ecnico. Diggle e Ribeiro (2007) [4] afirmam que superf´ıcies de grau elevado devem ser evitadas pois tendˆencias complicadas s˜ao melhores descritas pela componente estoc´astica do modelo.
´
E poss´ıvel adicionar covari´aveis ao modelo para melhor ajustar a superf´ıcie de tendˆencia. Contudo, existem empecilhos. Seria necess´ario que houvesse observa¸c˜ao dessas covari´aveis nos pontos n˜ao observados e dificilmente isso ocorre. H´a a op¸c˜ao de estimar esta covari´avel para pontos n˜ao observados, entretanto, esta alternativa gera maiores erros para o modelo que ser´a estimado.
3.3.2
Variograma Te´
orico
J´a foi comentado sobre o variograma emp´ırico na an´alise explorat´oria dos dados na se¸c˜ao 3.2. Apesar disso, o variograma emp´ırico ser´a importante para a estima¸c˜ao do variograma te´orico. Ao relacionar o variograma emp´ırico com o variograma te´orico num cen´ario estacion´ario, as estimativas υij n˜ao ser˜ao viesadas.
A partir do momento em que um variograma emp´ırico n˜ao for capaz de desvelar correla¸c˜ao espacial, os dados podem ser adapt´aveis a um modelo do tipo Y (xi) = µ(xi) +
3.3 Modelo Gaussiano 25
Para um processo espacial S(x), o variograma pode ser definido pela fun¸c˜ao:
V (xi, xj) =
1
2V ar{S(xi) − S(xj)}. (3.10)
Se, eventualmente, existe a presen¸ca de um cen´ario estacion´ario, a equa¸c˜ao 3.10 poder´a ser elucidada como sendo V (h) = E[{S(xi) − S(xj)}2] ou ainda para a seguinte
V (h) = σ2{1 − ρ(h)}.
A correspondˆencia entre a fun¸c˜ao de covariˆancia e o variograma se d´a por meio da rela¸c˜ao V (h) = γ(0) − γ(h). Hipoteticamente, o variograma ´e an´alogo a fun¸c˜ao de cor-rela¸c˜ao. Apesar disso, o variograma apresenta benef´ıcios quando utilizado para explorar os dados.
O variograma pode ser bem definido como uma fun¸c˜ao de h para uma classe delimitada de processos n˜ao estacion´arios. Quando isso ocorre, esses processos s˜ao chamados de fun¸c˜oes aleat´orias intr´ınsecas.
De modo que j´a foi definido o modelo na equa¸c˜ao (3.8), o variograma do processo pode ser esclarecido por meio da express˜ao:
V (h) = τ2+ σ2{1 − ρ(h)}. (3.11)
A fun¸c˜ao de correla¸c˜ao ρ(h) ´e mon´otona decrescente e o variograma te´orico V (h) ´e uma fun¸c˜ao mon´otona crescente. Assim, as caracter´ısticas cruciais de um modelo geoestat´ıstico estar˜ao agrupadas na express˜ao apresentada acima.
Os parˆametros que precisam ser decretados s˜ao o efeito pepita designado por τ2, o
patamar designado por τ2+ σ2 e condiz com a variˆancia do processo observado e o
al-cance designado por φ que reflete a distˆancia h para quando ρ(h) = 0. O alcance pode ser indefinido. Isso ocorre quando a fun¸c˜ao de correla¸c˜ao abeira-se de zero assintotica-mente, nunca assumindo este valor. Uma maneira de determinar φ ´e utilizar o alcance pr´atrico, uma conven¸c˜ao geoestat´ıstica que explica tal parˆametro por interm´edio da ex-press˜ao V (h) = τ2+ 0, 95σ2, ou seja, o valor de h corresponde a ρ(h) = 0, 05.
O efeito pepita ´e um parˆametro consider´avel quando o assunto ´e predi¸c˜ao espacial pois a medida τ2abala a intensidade que a superf´ıcie de tendˆencia seguir´a os dados observados. Para aperfei¸coar a conduta do variograma emp´ırico como estimador das ordenadas V (h) do variograma te´orico pode ser empregada suaviza¸c˜ao. V (h) ´e uma fun¸c˜ao de h
3.3 Modelo Gaussiano 26
Figura 3: Exemplo variogram te´orico
que varia suavemente, sendo assim, a m´edia de υij por meio de espa¸cos intervalares entre
pontos conter´a a variˆancia sem incluir vi´es.
3.3.3
Fun¸
c˜
oes de Correla¸
c˜
ao
O variograma emp´ırico, na an´alise geoestat´ıstica cl´assica, ´e ainda utilizado para rea-lizar estima¸c˜ao de parˆametros delineando um ajuste de uma fun¸c˜ao de correla¸c˜ao sendo consider´avel que esta desempenhe a tendˆencia do variograma emp´ırico. Assim, as esti-mativas alcan¸cadas mediante a t´ecnica de krigagem s˜ao mais adequadas. As fun¸c˜oes de correla¸c˜ao usadas para modelagem que apresentam um patamar s˜ao classificadas como transitivas.
Empiricamente, a a¸c˜ao da estrutura de covariˆancia estacion´aria ´e de que a correla¸c˜ao entre S(xi) e S(xj) diminua assim que a distˆancia h aumente. `A vista disso, ´e coerente
buscar por modelos que tenham estrutura de correla¸c˜ao te´orica que ajam desta forma. Dessemelhantes empregos dessas fun¸c˜oes podem apresentar distintos graus de suavidade para o processo espacial S(x).
Para este estudo ser˜ao apresentadas trˆes diferentes fam´ılias de importantes fun¸c˜oes de correla¸c˜ao e s˜ao elas: fam´ılia exponencial potˆencia, fam´ılia Mat´ern e fam´ılia esf´erica.
3.3 Modelo Gaussiano 27
A equa¸c˜ao que expressa a fam´ılia exponecial potˆencia ´e representada por:
ρ(h) = exp ( − h φ k) , (3.12)
em que φ > 0 ´e o parˆametro de escala. O parˆametro de forma ´e definido como 0 < k ≤ 2. k concebe fun¸c˜oes de correla¸c˜ao mon´otonas decrescentes em h. A associa¸c˜ao entre o alcance pr´atico e o parˆametro de escala segue o valor de k.
A fun¸c˜ao de correla¸c˜ao gaussiana e a fun¸c˜ao de correla¸c˜ao exponencial s˜ao casos particulares da fam´ılia exponencial potˆencia sendo k = 2 para fun¸c˜ao gaussiana e k = 1 para fun¸c˜ao exponencial.
A fam´ılia Mat´ern de fun¸c˜oes de correla¸c˜ao ´e descrita por meio da express˜ao:
ρ(h) = 1 2k−1Γ(k) h φ k Kk h φ , (3.13)
em que Kk anuncia a fun¸c˜ao modificada de Bessel de ordem k, φ > 0 ´e um parˆametro de
escala de mesma grandeza que h e k > 0 ´e um parˆametro de forma que define a suavidade do processo S(x).
Para k = 0, 5, a fun¸c˜ao de correla¸c˜ao Mat´ern ser´a reduzida para uma fun¸c˜ao de correla¸c˜ao Exponencial. J´a para k → ∞, a fun¸c˜ao de correla¸c˜ao Mat´ern estar´a contida na fun¸c˜ao de correla¸c˜ao Gaussiana. Parˆametros de escala correspondentes a ordens desiguais da familia de correla¸c˜ao Mat´ern, ou seja, diferentes valores de k, n˜ao s˜ao an´alogos de modo direto. A rela¸c˜ao entre o alcance pr´atico e φ obedece o valor de k.
Comparada com as fam´ılias apresentadas anteriormente, a fam´ılia esf´erica ´e composta por apenas um parˆametro. Ainda, o alcance ser´a finito, isto ´e, ρ(h) = 0 quando h → ∞. Quando confrontada com a fam´ılia Mat´ern, a desvantagem sobre a fam´ılia esf´erica se deve `a ausˆencia de flexibidade.
A fun¸c˜ao de correla¸c˜ao da fam´ılia esf´erica ´e designado pelo termo a seguir:
ρ(h) = 1 − 1.5hφ+ 0.5hφ 3 , se h < φ 0, c.c. (3.14)
Existem outras fam´ılias de fun¸c˜ao de correla¸c˜ao dispon´ıveis na literatura como tamb´em existem fun¸c˜oes de correla¸c˜ao sem patamar.
3.4 Estima¸c˜ao dos Parˆametros 28
subsequente deste estudo ´e a estima¸c˜ao dos parˆametros do modelo.
3.4
Estima¸
c˜
ao dos Parˆ
ametros
Para um modelo Gaussiano estacion´ario, os parˆametros que ser˜ao aferidos ser˜ao a m´edia e os demais que s˜ao necess´arios para explicar a natureza da covariˆancia dos dados. Esses parˆametros ser˜ao estimados sob dois enfoques: Frequentista e Bayesiano.
3.4.1
Frequentista
Acolhendo um campo aleat´orio estacion´ario, pode-se escolher estimadores funda-mentados no conceito da verossimilhan¸ca ou verossimilhan¸ca restrita. Isto depende da aplica¸c˜ao das medidas observadas da vari´avel de estudo para descobrir o vetor ˆθ que torna-se o ponto de m´aximo da fun¸c˜ao de verossimilhan¸ca afiliado a θ. Para realizar a estima¸c˜ao, utiliza-se a fun¸c˜ao de verossimilhan¸ca da seguinte forma:
L(θ; y) =
n
Y
i=1
f (yi; θ), (3.15)
em que y ´e uma amostra aleat´oria e f (·) ´e fun¸c˜ao de densidade.
Segundo Diggle e Ribeiro (2007) [4], no ambiente geoestat´ıstico, ampara-se a repara-metriza¸c˜ao ν = τ /σ, auxiliando a estima¸c˜ao de θ. O vetor de parˆametros θ ser´a reescrito como θ = (β, σ2, φ, ν2) e a matriz Σ
Y estabelecida como ΣY = σ2(Rφ+ν2I) em que Rφ
re-presenta a matriz de fam´ılia de correla¸c˜ao escolhida. Por fim, a fun¸c˜ao de verossimilhan¸ca ser´a: L(θ; y) =(2π)−n2|σ2(R φ+ ν2I)|− 1 2 exp ( −1 2 n X i=1 (yi− Xβ)T(σ2(Rφ+ ν2I))−1(yi− Xβ) ) , (3.16)
em que Rφ ´e matriz de covariˆancia de Y = y e X uma matriz composta de uma primeira
coluna formada de 1’s e as demais compostas pelas coordenadas geogr´aficas referentes a superf´ıcie de tendˆencia aderida.
Para ν2 e φ, n˜ao encontram-se formas anal´ıticas para os estimadores, ou seja, n˜ao h´a modo de clarificar os estimadores por meio da separa¸c˜ao em parcelas intelig´ıveis. Todavia, h´a formas anal´ıticas para os estimadores ˆσ2 e ˆβ. Al´em disso, estes ´ultimos s˜ao fun¸c˜oes
3.4 Estima¸c˜ao dos Parˆametros 29 ˆ β = (XT(σ2(Rφ+ ν2I))−1X)(XT(σ2(Rφ+ ν2I))−1Y ), (3.17) ˆ σ2 = n−1(Y − Xβ)T(σ2(R φ+ ν2I))−1(Y − Xβ). (3.18)
Segundo [9], para se descobrir ˆθ, pode-se lidar com m´etodos num´ericos existentes de maximiza¸c˜ao de fun¸c˜oes em que ser˜ao computadas as estimativas de ν2 e φ. Posterior-mente, por invariˆancia, pode-se constatar as demais estimativas de β, τ2 e σ2.
No sentido a mensurar a qualidade do ajuste dos modelos, pode-se utilizar o crit´erio de Akaike e o crit´erio Bayesiano, em que modelos que apresentam menores valores dessas quantidades s˜ao considerados melhores ajustes. Para obter maiores informa¸c˜oes sobre o AIC e o BIC, consultar Emiliano (2014) [7].
3.4.2
Bayesiana
O enfoque Bayesiano ´e munido de instrumentos pr´oprios com a finalidade de incorpo-rar a incerteza sobre os parˆametros por meio de distribui¸c˜oes de probabilidade.
A estima¸c˜ao por meio da m´axima verossimilhan¸ca manuseia somente informa¸c˜oes resultantes dos dados. Num ambiente Bayesiano, lida-se com os parˆametros como quan-tidades aleat´orias, como ´e feito com as observa¸c˜oes. Os parˆametros s˜ao desconhecidos e emprega-se informa¸c˜oes a priori sobre tais. Dessa forma, tem-se uma base introdut´oria a respeito dos parˆametros dito por meio das distribui¸c˜oes a priori.
A escolha das distribui¸c˜oes de probabilidade afiliadas aos parˆametros, seguindo a problem´atica de cada estudo, ´e capaz de ser relativamente informativa. Certamente que pressuposi¸c˜oes desiguais conduzem a distintos modelos de probabilidades e, portanto, a diversos efeitos inferenciais e predi¸c˜oes.
O incremento do conhecimento sobre os parˆametros ´e avaliado pelo teorema de Bayes depois da observa¸c˜ao de uma medida aleat´oria Y = y:
p(θ|y) = p(θ, y) p(y) =
p(y|θ)p(θ)
p(y) , (3.19)
em que θ ´e o vetor param´etrico de interesse e o termo p(y) ´e uma constante.
A defini¸c˜ao de distribui¸c˜ao a posteriori se d´a a probabilidade condicional de um evento aleat´orio que ´e dada na ocasi˜ao em que θ ´e levado em conta para um demarcado
3.4 Estima¸c˜ao dos Parˆametros 30
grupamento de dados. Pode-se represent´a-la como sendo:
p(θ|y) ∝ L(θ; y)p(θ), (3.20)
em que o s´ımbolo ∝ proporcional permite com que se possa desprezar constantes norma-lizadoras que possam vir a aparecer para auxiliar a estima¸c˜ao dos parˆametros, L(θ; y) ´e a fun¸c˜ao de verossimilhan¸ca agregada ao modelo sob estudo e p(θ) ´e a distribui¸c˜ao a priori dos parˆametros.
Assumindo independˆencia entre os parˆametros que comp˜oem θ, a distribui¸c˜ao a priori de θ ser´a o produto da distribui¸c˜ao de todos os parˆametros envolvidos e pode ser escrito como:
p(θ) = p(β)p(φ)p(ν2)p(σ2). (3.21)
A fun¸c˜ao de verossimilhan¸ca L(θ; y) ´e descrita pela equa¸c˜ao 3.16. Conquanto, ´e preciso resgatar as quantidades dessas constantes que foram esquecidas. Para isso, como p(θ|y) = kp(y|θ)p(θ) e ao integrar esta equa¸c˜ao com rela¸c˜ao a θ pode-se, ent˜ao, descobrir o valor da constante normalizadora k.
Se forem definidas as seguintes prioris:
β ∼ Np+1(m, vI),
φ ∼ exp(l), σ2 ∼ U (a, b), ν2 ∼ U (c, d)
(3.22)
em que m ´e um vetor de m´edias, v ´e um escalar que multiplica I que ´e a matriz identidade de ordem p + 1, l > 0, a < σ2 < b e c < ν2 < d.
A escolha da distribui¸c˜ao normal para β tem vantagem ao retornar uma distribui¸c˜ao a posteriori tamb´em normal, como espera-se de um modelo Gaussiano. Para φ utiliza-se a distribui¸c˜ao exponencial pelo proveito dessa distribui¸c˜ao ser flex´ıvel quanto sua forma. Por fim, para σ2 e ν2 utiliza-se prioris n˜ao informativas, isto ´e, n˜ao ´e passada informa¸c˜ao relevante para a posteriori. A fun¸c˜ao de correla¸c˜ao a ser empregada ´e a exponencial.
3.5 Predi¸c˜ao Espacial 31
priori em 3.22, pode-se escrever a distribui¸c˜ao a posteriori de θ: p(θ|y) ∝|σ2(Rφ+ ν2I)|− 1 2exp −lφ − 1 2 (β − m)T(vI)−1(β − m) + n X i=1 (yi− Xβ)T(σ2(Rφ+ ν2I))−1(yi− Xβ) ) , (3.23)
em que o s´ımbolo ∝ ´e referente a proporcionalidade e |·| representa a fun¸c˜ao determinante. Depois de aclarar a distribui¸c˜ao a posteriori dos parˆametros, ´e realiz´avel a reuni˜ao de informa¸c˜oes a respeito dos parˆametros por meio de pr´aticas inferenciais e dependendo da complica¸c˜ao da quest˜ao n˜ao ser˜ao determinadas analiticamente. Logo, ´e imprescind´ıvel a aplica¸c˜ao de m´etodos computacionais intensivos, sendo os m´etodos do algoritmo de Metropolis-Hastings e o amostrador de Gibbs os mais exercidos no ˆambito geoestat´ıstico e podem ser vistos em Gamerman e Lopes (2006) [10].
Feito isso, agora, torna-se poss´ıvel encontrar as distribui¸c˜oes condicionais completas a posteriori de cada parˆametro separadamente e s˜ao elas:
p(β|·) ∝exp ( −1 2 (β − m)TvI(β − m) + n X i=1 (yi− Xβ)T(σ2(Rφ+ ν2I))−1(yi− Xβ) ) , p(φ|·) ∝|Rφ+ ν2I|− 1 2exp ( −lφ − 1 2 n X i=1 (yi− Xβ)T(σ2(Rφ+ ν2I))−1(yi− Xβ) ) , p(ν2|·) ∝|Rφ+ ν2I|− 1 2exp ( −1 2 n X i=1 (yi− Xβ)T(σ2(Rφ+ ν2I))−1(yi− Xβ) ) , p(σ2|·) ∝(σ2)−n 2exp ( −1 2 n X i=1 (yi− Xβ)T(σ2(Rφ+ ν2I))−1(yi− Xβ) ) . (3.24) Ap´os realizar modelagem dos dados observados, deseja-se mapear a vari´avel de estudo de forma a estimar valores para locais n˜ao amostrados permitindo notar o comportamento da vari´avel sobre toda a regi˜ao estudada.
3.5
Predi¸
c˜
ao Espacial
A seguir ser´a discutida a predi¸c˜ao espacial para as localidades n˜ao amostradas. Dessa forma, pode-se observar o comportamento da vari´avel de estudo continuamente em todo o espa¸co estudado.
3.5 Predi¸c˜ao Espacial 32
3.5.1
Predi¸
c˜
ao Frequentista
A express˜ao “Krigagem”´e consequente do chamado Danie Gerhardus Krige, um inicia-dor sul-africano em incorporar a aplica¸c˜ao de m´edias m´oveis para fugir da superestima¸c˜ao sistem´atica de reservas de mineira¸c˜ao.
Krigagem ´e um m´etodo geoestat´ıstico de regress˜ao para aproximar ou interpolar da-dos que leva em considera¸c˜ao caracter´ısticas espaciais de autocorrela¸c˜ao de vari´aveis re-gionalizadas. Uma vari´avel que apresenta uma distribui¸c˜ao no espa¸co com certo grau de correla¸c˜ao espacial ´e chamada de vari´avel regionalizada. Para isso, a presen¸ca de continui-dade espacial das vari´aveis regionalizadas ´e fundamental, pois nos permite usar os dados obtidos por amostragem de certos pontos para parametrizar a estima¸c˜ao de pontos onde tal vari´avel tem valores desconhecidos. Tamb´em ser´a necess´ario um sistema de equa¸c˜oes normais em matrizes em que s˜ao usados parˆametros variogr´aficos para a obten¸c˜ao de pesos para o c´alculo do ponto que ser´a estimado.
A estimativa por krigagem utiliza distˆancias baseadas na an´alise variogr´afica. Logo, quando um variograma ´e elaborado adequadamente, a estimativa resultante por meio da krigagem ser´a a melhor estimativa linear n˜ao viesada.
Existem alguns tipos de estima¸c˜ao por meio da Krigagem sendo eles: krigagem sim-ples, krigagem ordin´aria, krigagem universal e outros. A tendˆencia admitida por cada tipo de krigagem ser´a o que as discrimina.
Quando a m´edia do acontecimento sob estudo, µ(x), ´e constante para todos os locais amostrados, isto ´e, n˜ao existe enormes varia¸c˜oes em larga escala, utiliza-se interpoladores de krigagem ordin´aria. Assim, a medida esperada, para qualquer localiza¸c˜ao, da fun¸c˜ao aleat´oria ser´a similar a µ, provocando a igualdade E[Y (x) − Y (x + h)] = 0. O caso a ser estudado tamb´em dever´a ser estacion´ario de segunda ordem, o que causa a estacionarie-dade da variˆancia, por consequˆencia. Quando a tendˆencia ´e uma constante conhecida e igual a zero, chamamos de krigagem simples.
Segundo Folle (2009) [8], na krigagem ordin´aria, uma quantidade desconhecida Y (x0)
´e capaz de ser estimada a come¸car por uma combina¸c˜ao linear das n medidas que foram observadas junto do parˆametro adicional λ0:
Y∗(x0) = λ0+ n
X
i=1
λiY (xi). (3.25)
3.5 Predi¸c˜ao Espacial 33 forma, E[Y (x0)] = E[Y∗(x0)] ⇒ m = λ0 + n X i=1 λim, (3.26) em que m ´e a esperan¸ca de Y (x0).
N˜ao ´e necess´ario o conhecimento adiantado do valor m, no caso da krigagem ordin´aria. Por´em, ´e necess´ario que λ0 = 0 e
n
P
i=1
λi = 1. Ent˜ao, depois disso, o estimador de krigagem
ordin´aria ser´a:
Y∗(x0) = n X i=1 λiY (xi) , com n X i=1 λi = 1. (3.27)
Para reduzir a variˆancia do erro, V ar[Y (x0)–Y∗(x0)], arrumam-se os pesos λisegundo
o sistema de krigagem ordin´aria que pode ser visto a seguir:
n X j=1 λjV (xi, xj) − α = V (xi, x0), (3.28) n X j=1 λj = 1, (3.29)
em que α ´e o multiplicador de Lagrange que ´e preciso para a minimiza¸c˜ao da variˆancia do erro. A variˆancia associada e minimizada do erro ´e dada pela senten¸ca σ2ko = V (0) −
n
P
i=1
λiV (xi, x0)−α e, tamb´em, viabiliza informa¸c˜ao sobre a confiabilidade das quantidades
interpoladas.
Na krigagem universal, ocorre a mudan¸ca na obriga¸c˜ao da presen¸ca de uma m´edia conhecida como tamb´em elimina a primordialidade de uma m´edia constante. A sa´ıda, ent˜ao, ser´a aceitar que Y (x) ´e uma fun¸c˜ao aleat´oria n˜ao-estacion´aria completa por duas parcelas, sendo a primeira uma fun¸c˜ao aleat´oria estacion´aria Z(x) com m´edia igual a zero e um item determin´ıstico, m(x).
A separa¸c˜ao pode ser dita:
Y (x) = m(x) + Z(x), em que m(x) =
m
X
i=1
aifi(x), (3.30)
e fi(x) interpreta o grupo de fun¸c˜oes base e a
i desempenha o papel dos coeficientes
desconhecidos das fun¸c˜oes.
Reputando combina¸c˜oes lineares de dados, para a estimativa Y (x0), o estimador n˜ao
3.5 Predi¸c˜ao Espacial 34
Fundamentado nas manifesta¸c˜oes feitas anteriormente e utilizando a melhor conjuntura (E[R] = 0), surge: E[Y (x)] = 0 + m(x) = m X i=1 aifi(x), (3.31) n X α λαfαi = f i 0. (3.32)
O erro associado `as estimativas, R, n˜ao sujeita-se `as constantes desconhecidas da tendˆencia. A minimiza¸c˜ao do erro R ´e estabelicida por R =
n
P
α=1
λα[Z(xα) − Z(x0)]. A
variˆancia do erro, utilizando o m´etodo multiplicador de Lagrange, origina σR2 =X α X β λαλβγ(xα, xβ) − 2 X α λαγ(xα, x0) + γ(x0, x0) − k X i=0 αi ( n X i=0 λαfβi − xi0 ) , (3.33)
em que αi e λ s˜ao desconhecidos. Por fim, o sistema de krikagem universal provido:
λαγ(xα, xβ) + αifαi = γ(x0, xβ), (3.34)
λαfαi = f0i. (3.35)
Na ocasi˜ao de presen¸ca de tendˆencia, o incoveniente da fun¸c˜ao de covariˆancia consegue ser extra´ıdo num sistema de krigagem ordin´aria dos res´ıduos de uma vari´avel aleat´oria ulteriormente a retirada da tendˆencia. Em primeiro lugar, filtra-se o res´ıduo e presume-se os res´ıduos estacion´arios, para, ent˜ao, adaptar a parte do res´ıduo krigado `a tendˆencia estimada. Assim, conquista-se a estimativa da vari´avel.
O fato da krigagem universal acolher uma tendˆencia influencia na realiza¸c˜ao de es-timativas para localidades n˜ao amostradas exterior aos limites numerais das amostras, concebendo extrapola¸c˜oes. Logo, a repercuss˜ao suavizadora da krigagem ordin´aria n˜ao ´e t˜ao simples quanto na krigagem universal.
A seguir ser´a definida a predi¸c˜ao espacial de maneira Bayesiana para que `a frente seja poss´ıvel comparar as estimativas de ambos enfoques.
3.6 geoR 35
3.5.2
Predi¸
c˜
ao Bayesiana
Posteriormente `a observa¸c˜ao de Y = y, para implementar a distribui¸c˜ao preditiva para um valor n˜ao observado Y0 e, segundo Fonseca (2008) [9], pode-se executar do modo:
p(y0|y) =
Z
p(y0, θ|y)dθ =
Z
p(y0|θ, y)p(θ|y)dθ, (3.36)
em que p(y0|θ, y) ´e a distribui¸c˜ao das medidas n˜ao observadas dado as medidas j´a
obser-vadas e p(θ|y) ´e a distribui¸c˜ao a posteriori de θ
A maior parte das ocorrˆencias n˜ao disp˜oem de uma solu¸c˜ao anal´ıtica da integral acima, por consequˆencia, usa-se t´aticas de aproxima¸c˜ao. Para qualquer amostra l, l = 1, . . . , L, conquistado no algoritmo de Monte Carlo via cadeias de Markov, que ´e aprofundado em Gamerman e Lopes (2006) [10], pode-se conseguir uma aproxima¸c˜ao amostrando de p(y0|θ) e computando p(y0|y) ≈ 1 L L X l=1 p(y0|θl). (3.37)
A m´edia amostral de y0 serve como estimativa para a m´edia da distribui¸c˜ao preditiva
de y0|y.
3.6
geoR
O R Project [11] foi criado por Robert Gentleman e Ross Ihaka do Departamento de Estat´ıstica da University of Auckland em 1995, por´em, o R conta com a colabora¸c˜ao de volunt´arios para aperfei¸coamento de suas capacidades. O Software estat´ıstico R ´e livre, de f´acil instala¸c˜ao e com uma linguagem de f´acil manuseio, no entanto, ´e desej´avel um conhecimento b´asico pr´evio em programa¸c˜ao estat´ıstica para uma boa interpreta¸c˜ao das sa´ıdas que o programa retorna. O software conta com uma vasta variedade de t´ecnicas gr´aficas e estat´ısticas.
Uma importante ferramenta para aplica¸c˜ao de toda a metodologia neste trabalho foram as fun¸c˜oes do pacote geoR [12], criado por Paulo J. Ribeiro Jr e Peter J. Diggle em 2001, apresentando fun¸c˜oes para an´alise de dados geoestat´ısticos relacionados a modelos Gaussianos e Gaussianos transformados incluindo os m´etodos frequentista e Bayesiano. O geoR nos permite ler e preparar os dados, realizar an´alise explorat´oria dos dados, inferir sobre os parˆametros do modelo baseando-se no variograma ou na verossimilhan¸ca
3.6 geoR 36
e ainda realizar interpola¸c˜ao espacial. Tamb´em consegue-se implementar diferentes tipos de krigagem, incluir algoritmos para simula¸c˜ao condicional e utilizar m´etodos Bayesianos para predi¸c˜ao em localiza¸c˜oes espec´ıficas.
Primeiramente, ser´a necess´ario alterar o banco de dados para um objeto da classe “ge-odata”. Tal feito pode ser realizado por interm´edio da fun¸c˜ao as.geodata() que transforma uma matriz ou data-frame em uma lista que, obrigatoriamente, ter´a duas componentes sendo elas os dados e as coordenadas, n˜ao sendo permitido valores faltantes nessa ´ultima. ´
E preciso que essa transforma¸c˜ao seja feita para facilitar a aplica¸c˜ao das an´alises geo-estat´ısticas utilizando o geoR por´em, essa convers˜ao n˜ao ´e obrigat´oria. Al´em disso, um objeto da classe “geodata”tamb´em pode conter componentes opcionais como um vetor ou uma matriz de covari´aveis.
A fun¸c˜ao summary() para um objeto da classe “geodata”traz uma lista com medidas resumo, sendo elas: n´umero de observa¸c˜oes - que nesse caso seriam o n´umero total de esta¸c˜oes que apresentam dados, m´ınimo e m´aximo das coordenadas - longitude e latitude, m´ınimo e m´aximo das distˆancias entre esta¸c˜oes e, por fim, um sum´ario dos dados cont´ınuos - ou melhor Temperaturas Compensadas M´edias.
Para realizar an´alise explorat´oria, a fun¸c˜ao plot() para objetos da classe “geodata”devolve quatro gr´aficos distintos. Esses quatro gr´aficos ser˜ao: o gr´afico dos pontos amostrados em que os valores referentes a cada ponto ser´a dividido pelos quartis, dois gr´aficos dos da-dos contra cada coordenada separadamente e um histograma da-dos dada-dos. Se o argumento “trend”for utilizado para especificar uma tendˆencia linear ou uma tendˆencia quadr´atica, os gr´aficos ser˜ao gerados automaticamente para os res´ıduos. O argumento “lowess”aplicar´a uma regress˜ao local suavizadora aos dados. Se o valor de “lambda”for alterado para qualquer que difira de 1, acontecer´a uma transforma¸c˜ao Box-Cox.
Ainda na parte de an´alise explorat´oria, a fun¸c˜ao points() fornece um gr´afico dos locais das esta¸c˜oes em c´ırculos representados proporcionalmente aos valores atribu´ıdos a cada ponto. Podem ser aplicadas diferentes aparta¸c˜oes dos dados em categorias por meio do argumento “pt.divide”. Aqui tamb´em pode-se aplicar os argumentos “trend”e “lambda”e as consequˆencias ser˜ao as mesmas. Outros argumentos podem ser passados a estas fun¸c˜oes al´em dos mencionados.
Para calcular o variograma emp´ırico, usa-se a fun¸c˜ao variog(). Com esta fun¸c˜ao, tamb´em estimam-se parˆametros de covariˆancia e tamb´em comparar o variograma te´orico e modelos ajustados com o variograma amostral. A fun¸c˜ao variog() nos permite escolher o tipo de estimador: cl´assico ou robusto. Al´em disso, tal fun¸c˜ao pode nos retornar a nuvem
3.6 geoR 37
de variograma, o variograma suavizado ou simplesmente o variograma amostral. Com esta fun¸c˜ao, tendˆencia podem ser especificadas e ser˜ao ajustadas por m´ınimos quadrados ordin´arios no caso do variograma ser computado usando os res´ıduos. Os estimadores implementados s˜ao o m´etodo dos momentos e o estimador de m´odulo de Hawkins e Cressie (Hawkins and Cressie’s modulus estimator). A sa´ıda desta fun¸c˜ao ser´a uma lista com diversas informa¸c˜oes como vetor com as distˆancias entre os pontos, n´umero de pares para cada trecho de distˆancia, limites que definem cada um desses trechos, entre outras coisas. A fun¸c˜ao likfit() estimar´a os parˆametros de modelos Gaussianos para campos aleat´orios por meio da m´axima verossimilhan¸ca ou da m´axima verossimilhan¸ca restrita. Em geral, ´e utilizada a fun¸c˜ao optim() para minimizar a log-verossimilhan¸ca negativa encontrada pela fun¸c˜ao negloglik.GRF(). No entanto, se os parˆametros do efeito pepita, anisotropia, suavidade e transforma¸c˜ao permanecerem fixos, a minimiza¸c˜ao poder´a ser reduzida para uma dimens˜ao e ent˜ao a fun¸c˜ao optimize() substituir´a a fun¸c˜ao optim().
J´a que os valores dos parˆametros s˜ao achados por otimiza¸c˜ao num´erica pela fun¸c˜ao optim(), em algumas circunstˆancias o algoritmo pode n˜ao convergir para os valores corre-tos dos parˆametros quando usadas as op¸c˜oes default. O usu´ario dever´a tentar diferentes valores iniciais e se os parˆametros tiverem diferentes ordens de magnitude, ser´a necess´ario dimensionar esses parˆametros. Existem solu¸c˜oes alternativas `a essas apresentadas ante-riormente como redimensionar os dados dividindo-os por uma constante, redimensionar as coordenadas ou usar o mecanismo de passar o argumento control() para o otimizador internamente.
O argumento ini.cov.pars aceita objetos das classes “eyefit”ou “variomodel”e isso per-mite o uso das sa´ıdas das fun¸c˜oes eyefit(), variofit() ou likfit() para ser usada como valor inicial. O argumento realisations assume independentes replica¸c˜oes do mesmo processo do conjunto de dados. Dados coletados em diversos tempos podem ser agrupados para a estima¸c˜ao dos parˆametros assumindo independˆencia quanto ao tempo.
O resumo da fun¸c˜ao likfit() tamb´em ser´a uma lista contendo, por exemplo, nome da fun¸c˜ao de correla¸c˜ao, vetor com as estimativas dos parˆametros σ2 e φ e estimativa da
m´edia do parˆametro β.
Para realizar a predi¸c˜ao espacial, ser´a definida uma grade de pontos. A fun¸c˜ao que realizar´a a krigagem tem como default a krigagem ordin´aria.
A fun¸c˜ao krige.bayes() faz uma interpreta¸c˜ao Bayesiana dos dados geoestat´ısticos deixando peculiarizar distintos graus de incerteza para os parˆametros do modelo. A fun¸c˜ao
3.6 geoR 38
torna os efeitos da distribui¸c˜ao a posteriori dos parˆametros do modelo, como tamb´em as distribui¸c˜oes preditivas para os locais de previs˜ao. Esta fun¸c˜ao depende de outras duas e s˜ao elas: model.control() e prior.control().
A fun¸c˜ao model.control() ´e exercida para classificar a tendˆencia dos pontos amostra-dos, indicar a fun¸c˜ao de correla¸c˜ao a ser utilizada e ainda se ´e necess´aria a realiza¸c˜ao da corre¸c˜ao de anisotropia. A fun¸c˜ao prior.control() define as prioris a serem utilizadas para os parˆametros β, σ2, φ e ν2.
A sa´ıda da fun¸c˜ao krige.bayes() ´e composta pelo efeito da distribui¸c˜ao a posteriori dos parˆametros do modelo. Se for realizada a krigagem, a fun¸c˜ao tamb´em retornar´a a resultˆancia da distribui¸c˜ao preditiva para os locais que era desej´avel suceder previs˜ao.
39
4
Resultados
Este cap´ıtulo ser´a destinado `a apresenta¸c˜ao da base de dados que ser´a trabalhada e os resultados obtidos por meio de an´alises da estat´ıstica espacial. A pesquisa ser´a dividida nas esta¸c˜oes do ano de ver˜ao e inverno e, portanto, ostentado dessa maneira.
4.1
Base de Dados
Os dados utilizados neste trabalho s˜ao provenientes do Instituto Nacional de Meteo-rologia, o INMET [13]. O INMET disponibiliza para fins de estudo e pesquisa o Banco de Dados Meteorol´ogicos para Ensino e Pesquisa, o BDMEP. O BDMEP ´e contido de dados meteorol´ogicos di´arios em forma digital, a partir do ano de 1961, da rede de esta¸c˜oes do INMET, formada por 291 esta¸c˜oes meteorol´ogicas convencionais, relacionado `as medi¸c˜oes di´arias de acordo com as normas t´ecnicas internacionais da Organiza¸c˜ao Meteorol´ogica Mundial (OMM). A s´erie hist´orica do BDMEP ´e dividida em trˆes tipos de dados que apresentam diferentes vari´aveis. Os tipos de dados s˜ao: dados hor´arios, dados mensais e dados di´arios.
Os dados hor´arios s˜ao representados por trˆes observa¸c˜oes di´arias para sete vari´aveis. Essas vari´aveis s˜ao: temperatura do bulbo seco, temperatura do bulbo ´umido, umidade relativa, press˜ao atmosf´erica ao n´ıvel da esta¸c˜ao, nebulosidade, dire¸c˜ao e velocidade do vento.
Os dados di´arios s˜ao alimentados duas vezes ao dia, por´em, a segunda observa¸c˜ao ´e necess´aria apenas para inclus˜ao da vari´avel temperatura m´ınima. Al´em de temperatura m´ınima, as demais vari´aveis s˜ao: precipita¸c˜ao, temperatura m´axima, temperatura com-pensada m´edia, insola¸c˜ao, evapora¸c˜ao do piche, umidade relativa m´edia e velocidade do vento m´edia.
Os dados mensais apresentam, essencialmente, m´edia e valores acumulados das vari´aveis apresentadas pelos dados hor´arios e dados di´arios para cada mˆes, sendo exibido no ´ultimo