Modelos espaço-temporais
para processos temporalmente agregados
TESE DE DOUTORADO
por
Alexandre Sousa da Silva
Orientadora:
Alexandra Mello Schmidt
Universidade Federal do Rio de Janeiro
Instituto de Matemática
Departamento de Métodos Estatísticos
para processos temporalmente agregados
Alexandre Sousa da Silva
Orientadora: Alexandra Mello Schmidt
Tese de Doutorado apresentada ao Programa de Pós-Graduação em Estatística, Instituto de Matemática, da Universidade Federal do Rio de Janeiro, como parte dos requisitos necessários à obtenção do grau de Doutor em Estatística.
Aprovada por:
———————————————— Profa Alexandra M. Schmidt, IM-UFRJ
———————————————— Profa Clarice G. B. Demétrio, ESALQ-USP
———————————————— Prof. Antônio Carlos M. P. de Leon, UERJ
———————————————— Profa Marina S. Paez, IM-UFRJ
———————————————— Prof. Dani Gamerman, IM - UFRJ
Agradecimentos
À minha orientadora, Alexandra Schmidt por me dar a oportunidade de entrar no doutorado e por aceitar o desafio de percorrer comigo essa jornada. Grande parte dos seus ensinamentos levarei para a vida toda.
Agradeço ao meu orientador de mestrado, Paulo Justiniano Ribeiro Júnior que além de participar das discussões do tema da tese também proporcionou minha parceria com a Alexandra.
Agradeço a minha professora na graduação, Aparecida Donizeti Pires de Souza, que além de proporcionar os primeiros contatos com a inferência bayesiana me deu apoio incondicional na escolha pelo doutorado na UFRJ.
À minha mãe Maria Teresa, meu pai Cícero, meus irmãos Fernando e Eduardo, minha irmã Patricia e meus sobrinhos Vitória e Fernando. Mesmo de longe, vocês estiveram sempre presentes.
Aos professores do IM-DME-UFRJ, Nei, Dani, Migon, Glauco, Marina. Só eu sei o quanto aprendi com vocês. Um agradecimento também ao professor Carlos Abanto, por estar sempre pronto a ajudar e tirar dúvidas na hora do cafezinho.
Aos amigos que fiz aqui no Rio e que se transformaram em uma grande família, Bonequinha, Bonecão, Fidelito, Vini, Laninha, Cleide. Vocês não imaginam o quanto são importante para mim.
Aos amigos da UFRJ, Valmária, Vinícios, Fernando, Fidel, Luzia, Joaquim, Josiane, Patricia, Mariana, Vera, Targino, João. Obrigado pelas dúvidas tiradas e pelas trocas de informação. Vou sentir muita falta do nosso cafezinhos.
Aos meus mais novos amigos da UNIRIO pelo apoio e incentivo nesta difícil reta final, especialmente a Luciane Velasque, Maria Tereza Barbosa, Beatriz Cunha, Luzia Tonon e Luciana Costa.
À CAPES e à Faperj, pelo apoio financeiro.
A todos aqueles que de alguma maneira contribuíram, ou estiveram na torcida pela realização deste trabalho.
Modelos espaço-temporais
para processos temporalmente agregados
Alexandre Sousa da Silva
Orientadora: Alexandra Mello Schmidt
Esta tese apresenta contribuições em duas direções. Em uma delas mostram-se as condições necessárias para que processos multivariados, e temporalmente agregados apresentem as mesmas estruturas dos processos desagregados. São consideradas classes particulares de modelos lineares dinâmicos com estrutura de dependência espacial.
Uma outra contribuição segue no sentido do desenvolvimento de modelos espaço-temporais considerando que a variável resposta é a realização parcial de um processo estocástico. São implementados modelos para dados seguindo distribuição normal e de Poisson, com agregação no tempo e desalinhamento no espaço. Estes modelos permitem a estimação de quantidades na escala desagregada. O procedimento de inferência é baseado no paradigma de Bayes e dados artificiais são utilizados para testar a aplicabilidade dos algoritmos de estimação.
Os modelos foram aplicados à contagem do número de ovos do mosquito Aedes aegypti. Estes dados foram coletados, semanalmente, em armadilhas de oviposição espalhadas em 5 regiões da cidade de Recife-PE, no período de abril de 2004 a maio de 2006.
Palavras-Chave: Agregação temporal, desalinhamento espacial, modelos dinâmicos, processo estocásticos.
Abstract
Spatio-temporal models
for temporally aggregated processes
Alexandre Sousa da Silva
Orientadora: Alexandra Mello Schmidt
This thesis presents contributions in two directions. In one of them, the necessary conditions for multivariate processes and temporally aggregates to show the same structures of disaggregated processes are exposed. These are considered particular classes of linear dynamic models with spatial dependence structure.
Another contribution goes towards the development of space-time models considering that the response variable is the partial realization of a stochastic process. Models are implemented for data following the normal and the Poisson distributions, aggregated in time and in space misalignment. These models allow the estimation of quantities in disaggregated scale. The inference procedure is based on the Bayesian paradigm and artificial data are used to test the applicability of estimation algorithms.
The models were applied to counting the number of eggs of the Aedes aegypti mosquito. These data were collected weekly in oviposition traps spread across 5 regions of the city of Recife-PE, from April 2004 to May 2006.
Key words: Temporal aggregation, spatial misalignment, dynamic models, stochastic process.
Sumário
1 Introdução 1
1.1 Agregação temporal . . . 2
1.2 Motivação do trabalho . . . 3
1.2.1 Descrição da coleta de ovos de Aedes aegypti em bairros de Recife . . . . 6
1.2.2 Análise exploratória dos dados . . . 8
1.3 Contribuições e organização do trabalho . . . 16
2 Agregação temporal em modelos lineares dinâmicos multivariados 17 2.1 Modelos lineares dinâmicos multivariados . . . 17
2.2 Agregação temporal em modelos lineares dinâmicos . . . 19
2.2.1 MLD multivariado polinomial de primeira ordem - caso geral . . . 20
2.2.2 Modelo dinâmico polinomial de segunda ordem . . . 25
2.2.3 Agregação temporal em MLD sazonais na forma livre . . . 31
2.2.4 Superposição em modelos dinâmicos . . . 35
2.2.5 Discussão . . . 37
3 Modelos para observações contínuas multivariadas e temporalmente agregadas 39 3.1 Resposta normal para uma única região . . . 40
3.1.1 Procedimento de inferência . . . 42
3.1.2 Desalinhamento espacial com resposta normal para uma única região . . 47
3.1.3 Análise dos dados artificiais com desalinhamento espacial . . . 49
3.1.4 Estudo de simulação . . . 53
3.2 Modelo hierárquico normal: considerando observações em diferentes sub-regiões 56
3.2.1 Procedimento de inferência . . . 57
3.2.2 Desalinhamento espacial com resposta normal para diferentes sub-regiões 60
3.2.3 Análise dos dados artificiais com desalinhamento espacial . . . 60
4 Modelos para processos de contagens multivariadas e temporalmente
agregadas 66
4.1 Resposta Poisson para uma única região . . . 67
4.1.1 Procedimento de inferência . . . 68
4.1.2 Desalinhamento espacial com resposta Poisson para uma única região . . 71
4.1.3 Análise dos dados artificiais com desalinhamento espacial . . . 72
4.2 Modelo hierárquico Poisson: considerando observações em diferentes sub-regiões 76
4.2.1 Procedimento de inferência . . . 77
4.2.2 Desalinhamento espacial com resposta Poisson para diferentes sub-regiões 79
4.2.3 Análise dos dados artificiais com desalinhamento espacial . . . 79
5 Análise da contagem de ovos de Aedes aegypti em bairros do Recife 84
5.1 Resposta normal para uma única região: aplicado à região DI . . . 85
5.1.1 Resultados . . . 86
5.2 Modelo hierárquico normal: aplicado às regiões BT, CFP, DI, EM e MCP . 90
5.2.1 Resultados . . . 90
5.3 Resposta Poisson para uma única região: aplicado à região DI . . . 95
5.3.1 Resultados . . . 95
5.4 Modelo hierárquico Poisson: aplicado às regiões BT, CFP, DI, EM e MCP. . 98
5.4.1 Resultados . . . 98
5.5 Discussão . . . 102
6 Considerações finais e trabalhos futuros 103
6.1 Considerações finais . . . 103
Bibliografia 106
Apêndice A 108
Apêndice B 110
Lista de Tabelas
1.1 Quantidade de armadilhas distribuídas em cada região. . . 8
1.2 Medidas resumo de cada região considerada no estudo. . . 10
3.1 Valores em que os hiperparâmetros do modelo hierárquico normal foram fixados
para a geração de dados artificiais. . . 61
4.1 Valores em que os hiperparâmetros do modelo hierárquico Poisson foram fixados
para a geração de dados artificiais. . . 79
5.1 Resultados do modelo normal individual para a região DI. . . 87
5.2 Resultados para o modelo Poisson individual para a região DI. . . 95
Lista de Figuras
1.1 Mapas do Brasil, do estado de Pernambuco e em destaque a cidade de Recife,
com as regiões consideradas no Projeto SAUDAVEL em destaque. . . 5
1.2 Disposição das armadilhas em cada região. . . 9
1.3 Box-plot da contagem de ovos nas 5 regiões. . . 11
1.4 Box-plot da contagem semanal do número de ovos nas 5 regiões do estudo. . . . 12
1.5 Esquema das observações para a região BT, destacadas por grupo das observações. 13
1.6 Esquema das observações para a região CFP, destacadas por grupo das
observações. . . 13
1.7 Esquema das observações para a região DI, destacadas por grupo das observações. 14
1.8 Esquema das observações para a região EM, destacadas por grupo das observações. 14
1.9 Esquema das observações para a região MCP, destacadas por grupo das
observações. . . 15
3.1 Histograma e intervalo de 95% de credibilidade (linha pontilhada) a posteriori
para os parâmetros τ2, σ2, φ, W , λ0. A linha vertical tracejada representa o
valor verdadeiro. . . 50
3.2 Sumário da distribuição a posteriori de λt ao longo do tempo. A linha cheia
é a média a posteriori e a região sombreada representa o intervalo 95% de
credibilidade a posteriori. O verdadeiro valor de λt é representado pela linha
tracejada. . . 51
3.3 Sumário da distribuição a posteriori de θt, αt e Zt para as armadilhas 2, 30, 55 e 80. A linha cheia é a média a posteriori e a região sombreada representa o intervalo de 95% de credibilidade a posteriori. O verdadeiro valor é representado
pela linha tracejada. . . 52
3.4 Intervalos 95% de credibilidade a posteriori de τ2, σ2, φ, W e λ0, para os 30
conjuntos simulados. A linha tracejada horizontal representa o valor verdadeiro. 54
3.5 Sumário da distribuição a posteriori de λt ao longo do tempo, para os conjuntos
simulados 2, 3, 20 e 30. A linha cheia é a média a posteriori e a região sombreada representa o intervalo 95% de credibilidade a posteriori. O verdadeiro valor de
λt é representado pela linha tracejada. . . 55
3.6 Intervalo de 95% de credibilidade a posteriori para os parâmetros τ2, σ2, φ, u. O
círculo fechado representa a média a posteriori. . . 62
3.7 Histograma e intervalo de 95% de credibilidade (linha pontilhada) a posteriori
para os parâmetros δ0e W . A linha vertical tracejada representa o valor verdadeiro. 63
3.8 Sumário da distribuição a posteriori de δt ao longo do tempo. A linha cheia
é a média a posteriori e a região sombreada representa o intervalo 95% de
credibilidade a posteriori. O verdadeiro valor de δt é representado pela linha
tracejada. . . 63
3.9 Sumário da distribuição a posteriori de λt ao longo do tempo, para as 5 regiões.
A linha cheia é a média a posteriori e a região sombreada representa o intervalo
95% de credibilidade a posteriori. O verdadeiro valor de λt é representado pela
linha tracejada. . . 64
3.10 Sumário da distribuição a posteriori de θt, αt e Zt ao longo do tempo, para
as armadilhas 2, 30, 55 e 80. A linha cheia é a média a posteriori e a região
sombreada representa o intervalo de 95% de credibilidade a posteriori. O
verdadeiro valor é representado pela linha tracejada. . . 65
para os parâmetros σ2, φ, W , λ
0. A linha vertical tracejada representa o valor
verdadeiro.. . . 73
4.2 Sumário da distribuição a posteriori de λt ao longo do tempo. A linha cheia
é a média a posteriori e a região sombreada representa o intervalo de 95% de
credibilidade a posteriori. O verdadeiro valor de λt é representado pela linha
tracejada. . . 73
4.3 Sumário da distribuição a posteriori de de θt, αt e Zt para as armadilhas 2, 30,
55 e 80. A linha cheia é a média a posteriori e a região sombreada representa o intervalo de 95% de credibilidade a posteriori. O verdadeiro valor é representado
pela linha tracejada. . . 75
4.4 Intervalo de 95% de credibilidade a posteriori para os parâmetros σ2, φ, u. O
círculo fechado representa a média a posteriori. . . 80
4.5 Histograma e intervalo de 95% de credibilidade (linha pontilhada) a posteriori
para os parâmetros δ0e W . A linha vertical tracejada representa o valor verdadeiro. 81
4.6 Sumário da distribuição a posteriori de δt ao longo do tempo. A linha cheia
é a média a posteriori e a região sombreada representa o intervalo de 95% de
credibilidade a posteriori. O verdadeiro valor de δt é representado pela linha
tracejada. . . 81
4.7 Sumário da distribuição a posteriori de λ ao longo do tempo, nas 5 regiões. A
linha cheia é a média a posteriori e a região sombreada representa o intervalo de 95% de credibilidade a posteriori. O verdadeiro valor de λ é representado pela
linha tracejada. . . 82
4.8 Sumário da distribuição a posteriori de θt, αt e Zt ao longo do tempo, para
as armadilhas 2, 30, 55 e 80. A linha cheia é a média a posteriori e a região
sombreada representa o intervalo de 95% de credibilidade a posteriori. O
verdadeiro valor é representado pela linha tracejada. . . 83
5.1 Box-plot da raiz quadrada da contagem semanal do número de ovos na região DI. 86
5.2 Sumário da distribuição a posteriori de λt ao longo do tempo. A região sombreada representa o intervalo de 95% de credibilidade a posteriori e a linha
cheia é a média a posteriori. . . 88
5.3 Sumário da distribuição a posteriori de θt, αt e Zt ao longo do tempo, para as
armadilhas 2, 30, 55 e 80. A região sombreada representa o intervalo de 95% de
credibilidade a posteriori e a linha cheia é a média a posteriori. . . 89
5.4 Intervalo de 95% de credibilidade a posteriori para os parâmetros τ2, σ2, φ, u
(linhas verticais representam). O ponto cheio corresponde à média a posteriori. . 91
5.5 Histograma e intervalo de 95% de credibilidade (linha pontilhada) a posteriori
para os parâmetros δ0 e W . . . 92
5.6 Sumário da distribuição a posteriori de δt e de λt, ao longo do tempo. A linha
cheia é a média a posteriori e a região sombreada representa o intervalo de 95%
de credibilidade a posteriori. . . 93
5.7 Sumário da distribuição a posteriori de θt, αt e Zt ao longo do tempo, para as
armadilhas 2, 30, 55 e 80 da região DI. A região sombreada representa o intervalo
de 95% de credibilidade a posteriori e a linha cheia é a média a posteriori. . . . 94
5.8 Sumário da distribuição a posteriori de λt ao longo do tempo. A região
sombreada representa o intervalo de 95% de credibilidade a posteriori e a linha
cheia é a média a posteriori. . . 96
5.9 Sumário da distribuição a posteriori de θt, αt e Zt ao longo do tempo, para as
armadilhas 2, 30, 55 e 80. A região sombreada representa o intervalo de 95% de
credibilidade a posteriori e a linha cheia é a média a posteriori. . . 97
5.10 Intervalo de 95% de credibilidade a posteriori para os parâmetros σ2, φ, u. . . . 98
5.11 Histograma e intervalo de 95% de credibilidade (pontilhada) a posteriori para os
parâmetros δ0 e W . A linha vertical tracejada representa o valor verdadeiro. . . 99
5.12 Sumário da distribuição a posteriori de δt e de λt, ao longo do tempo. A linha
cheia é a média a posteriori e a região sombreada representa o intervalo de 95%
de credibilidade a posteriori. . . 100
para as armadilhas 2, 30, 55 e 80. A linha tracejada corresponde ao verdadeiro
valor e a cheia à média a posteriori. . . 101
6.1 Série temporal das covariáveis precipitação, umidade relativa e temperatura . . . 111
Capítulo 1
Introdução
Grande parte dos recursos financeiros de uma pesquisa é destinada à coleta das observações. A demanda por estes recursos aumenta proporcionalmente à quantidade de observação que se julgue necessária para o estudo do fenômeno de interesse.
Em séries temporais o intervalo amostral precisa ser determinado de forma cuidadosa, pois observações realizadas com alta frequência podem ocasionar problemas na modelagem, uma vez que os componentes de maior frequência podem dominar; já observações em períodos de tempo muito espaçados levam a uma perda do detalhamento de alguns níveis que podem influenciar nas previsões e, por consequência, na tomada de decisão (Schmidt e Gamerman, 1997).
No estudo de fenômenos com estrutura espaço-temporal, determinar o intervalo amostral é uma tarefa ainda mais complexa, pois o aumento de uma unidade de tempo acarretará na adição de N observações no banco de dados, sendo que N é a quantidade de estações monitoradoras distribuídas na região de estudo. Quando as N estações monitoradoras são observadas em todos os instantes de tempo diz-se que os dados são alinhados espacialmente. Define-se que o desalinhamento espacial ocorre quando apenas um grupo das N estações é observado em cada instante de tempo.
Considere que as N estações monitoradoras são divididas em r grupos, com N = n1+ n2+
· · · + nr, em que ni é o número total de estações monitoradoras do grupo i, i = 1, 2, · · · , r e,
em cada instante de tempo, apenas um dos grupos é observado, mas em ciclos de r instantes de tempo o mesmo grupo volta a ser observado, isto é, em ciclos periódicos de r instantes de tempo, todas as N estações serão observadas. Esse tipo de planejamento reduz os custos da pesquisa, pois diminui drasticamente a quantidade de observações coletadas. Porém, pode
ocorrer uma agregação temporal, ou seja, o que de fato é observado corresponde ao acumulado em r instantes de tempo.
Neste trabalho, discute-se o problema da agregação temporal em modelos lineares dinâmicos (MLD’s) multivariados. Além disso, propõem-se modelos para variáveis respostas contínua e discreta, com agregação no tempo e desalinhamento no espaço. Inicialmente, na Seção 1.1 é apresentada uma introdução geral sobre a agregação temporal, em seguida, uma discussão sobre agregação temporal em modelos espaço-temporais, que é o escopo deste trabalho. A Seção1.2
apresenta o problema real que motivou o desenvolvimento desta tese. Este problema consiste em um estudo sobre o mosquito transmissor da dengue, realizado na cidade de Recife-PE. Esse estudo teve como um de seus resultados uma base de dados referente à contagem de ovos do mosquito Aedes aegypti, vetor transmissor da dengue. A coleta foi realizada em armadilhas de oviposição distribuídas em 5 regiões da cidade do Recife-PE. Finalmente, a última seção apresenta as contribuições do trabalho e a organização desta tese.
1.1
Agregação temporal
No contexto de séries temporais univariadas, considere que certa variável Ytpossa ser observada
a cada t unidades de tempo e, por algum motivo, as observações sejam coletadas a cada r unidades de tempo, com r sendo um valor fixo que corresponde à quantidade de unidades de tempo t que serão agregadas. Desta forma, o novo processo agregado, será definido por
Zk = r
X
i=1
Yrk+i = Yrk+1+ Yrk+2+ · · · + Yrk+r, k = 0, 1, 2, · · · .
Os fatores que determinam a variação de Ytsão diferentes dos fatores que explicam a variação
de Zk, e dependem da escolha do intervalo de agregação, isto é, da escolha de r.
Em West e Harrison (1997), é apresentado um exemplo simples que ilustra a ideia da
agregação temporal. Esses autores consideram Yt uma série temporal decomposta em
Yt= ft+ X + t, t = 1, 2, · · · , 1000,
em que ft é o valor esperado de Yt, X é o fator comum independente, e os t são variáveis
aleatórias independentes e identicamente distribuídas. Se Var(X) = 1 e Var(t) = 99, para
todo t, então o efeito de X na explicação da variabilidade de Yt é pequeno, se comparado ao
3
Considere agora, a série Z como sendo a agregação dos 1000 valores de Y , sendo assim
Z = 1000 X t=1 Yt= 1000 X t=1 (ft+ X + t) = f∗+ 1000X + ∗, em que f∗ =P1000 t=1 ft e ∗ = P1000 t=1 t.
Desta forma, Var(1000X) = 106 e Var(∗) = 99000, ou seja, para a série desagregada o fator comum X tem pouca influência na explicação de Yt, mas para a série agregada a combinação
deste fator é fundamental na explicação da variabilidade de Z.
Neste trabalho, são consideradas séries temporais com observações coletadas em locais fixos da região de estudo e vários instantes de tempo, resultando em processos espaço-temporais. O objetivo aqui é o estudo das estruturas espaciais e temporais que descrevem estes processos. Em especial, são explorados modelos lineares dinâmicos (MLD´s) multivariados, pois estes são uma classe ampla e flexível de modelos, representados por um par de equações. O trabalho está dividido em duas partes principais: em uma delas são descritas as condições necessárias para que processos espaço-temporais resultantes de agregação temporal de MLD´s multivariados também possam ser escritos como MLD´s multivariados; em uma segunda parte do trabalho pretende-se modelar processos espaço-temporais cuja variável resposta é agregada no tempo e pode ser desalinhada no espaço. A principal diferença entre as duas partes é que, na primeira, parte-se de processos desagregados e se conclui sobre a agregação; já na segunda, parte-se de processos agregados e investigam-se características sobre o processo desagregado.
1.2
Motivação do trabalho
De acordo com a OMS - Organização Mundial de Saúde1, 2,5 bilhões de pessoas vivem em locais
onde o vírus da dengue pode ser transmitido. Isto significa que cerca de 35% da população mundial corre o risco de contrair a doença. Ainda de acordo com a organização, estima-se que entre 50 e 100 milhões de pessoas são infectadas, por ano, com o vírus da dengue, em mais de 100 países endêmicos.
O vírus da dengue é transmitido a humanos, principalmente, pelos mosquitos Aedes aegypti Linnaeus e Aedes albopictus Skuse, que são também vetores de outras doenças como a febre amarela e países de clima tropical como o Brasil possuem condições favoráveis para a proliferação destes mosquitos.
Segundo Regis, Monteiro, Melo-Santos, Silveira, Furtado, Acioli, Santos, Nakazawa,
Carvalho, Ribeiro Jr e Souza (2008), a combinação entre características biológicas do Aedes
aegypti e a alta eficiência dos mecanismos de transmissão do vírus são fatores determinantes nos casos de epidemia de dengue. Esse mosquito tem a capacidade de aumentar rapidamente sua população devido à alta fecundidade, alta fertilidade e curto tempo de geração. Além disso, os ovos são muito resistentes e podem permanecer intactos em recipientes sem água por um período próximo de um ano. Ainda segundo os autores, o que torna essa espécie mais eficiente e mais difícil de ser controlada são suas características comportamentais como, por exemplo, depositar pequenas quantidades de ovos em um número grande de recipientes. Sendo assim, a forma de conter as epidemias tem relação com a condição de imunidade da população e controle do vetor.
A transmissão da dengue ocorre a partir da picada das fêmeas adultas do mosquito, pois somente elas são hematófogas. Após ter sugado o sangue de uma pessoa contaminada e decorrido o período de incubação do vírus (de 8 a 10 dias), a fêmea estará apta a transmitir a doença a indivíduos suscetíveis.
Como ainda não existe uma vacina contra o vírus, a forma mais eficiente de prevenir surtos da doença é por meio do controle do vetor. Para que seja possível implementar medidas preventivas eficientes de combate ao vetor é necessário o conhecimento preciso dos locais e/ou períodos de tempo em que se encontra uma maior densidade do vetor. Essa tarefa é, comumente, baseada no Índice Predial (IP) e Índice Breteau (IB), que são calculados com base na inspeção visual de recipientes, o que por si só, já justifica a falta de precisão do método. Além disso, é registrado como positivo um recipiente com 1 ou 100 larvas do mosquito, o que, claramente, não fornece informação sobre a densidade populacional do vetor.
Neste sentido, o Projeto SAUDAVEL (Sistema de Apoio Unificado para Detecção e Acompanhamento em Vigilância EpidemioLógica) tem como objetivo desenvolver novos instrumentos para a prática da vigilância epidemiológica, incorporando aspectos ambientais, identificadores de riscos e métodos automáticos e semi-automáticos, que permitam a detecção de surtos e o seu acompanhamento no espaço e no tempo (Bonat, Ribeiro, Dallazuanna, Regis,
Pereira, Silveira, Acioli e Souza, 2009).
O Projeto SAUDAVEL é um trabalho de âmbito nacional e seu estudo piloto teve início em Recife-PE, onde 5 regiões foram monitoradas com o intuito de “mapear” o comportamento de ovos do mosquito causador da dengue. A Figura 1.1 apresenta as regiões estudadas, e estas possuem características ambientais e sócio/culturais distintas.
5
Figura 1.1: Mapas do Brasil, do estado de Pernambuco e em destaque a cidade de Recife, com as regiões consideradas no Projeto SAUDAVEL em destaque.
Um dos resultados desse estudo foi uma base de dados referente à contagem do número de ovos do mosquito Aedes aegypti. Os ovos foram coletados em armadilhas de oviposição, também conhecidas como "ovitrampa", que são confeccionadas com um recipiente de cor escura, onde se adere um material áspero que permite a fixação dos ovos depositados. Esse material áspero foi, periodicamente, substituído e levado ao laboratório para a contagem manual dos ovos fixados.
1.2.1
Descrição da coleta de ovos de Aedes aegypti em bairros de
Recife
O agente causador da dengue é um vírus e seus principais transmissores são mosquitos do gênero Aedes, popularmente conhecidos no Brasil como “mosquito da dengue”. O desenvolvimento e a proliferação do mosquito Aedes aegypti são favorecidos pelas condições do meio-ambiente
(Tauil, 2002). De acordo com Bonat et al. (2009), nos programas de controle da dengue,
a vigilância entomológica (presença do vetor, índices de infestação, características biológicas, etc.) é realizada, principalmente, por inspeção visual de larvas, o que não é um bom indicador para medir a abundância de adultos e é ineficaz para estimar o risco de transmissão.
As armadilhas de oviposição visam estimar a atividade de postura do mosquito Aedes aegypti. Fay e Eliason(1965) demonstram a superioridade dessas em relação à pesquisa larvária para a verificação da ocorrência do vetor, pois elas são ferramentas eficazes no estudo do comportamento espaço-temporal dos ovos do mosquito. Bonat et al. (2009) citam alguns trabalhos que apresentam metodologias que visam investigar a dinâmica de infestação do mosquito.
Neste estudo serão analisadas as 464 armadilhas de oviposição distribuídas em 5 regiões da cidade do Recife-PE, que é a segunda cidade em número de casos de dengue no Brasil. Recife, capital do Estado de Pernambuco, situa-se no litoral nordeste, possui área de 219,493 km2, clima quente e úmido, com temperatura média de 25,20C e umidade relativa do ar variando de 70 a 90% ao longo do ano. De janeiro a abril apresenta altas temperaturas com chuvas esparsas, seguida por fortes chuvas de maio a agosto, por fim, períodos de seca de setembro a dezembro. Estas são condições climática favorávies à proliferação do mosquito.
As 5 regiões estudadas correspondem a 7 dos 94 bairros da cidade do Recife. Na seleção foi considerado o risco de transmissão da doença e a qualidade de vida em cada região, resultando em cenários bastante distintos para a proliferação do mosquito. A seguir, são descritas algumas características de cada região e as siglas em negrito serão utilizadas, ao longo do texto, para representá-las.
• Região 1 (BT) - Bairro: Brasília Teimosa, classificada como sendo de alto risco e baixa qualidade de vida, é localizada na parte litorânea da cidade. Possui área de 0,62 km2 e densidade populacional de 30,895 habitantes/km2, com população de classe baixa.
• Região 2 (CFP) - Bairros: Casa Forte e Parnamirim - com área de 1,17 km2, densidade
-7
possui baixo risco e alta qualidade de vida, com população de classe média a alta. • Região 3 (DI) - Bairros: Dois Irmãos e Sítio dos Pintos - existe a presença de vegetação
abundante, identificada por resquícios de Mata Atlântica, com densidade populacional de 3,737 habitantes/km2 em uma área total de 1,16 km2. Possui estrutura fundiária caracterizada por pequenas propriedades. É classificada como sendo região de alto risco e baixa qualidade de vida.
• Região 4 (EM) - Bairro: Engenho do Meio - com 0,89 km2 de área e densidade
populacional de 11,865 habitantes/km2, distribuídos em um relevo plano. Esta região
é bastante heterogênea com relação à classe social da população e o risco de transmissão varia de baixo a médio.
• Região 5 (MCP) - Bairros: Morro da Conceição e Alto José do Pinho - área de 0,79 km2
possui relevo fortemente ondulado. Densidade populacional de 10,560 habitantes/km2, com população de classe baixa, apresenta médio risco de transmissão.
Em cada uma das 5 regiões foram instaladas e georeferenciadas de 80 a 100 armadilhas, em um total de 464 que permaneceram fixas durante todo o estudo. Essas armadilhas foram distribuídas de modo a cobrir toda a extensão da região analisada e, de acordo com relatórios disponíveis no sítio do Projeto SAUDAVEL2, o planejamento de instalação das armadilhas foi
realizado da seguinte forma:
• Geração de uma grade com células de 40 x 40 m na região estudada;
• Exclusão das células incompletas (de borda), ou seja, com área inferior a 1600 m2;
• Identificação de todas as células com números sequenciais, dispostos da esquerda para a direita e de cima para baixo;
• Seleção aleatória das células (onde deveriam ser instaladas as armadilhas) de forma que as mesmas ocupassem toda a região de interesse;
• Divisão das células sorteadas em quatro lotes (grupos).
Aqui serão consideradas as observações realizadas de 04/01/2005 a 16/05/2006, totalizando 72 semanas de observação. A coleta das armadilhas e contagem dos ovos foi realizada
Tabela 1.1: Quantidade de armadilhas distribuídas em cada região.
Grupo 1 Grupo 2 Grupo 3 Grupo 4 Total
BT 20 20 20 20 80
CFP 25 25 25 25 100
DI 24 20 22 18 84
EM 25 25 25 25 100
MCP 25 25 25 25 100
semanalmente por rodízio. De tal forma que, em cada semana, cerca de 1/4 das armadilhas eram observadas, mas em ciclos de 4 semanas todas as armadilhas eram monitoradas. Cada armadilha continha uma lâmina produzida com um material áspero, onde os ovos depositados pelas fêmeas do mosquito ficavam grudados. Estas lâminas eram substituídas e levadas para contagem dos ovos em laboratório especializado. Desta forma, o que era efetivamente observado a cada semana correspondia à quantidade de ovos acumulados nas 4 semanas anteriores.
Como a primeira observação foi realizada em 04/01/2005, o experimento teve início em 07/12/2004, data em que foram instaladas as armadilhas de um dos grupos. O mesmo procedimento foi considerado para os demais grupos.
Como, em cada semana, apenas um dos 4 grupos de armadilhas era efetivamente observado tem-se, para cada uma, um total de 18 coletas. A Figura1.2 apresenta a distribuição espacial das armadilhas em cada região. Em destaque, para cada região, encontra-se a localização de 4 armadilhas, cada uma delas pertencente a um grupo diferente. Algumas dessas serão mencionadas ao longo do texto.
Cada um dos cinco grupos possui de 18 a 25 armadilhas, distribuídas de forma aleatória na região e a Tabela 1.1 apresenta a quantidade considerada em cada região e por grupo. As armadilhas do primeiro grupo eram observadas nas 5 regiões em cada semana. Na Figura 1.2
os símbolos diferenciam os grupos e sua posição permaneceu fixa no decorrer do estudo.
1.2.2
Análise exploratória dos dados
Nesta seção, é apresentada uma análise exploratória inicial obtida para a coleta dos ovos do mosquito Aedes aegypti observados nas 5 regiões da cidade de Recife consideradas neste estudo. A Tabela1.2 descreve o valor mínimo, a mediana, a média, o máximo, a quantidade de valores
9 292.4 292.6 292.8 293.0 293.2 293.4 9105.5 9106.0 9106.5 9107.0 BT ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 2 27 54 76 ● Grupo 1 2 3 4 288.0 288.5 289.0 289.5 9111.2 9111.4 9111.6 9111.8 9112.0 CFP ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 23 38 63 88 283.5 284.0 284.5 285.0 285.5 9113.0 9113.5 9114.0 9114.5 9115.0 DI ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 2 30 55 80 285.6 285.8 286.0 286.2 286.4 9108.5 9109.0 9109.5 EM ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 19 32 75 90 289.0 289.5 290.0 9112.4 9112.6 9112.8 9113.0 9113.2 9113.4 MCP ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 1 32 75 94
Figura 1.2: Disposição das armadilhas em cada região.
ausentes e na última coluna a porcentagem de valores faltantes. Estes foram causados por problemas técnicos ocorridos na coleta, na contagem ou na tabulação dos resultados.
Tabela 1.2: Medidas resumo de cada região considerada no estudo.
Mínimo Mediana Média Máximo Desvio No Obs. % Obs.
padrão faltantes faltantes
BT 0 1002 1467 10010 1417,05 130 9,03
CFP 0 611 867,6 24420 1021,6 298 16,56
DI 0 268 469,8 6828 605,61 119 7,87
EM 0 578 1002 8925 1177,22 317 17,61
MCP 0 683 1008 27816 1227,53 361 20,05
Como neste estudo foram consideradas 18 semanas de observações, o produto entre 18 e a quantidade de armadilhas de cada região fornece a quantidade total de observações. A razão entre a quantidade de dados faltantes e este produto resulta em uma proporção que multiplicado por 100 informa a porcentagem de dados faltantes, como apresentados na última coluna da Tabela1.2.
Percebe-se que existe uma grande variabilidade em todas as regiões. DI apresenta a menor variabilidade, além de possuir a menor quantidade de valores faltantes. MCP possui a maior amplitude e ainda a maior quantidade de valores faltantes.
A Figura 1.3 apresenta o box-plot da contagem total observada em cada região e nota-se que em todas as regiões a quantidade de ovos apresenta uma distribuição assimétrica à direita e com muitos valores discrepantes.
A Figura 1.4 apresenta o box-plot da contagem dos ovos na escala semanal para cada região. Nesta figura foi considerado um corte em 10 mil ovos. As diferentes cores correspondem a cada grupo, como descrito na Figura1.2. Percebe-se que a média de contagem dos ovos varia no decorrer das semanas, além disso, quando a média de contagem aumenta a variabilidade também aumenta.
De forma geral, as semanas que correspondem ao verão do ano de 2005 iniciam com contagens baixas com uma tendência de aumento que ocorre e mantém-se no outono deste mesmo ano. Com exceção de BT as maiores observações de contagem ocorrem no outono de 2005; para BT este máximo acontece no inverno do mesmo ano. As observações seguintes aos períodos de máximo apresentam tendência de diminuição até o outono de 2006, período em que voltam a ser observadas contagens altas.
11 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● Número de o v os BT CFP DI EM MCP 0 5000 10000 20000 0 5000 10000 20000
Figura 1.3: Box-plot da contagem de ovos nas 5 regiões.
descreve o desalinhamento espacial decorrente do planejamento amostral, bem como pontua qual semana não há observação de uma determinada armadilha, caracterizando um dado faltante. No eixo das abscissas encontram-se as datas semanais em que houve observação de cada grupo e no eixo das ordenadas o número das armadilhas consideradas em cada região. As cores diferenciam os grupos como na Figura1.4e os retângulos em branco representam uma “não observação”. Por exemplo, em todas as regiões o grupo 1 teve sua primeira observação em 04/01/2005. Para BT nesta data todas as armadilhas do grupo 1 foram observadas; já na semana de 29/03/2005 a armadilha 1 do grupo 1 não é observada, caracterizando um dado faltante.
BT ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 14/12/2004 04/01/2005 25/01/2005 15/02/2005 08/03/2005 29/03/2005 19/04/2005 10/05/2005 31/05/2005 21/06/2005 12/07/2005 02/08/2005 23/08/2005 13/09/2005 04/10/2005 25/10/2005 15/11/2005 06/12/2005 27/12/2005 17/01/2006 07/02/2006 28/02/2006 21/03/2006 11/04/2006 0 2000 4000 6000 8000 10000 Grupo 1 2 3 4 CFP ●●●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 04/01/2005 25/01/2005 15/02/2005 08/03/2005 29/03/2005 19/04/2005 10/05/2005 31/05/2005 21/06/2005 12/07/2005 02/08/2005 23/08/2005 13/09/2005 04/10/2005 25/10/2005 15/11/2005 06/12/2005 27/12/2005 17/01/2006 07/02/2006 28/02/2006 21/03/2006 11/04/2006 02/05/2006 0 2000 4000 6000 8000 10000 DI ● ● ●● ●● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●●● ● ● ● ● ● ● ● ● ●● ● ● ●● ● ● ● ● ● ● 04/01/2005 25/01/2005 15/02/2005 08/03/2005 29/03/2005 19/04/2005 10/05/2005 31/05/2005 21/06/2005 12/07/2005 02/08/2005 23/08/2005 13/09/2005 04/10/2005 25/10/2005 15/11/2005 06/12/2005 27/12/2005 17/01/2006 07/02/2006 28/02/2006 21/03/2006 11/04/2006 02/05/2006 0 2000 4000 6000 8000 10000 EM ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 04/01/2005 25/01/2005 15/02/2005 08/03/2005 29/03/2005 19/04/2005 10/05/2005 31/05/2005 21/06/2005 12/07/2005 02/08/2005 23/08/2005 13/09/2005 04/10/2005 25/10/2005 15/11/2005 06/12/2005 27/12/2005 17/01/2006 07/02/2006 28/02/2006 21/03/2006 11/04/2006 02/05/2006 0 2000 4000 6000 8000 10000 MCP ● ●● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 04/01/2005 25/01/2005 15/02/2005 08/03/2005 29/03/2005 19/04/2005 10/05/2005 31/05/2005 21/06/2005 12/07/2005 02/08/2005 23/08/2005 13/09/2005 04/10/2005 25/10/2005 15/11/2005 06/12/2005 27/12/2005 17/01/2006 07/02/2006 28/02/2006 21/03/2006 11/04/2006 02/05/2006 0 2000 4000 6000 8000 10000
13 BT Ar madilha 04/01/2005 25/01/2005 15/02/2005 08/03/2005 29/03/2005 19/04/2005 10/05/2005 31/05/2005 21/06/2005 12/07/2005 02/08/2005 23/08/2005 13/09/2005 04/10/2005 25/10/2005 15/11/2005 06/12/2005 27/12/2005 17/01/2006 07/02/2006 28/02/2006 21/03/2006 11/04/2006 02/05/2006 1 7 15 23 31 39 47 55 63 71 79
Figura 1.5: Esquema das observações para a região BT, destacadas por grupo das observações.
CFP Ar madilha 04/01/2005 25/01/2005 15/02/2005 08/03/2005 29/03/2005 19/04/2005 10/05/2005 31/05/2005 21/06/2005 12/07/2005 02/08/2005 23/08/2005 13/09/2005 04/10/2005 25/10/2005 15/11/2005 06/12/2005 27/12/2005 17/01/2006 07/02/2006 28/02/2006 21/03/2006 11/04/2006 02/05/2006 1 9 17 27 37 47 57 67 77 87 97
DI Ar madilha 04/01/2005 25/01/2005 15/02/2005 08/03/2005 29/03/2005 19/04/2005 10/05/2005 31/05/2005 21/06/2005 12/07/2005 02/08/2005 23/08/2005 13/09/2005 04/10/2005 25/10/2005 15/11/2005 06/12/2005 27/12/2005 17/01/2006 07/02/2006 28/02/2006 21/03/2006 11/04/2006 02/05/2006 1 7 15 23 31 39 47 55 63 71 79
Figura 1.7: Esquema das observações para a região DI, destacadas por grupo das observações.
EM Ar madilha 04/01/2005 25/01/2005 15/02/2005 08/03/2005 29/03/2005 19/04/2005 10/05/2005 31/05/2005 21/06/2005 12/07/2005 02/08/2005 23/08/2005 13/09/2005 04/10/2005 25/10/2005 15/11/2005 06/12/2005 27/12/2005 17/01/2006 07/02/2006 28/02/2006 21/03/2006 11/04/2006 02/05/2006 1 9 17 27 37 47 57 67 77 87 97
15 MCP Ar madilha 04/01/2005 25/01/2005 15/02/2005 08/03/2005 29/03/2005 19/04/2005 10/05/2005 31/05/2005 21/06/2005 12/07/2005 02/08/2005 23/08/2005 13/09/2005 04/10/2005 25/10/2005 15/11/2005 06/12/2005 27/12/2005 17/01/2006 07/02/2006 28/02/2006 21/03/2006 11/04/2006 02/05/2006 1 9 17 27 37 47 57 67 77 87 97
Figura 1.9: Esquema das observações para a região MCP, destacadas por grupo das observações.
1.3
Contribuições e organização do trabalho
Tendo em vista o desafio em analisar um conjunto de dados reais, com um planejamento experimental muito particular, o presente trabalho apresenta contribuições em algumas direções. A primeira delas refere-se à caracterização de processos espaciais com agregação temporal. A inovação está em apresentar as condições necessárias para que um MLD multivariado e temporalmente agregado apresente a mesma estrutura do MLD do processo desagregado.
Uma outra contribuição segue no sentido da análise de um conjunto de dados reais com agregação no tempo e desalinhamento no espaço. A motivação desta análise veio a partir dos dados descritos na Seção 1.2. Discutem-se modelos tanto para resposta contínua, como para resposta discreta. A inferência é realizada sob o enfoque bayesiano usando-se de Métodos de Monte Carlo via Cadeias de Markov (MCMC). Os programas foram todos implementados em OX versão 6 (Doornik, 2002) e as figuras executadas no programa R.
A estrutura do texto está organizada de forma que, no Capítulo2apresentam-se quais são as condições necessárias para que um processo multivariado com agregação temporal siga a mesma estrutura do MLD multivariado desagregado. Esse capítulo considera classes particulares de MLD´s, como MLD polinomial de primeira e segunda ordens, de regressão passando pela origem, MLD sazonal na forma livre e superposição em modelos dinâmicos.
De posse dos resultados encontrados no Capítulo 2, são propostos, no Capítulo 3, modelos para dados espaço-temporais com resposta contínua, considerando que as observações são realizadas em pontos fixos do espaço e em vários instantes de tempo. Nesse capítulo, é considerado que estes pontos fixos podem ser observados em várias regiões. Para variável resposta normalmente distribuída é, primeiramente, proposto um modelo para uma região individual e na sequência um modelo hierárquico considerando várias regiões. Nesse capítulo, também, será apresentado um estudo de simulação com 30 conjuntos de dados sintéticos diferentes, que visa testar o algoritmo de estimação.
No Capítulo4, é proposto um modelo para variável resposta discreta, considerando-se dados artificiais com resposta seguindo uma distribuição Poisson. Como no Capítulo3, será proposto um modelo para uma região e um modelo hierárquico para várias regiões. O Capítulo 5 é reservado para a análise dos dados reais e os modelos propostos nos Capítulos 3 e 4 serão ajustados aos dados reais apresentados no Capítulo 1. Por fim, o Capítulo 6 apresenta as conclusões e possíveis trabalhos futuros.
Capítulo 2
Agregação temporal em modelos lineares
dinâmicos multivariados
Neste capítulo, é formulado um modelo linear dinâmico (MLD) com resposta multivariada e agregação no tempo. O objetivo é mostrar as condições necessárias para que a agregação de um vetor resposta, que segue a estrutura de um MLD, também resulte em um MLD.Schmidt e
Gamerman(1997) apresentam resultados para a agregação em MLD com resposta univariada.
Aqui, pretende-se discutir esses resultados para o caso multivariado, em que a variável resposta deixa de ser um escalar e passa a ser um vetor coluna ao longo do tempo.
Inicialmente, é realizada uma breve revisão de alguns conceitos que são utilizados nas especificações dos modelos propostos. Mais especificamente, é apresentada uma revisão sobre os MLD´s multivariados (Seção2.1). Além disso, estendem-se as ideias apresentadas emSchmidt
e Gamerman(1997) (Seção 2.2) para o caso de uma série temporal observada em pontos fixos
de uma região geográfica.
2.1
Modelos lineares dinâmicos multivariados
Os MLD’s (West e Harrison, 1997) são uma classe ampla de modelos representados por um par de equações denominadas equação de observação e equação de evolução ou do sistema. A primeira descreve a distribuição das observações e a segunda, a forma de evolução dos parâmetros ao longo do tempo. Mais especificamente, suponha que Yt seja um vetor coluna
com N observações no instante de tempo t, com t = 1, 2, · · · , T ; o modelo é definido pela 17
quádrupla {Ft, Gt, Vt, Wt}. Para cada instante de tempo t, as matrizes que compõem esta
quádrupla são consideradas conhecidas com as seguintes dimensões: • Ft é uma matriz de regressão dinâmica (m × N ) ;
• Gt é uma matriz de evolução dos estados (m × m) ;
• Vt é uma matriz de variância observacional (N × N ) ;
• Wt é uma matriz de variância de evolução (m × m).
As equações de observação e do sistema correspondentes ao MLD multivariado são:
Yt = F0tµt+ νt, νt∼ N (0, Vt) (2.1)
µt = Gtµt−1+ ωt ωt ∼ N (0, Wt),
com νt e ωt independentes, e mutuamente independentes, e µt um vetor de estados
m-dimensional.
As estruturas do MLD podem ser generalizadas ao considerar a quádrupla {Ft, Gt, Vt, Wt}
desconhecida e incorporar estruturas nas equações de observação e/ou de evolução para representar estruturas mais complexas, tais como sazonalidade, presença de níveis, dependência de covariáveis explicativas, dependência espacial, dentre outras.
De acordo comWest e Harrison (1997), na prática, supor desconhecidos os componentes da quádrupla poderá ser um fator limitante e introduzir complicações nas estimações, já que irá influenciar diretamente o tamanho do vetor paramétrico a ser estimado.
Uma das possibilidades de contornar essas complicações é assumir estruturas em Vt de
forma a reduzir a quantidade de parâmetros. Por exemplo, considerar Vt = σ2I, assumindo
desta forma independência nas observações ou Vt= Σ, constante ao longo do tempo.
No contexto espacial, assume-se que Yt é observado em N pontos do espaço s1, s2, · · · , sN.
Supondo um processo gaussiano homogêneo (Schmidt e Sansó (2006), Diggle e Ribeiro Jr
(2007)), pode-se escrever a função de covariância de Yt como V = σ2R sendo Rjj0 = ρ(djj0, φ) e djj0 a distância euclidiana entre as localizações sj e sj0, isto é, djj0 = ||sj − sj0||. Sendo ρ uma função de correlação válida (positiva definida), resulta em R uma matriz simétrica com diagonal igual a 1 e os demais valores positivos. Desta forma, a dimensão do espaço paramétrico de V é reduzido significativamente, já que basta estimar σ2 e φ para obter V.
Existem na literatura diversas famílias de função de correlação válidas. A família exponencial potência e a família Matérn, são os principais exemplos. Neste trabalho, será considerada a função de correlação exponencial, de modo que ρ(d, φ) = exp
n −d
φ
o .
19
Nas próximas seções, são apresentados os resultados para a agregação em MLD multivariado polinomial de primeira e segunda ordens, de regressão com a reta passando pela origem e MLD sazonal na forma livre. Para finalizar, é utilizado o teorema da superposição para mostrar que diferentes estruturas podem ser capturadas nessa classe de modelos.
2.2
Agregação temporal em modelos lineares dinâmicos
Em modelos nos quais a variável de interesse é indexada no tempo, a amplitude do intervalo de tempo entre as observações é de suma importância. Quando dados são amostrados em períodos de tempo muito longos, a informação pode ser agregada. Caso o nível de agregação seja grande, perdem-se detalhes importantes do processo estudado mas, por outro lado, a alta frequência das observações amostradas pode levar a problemas de modelagem e aumento nos custos de estimação. Logo, o período de agregação deve ser escolhido de forma cuidadosa.
Schmidt e Gamerman(1997) estudam a agregação temporal em MLD univariado e discutem
as suposições necessárias para a agregação temporal em MLD polinomial de primeira e segunda ordens, modelos de regressão, modelo sazonal de forma livre e casos de superposição de MLD´s. Para provar que a série agregada segue o mesmo MLD da série desagregada, esses autores supõem que a variância da equação do sistema é muito menor do que a variância da equação das observações, hipótese comumente adotada em tais modelos.
Aqui, é considerada agregação temporal em MLD multivariado. Desta forma, supondo o MLD como apresentado na Equação (2.1), seja Zk a agregação de r unidades de tempo, definida
de modo que Zk = r X i=1 Yrk+i = Yrk+1+ Yrk+2+ · · · + Yrk+r. k = 0, 1, 2, · · · (2.2)
De forma geral, e assim como apresentado em Schmidt e Gamerman (1997), pode-se obter cada componente de Zk, escrevendo-se, inicialmente,
Yrk+i = F0rk+i " i Y j=2 Grk+j # µrk+1+ F0rk+i i X j=2 " i Y l=j+1 Grk+l # ωrk+j+ νrk+i i = 1, 2, · · · , k,
que corresponde a Ytescrito de forma recursiva, em que
Qi
j=2Grk+j = Grk+iGrk+i−1· · · Grk+2.
Substituindo cada componente da soma da Equação (2.2), tem-se: Zk = r X i=1 F0rk+i (" i Y j=2 Grk+j # µrk+1+ i X j=2 " i Y l=j+1 Grk+l # ωrk+j ) + r X i=1 νrk+i
= r X i=1 F0rk+i " i Y j=2 Grk+j # µrk+1+ ν∗k, em que ν∗k =Pr i=1F 0 rk+i Pi j=2 h Qi l=j+1Grk+l i ωrk+j +Pri=1νrk+j.
Como resultado da agregação em Zk, tem-se uma nova especificação da quádrupla e, sendo
assim, não será, analiticamente, possível encontrar uma forma geral para o MLD em Zk. Logo,
classes particulares de MLD serão consideradas. Além disso, é importante ressaltar que os componentes de ruído definidos na equação de observação e do sistema, para o MLD agregado, violam a suposição de independência e algumas condições particulares devem ser consideradas, como pode ser visto nas seções seguintes.
2.2.1
MLD multivariado polinomial de primeira ordem - caso geral
Neste modelo, a série resposta Yt é um vetor coluna N × 1 para todo t = 1, 2 . . . , T , descrita
por um nível Ftµt, mais um termo de distúrbio. O nível da evolução é um passeio aleatório
com erro de evolução dado por ωt. Sendo Ft um vetor coluna de dimensão N × 1, é assumido
que µt é comum para toda localização no espaço.
Assim, o modelo é definido pela quádrupla M = {Ft, 1, V, W }, de modo que
Yt= Ftµt+ νt, νt∼ N (0, V) (2.3)
µt= µt−1+ ωt, ωt ∼ N (0, W ).
De forma análoga, e introduzindo a notação elemento a elemento, tem-se Yt(s) = Ft(s)µt+νt(s).
Suponha, agora, que as observações do processo Yt sejam agregadas em r unidades de
tempo, o que resulta em um novo processo, definido como Zk=
Pr
i=1Yrk+i= Yrk+1+ Yrk+2+
· · · + Yrk+r, k = 0, 1, 2, · · · a soma de vetores coluna N × 1, resultando em um vetor coluna de
mesma dimensão. O interesse agora é determinar a quádrupla que define o novo MLD resultante da agregação temporal. Para tanto, cada termo da equação de Zk será recursivamente obtido
pela substituição de Yrk+i na equação de observação do modelo resultante, levando a
Yrk+i = Frk+iµrk+1+ Frk+i i X j=2 ωrk+j + νrk+i i = 1, 2, · · · , r. Assim, Zk = r X i=1 Yrk+i
21 = µrk+1 r X i=1 Frk+i+ r X i=2 r X j=i Frk+j ! ωrk+i+ r X i=1 νrk+i = F∗kαk+ ν∗k, com αk= µrk+1, F∗k = Pr i=1Frk+i e ν∗k = Pr i=2 Pr j=iFrk+j ωrk+i+ Pr i=1νrk+i.
Para provar que Zk segue um MLD é necessário verificar se αk pode ser escrito como
uma função linear de αk−1 mais um termo de distúrbio independente no tempo. Substituindo
recursivamente o valor µrk+1na equação do sistema, tem-se que µrk+1 = µrk−r+1+
Pr+1 j=2ωrk−r+j, resultando em αk = µrk+1 = µrk−r+1+ r+1 X j=2 ωrk−r+j = αk−1+ ωk∗,
em que ωk∗ é normalmente distribuído com média zero, pois resulta da soma de variáveis aleatórias normalmente distribuídas com média zero, e com variância
Wk∗ = Var(ωk∗) = Var r+1 X j=2 ωrk−r+j ! = rW,
pois assume-se que ωt e ωt0 são independentes, ∀ t, t0.
A matriz de variância da perturbação da série resposta agregada é dada por: V∗k = Var(ν∗k) = Var r X i=2 i X j=2 Frk+j ! ωrk+i+ r X i=1 νrk+i ! = W r X i=2 i X j=2 Frk+jF0rk+j ! + rV.
Desta forma, o modelo para a série agregada é definido pela quádrupla {F∗k, 1, V∗k, Wk∗}. É importante observar que, condicional a αk−1, Zk−1 e αk não são independentes, pois
dependem de ωrk−r+i, para i = 2, 3, · · · , r, assim, deve-se considerar a covariância condicional
considerar cada elemento do vetor, em que C(s) = Cov(αk, Zk−1(s)|αk−1), sendo Zk−1(s) o
elemento na posição s = 1, 2, · · · , N . Logo C(s) = Cov(αk, Zk−1(s)|αk−1) = Cov(αk−1+ ωk∗, F ∗ k−1(s)αk−1+ νk−1∗ (s)|αk−1) = Cov(νk−1∗ (s), ω∗k|αk−1) = Cov r X i=2 i X j=1 Frk−r+j(s) ! ωrk−r+i+ r X i=1 νrk−r+i, r X i=1 ωrk−r+i+1 ! = W r X i=2 (r − i + 1)Frk−r+i(s).
Usando propriedades da distribuição normal multivariada pode-se escrever Zk−1 αk |αk−1 ∼ N F∗k−1αk−1 αk−1 , V∗k C C0 Wk∗ ,
em que C é o vetor contendo WPr
i=2(r −i+1)Frk−r+i(s). Então, (αk|Zk−1, αk−1) ∼ N (m1, C1),
com C1 = Wk∗− C0V ∗−1 k C e m1 = αk−1+ C 0V∗−1 k (Zk−1− F ∗
k−1αk−1). Logo a evolução de αkserá
feita por αk = αk−1+ C0V∗−1k (Zk−1− F∗k−1αk−1) + ω∗∗, em que ω∗∗∼ N 0, Wk∗− C
0V∗−1
k C.
Agora o distúrbio do sistema ω∗∗ é independente de ν∗k e, também, mutuamente independente. O modelo, então, está de acordo com a estrutura usual de um MLD, entretanto, nota-se que o distúrbio do sistema possui média diferente de zero.
Na prática, em MLD a variância da equação do sistema é, usualmente, menor do que a variância das observações. No contexto espacial a matriz de covariância das observações é, usualmente, modelada com V = σ2R, que é dominada por σ2. Então, para valores pequenos de r, Wσ2 é aproximadamente igual a zero, logo
C0V∗−1k = W r X i=2 (r − i + 1)Frk−r+i !0 W r X i=2 i X j=2 Frk+jF0rk+j ! + rV !−1 = W r X i=2 (r − i + 1)Frk−r+i !0 1 rσ2R −1 − I + W rσ2R −1 r X i=2 i X j=2 Frk+jF0rk+j ! −1 1 rσ2R −1 W r X i=2 i X j=2 Frk+jF0rk+j ! 1 rσ2R −1 ,
de forma que C0V∗−1k → 0, quando W
σ2 → 0. Foi utilizada a propriedade II apresentada na Equação (6.2) do Apêndice 6.2.
23
Então, sob essas condições, a estrutura do modelo se mantém representada pelo MLD da seguinte forma: Zk = F∗kαk+ ν∗k ν ∗ k ∼ N (0, V ∗ k) (2.4) αk = αk−1+ ωk∗ ω ∗ k ∼ N (0, W ∗ k).
Usando-se a Equação (2.4) conclui-se que o processo resultante da agregação segue, aproximadamente, a mesma estrutura do processo desagregado. A Equação (2.3) apresenta um caso geral do modelo com nível e, desta forma, podem-se considerar diferentes estruturas para o vetor Ft. Por exemplo, um caso mais geral assume que Ft é um vetor de variáveis
regressoras para cada tempo, com valores diferentes em cada localização.
A seguir, são apresentados os resultados para os casos particulares. No primeiro caso, Ft
é assumido um vetor de uns e, sendo assim, a média das observações é µt para todo Yt. No
segundo caso, é considerado que a covariável é comum a todo vetor Yt. Os resultados para
cada um dos casos particulares são apresentados a seguir: Caso1 - Modelo com nível variando no tempo:
O processo desagregado é dado pelo seguinte modelo:
Yt = Ftµt+ νt, νt ∼ N (0, V)
µt = µt−1+ ωt, ωt ∼ N (0, W ),
em que o vetor Ft é N × 1 com elementos iguais a 1 para todo tempo t. Logo o valor µt será
o mesmo para todo Yt(s), t = 1, 2 · · · , T e s = 1, 2, · · · , N . O processo resultante da agregação
em r unidades de tempo é: Zk = 1rµrk+1+ 1 r X i=2 (r − i + 1)ωrk+i+ r X i=1 νrk+i = 1αk+ νk∗, em que νk∗ = 1Pr i=2(r − i + 1)ωrk+i+ Pr i=1νrk+i.
Seguindo os argumentos do caso geral de MLD de primeira ordem prova-se que a série agregada resulta em um MLD de primeira ordem definido pela quádrupla {1, 1, V∗k, Wk∗}, com o seguinte modelo : Zk = 1αk+ ν∗k, ν ∗ k ∼ N (0, V ∗ k) (2.5) αk = αk−1+ ωk∗, ω ∗ k ∼ N (0, W ∗ k),
em que αk = rµrk+1 Wk∗ = Var(ω∗) = Var r r+1 X j=2 ωrk−r+j ! = r3W V∗k = Var(ν∗k) = Var 1 r X i=2 (r − i + 1)ωrk+i+ r X i=1 νrk+i ! = 1W 1 3r 3− 1 2r 2+1 6r 10+ rV C = 1r 2(r − 1)W 2 .
Caso 2 - Modelo com uma variável regressora passando pela origem:
Neste caso, a covariável possui uma observação comum para toda localização s e para cada tempo t, ou seja, Xt(s) = Xt para todo s. Desta forma, define-se o modelo por:
Yt= 1Xtµt+ νt, νt ∼ N (0, V)
µt= µt−1+ ωt, ωt ∼ N (0, W ),
em que Xté o valor da covariável no tempo t. Este modelo também é conhecido como MLD de
regressão através da origem com resposta multivariada, definido pela quádrupla {1Xt, 1, V, W }.
O interesse, novamente, é verificar se a série agregada em r unidades de tempo segue um MLD e quais as condições para que isso aconteça. O processo resultante da agregação é:
Zk = 1rµrk+1 r X i=1 Xrk+i+ 1 r X i=2 r X i=1 Xrk+i ! ωrk+i+ r X i=1 νrk+i = 1αkXk∗+ ν ∗ k
O novo MLD de regressão através da origem é definido pela quádrupla {1Xk∗, 1, V∗k, Wk∗}, logo Zk = 1αkXk∗+ ν ∗ k, ν ∗ k ∼ N (0, V ∗ k) αk = αk−1+ ωk∗, ω ∗ k∼ N (0, W ∗ k), em que αk = rµrk+1 Xk∗ = r X i=1 Xrk+i Wk∗ = Var(ω∗) = Var r+1 X j=2 ωrk−r+j ! = rW
25 V∗k = Var(ν∗k) = Var 1 r X i=2 r X i=1 Xrk+i ! ωrk+i+ r X i=1 νrk+i ! = 1W r X i=2 r X i=1 Xrk+i !2 10+ rV C = 1W r X i=2 Xrk−r+i.
2.2.2
Modelo dinâmico polinomial de segunda ordem
O modelo é definido pela seguinte quádrupla M = {1 ⊗ E02, G2, V, W}, com
E2 = 1 0 G2 = 1 1 0 1 W = W1+ W2 W2 W2 W2 .
A equação de observação e do sistema são dadas por
Yt = (1 ⊗ E02)θt+ νt νt∼ N (0, V) (2.6)
θt = G2θt−1+ ωt ωt ∼ N (0, W),
em que 1 é um vetor de uns de dimensão N e θt= (µt, βt)0. Este modelo é usado quando a série
resposta Yt apresenta alguma tendência linear. O parâmetro adicional quantifica a mudança
no nível.
A Equação (2.6) pode ser escrita da seguinte forma: Yt = 1µt+ νt νt∼ N (0, V)
µt = µt−1+ βt+ ωt,1 ωt= (ωt,1, ωt,2)0 ∼ N (0, W)
βt = βt−1+ ωt,2.
O nível da série é descrito por µt, e βt representa a taxa corrente da mudança do
nível. É assumida independência dos termos de distúrbio, ou seja, νt e ωt são mutuamente
independentes para todo t, e ωt,1 e ωt,2 são independentes para todo t.
Se as observações do processo forem coletadas a cada r unidades do tempo, Zk será o
processo resultante dessa agregação. Como antes, o interesse é verificar se Zk segue um MLD
e qual a quádrupla que o define. Novamente, obtém-se cada termo da equação das observações pela substituição recursiva de Yrk+i, i = 1, 2, · · · , r na equação das observações, resultando em
Yrk+i = 1µrk+1+ 1(i − 1)βrk+1+ 1 i−1 X j=1 (i − j)ωrk+i+1,2+ 1 i X j=2 ωrk+j,1+ νrk+i (2.7)
Cada parcela de Zk é obtida somando a Equação (2.7) em i. Dessa forma Zk = 1 rµrk+1+ r 2 βrk+1+ r X i=2 (r − i + 2)(r − i + 1) 2 ωrk+i,2+ (2.8) r X i=2 (r − i + 1)ωrk+i,1 + r X i=1 νrk+i.
É necessário definir parâmetros que descrevam a ligação da série entre os tempos k e k − 1, definindo assim um MLD para Zk. Para isso, inicialmente, é definida uma matriz A, tal que
A = r r 2 0 r2 . (2.9)
A matriz em2.9 fornece a ligação entre os parâmetros de Yt e Zk. Define-se, agora, o vetor
ψk= Aθrk+1, sendo θrk+1 = (µrk+1, βrk+1)0 e ψk= (αk, γk)0. Observe que
Zk(s) = ( 1 0 )Aθrk+1+ νk∗(s) = ( 1 0 ) r r 2 0 r2 µrk+1 βrk+1 + ν ∗ k(s) = rµrk+1+ r 2 βrk+1+ νk∗(s) = E02ψk+ νk∗(s), como na Equação (2.8), e νk∗(s) = r X i=2 (r − i + 2)(r − i + 1) 2 ωrk+i,2+ r X i=2 (r − i + 1)ωrk+i,1+ r X i=1 νrk+i(s). Equivalentemente, Zk= 1 ⊗ E02ψk+ ν ∗ k, com ν∗k = 1 " r X i=2 (r − i + 2)(r − i + 1) 2 ωrk+i,2+ r X i=2 (r − i + 1)ωrk+i,1 # + r X i=1 νrk+i.
A série agregada no tempo k − 1, é Zk−1 = 1 ⊗ E02ψk−1+ ν ∗
27
Pela substituição recursiva de θrk+1, na equação de evolução
ψk = Aθrk+1 = A(G2θrk+ ωrk+1) = · · · = AGr2θrk−r+1+ r X j=2 AGr−j+12 ωrk−r+j + Aωrk+1. em que, Gr2 = 1 r 0 1 .
A matriz A é definida de forma a satisfazer a igualdade AGr2 = G2A, logo
r r 2 0 x 1 r 0 1 = 1 r 0 1 r r 2 0 x r r2+ r 2 0 x = r x + r 2 0 x
o que justifica o valor r2 na matriz A. Desta forma, pode-se escrever ψk como ψk = G2ψk−1+
ω∗k, com ω∗k= (ω∗k,1, ωk,2∗ )0 = r X j=2 AGr−j+12 ωrk−r+j + Aωrk+1.
A expressão de cada elemento do vetor ψk é dada por: ψk = αk βk = AGr2θrk−r+1+ r X j=2 AGr−j+12 ωrk−r+j+ Aωrk+1 = r r2 +r(r−1) 2 0 r2 µrk−k+1 βrk−r+1 + r r(r − 1) + r(r−1)2 0 r2 ωrk−k+2,1+ ωrk−k+2,2 ωrk−k+2,2 + · · · + r r(r−1)2 0 r2 ωrk+1,1+ ωrk+1,2 ωrk+1,2 .
Logo, αk = rµrk−r+1+ 2r2+ r(r − 1) 2 βrk−r+1+ r r+1 X i=2 ωrk−r+i,1+ r r+1 X j=2 3 − 3r − 2j 2 ωrk−r+j,2 γk = r2βrk−r+1+ r2 r+1 X i=2 ωrk−r+i,2 !
Como as equações de Zke ψkapresentam termos em comum no que se refere às perturbações,
a covariância entre os elementos de ν∗k−1 e ω∗k não é igual a zero, violando a suposição usual de independência entre as perturbações. Assim, é necessário considerar um componente de covariância entre ν∗k−1 e ω∗k,1, assim como, ν∗k−1 e ωk,2∗ . Desta forma, tem-se que:
Vk∗ = Var(ν∗k) = Var 1 r X i=2 (r − i + 1)ωrk+i,1+ r X i=2 (r − i + 2)(r − i + 1) 2 ωrk+i,2 ! + r X i=1 νrk+i = 1W1 r X i=2 (r − i + 1)210+ 1W2 r X i=2 (r − i + 2)2(r − i + 1)2 4 1 0 + rV = 1W1 r3 3 − r2 2 + r 6 10+ 1W2 4 2r 15− r3 3 + r5 5 10+ rV.
Pela equação de αk e reproduzindo os cálculos apresentados em Schmidt (1996) (p. 40),
tem-se que: ωk,1∗ + ωk,2∗ = r r+1 X i=2 ωrk−r+i,1+ r r+1 X j=2 3 + 3r − 2j 2 ωrk−r+j,2, assim Var(ωk,1∗ + ωk,2∗ ) = r3W1+ r2W2 r+1 X j=2 3 + 3r − 2j 2 2 = r3W1+ r2 12W2(−r + 13r 2).
Logo, pode-se obter a variância de ωk,1∗ , isto é, W1∗ = Var((ωk,1∗ + ωk,2∗ ) − ωk,2∗ )
29
= Var(ωk,1∗ + ωk,2∗ ) + Var(−ωk,2∗ ) − 2Cov(ωk,1∗ + ω∗k,2, −ω∗k,2) = r3W1+ r2 12W2(−r + 13r 2) + r5W 2 −2Cov r+1 X j=2 r 3 + 3r − 2j 2 ωrk−r+j,2, r2 r+1 X j=2 ωrk−r+j,2 ! = r3W1+ r2 12W2(−r + 13r 3) + r5W 2− 2W2 r+1 X j=2 r3 3 + 3r − 2j 2 = r3W1+ r2 12W2(−r + 13r 3) + r5W 2− 2r5W2 = r3W1+ (r5− r3) W2 12.
A variância da perturbação do componente da tendência é W2∗ = Var(ωk,2∗ ) = Var(r2 r+1 X i=2 ωrk−r+i,2) = r5W2.
O componente de covariância entre o nível αk e a observação agregada Zk(s) é dado por
C1(s) = Cov Zk−1(s), αk| αk−1 γk−1 = Cov r X i=2 (r − i + 1)ωrk−r+i,1+ r X i=2 (r − i + 2)(r − i + 1) 2 ωrk−r+i,2, r r+1 X i=2 ωrk−r+i,1+ r r+1 X j=2 ωrk−r+j,2| αk−1 γk−1 = r r X i=2 (r − i + 1)Var(ωrk−r+i,1) + r r X i=2 (r − i + 2)(r − i + 1)(3 + 3r − 2i) 2 Var(ωrk−r+i,2) = r 2(r − 1) 2 (W1+ W2) + 5rW2 12 (r 4 − r2),
e desta forma C1 = 1C1(s) é um vetor de dimensão N .
Analogamente, para a covariância entre o componente de tendência, γk e Zk(s) é dado por
C2(s) = Cov Zk−1(s), γk| αk−1 γk−1
= Cov r X i=2 (r − i + 1)ωrk−r+i,1+ r X i=2 (r − i + 2)(r − i + 1) 2 ωrk−r+i,2, r2 r+1 X i=2 ωrk−r+i,2| αk−1 γk−1 = r 2 2W2 r X i=2 (r − i + 2)(r − i + 1) = r 5− r3 6 W2,
e assim, C2 = 1C2(s) é um vetor de dimensão N .
A covariância entre ωk,1∗ e ω∗k,2 é igual a zero, o que confirma a hipótese de independência entre as pertubações da equação do sistema, pois
Cov(ωk,1∗ , ωk,2∗ ) = Cov(r k+1 X i=2 ωrk−r+i,1+ r r+1 X j=2 3 + r − 2j 2 ωrk−r+j,2, r 2 r+1 X i=2 ωrk−r+i,2) = r3W 3 + r 2 r − r(r + 3) 2 = 0.
Usando a teoria da distribuição normal multivariada, pode-se escrever: Zk−1 αk γk ∼ 1(αk−1+ γk−1) αk−1+ γk−1 γk−1 , Vk∗ C1 C2 C01 W1∗+ W2∗ W2∗ C02 W2∗ W2∗ ,
e assim a evolução do vetor ψt pode ser representada por meio da seguinte equação
αk γk = αk−1+ γk−1 γk−1 + C1 C2 0 V∗−1k (Zk−1− 1(αk−1+ γk−1)) + ω∗∗k , em que ω∗∗k ∼ N (0, W∗∗), com W∗∗ = W1∗+ W2∗ W2∗ W2∗ W2∗ − C1 C2 0 V∗−1 C1 C2 .
Como antes, será considerado V = σ2R e, sob a suposição de W1
σ2 e W2 σ2 tenderem a zero, C1 C2 0