• Nenhum resultado encontrado

Dengue em Natal/RN: uma análise do período 2000-2016 via séries temporais

N/A
N/A
Protected

Academic year: 2021

Share "Dengue em Natal/RN: uma análise do período 2000-2016 via séries temporais"

Copied!
56
0
0

Texto

(1)

Programa de Pós-Graduação em Matemática Aplicada e Estatística

Mestrado em Matemática Aplicada e Estatística

Dengue em Natal/RN: uma análise do período

2000-2016 via séries temporais

Talita Viviane Siqueira de Barros

Natal-RN Novembro de 2019

(2)

Trabalho apresentado ao Programa de Pós-Graduação em Matemática Aplicada e Es-tatística da Universidade Federal do Rio Grande do Norte, em cumprimento com as exigências legais para obtenção do título de Mestre.

Área de Concentração: Probabilidade e Es-tatística

Orientadora

Carla Almeida Vivacqua

Universidade Federal do Rio Grande do Norte – UFRN

Programa de Pós-Graduação em Matemática Aplicada e Estatística – PPGMAE

Natal-RN Novembro de 2019

(3)

Barros, Talita Viviane Siqueira de.

Dengue em Natal/RN: uma análise do período 2000-2016 via séries temporais / Talita Viviane Siqueira de Barros. - 2019. 55 f.: il.

Dissertação (mestrado) - Universidade Federal do Rio Grande do Norte, Centro de Ciências Exatas e da Terra, Programa de Pós-Graduação em Matemática Aplicada e Estatística, Natal, RN, 2020. Orientadora: Profa. Dra. Carla Almeida Vivacqua.

1. Aedes aegypti Dissertação. 2. Análise de intervenção -Dissertação. 3. Doenças infecciosas - -Dissertação. 4.

Observações atípicas - Dissertação. 5. Outlier - Dissertação. I. Vivacqua, Carla Almeida. II. Título.

RN/UF/BCZM CDU 614.4(043.3)

Catalogação de Publicação na Fonte. UFRN - Biblioteca Central Zila Mamede

(4)

2016 via séries temporais apresentada por Talita Viviane Siqueira de Barros e aceita pelo Programa de Pós-Graduação em Matemática Aplicada e Estatística da Universidade Fede-ral do Rio Grande do Norte, sendo aprovada por todos os membros da banca examinadora abaixo especificada:

Prof.a Dr.a Carla Almeida Vivacqua

Orientadora

Departamento de Estatística

Universidade Federal do Rio Grande do Norte

Prof. Dr. Bernardo Borba de Andrade Departamento de Estatística

Universidade de Brasília

Prof. Dr. Marcelo Bourguignon Pereira Departamento de Estatística

Universidade Federal do Rio Grande do Norte

(5)

2000-2016 via séries temporais

Autor: Talita Viviane Siqueira de Barros Orientadora: Prof.a Dr.a Carla Almeida Vivacqua

Resumo

A dengue é uma doença infecciosa transmitida pelo mosquito Aedes aegypti. Este vetor transmite também a chikungunya, zika e febre amarela. Em 2019, a Organização Mundial de Saúde (OMS) estabeleceu o combate à dengue como uma das dez prioridades para esse ano. Estima-se que quase metade da população mundial está em risco de infecção pela dengue. Frente ao exposto, este trabalho tem o intuito de analisar dados de casos notificados de dengue entre os anos de 2000 e 2016, obtidos junto ao Centro de Controle de Zoonoses (CCZ) da cidade de Natal/RN, via séries temporais. Em Natal-RN desde 2000 ocorrem surtos de dengue, implicando na existência de possíveis observações atípicas (denotadas neste trabalho por outliers) na série histórica. Além disso, em 2015 ocorreu um surto de zika e por possuir sintomas semelhantes, casos podem ter sido notificados como dengue. Assim, busca-se uma modelagem que considera a informação de possíveis mudanças de comportamento e existência de outliers através da análise de intervenção. Foram utilizados também os métodos de suavização exponencial simples, de Holt e de Holt Winters, bem como o modelo ARIMAX com variáveis exógenas climáticas. Modelos são comparados utilizando a raiz do erro médio quadrático (rEMQ) e do erro absoluto médio (EAM) de previsões para as 37 primeiras semanas de 2017. O modelo GARCH foi utilizado para estimar a volatilidade da série.

Palavras-chave: Aedes aegypti. Análise de Intervenção. Doenças Infecciosas. Observações atípicas. Outlier. Ponto de Mudança.

(6)

2000-2016 via time series

Author: Talita Viviane Siqueira de Barros Advisor: Prof.a Dr.a Carla Almeida Vivacqua

Abstract

Dengue fever is an infectious disease transmitted by the Aedes aegypti mosquito. This vector also transmits the chikungunya, zika and yellow fever. In 2019, the World Health Organization (WHO) has established the fight against dengue as one of the ten priorities for this year. It is estimated that almost half of the world’s population is at risk of dengue infection. Based on the above, this study aims to analyze data on reported cases of dengue fever between 2000 and 2016, obtained from the Center for Zoonoses Control (CCZ) in the city of Natal/RN, through time series. In Natal/RN since 2000 dengue outbreaks occur, implying the existence of possible atypical observations (denoted in this paper by outliers) in the historical series. In addition, an outbreak of zika occurred in 2015 and because of a similar symptoms, cases may have been reported as dengue. Therefore, we search for a model that considers information of possible pattern changes and existence of outliers by intervention analysis. The exponential smoothing methods simple, Holt and HoltWinters were also used, as well as the ARIMAX model with exogenous climatic variables. Models are compared using root mean square error (rMSE) and mean absolute error (MAE) of forecasts for the first 37 weeks of 2017. The GARCH model was used to estimate the volatility of the series.

Keywords: Aedes aegypti. Intervention Analysis. Infectious Diseases. Atypical Observati-ons. Outlier. Change Point.

(7)

1 Fluxograma da metodologia Box-Jenkins. . . p. 22

2 Decomposição da série temporal das taxas de incidência de dengue na

cidade de Natal-RN entre 2000 e 2016. . . p. 31

3 Taxa de incidência de dengue na cidade de Natal-RN entre 2000 e 2016

separados por ano e com indicação da estação. . . p. 32

4 Série temporal das taxas de incidência de dengue na cidade de Natal-RN

por ano, separado por estações do ano. . . p. 33

5 Boxplot das taxas de incidência de dengue na cidade de Natal-RN por ano. p. 34

6 Gráfico da autocorrelação e da autocorrelação parcial da série temporal das taxas de incidência de dengue na cidade de Natal-RN entre 2000 e

2016. . . p. 35

7 Gráfico do ajuste pela suavização exponencial sem tendência e sem

com-ponente sazonal. . . p. 36

8 Gráfico da previsão pela suavização exponencial sem tendência e sem

componente sazonal. . . p. 37

9 Gráfico do ajuste pela suavização exponencial com tendência e sem

com-ponente sazonal. . . p. 38

10 Gráfico da previsão pela suavização exponencial com tendência e sem

componente sazonal. . . p. 39

11 Gráfico do ajuste pela suavização exponencial com tendência e com

com-ponente sazonal. . . p. 40

12 Gráfico da previsão pela suavização exponencial com tendência e com

componente sazonal. . . p. 41

(8)

de incidência de dengue na cidade de Natal-RN. . . p. 43

15 Gráfico dos modelos sugeridos pelo BIC para a taxa de incidência de

dengue na cidade de Natal-RN. . . p. 44

16 Gráfico de diagnótico do modelo ARIMA(5,0,0). . . p. 45

17 Gráfico do ajuste e da previsão com o modelo ARMA(5,0) para as taxas

de incidência de dengue na cidade de Natal-RN. . . p. 46

18 Gráfico de diagnótico do modelo SARIMA(2, 0, 3)(1, 0, 1)52. . . p. 47

19 Gráfico do ajuste e da previsão com o modelo SARIMA(2, 0, 3)(1, 0, 1)52

para as taxas de incidência de dengue na cidade de Natal-RN. . . p. 47

20 Gráfico de diagnótico do modelo ARIMAX(5,0,0) com temperatura

má-xima. . . p. 48

21 Gráfico do ajuste e da previsão com o modelo ARIMAX(5,0,0) com a temperatura máxima para as taxas de incidência de dengue na cidade de

Natal-RN. . . p. 48

22 Gráfico da autocorrelação, autocorrelação parcial e teste Ljung-Box nos

resíduos ao quadrado do modelo ARIMA(3,0,3). . . p. 49

23 Estimativa da volatilidade para a taxa de incidência de dengue usando o

(9)

1 Estatísticas da Taxa de incidência de dengue por ano. . . p. 32

2 Comparação dos métodos de suavização. . . p. 36

3 Coeficientes e AIC do modelo ARIMA (3,0,3). . . p. 36

4 Coeficientes e AIC do modelo ARIMA (5,0,0). . . p. 38

5 Coeficientes e AIC do modelo SARIMA(2, 0, 3)(1, 0, 1)52. . . p. 40

6 Comparação dos modelos, através do AIC. . . p. 43

7 Comparação dos modelos, através dos erros de previsão. . . p. 44

8 Comparação dos métodos de previsão. . . p. 45

9 Ajuste do modelo ARIMA(3,0,3)-GARCH(1,1) à taxa de incidência de

(10)

OMS – Organização Mundial de Saúde

AO – Outlier aditivo

IO – Outlier de inovação

CCZ – Centro de controle de zoonoses

DATASUS – Departamento de Informática do Sistema Único de Saúde do Brasil

AIC – Critério de Informação de Akaike

EAM – Erro Absoluto Médio

rEMQ – Raiz do Erro Médio Quadrático

FAC – Função de Autocorrelação

(11)

1 Introdução p. 12

2 Séries temporais p. 16

2.1 Conceitos básicos . . . p. 16

2.1.1 Estacionariedade . . . p. 16

2.1.2 Teste Dickey Fuller baseado nos postos . . . p. 17

2.1.3 Teste de Ljung-Box . . . p. 18

2.1.4 Medidas de erro de previsão . . . p. 19

2.2 Suavização exponencial . . . p. 19

2.2.1 Suavização exponencial simples . . . p. 20

2.2.2 Suavização exponencial de Holt . . . p. 20

2.2.3 Suavização exponencial de Holt Winters . . . p. 21

2.3 Metodologia Box jenkins . . . p. 21

2.4 Análise de intervenção . . . p. 22

2.4.1 Outlier . . . p. 23

2.4.2 Teste para detecção de outlier . . . p. 23

2.5 Modelos ARIMAX . . . p. 24

2.6 Modelos ARCH/GARCH . . . p. 24

2.6.1 Modelo Autoregressivo de Heterocedasticidade condicional (ARCH) p. 25

2.6.2 Modelo Autoregressivo de Heterocedasticidade condicional

Gene-ralizado (GARCH) . . . p. 25

(12)

3.2 Métodos . . . p. 28

4 Resultados p. 30

4.1 Análise da série . . . p. 30

4.2 Suavização exponencial . . . p. 34

4.3 Modelagem Box Jenkins . . . p. 36

4.3.1 ARIMA(3,0,3) . . . p. 36

4.3.2 ARIMA(5,0,0) . . . p. 37

4.3.3 SARIMA(2, 0, 3)(1, 0, 1)52 . . . p. 39

4.4 Modelagem ARIMAX . . . p. 41

4.5 Comparação dos modelos . . . p. 42

4.6 Ajuste de modelo ARCH/GARCH . . . p. 44

5 Considerações finais p. 50

(13)

1

Introdução

A dengue é uma arbovirose transmitida por mosquitos do gênero Aedes, sendo em menor escala pelo Aedes Albopictus e principalmente pela espécie Aedes aegypti. Este último é um dos vetores mais preocupantes, pois além da dengue, também é vetor da chikungunya e da Zika. A dengue é um tema recorrente em Natal/RN, todos os anos a população acompanha a situação da doença através de reportagens locais. No primeiro semestre de 2018, foi noticiado que a cidade passava por mais uma epidemia de dengue (BARRETO, 2018; COM. . ., 2018). A cidade saiu do nível de epidêmico ainda no segundo semestre do ano (NATAL. . ., 2018) e permaneceu sem epidemia até o primeiro trimestre de 2019 (NATAL. . ., 2019, 2019).

A dengue é uma notável doença infecciosa e um dos maiores problemas de saúde pública mundial. Estima-se que quase metade da população mundial está em risco de infecção pela dengue, que é considerada a arbovirose mais prevalente (BRADY et al., 2012; BHATT et al., 2013; GUZMAN; HARRIS, 2015). Agravado pela falta de antivirais e vacinas disponíveis para a doença (SIMMONS et al., 2012; ROY et al., 2014), embora estejam em desenvolvimento (MCARTHUR; SZTEIN; EDELMAN, 2013; POWERS, 2014; VILLAR et al., 2015).

O vírus da dengue vem se espalhando rapidamente por regiões tropicais e subtropicais, impulsionada por mudanças ambientais, urbanização e aumento da mobilidade urbana (ZELLWEGER et al., 2017). Estima-se que 390 milhões de infecções por dengue ocorrem a cada ano, podendo matar até 20% das pessoas com dengue grave. A Organização Mundial de Saúde (OMS) estabeleceu o combate à dengue como uma das dez prioridades para o ano de 2019, visando reduzir a mortalidade em 50% até 2020 (AKBAR, 2019).

Diante disto, torna-se importante pesquisas sobre o ajuste de modelos para a incidên-cia de dengue com o intuito de entender a estrutura geradora da série tornando possível a realização de previsões e, assim, subsidiar políticas públicas para o controle do número de casos de dengue melhorando o sistema de saúde.

(14)

A ferramenta de vigilância VIGI@DENGUE foi desenvolvida pelo Centro de Controle de Zoonoses (CCZ) da cidade de Natal/RN com o intuito de melhorar a utilização de políticas públicas para conter o aumento do número de casos de dengue. A ferramenta realiza a classificação semanal de cada bairro com relação ao seu grau de risco para a ocorrência de surtos e epidemias, a partir da utilização de indicadores epidemiológicos e entomológicos. Com isso, são realizadas ações diferenciadas para cada bairro de acordo com o nível de risco associado.

A modelagem da transmissão das doenças infecciosas que tem como vetor o Aedes Aegypti com a inclusão de covariáveis específicas, utiliza abordagens estatísticas aplicadas em locais específicos (MESSINA et al., 2015), ou seja, para cada local existe um modelo que se ajusta melhor e inclui diferentes covariáveis, por exemplo, variáveis meteorológicas, sociais, dentre outras.

A incidência de dengue foi analisada em diversas cidades brasileiras via séries tem-porais. Por exemplo, para as cidades de Recife e Goiânia, foi verificado que o modelo SARIMA apresentou um melhor ajuste para a cidade de Goiânia no período de 2001 até 2014, ao passo que o modelo ARIMA ajustou-se melhor para a cidade de Recife, entre-tanto foi necessário retirar os anos de 2001 e 2002 em decorrência de um surto que houve em 2002 (CORTES et al., 2018). O modelo SARIMA também apresentou um bom ajuste para as cidades de Campinas (MARTINEZ; SILVA; FABBRO, 2011), Ribeirão Preto ( MARTI-NEZ; SILVA, 2011) e Rio de Janeiro (LUZ et al., 2008). Para esta última foi constatado que a inclusão de variáveis climáticas no modelo não melhora o ajuste. Destacando que em todas essas cidades os dados analisados apresentavam uma frequência mensal.

A questão de incorporar variáveis climáticas como regressores externos no modelo não é garantia de melhoria. Na literatura, alguns estudos não encontraram uma mudança significativa no modelo ajustado, enquanto outros indicaram uma melhoria. Em Taiwan, por exemplo, a inclusão das variáveis climáticas temperatura e umidade relativa melhoram o ajuste para os dados (WU et al., 2007). Já o trabalho de (JOHANSSON et al., 2016) mostrou que a inclusão das variáveis climáticas precipitação, umidade relativa e temperatura não melhoraram significativamente o ajuste do modelo.

Variáveis climáticas podem interferir na transmissão da dengue, pois estão associadas ao desenvolvimento, fecundidade e ciclo de vida do mosquito. Seja no âmbito global ou local, modelos tentam relacionar clima com dengue. Beserra et al. (2009) constatou que a temperatura entre 22 oC e 32oC é ideal para o desenvolvimento do Aedes aegypti, já

(15)

destacado a relevância da temperatura, umidade relativa do ar e da precipitação sobre a ocorrência da dengue. (HOPP; FOLEY, 2001; KOOPMAN et al., 1991)

Foi possível obter os dados da taxa de incidência de dengue em Natal/RN refente ao período de 2000 até a 37a semana epidemiológica de 2017. Esses dados apresentam uma

frequência semanal e foi analisado por (PAIVA, 2018) que encontrou correlação cruzada da incidência de dengue com as variáveis meteorológicas de temperatura máxima, tem-peratura mínima, umidade e precipitação. Já o trabalho de (SOARES, 2019) ajustou um modelo de séries temporais aos dados em que não é considerada a sazonalidade, ficando o questionamento em aberto: será que a inclusão da sazonalidade melhora o ajuste do modelo?

Antes da inclusão de possíveis covariáveis que possam auxiliar no entendimento da estrutura geradora da série de casos da dengue, é necessário entender bem o comporta-mento da série em estudo. Portanto, este trabalho visa realizar uma modelagem da taxa de incidência de dengue em Natal/RN via séries temporais a fim de entender bem sua es-trutura. Foi realizada a modelagem utilizando a análise de intervenção, modelos GARCH e foi realizada a suavização exponencial.

O diagnóstico da doença se tornou mais difícil com a chegada da zika e chikungunya, doenças infecciosas transmitidas pelo mosquito Aedes aegypti, por terem sintomatologia similar. Especificamente em 2015, ocorreu uma grande epidemia de zika no Brasil, e alguns casos de zika podem ter sido notificados equivocadamente como dengue. Diante disso, torna-se necessário realizar uma análise de intervenção para verificar se isto influência na estrutura geradora da série.

Frente ao exposto, a justificativa para a elaboração da dissertação é realizar a modela-gem da taxa de incidência de dengue em Natal/RN, utilizando as técnicas estatísticas de séries temporais e considerando as particularidades da série, como a presença de outliers e volatilidade. Com isso, busca-se gerar uma aproximação do conhecimento produzido no âmbito acadêmico com a realidade da população natalense, uma vez que o estudo possa servir de suporte para elaboração de políticas públicas com o intuito de conter o aumento dos casos de dengue.

A dissertação está estruturada em cinco capítulos: introdução, séries temporais, mé-todo de pesquisa, resultados e considerações finais. Sendo que cada capítulo aborda as seguintes questões:

(16)

pes-quisa e a justificativa;

• Capítulo 2 (Séries temporais): Capítulo que fundamenta a consistência do estudo exibindo a literatura científica. São apresentados definições e conceitos básicos de séries temporais, metodologia Box e Jenkins, análise de intervenção e heterocedas-ticidade condicional;

• Capítulo 3 (Método de pesquisa): São apresentadas as técnicas e os procedimentos utilizados no estudo;

• Capítulo 4 (Resultados): Neste capítulo são apresentados os resultados do estudo aplicando a metodologia estabelecida;

• Capítulo 5 (Considerações finais): São apresentadas as conculsões para os resultados;

(17)

2

Séries temporais

2.1

Conceitos básicos

Série temporal é um conjunto de observações de uma variável aleatória, obtidas se-quencialmente, em instantes de tempo. A noção de dependência entre as observações é crucial, diferente do que ocorre em modelos de regressão, em que a ordem das observações é irrelevante para a análise. Ao realizar a análise de uma série temporal estamos interes-sados em investigar o mecanismo gerador da série; fazer previsões acerca de fenômenos de interesse a longo e curto prazo; descrever o comportamento da série verificando a existên-cia de tendênexistên-cias, ciclos e variações sazonais e busca de periodicidade relevante nos dados (MORETTIN; TOLOI, 1987).

A utilização das técnicas de análise de séries temporais pode ser encontrada nas mais diversas áreas de pesquisa, como: ciências sociais e políticas, economia, história, meio ambiente, epidemiologia, entre outras, em que as observações estão indexadas no tempo.

Dentre os vários modelos disponíveis para ajustar um modelo de séries temporais, exis-tem dois enfoques básicos. E segundo MORETTIN e TOLOI (2006) o primeiro enfoque, considera o domínio temporal para a análise e o modelo proposto é o modelo paramétrico. No segundo enfoque, é considerado o domínio de frequências e o modelo proposto é o mo-delo não paramétrico. E apesar de distintas, essas duas abordagens são complementares.

2.1.1

Estacionariedade

Uma série temporal é estacionária quando suas características estatísticas (média, variância e estrutura de auto-correlação) são constantes ao longo do tempo, ou seja, ela se desenvolve aleatoriamente no tempo, em torno de uma média constante, refletindo alguma forma de equilíbrio estatístico estável. Uma série Yt é fracamente estacionária se,

(18)

i. E(Yt) = µ, ∀t ∈ T ;

ii. V ar(Yt) = σy2 < ∞, ∀t ∈ T ;

iii. γt,s= γt−s, t 6= s.

em que E(Yt) é a média da série, V ar(Yt) é a variância da séries e γt,s é a autocorrelação

entre Yt e Ys.

2.1.2

Teste Dickey Fuller baseado nos postos

A estacionariedade pode ser testada pelo Teste Dickey-Fuller rank. Reisen et al. (2017) mostra que este teste proposto por Granger e Hallman (1991) se mostra mais robusto que o teste Dickey Fuller tradicional para séries temporais na presença de observações atípicas. O Teste Dickey Fuller rank detecta a presença de raiz unitária em uma série.

Seja {yt}t∈Z um processo autoregressivo de ordem 1, definido como:

yt= φyt−1+ t, (2.1)

em que {t}t∈Z é um processo ruído branco com E (t) = 0 e σ2 > 0.

Considere os ranks {Rn,t}t=1,...,n da série temporal {yt}t=1,...,n definido por:

Rn,t = Rank de yt entre y1, y2, . . . , yn.

Sendo {yt}t∈Z o processo definido em 2.1, utilizando a transformação não linear

g (yt) = Rn,t temos que o estimador de mínimos quadrados para φ é dado por:

ˆ φ(r)= Pn t=2Rn,t−1Rn,t Pn t=2R2n,t−1 . (2.2)

As hipóteses associadas ao teste são dadas por:

H0: φ(r) = 1 (não estacionária).

H1: φ(r) < 1 (estacionária).

A estatística do teste Dickey Fuller rank proposta por Granger e Hallman (1991) é dada por:

(19)

ˆ τ(r)= ˆ φ(r)− 1 s ˆφ(r) (2.3) em que: s ˆφ(r)= S(r) Pn t=2R2n,t−1 12 , (2.4) e S(r)2 = 1 n − 2 n X t=2  Rn,t− ˆφ(r)Rn,t−1 2 (2.5)

sendo s ˆφ(r) o erro padrão de ˆφ(r) e S2

(r) o estimador de σ 2.

Essa versão do teste de Dickey-Fuller rank é ligeiramente diferente do teste utilizado por Granger e Hallman (1991). O teste proposto por esse autores inclui uma constante na regressão g (yt) = φgg (yt−1)+t, a fim de

corrigir a média dos ranks. No entanto, segundo Fotopoulos e Ahn (2003), essa correção é insignificante mesmo em pequenas amostras. Embora o processo {yt}t∈Ztenha média zero, os resultados apresentados podem ser estendidos para processos com a média diferente de zero, pois o rank é invariante com mudanças na média (PEREIRA, 2010, p. 15).

A estatística do teste é dada por um número negativo e quanto mais negativo, maior indicação para a rejeição da hipótese nula.

2.1.3

Teste de Ljung-Box

Na etapa do diagnóstico utiliza-se o teste de Ljung-Box para testar a falha do ajuste do modelo ARIMA. As hipóteses testadas são:

H0: Os resíduos não são autocorrelacionados.

H1: Os resíduos são autocorrelacionados.

A estatística do teste é dada pela equação:

Q = n(n + 2) m X k=1 ˆ r2 k n − k (2.6)

(20)

Q segue assintoticamente, sob H0, uma distribuição qui-quadrado com m − p − q graus

de liberdade. Em que p e q indicam o número de parâmetros do modelo ARMA(p,q) ajustado aos dados.

2.1.4

Medidas de erro de previsão

Um método para medir a qualidade da previsão com base em sua precisão pode ser obtido através do cálculo da raiz do erro médio quadrático e do erro absoluto médio de previsão. Essas medidas servem para avaliar o desempenho da previsão, indicando se o modelo representa um bom preditor.

A raiz do erro médio quadrático de previsão que é dada por:

rEM Q = v u u t 1 T T X h=1 [yt+h− ˆyt(h)]2. (2.7)

E o erro absoluto médio de previsão que é dado por:

EAM = 1 T T X h=1 yt+h− ˆyt(h) yt+h , (2.8)

em que yt+h é o valor observado, ˆyt(h) é o valor previsto e T é o número de observações

previstas.

2.2

Suavização exponencial

A suavização exponencial é um procedimento que gera previsões em séries temporais e é amplamente utilizado por sua simplicidade, facilidade de ajuste aos dados e boa precisão. Esse procedimento é baseado na ideia de que as observações passadas contêm informações sobre o comportamento básico da série temporal.

Na suavização exponencial é utilizada uma soma ponderada de observações anterio-res de modo que os pesos são exponencialmente decanterio-rescentes à medida que as observa-ções envelhecem. Dessa forma, as observaobserva-ções mais recentes recebem pesos maiores. Esse procedimento suaviza os valores extremos que são considerados a aleatoriedade, assim identificando o padrão básico da série.

(21)

2.2.1

Suavização exponencial simples

Considere uma série temporal Z1, . . . , ZN, localmente composta de seu nível mais um

ruído aleatório, isto é:

Zt = µt+ at, t = 1, . . . , N, (2.9)

em que E (at) = 0, V ar (at) = σa2 e µt é um parâmetro desconhecido, que pode variar

lentamente com o tempo. A suavização exponencial simples é um procedimento baseado em um sistema de soma ponderadas que atribui pesos maiores para as observações mais recentes com o objetivo de estimar o nível presente na série e utilizar essa estimativa como previsão de valores futuros, ou seja:

Nt= αZt+ (1 − α)Nt−1, N0 = Z1, t = 1, . . . , N, (2.10)

em que Nté denominado valor exponencialmente suavizado e α é a constante de suavização

que deve estar entre 0 e 1.

2.2.2

Suavização exponencial de Holt

O modelo para o caso em que a série temporal não sazonal Z1, . . . , ZN é composta

localmente por nível, tendência e resíduo aleatório com média zero e variância constante (σ2

a):

Zt= µt+ Tt+ at, t = 1, . . . , N. (2.11)

A suavização exponencial de Holt é utilizada para séries com tendência, possui duas constantes de suavização, dadas por:

Nt = AZt+ (1 − A) (Nt−1+ Tt−1) , 0 < A < 1 e t = 2, . . . , N. (2.12)

Tt= C (Nt− Nt−1) + (1 − C)Tt−1, 0 < C < 1 e t = 2, . . . , N. (2.13)

em que A e C são constantes de suavização que variam entre 0 e 1 independentes entre si. Sendo que a contante A atua no componente de nível Nt e a constante C atua na

(22)

A previsão de Zt+h no instante t é dada por:

ˆ

Zt(h) = Nt+ hTt, ∀h > 0. (2.14)

2.2.3

Suavização exponencial de Holt Winters

O modelo para o caso em que a série temporal Z1, . . . , ZN apresenta nível, tendência

e sazonalidade aditiva com período sazonal s, isto é:

Zt= µt+ Tt+ Ft+ at, t = 1, . . . , N. (2.15)

A suavização exponencial de Holt Winters é baseada em três equações, cada uma com sua respectiva constante de suavização. As equações são dadas por:

Ft= D (Zt− Nt) + (1 − D)Ft−s, 0 < D < 1 (2.16)

Nt= A (Zt− Ft−s) + (1 − A) (Nt−1+ Tt−1) , 0 < A < 1 (2.17)

Tt= C (Nt− Nt−1) + (1 − C)Tt−1, 0 < C < 1, (2.18)

em que A, C e D são constantes de suavização que variam entre 0 e 1. Nt representa a

estimativa do nível, Tt representa a estimativa da tendência e Ft representa a estimativa

da sazonalidade.

A previsão de Zt+h é dada por:

ˆ Zt(h) = Nt+ hTt+ Ft+h−s, h = 1, 2, . . . , s, = Nt+ hTt+ Ft+h−2s, h = s + 1, s + 2, . . . , 2s, .. . (2.19)

2.3

Metodologia Box jenkins

Para esta dissertação, será explorada uma metodologia bastante utilizada conside-rando o enfoque no domínio temporal que é apresentada por Box e Jenkins no ano de 1970 (BOX; JENKINS, 1970). A abordagem de Box e Jenkins trata-se de uma estratégia para estimação do modelo ARIMA (Auto-regressivo Integrado de Médias Móveis) e suas parametrizações (AR, MA, ARMA, SARIMA etc.) com base em um ciclo iterativo. As etapas do método Box Jenkins podem ser vistas através do fluxograma na Figura 1, esta

(23)

abordagem consiste em: Indentificar um ou mais modelos da classe ARIMA; Estimação dos parâmetros do modelo; Diagnóstico do modelo e caso ele seja adequado, realiza a previsão. Caso contrário, refazer os passos a partir da identificação.

Figura 1: Fluxograma da metodologia Box-Jenkins.

A primeira etapa para construção do modelo consiste na identificação que utiliza a análise das auto-correlações e auto-correlações parciais a fim de detectar um modelo apropriado para a série em questão. Em seguida, na fase da estimação, os parâmetros do modelo identificado são estimados. Na terceira etapa é realizada a verificação da adequação do modelo através da análise dos resíduos utilizando estatísticas apropriadas. A partir da terceira etapa podem ser tomados dois caminhos: o primeiro ocorre caso o modelo seja adequado, ele será utilizado para a fase de previsão de valores futuros; caso o modelo não seja adequado, o processo retorna para a fase de identificação do modelo e todo processo é repetido até encontrar um modelo adequado. Para maiores detalhes, consultar Box, Jenkins e Reinsel (1994).

2.4

Análise de intervenção

Há fenômenos que ocorrem em determinado instante de tempo, por algum motivo conhecido ou não, que podem causar impacto no comportamento da série temporal. Esses fenômenos são conhecidos por intervenção e não são considerados pelo modelo ARIMA. A análise de intervenção tem o objetivo de analisar esse impacto no comportamento da série, esse impacto pode afetar a série temporariamente ou permanentemente (MORETTIN; TOLOI, 2006).

Observações influênciadas por eventos externos são conhecidas na literatura por obser-vações atípicas ou outliers. Conforme Reisen, Molinares e Teixeira (2008), a consideração de observações atípicas no modelo contaminado é dado por:

(24)

Yt = m X j=1 ξj(B)ωjI (τj) t + Zt, (2.20)

em que Yté o processo contaminado, Zté o processo representado pelo modelo

autoregres-sivo integrado e de médias móveis geral (ARIMA), ωj representa a magnitude do i-ésimo

outlier no tempo τj, I (τj)

t é uma variável indicadora que assume o valor 1 se t = τj e zero

em caso contrário, ξj(B) determina a dinâmica do outlier no tempo t = τj.

2.4.1

Outlier

Outlier são observações discrepantes no interior da série temporal. E quando ocorrem, o tratamento indicado é a identificação do tipo e depois uma análise de intervenção.

Há quatro tipos de outlier, sendo eles: o outlier aditivo (AO) que é uma observação atípica que aparece pontualmente na série; o outlier de inovação (IO) que é uma observa-ção atípica cujo efeito é propagado para observações subsequentes causando uma mudança estrutural; o Level Shift (LS) é uma mudança de nível permanente e o Transitional Change (TC) que gera um efeito transitório sobre a série.

A inclusão do outlier no modelo 2.20 de acordo com sua dinâmica é através das seguintes equações: AO : ξj(B) = 1, (2.21) IO : ξj(B) = θ(B) φ(B), (2.22) LS : ξj(B) = 1 1 − B, (2.23) T C : ξj(B) = 1 1 − δB, 0 < δ < 1. (2.24)

2.4.2

Teste para detecção de outlier

O teste proposto por (CHANG; TIAO; CHEN, 1988) para detecção de outlier do tipo aditivo e de inovação é baseado na seguinte estatística:

(25)

λj =

ˆ ωj

pvar(ˆωj)

, (2.25)

em que ˆωj é o estimador da magnitude do outlier no tempo t = τj.

A estatística do teste é dada por:

η(τ ) = max

j {|λj|}. (2.26)

Se η(τ ) > C, é possível que a série esteja sob influência de outlier no instante t = τj.

A constante C é o nível crítico, que depende do número de observações.

2.5

Modelos ARIMAX

O modelo ARIMAX é o processo no qual existe entrada exógena. O processo au-torregressivo de médias móveis integrado com variáveis exógenas (ARIMAX) pode ser entendido como um modelo ARIMA com entrada exógena e possui além dos parâmetros ARIMA, a entrada exógena. Para o caso de uma variável dependente, y, e uma única variável independente, x, em que não são realizadas operações de diferenças nos valores da série temporal e nem na entrada exógena. Uma forma de representar matematicamente esse modelo é: yt= α + p X i=1 φiyt−i+ k X j=1 βjxt−j+ q X l=1 (θlt−l) + t, (2.27)

em que α, φi, βj e θl são parâmetros fixados. E t é a componente de erro do modelo,

com t ∼ RB(0, σ2). O modelo ARIMAX pode ser generalizado para incluir mais de uma

entrada exógena.

2.6

Modelos ARCH/GARCH

Modelos de heterocedasticidade condicional são as ferramentas usadas para lidar com a heterocedasticidade de séries temporais. A diferença dos modelos tradicionais é que os modelos de volatilidade não consideram uma variância constante para a série. Em algumas séries temporais, o termo de erro t do ARIMA não satisfaz a condição de ser

um componente aleatório normalmente distribuído com média zero e variância constante. A variação em um dado instante de tempo (isto é, volatilidade ou heterocedasticidade)

(26)

depende das observações e de outras informações anteriores.

2.6.1

Modelo Autoregressivo de Heterocedasticidade condicional

(ARCH)

O modelo ARCH foi introduzido por Engle (1982) com o objetivo inicial de estimar a variância da inflação, permitindo que a volatilidade varie com o tempo como uma função dos erros passados. Um Modelo ARCH com parâmetro p, definido como ARCH(m) é representado por:

rt= µt+ at (2.28)

at= σtt (2.29)

σt2 = α0+ α1a2t−1+ α2a2t−2+ · · · + αma2t−m, (2.30)

sendo t uma sequência independente identicamente distribuida com média 0 e variância

1. Com α0 > 0 e αj ≥ 0 para j > 0.

2.6.2

Modelo Autoregressivo de Heterocedasticidade condicional

Generalizado (GARCH)

O modelo GARCH proposto por (BOLLERSLEV, 1986) é uma generalização da família ARCH. Este modelo surgiu para tentar expressar com mais parcimônia a dependência temporal da variância condicional, uma vez que os modelos ARCH tendem a estimar um elevado número de parâmetros. O GARCH(m,s) incorpora os valores passados da volatilidade. Assim, um modelo GARCH pode ser definido como:

rt= µt+ at (2.31) at= σtt (2.32) σ2t = α0+ α1a2t−1+ α2a2t−2+ · · · + αma2t−m + β1σt−12 + β2σt−22 + · · · + βsσt−s2 (2.33) sendo:

- t uma sequência independente identicamente distribuida com média 0 e variância

1;

(27)

- βj ≥ 0 para j = 1, . . . , s − 1;

- αm > 0, βs> 0;

- Pmax(m,s)

(28)

3

Método de pesquisa

3.1

Material

O presente trabalho foi desenvolvido com a utilização de dados epidemiológicos refe-rentes ao número de casos de dengue ocorridos entre 2000 e 2017 obtidos no centro de controle de zoonoses (CCZ) da cidade de Natal-RN. Para a análise ser realizada, a série histórica foi transformada em taxa de incidência de dengue por 100.000 habitantes, tendo em vista que a população aumenta com o passar dos anos. A estimativa total da popula-ção foi obtida pelo programa TabNet do Departamento de Informática do Sistema Único de Saúde do Brasil (DATASUS). A taxa é calculada mediante a utilização da seguinte equação:

Z = C

P op × 100.000, (3.1)

em que Z é a taxa de incidência de dengue, C é o número de casos de dengue e Pop é a população estimada.

A série corresponde à taxa de incidência de dengue por 100.000 habitantes, observadas semanalmente de acordo com o calendário epidemiológico. As semanas epidemiológicas iniciam no domingo e terminam no sábado, por convenção internacional. Sendo a primeira semana epidemiológica do ano aquela que contém o maior número de dias de janeiro e a última a que contém o maior número de dias de dezembro.

Vale salientar que a partir do ano de 2015, pode ter ocorrido a notificação de casos de zika e chikungunya como dengue, visto que apresentam sintomas semelhantes aos da dengue.

A série histórica para a descrição climática de Natal-RN foi obtida do banco de dados meteorológico para ensino e pesquisa (BDMEP) do Instituto Nacional de Meteorologia (INMET). Foram utilizadas as variáveis temperatura máxima, temperatura mínima, pre-cipitação e umidade. Conforme as correlações cruzadas encontradas por Paiva (2018) com

(29)

a incidência de dengue em Natal/RN. O BDMEP é um banco de dados para apoiar as atividades de ensino e pesquisa e outras aplicações em meteorologia, hidrologia, recursos hídricos, saúde pública, meio ambiente, etc.

3.2

Métodos

A frequência de tempo na qual a série foi coletadada está em semana epidemiológica. Ao considerar a semana epidemiológica foi identificado que nos anos 2003, 2008 e 2014 ocorreram 53 semanas, enquanto que nos demais anos foram identificadas 52 semanas. Para que a série tenha uma frequência, o número de casos da semana 53 foi dividido entre a semana 52 do mesmo ano e a semana 1 do ano posterior de forma proporcional ao número de dias de cada ano. Resultando em uma série com 921 observações.

A série será divida em duas partes: sendo a primeira referente ao período de 2000 à 2016, que será utilizada para a estimação de modelo. A segunda parte, referente as 37 primeiras semanas de 2017 será utilizada para comparação com a previsão.

Foi realizada uma análise exploratória da série para identificar características dela, bem como a decomposição desta para identificar uma possível tendência ou sazonalidade, e foi utilizado o modelo aditivo. Para verificar se a série apresenta raiz unitária, ou seja, não é estacionária, foi realizado o teste de Dickey-Fuller rank.

Foram utilizados os métodos de suavização exponencial simples, suavização exponen-cial de Holt e o método de suavização exponenexponen-cial de Holt-Winter para realizar a previsão para as 37 primeiraas semanas de 2017.

Utilizadou-se a metodologia sugerida por Box-Jenkins a fim de verificar se o mo-delo identificado por (SOARES, 2019) através da função auto.arima() do pacote forecast do Software R realmente é o melhor modelo para ajustar os dados. Para tanto, foram calculadas as funções de autocorrelação e de autocorrelação parcial para identificar os modelos ARIMA candidatos, que foram comparados e selecionados a partir do critério de informação de Akaike (AIC).

O diagnóstico dos modelos selecionados observando se os resíduos eram ruído branco. Para esse fim, aplicou-se o teste de Ljung-Box e foram verificadas as funções de autocor-relação e autocorautocor-relação parcial dos erros.

A identificação da presença de outlier aditivo foi feita através do teste proposto por (CHANG; TIAO; CHEN, 1988), os outlier identificados foram incluidos no modelo através

(30)

da análise de intervenção. A previsão para as 37 primeiras semanas de 2017 foi realizada com os modelos ajustados, tanto para o modelo sem intervenção quanto para o modelo com intervenção.

As variáveis climáticas temperatura máxima, temperatura mínima, precipitação e umidade foram avaliadas como preditoras para a taxa de incidência de dengue em Na-tal/RN através do modelo ARIMAX. A previsão para as 37 semanas de 2017 foi obtida com o modelo ARIMAX.

O critério adotado para avaliar a qualidade das previsões foi através da raiz do Erro Médio Quadrático (rEMQ) e do Erro Absoluto Médio (EAM), que foram utilizados para comparar os modelos estimados.

Ajustou-se um modelo da classe ARCH para verificar a volatilidade.

Para realizar todas as análises estatísticas, contou-se com o software R (R Core Team, 2019).

(31)

4

Resultados

Neste capítulo são mostrados os resultados. Serão comparados vários modelos ajusta-dos à série da taxa de incidência de dengue na cidade de Natal-RN. A série é observada em semana epidemiológica entre os anos de 2000 até a 37a semana de 2017, e as últimas 37 semanas serão retiradas para comparação com a previsão. Resultando assim em 884 observação entre 2000 e 2016.

Os modelos candidatos foram selecionados através do critério de Akaike (AIC), e após o diagnóstico serão comparados através do erro absoluto médio (EAM) e da raiz do erro médio quadrático (rEMQ).

Foi considerado o modelo ARMA(3,3) utilizado por (SOARES, 2019) para os dados da taxa de incidência de dengue. Foi estimado o ARMA(3,3) e realizado o diagnóstico, identificando a presenção de outlier aditivo, que foram incluidos através da análise de intervenção. Para fim de comparação, foi realizada a previsão para as 37 primeiras semanas de 2017 tanto para o modelo sem intervenção quanto para o modelo com intervenção. O procedimento foi repetido para os modelos AR(5) e SARIMA(2, 0, 3)(1, 0, 1)52, o primeiro

modelo foi selecionado por apresentar um AIC menor que o modelo ARMA(3,3), já o segundo foi selecionado, pois considera a sazonalidade.

4.1

Análise da série

Na Figura 2, é apresentado o gráfico da série da taxa de incidência de dengue e sua decomposição nos componentes tendência, sazonalidade e a parte aleatória, obtido através do método STL (CLEVELAND et al., 1990). É possível perceber a presença de vários picos ao longo da série, uma possível indicação da presença de outlier. Observando a parte sazonal, percebe-se um possível comportamento sazonal em todos os anos, entretanto ao considerar a série observada existe a presença de platores em alguns anos. A ocorrência dos picos sugerem a presença de valores atípicos na série.

(32)

Figura 2: Decomposição da série temporal das taxas de incidência de dengue na cidade de Natal-RN entre 2000 e 2016.

A série temporal da taxa de incidência de dengue apresenta uma média 19,25 casos por 100000 habitantes e um desvio padrão de 26,29 casos por 100000 habitantes. A taxa máxima observada foi de 168,74 casos por 100000 habitantes, correspondendo a semana 8 do ano 2016, a menor taxa observada foi de 0,13 casos por 100000 habitantes, referente à semana 39 do ano 2004.

A Figura 3 mostra a taxa de incidência em cada ano, é possível perceber que a série não apresenta um comportamento padrão para todos os anos e que em alguns anos a série se mantém praticamente constante sem um indicativo de sazonalidade. Nos anos de 2004, 2005, 2009, 2010, 2013 e 2014 a variação foi pequena, as taxas não ultrapassarão o valor de 25 casos por 100.000 habitantes com excessão apenas da semana 26 no ano de 2010 em que a taxa observada foi de 25,13 casos por 100.000 habitantes. Percebe-se também que na primavera as taxas permanecem baixas e que os maiores picos acontecem no verão e outono.

Na Figura 4, pode-se perceber que as maiores taxas de incidência de dengue ocorrem no verão e outono, entretanto, esse aumento não ocorre em todos os anos. Em alguns anos a incidência de dengue permanece baixa durante todas as semanas epidemiológicas. Durante o inverno as taxas decaem, iniciando a primavera com baixa incidência de dengue para todos os anos observados no estudo e permanecendo baixo durante todo o período da primavera.

(33)

Figura 3: Taxa de incidência de dengue na cidade de Natal-RN entre 2000 e 2016 separados por ano e com indicação da estação.

Tabela 1: Estatísticas da Taxa de incidência de dengue por ano.

Ano Mín. Mediana Máx. Amp. Ano Mín. Mediana Máx. Amp. 2000 5,05 21,69 64,85 59,80 2009 0,87 3,10 9,55 8,68 2001 3,74 52,83 123,94 120,20 2010 1,12 8,59 25,13 24,01 2002 7,35 16,13 88,22 80,87 2011 3,33 12,03 72,40 69,07 2003 0,94 14,70 112,11 111,17 2012 2,08 16,76 113,63 111,55 2004 0,13 2,38 5,43 5,30 2013 2,46 7,55 23,19 20,73 2005 0,64 3,08 8,87 8,23 2014 0,58 6,73 17,05 16,47 2006 0,38 4,43 41,65 41,27 2015 2,30 8,56 75,29 72,99 2007 2,74 14,84 34,68 31,94 2016 0,34 13,56 168,74 168,40 2008 1,50 19,49 155,88 154,38

Mín.: Mínimo; Máx.: Máximo e Amp.: Amplitude.

Pode-se observar por meio da Figura 5 e da Tabela 1 que alguns anos apresentaram uma amplitude maior que de outros anos. Nos anos de 2004, 2005, 2009, 2010, 2013 e 2014 ocorreu uma amplitude menor, sendo que a amplitude desses anos não passou de 25. Já para os anos de 2001, 2003, 2008, 2012 e 2016 a amplitude foi maior que 100. A menor taxa de incidência de dengue observada foi de 0,13 e ocorreu no ano de 2004, já a maior taxa observada foi de 168,40 e ocorreu no ano de 2016. Observa-se a presença de outliers nos anos de 2000, 2002, 2003, 2006, 2008, 2009, 2010, 2015 e 2016.

Obsevando a Figura 6 que mostra a função de autocorrelação (FAC) é possível per-ceber que a medida que o lag aumenta, a correlação fica diminuindo e aumentando. Já a função de autocorrelação parcial (FACP) aponta uma correlação significativa nos

(34)

qua-Figura 4: Série temporal das taxas de incidência de dengue na cidade de Natal-RN por ano, separado por estações do ano.

tro primeiros lags e valores baixos a partir do lag 5, sendo considerados estatisticamente nulos.

Para testar se a série é estacionária, foi utilizado o teste de Dickey-Fuller rank. A estatística do teste calculada foi de -2,91, se comparada ao ponto crítico considerando um nível de significância de 5% que é -1,77, temos evidência de que a série é estacionária.

O modelo ARMA(3,3) proposto por (SOARES, 2019) para a taxa de incidência de dengue em Natal-RN foi considerado como um dos modelos candidatos. Em seguida, foi realizado o procedimento de modelagem da série, baseado na metodologia sugerida por Box e Jenkins (detalhada em (BOX; JENKINS; REINSEL, 1994)) com a finalidade de identificar se existia um modelo com um menor critério de informação de Akaike (AIC) e se a inclusão do componente sazonal melhora a modelagem da séries. Ao realizar o processo de identificação e estimação dos parâmetros do modelo, foram selecionados o modelo AR(5), por possuir um menor critéio de informação de Akaike (AIC) que o modelo ARMA(3,3), e o modelo SARIMA(2, 0, 3)(1, 0, 1)52 por considerar a sazonalidade.

Dessa forma, serão considerados três modelos candidatos, sendo dois modelos ARIMA e um SARIMA. O modelo ARMA(3,3) proposto por (SOARES, 2019) para a taxa de incidência, o modelo AR(5) em virtude de ter o AIC menor que o modelo anterior e o modelo SARIMA(2, 0, 3)(1, 0, 1)52 por considerar a sazonalidade.

(35)

Figura 5: Boxplot das taxas de incidência de dengue na cidade de Natal-RN por ano.

Ao realizar o diagnótico do modelo foi identificado que todos têm resíduos não corre-lacionados, com base no gráfico de autocorrelação e de autocorrelação parcial. Também foi realizado o teste de Ljung-Box e para todos a hipótese nula não foi rejeitada, indicando que são ruído branco.

Abaixo é descrito o procedimento de análise para cada modelo selecionado. Após a identificação e estimação dos parâmetros do modelo sem a intervenção, é realizada a pre-visão e em seguida ocorre a identificação e inclusão de outliers aditivos, resultando assim no modelo com a intervenção que será utilizado para uma nova previsão. O procedimento foi repetido até chegar em um modelo sem a presença de outlier, quando possível. Para o modelo SARIMA(2, 0, 3)(1, 0, 1)52 não foi possível obter um modelo sem outlier por

problema de otimização no programa.

Na Seção 4.5 serão apresentados a raiz do erro médio quadrático (rEMQ) e o erro absoluto médio (EAM) para os modelos estimados considerando uma previsão para as 37 primeiras semanas de 2017.

4.2

Suavização exponencial

Foi obtida a previsão através de uma suavização exponencial simples que não considera tendência e a componente sazonal. A suavização exponencial de Holt que considera a tendência e não considera a componente sazonal. Bem como a suavização exponencial de Holt-Winters que considera a tendência e a componente sazonal.

(36)

Figura 6: Gráfico da autocorrelação e da autocorrelação parcial da série temporal das taxas de incidência de dengue na cidade de Natal-RN entre 2000 e 2016.

As previsões obtidas com as suavizações e podem ser vistas através dos gráficos. Foi calculado também a acuracia das previsões.

Com relação a suavização simples (sem tendência e sem componente sazonal) vista na Figura 7 aparenta ocorrer um bom ajuste, os valores previstos para as 37 primeiras semanas de 2017 através deste método foi de 0,34 para todas as semanas. Com relação ao intervalo de confiança, para o limite inferior foram estimados valores negativos, que foram truncados no zero. Vale resaltar que ocorreu o mesmo com os modelos da classe ARIMA. As previsões e o intervalo de confiança são exibidos na Figura 8.

A suavização de Holt (com tendência e sem componente sazonal) vista na Figura 9 também aparenta ocorrer um bom ajuste, entretanto na previsão a partir da semana 4 de 2017 ocorre a previsão de valores negativos para a taxa de incidência, bem como para o intervalo de confiança inferior. Estes valores foram truncados no zero, as previsões e o intervalo de confiança podem ser vistos na Figura 10.

A suavização de Holt-Winters (com tendência e com componente sazonal) não apa-renta ocorrer um bom ajuste como visto na Figura 11, para algumas semanas de 2017 o valor observado fica fora do intervalo de confiança estimado e alguns valores do intervalo de confiança inferior ficaram com valores negativos. Estes valores foram truncados no zero e a previsão e o intervalo de confiança podem ser vistos na Figura 12.

(37)

Figura 7: Gráfico do ajuste pela suavização exponencial sem tendência e sem componente sazonal.

Tabela 2: Comparação dos métodos de suavização.

Tipo de suavização rEMQ EAM

Sem tendência e sem componente sazonal 10,03 0,94 Com tendência e sem componente sazonal 11,91 1,69 Com tendência e com componente sazonal 53,79 10,66

4.3

Modelagem Box Jenkins

4.3.1

ARIMA(3,0,3)

O modelo ARIMA(3,0,3) foi obtido por Soares (2019) através do comando auto.arima() do pacote forecast e é representado na Tabela 3. Ele foi utilizado para realizar a previsão das 37 primeiras semanas de 2017, em seguida foram calculados a rEMQ e o EAM para fim de comparação com o modelo com intervenção.

Tabela 3: Coeficientes e AIC do modelo ARIMA (3,0,3).

Modelo ar1 ar2 ar3 ma1 ma2 ma3 Média AIC

ARIMA(3,0,3) 0,93 0,31 -0,32 0,18 -0,04 0,21 19,03 5863,19

Percebe-se na Figura 13 que os resíduos do modelo ARIMA(3,0,3) não são autocor-relacionados, ao verificar as autocorrelações e autocorrelações parciais dos resíduos, bem

(38)

Figura 8: Gráfico da previsão pela suavização exponencial sem tendência e sem compo-nente sazonal.

como o teste Ljung-Box. Indicando que o modelo estimado está adequado.

Para verificar a presença de outlier, foi utilizado o teste proposto por (CHANG; TIAO; CHEN, 1988). Inicialmente, foi identificado a presença de 29 outlier aditivos no modelo ARMA(3,3) que foram incluídos no modelo. O novo modelo com intervenção foi utilizado para a previsão das 37 primeiras semanas de 2017, e em seguida foram calculados a rEMQ e o EAM. Ao realizar o teste para identificação de outlier, foram encontrados mais 14 outliers, e esses foram incluídos em um segundo modelo com intervenção.

O mesmo procedimento realizado com o primeiro modelo foi repetido para o segundo modelo com intervenção, e foram encontrados mais 2 outliers que foram incluídos em um terceiro modelo com intervenção. Neste terceiro modelo, todo o procedimento foi repetido e não foi encontrado outlier.

A Figura 14 apresenta o gráfico com as previsões através do modelo ARMA(3,3) sem intervenção, em que é possível perceber que o modelo se ajusta de forma razoável as primeiras semanas de 2017.

4.3.2

ARIMA(5,0,0)

Na Figura 6, observa-se que as autocorrelações parciais são significativas até o lag 5 o que é indício de que o modelo pode apresentar um componente autoregressivo de ordem

(39)

Figura 9: Gráfico do ajuste pela suavização exponencial com tendência e sem componente sazonal.

até 5, por exemplo AR(5) ou AR(4). As autocorrelações ficam aumentando e diminuindo à medida que o lag aumenta, dessa forma não indicando o componente de médias móveis.

Na Figura 15, tem-se o gráfico que sugere modelos baseados no critério de informação Bayesiano, ele é obtido através da função armasubsets() do pacote TSA. Foi utilizada a ordem de no máximo 5 para a parte autoregressiva e também para a de médias móveis. O modelo sugerido foi o AR(4) com restrição no ar2 e ar3.

Os modelos sugeridos foram estimados e foi realizado o diagnóstico dos modelos atra-vés da visualização gráfica da autocorrelação e da autocorrelação parcial. Foi verificado através do teste de Ljung-Box que os resíduos dos modelos AR(4) e AR(4) com restrição no ar2 e ar3 são autocorrelacionados. Dessa forma, optou-se pelo modelo AR(5), pois o

teste não rejeitou a hipótese de independência dos resíduos.

O modelo ARIMA(5,0,0) representado na Tabela 4 foi utilizado para a realização de previsão para as 37 primeiras semanas de 2017, em seguida foram calculados a rEMQ e o EAM para fim de comparação com o modelo com intervenção.

Tabela 4: Coeficientes e AIC do modelo ARIMA (5,0,0).

Modelo ar1 ar2 ar3 ar4 ar5 Média AIC

(40)

Figura 10: Gráfico da previsão pela suavização exponencial com tendência e sem compo-nente sazonal.

A Figura 16 mostra os resíduos do modelo ARIMA(5,0,0) ajustado aos dados. Percebe-se que os erros não são autocorrelacionados ao obPercebe-servar os gráficos de autocorrelação e de autocorrelação parcial e o teste Ljung-Box.

Os procedimentos realizados com modelo ARIMA(3,0,3) também foi realizado com o ARIMA(5,0,0) foram encontrados 29 outliers que foram incluidos em um modelo com intervenção, e neste modelo também foram encontrados 15 outliers e posteriormente fo-ram encontrados mais 2 outliers. Resultando em um modelo sem intervenção e três com intervenção que serão comparados na Seção 4.5.

A Figura 17 exibi o gráfico com as previsões através do modelo ARIMA(5,0,0) sem intervenção, em que é possível perceber que o modelo se ajusta de forma razoável as primeiras semanas de 2017.

4.3.3

SARIMA(2, 0, 3)(1, 0, 1)

52

Para verificar se um modelo que considera a sazonalidade poderia apresentar melhores previsões que um modelo que não considera, foram estimados alguns modelos em que foram variadas a quantidade de componentes não sazonal autoregressivo, não sazonal de médias móveis, sazonal autoregressivo e sazonal de médias móveis. Esses componentes variaram entre 0 e 3.

(41)

Figura 11: Gráfico do ajuste pela suavização exponencial com tendência e com componente sazonal.

Após a estimação de alguns modelos, foi realizada a parte do diagnóstico e através da verificação da função de autocorrelação e da autocorrelação parcial dos resíduos, bem como da realização do teste de Ljung-Box, verificou-se que o modelo SARIMA(2, 0, 3)(1, 0, 1)52

não apresentava resíduos autocorrelacionados.

O modelo SARIMA(2, 0, 3)(1, 0, 1)52, representado na Tabela 5 foi utilizado para a

realização de previsão para as 37 primeiras semanas de 2017, em seguida foram calculados a rEMQ e o EAM para fim de comparação com o modelo com intervenção.

Tabela 5: Coeficientes e AIC do modelo SARIMA(2, 0, 3)(1, 0, 1)52.

Modelo ar1 ar2 ma1 ma2 ma3 sar1 sma1 Média AIC

SARIMA(2, 0, 3) (1, 0, 1)52

1,42 -0,48 -0,32 0,21 0,10 0,13 -0,11 19,07 5868,94

A Figura 18 mostra gráficos de diagnóstico do modelo SARIMA(2, 0, 3)(1, 0, 1)52. Há

indícios de não autocorrelação dos erros ao observar os gráficos de autocorrelação e de autocorrelação parcial e o teste Ljung-Box.

Os procedimentos realizados com os modelos anteriores também foram realizados com o SARIMA(2, 0, 3)(1, 0, 1)52 foram encontrados 23 outliers que foram incluidos em

um modelo com intervenção, e neste modelo também foram encontrados 16 outliers e posteriormente foram encontrados mais 3 outliers. Entretanto, não foi possível incluir os

(42)

Figura 12: Gráfico da previsão pela suavização exponencial com tendência e com compo-nente sazonal.

três outliers identificados no modelo com a interenção 2 por problema de otimização no R. Resultando em um modelo sem intervenção e dois com intervenção que serão comparados na Seção 4.5.

A Figura 19 exibi o gráfico com as previsões através do modelo SARIMA(2, 0, 3)(1, 0, 1)52

sem intervenção, em que é possível perceber que a previsão para as primeiras semanas de 2017 são razoáveis.

4.4

Modelagem ARIMAX

Como as variáveis temperatura, precipitação e umidade são fatores determinantes para a reprodução e longevidade dos mosquitos Aedes Aegypti (CHRISTOPHERS, 1960; FOCKS et al., 1993; BRADY et al., 2013). Paiva (2018) indentificou que existia associação entre as variáveis climáticas temperatura máxima, temperatura mínima, precipitação e umidade com a taxa de incidência de dengue em Natal/RN.

Foram analisados diversos modelos ARIMAX considerando cada variável individual-mente, bem como todas as combinações dessas variáveis. Considerando os modelos em que os parâmetros estimados foram significativos, o modelo que apresentou o menor AIC foi o ARIMAX(5,0,0) com a variável exógena temperatura máxima utilizando um atraso de 5 semanas. Após a identificação do modelo, foram produzida as previsões das 37 semanas de 2017.

(43)

Figura 13: Gráfico de diagnótico do modelo ARIMA(3,0,3).

Percebe-se na Figura 20 que os resíduos do modelo ARIMAX(5,0,0) não são autocor-relacionados, ao verificar as autocorrelações e autocorrelações parciais dos resíduos, bem como o teste Ljung-Box. Indicando que o modelo estimado está adequado.

A Figura 21 exibi o gráfico com as previsões através do modelo ARIMAX(5,0,0) com temperatura máxima, em que é possível perceber que a previsão para as primeiras semanas de 2017 são razoáveis.

4.5

Comparação dos modelos

A Tabela 6 mostra os valores dos AIC’s para os modelos ajustados, é possível perceber que o modelo com o menor AIC é o AR(5) com a intervenção 3. E o modelo com maior AIC é o SARIMA(2, 0, 3)(1, 0, 1)52 sem intervenção. Analisando o modelo ARMA(3,3),

percebe-se que a inclusão da interveção 1 reduziu o AIC em 12,9%, já a inclusão de uma segunda intervenção, reduz 4,3% o que não parece ser uma redução expressiva, tendo em vista a quantidade de parâmetros nos modelos com intervenção. Algo parecido ocorre para o modelo AR(5), em que a intervenção 1 reduz 12,8% e a inclusão da segunda intervenção reduz 4,6%. No modelo SARIMA(2, 0, 3)(1, 0, 1)52 tem-se uma redução de 11,7% com a

intervenção 1, já com a intervenção 2 observa-se uma redução de 5,3% no valor do AIC.

(44)

Figura 14: Gráfico do ajuste e da previsão com o modelo ARMA(3,3) para as taxas de incidência de dengue na cidade de Natal-RN.

Tabela 6: Comparação dos modelos, através do AIC.

Modelo ARMA(3,3) AR(5) SARIMA(2, 0, 3)(1, 0, 1)52 ARIMAX(5,0,0)

Sem intervenção 5863,19 5860,05 5868,01 5831,77

Intervenção 1 5106,64 5111,50 5180,70 Intervenção 2 4888,01 4876,74 4907,44 Intervenção 3 4862,11 4849,76

da intervenção em todos os modelos não melhora de forma expressiva o erro de previsão. O modelo ARMA(3,3) teve melhor desempenho com a intervenção 1, o modelo AR(5) teve o melhor desempenho com a intervenção 2 e o modelo SARIMA(2, 0, 3)(1, 0, 1)52 teve

o melhor desempenho sem intervenção. De todos os modelos avaliados o que apresentou o menor erro foi o modelo ARIMAX(5,0,0) com a temperatura máxima.

A título de comparação foram realizadas previsões um passo a frente para os modelos sem intervenção, que consiste em estimar a taxa de incidência de dengue para uma semana e inseri-la na série para estimar novamente os parâmetros do modelo, em seguida realizar uma nova previsão para a semana seguinte. Esse processo foi repetido de forma iterativa até completar a previsão das 37 semanas. Entretanto, foi verificado que esse processo aumentou o rEMQ e o EAM se comparado a previsão das 37 semanas de forma direta. Dessa forma, optou-se por utilizar a previsão direta para as 37 primeiras semanas de 2017.

(45)

Figura 15: Gráfico dos modelos sugeridos pelo BIC para a taxa de incidência de dengue na cidade de Natal-RN.

Os valores podem ser observados na Tabela 8.

4.6

Ajuste de modelo ARCH/GARCH

Conforme visto na Subseção 4.3.1, o teste de Ljung-Box realizado nos resíduos do modelo ARIMA(3,0,3) indicaram que os resíduos do modelo ajustado são ruído branco. Dessa forma, tem-se um indicativo de que o modelo ajustado removeu a correlação serial da taxa de incidência de dengue.

Tabela 7: Comparação dos modelos, através dos erros de previsão.

Modelo Erro ARMA(3,3) AR(5) SARIMA(2,0,3) (1,0,1)_{52}

ARIMAX(5,0,0)

Sem intervenção rEMQ 8,63 8,82 8,85 7,91

EAM 3,39 3,44 3,44 3,15 Intervenção 1 rEMQ 8,52 8,68 9,53 EAM 3,33 3,37 3,45 Intervenção 2 rEMQ 8,58 8,43 9,53 EAM 3,34 3,31 3,23 Intervenção 3 rEMQ 8,65 8,45 EAM 3,35 3,32

(46)

Figura 16: Gráfico de diagnótico do modelo ARIMA(5,0,0).

Tabela 8: Comparação dos métodos de previsão.

Tipo de previsão Tipo de Erro ARMA(3,3) AR(5)

Um passo a frente rEMQ 8,70 8,87

EAM 3,41 3,45

Direta rEMQ 8,63 8,82

EAM 3,39 3,44

Para verificar se os resíduos do modelo apresentam heterocedásticidade condicional, o teste de Ljung-Box é realizado nos resíduos ao quadrado, na Figura 22 observa-se que a hipótese de ruído branco é rejeitada. Indicando que existe a presença de volatilidade e que o ajuste de modelos da classe ARCH/GARCH é apropriado para modelar a hetero-cedásticidade presente na série.

Ainda na Figura 22, é possível perceber que o gráfico das autocorrelações e autocor-relações parciais apresentam valores significativos, reforcando o indicativo de volatilidade nos resíduos ao quadrado do modelo, justificando a aplicabilidade dos modelos da classe ARCH/GARCH aos dados.

A tabela 9 exibi os parâmetros do modelo ARIMA(3,0,3)-GARCH(1,1) ajustado a série da taxa de incidência de dengue. Os testes de Ljung-Box nos resíduos do modelo (valor-p = 0,26) e nos resíduos ao quadrado do modelo (valor-p = 0,63), juntamente com o teste de Multiplicadores de Lagranger (valor-p = 0,94) mostram que o modelo atende

(47)

Figura 17: Gráfico do ajuste e da previsão com o modelo ARMA(5,0) para as taxas de incidência de dengue na cidade de Natal-RN.

aos presupostos de ruído branco.

Tabela 9: Ajuste do modelo ARIMA(3,0,3)-GARCH(1,1) à taxa de incidência de dengue.

Parâmetro Estimativa ar1 0,71 ar2 0,85 ar3 -0,60 ma1 0,19 ma2 -0,50 ma3 0,14 omega 0,31 alpha1 0,42 beta1 0,57 k 1,15

Na Figura 23 é possível observar o desvio padrão condicional √ht da taxa de

inci-dência de dengue. Percebe-se que existe uma grande oscilação na volatilidade estimada e que se comporta de forma semelhante à série observada. Os picos de variabilidade nos anos 2001, 2003, 2008, 2015 e 2016 coincidem com os valores mais altos da taxa de incidência de dengue em Natal/RN.

(48)

Figura 18: Gráfico de diagnótico do modelo SARIMA(2, 0, 3)(1, 0, 1)52.

Figura 19: Gráfico do ajuste e da previsão com o modelo SARIMA(2, 0, 3)(1, 0, 1)52 para

(49)

Figura 20: Gráfico de diagnótico do modelo ARIMAX(5,0,0) com temperatura máxima.

Figura 21: Gráfico do ajuste e da previsão com o modelo ARIMAX(5,0,0) com a tempe-ratura máxima para as taxas de incidência de dengue na cidade de Natal-RN.

(50)

Figura 22: Gráfico da autocorrelação, autocorrelação parcial e teste Ljung-Box nos resí-duos ao quadrado do modelo ARIMA(3,0,3).

Figura 23: Estimativa da volatilidade para a taxa de incidência de dengue usando o modelo ARIMA(3,0,3)-GARCH(1,1).

(51)

5

Considerações finais

A utilização dos métodos de suavização exponencial simples, suavização exponencial de Holt e suavização exponencial de Holt-Winters retornaram um erro de previsão (raiz do erro médio quadrático) maior que os modelos da classe ARIMA. Embora o erro absoluto médio calculado para a suavização exponencial simples e para a suavização exponencial de Holt foram inferior aos erros dos modelos da classe ARIMA, os valores previtos através destes métodos foram próximos de zero, inclusive com algumas previsões com valores ne-gativos. Com relação à suavização exponencial de Holt-Winters alguns valores observados ficaram fora do intervalo de confiança da previsão.

Foram ajustados três modelos a partir da metodologia de Box-Jenkins, sendo estes o ARIMA(5,0,0), o ARIMA(3,0,3) e o SARIMA(2, 0, 3)(1, 0, 1)52. Percebeu-se que apesar do

indicativo de que a dengue sofra influência de variáveis climáticas, que são por natureza sazonais, o modelo SARIMA(2, 0, 3)(1, 0, 1)52 que considera a sazonalidade se mostrou

inferior aos outros modelos tanto com relação ao AIC quanto aos erros de previsão. Um dos motivos associados ao fato do modelo sazonal ser inferior pode ser em decorrência dos dados serem semanais, segundo Hyndman e Athanasopoulos (2018) a dificuldade em trabalhar com dados semanais é que o período ssazonal é grande e não inteiro, o número médio de semanas em um ano é de 52,18.

Foi constatado que para a série análisada a inclusão de outliers aditivos, através da análise de intervenção, não melhora de forma expressiva o modelo, principalmente com relação a previsão. A inclusão da covariável temperatura máxima, através do modelo ARI-MAX não melhorou de forma expressiva o modelo. Ao fazer a modelagem da volatilidade da série utilizando os modelos da família ARCH/GARCH, observa-se que a série possui uma alta volatilidade e que os picos de volatilidade estimados coincidem com as maiores taxas de incidência de dengue.

Com base nos resultados obtidos, foi observado que nenhum modelo foi suficiente para explicar a taxa de incidência de dengue em Natal e fazer previsões confiáveis. Existiu

(52)

a dificuldade em se trabalhar com dados da dengue em decorrência da complexidade epidemiológica da doença, juntamente com o fato apresentarem múltiplos padrões. Vale citar que os dados com frequência semanal foram transformados para a frequência mensal, entretanto os resultados do ajuste de modelos através da metodologia de Box-Jenkins se mostraram semelhantes aos resultados dos dados em semanas epidemiológicas.

Como sugestão para trabalhos futuros, pode-se tentar incorporar covariáveis climáticas através da técnica de regressão dinâmica harmônica. Hyndman e Athanasopoulos (2018) sugeriram a utilizaçao desta técnica para séries temporais com frequência semanal. Uma outra alternativa seria trabalhar com a série temporal do número de casos de dengue notificados e utilizar uma metodologia para séries temporais de valores inteiros.

(53)

Referências

AKBAR, R. Ten threats to global health in 2019. 2019. Disponível em: <https: //www.who.int/emergencies/ten-threats-to-global-health-in-2019>. Acesso em Março 21, 2019.

BARRETO, J. Natal registra 6.585 casos de dengue, zika e chikungunya no primeiro semestre de 2018. G1, 2018. Disponível em: <https://g1.globo.com/rn/rio-grande- do-norte/noticia/natal-registra-6585-casos-de-dengue-zika-e-chikungunya-no-primeiro-semestre-do-ano.ghtml>. Acesso em: 22 mai. 2019.

BESERRA, E. B. et al. Efeitos da temperatura no ciclo de vida, exigências térmicas e estimativas do número de gerações anuais de aedes aegypti (diptera, culicidae). Iheringia. Série Zoologia, SciELO Brasil, v. 99, n. 2, p. 142–148, 2009.

BHATT, S. et al. The global distribution and burden of dengue. Nature, Nature Publishing Group, v. 496, n. 7446, p. 504, 2013.

BOLLERSLEV, T. Generalized autoregressive conditional heteroskedasticity. Journal of econometrics, Elsevier, v. 31, n. 3, p. 307–327, 1986.

BOX, G. E. P.; JENKINS, G. M. Time Series Analysis: Forecasting and Control. San Francisco: Holden-Day, 1970.

BOX, G. E. P.; JENKINS, G. M.; REINSEL, G. C. Time series analysis, forecasting and control. [S.l.]: Englewood Cliffs: Prentice-Hall, 1994.

BRADY, O. J. et al. Refining the global spatial limits of dengue virus transmission by evidence-based consensus. PLoS neglected tropical diseases, Public Library of Science, v. 6, n. 8, p. e1760, 2012.

BRADY, O. J. et al. Modelling adult aedes aegypti and aedes albopictus survival at different temperatures in laboratory and field settings. Parasites & vectors, BioMed Central, v. 6, n. 1, p. 351, 2013.

CHANG, I.; TIAO, G. C.; CHEN, C. Estimation of time series parameters in the presence of outliers. Technometrics, Taylor & Francis Group, v. 30, n. 2, p. 193–204, 1988.

CHRISTOPHERS, S. R. Aedes aegypti: The yellow fever mosquito. [S.l.]: CUP Archive, 1960.

CLEVELAND, R. B. et al. Stl: a seasonal-trend decomposition. Journal of official statistics, v. 6, n. 1, p. 3–73, 1990.

Referências

Documentos relacionados

Este quadro reflete a precariedade na implementação da política de descentralização da saúde em Itamarandiba, já que esta política não contava com o apoio

Water and wastewater treatment produces a signi ficant amount of methane and nitrous oxide, so reducing these emissions is one of the principal challenges for sanitation companies

O objetivo deste trabalho foi realizar o inventário florestal em floresta em restauração no município de São Sebastião da Vargem Alegre, para posterior

Como se pode ver nos resultados, o tema “Currículo Funcional Natural” é pouco pesquisado no Brasil, pois esse estudo teve acesso à biblioteca de teses e dissertações do

Neste estudo objetivou-se avaliar a qualidade da assistência à saúde prestada em uma unidade de terapia intensiva, quanto ao uso das medidas de prevenção e controle de pneumonia em

A junção dos rios Iguaçu e Paraná esta localizada na tríplice fronteira entre Brasil, Paraguai e Argentina, e as variações da razão entre vazões causam importantes efeitos

A coleção de peixes marinhos do Laboratório de Ictiologia (Departamento de Zoologia) da Universidade Federal do Rio de Janeiro (UFRJ) está composta por espécimes