3 Materiais e M´ etodos
3.9 Crit´ erio de Informa¸ c˜ ao de Akaike (AIC)
3.9
Crit´erio de Informa¸c˜ao de Akaike (AIC)
A escolha de um modelo ´e muito importante para uma an´alise de dados. A ideia b´asica impl´ıcita ao uso do AIC, para a sele¸c˜ao de modelos ´e a maximiza¸c˜ao da probabilidade log esperada de um modelo determinado usando o m´etodo da m´axima verossimilhan¸ca. O AIC sugere a necessidade da an´alisar o conceito de verossimilhan¸ca em v´arios n´ıveis de modelagem , procurando o modelo que cont´em poucos parˆametros a serem estimados e que explique bem o comportamento da vari´avel resposta (??).
O Crit´erio de Informa¸c˜ao de Akaike (AIC) ´e expresso por:
−2(LIK) + 2K (3.10)
onde, LIK ´e o log de verossimilhan¸ca maximizado e K ´e o n´umero de coeficientes de regress˜ao. O melhor modelo ´e aquele que possui o menor valor de AIC.
4
Resultados
Como o trabalho tem um conceito investigativo, dados da existˆencia de ´areas remanescentes de Mata Atlˆantica , precipita¸c˜ao e proje¸c˜ao populacional de 2015 com o intuito de gerar uma hip´otese sobre casos de febre amarela, foram coletados.
Com base no banco de dados montado, foram realizados estudos sobre o comportamento da epidemia de Febre Amarela nos 853 munic´ıpios do estado Minas Gerais de 2015 a 2017. Inici- almente ´e apresentada uma an´alise explorat´oria dos dados por meio de uma s´erie hist´orica com o total de casos por semana epidemiol´ogica. Com o intuito de visualizar o tempo transcorrido entre o instante final e o instante inicial, a s´erie hist´orica a seguir, est´a sinalizado o ”pico de casos da doen¸ca”, um ano ap´os a trag´edia em Minas Gerais e queda da barragem.
Figura 4: S´erie Hist´orica do n´umero casos de febre amarela por semana epidemiol´ogica em Minas Gerais (2015 a 2017)
Quanto ao n´umero de casos, a s´erie hist´orica apresenta maiores casos da doen¸ca entre as 106a a 117a semana epidemiol´ogica. Na 107a semana epidemiol´ogica, onde ocorreu o ”pico”da
doen¸ca, foram notificados 386 casos de febre amarela.
4 Resultados 37
dos anos, das taxas brutas por semanas epidemiol´ogicas, com o prop´osito de retratar a trajet´oria dos casos de febre amarela nos munic´ıpios de Minas Gerais. O crit´erio para escolha das semanas epidemiol´ogicas mapeadas, foi visualizar o comportamento das taxas de incidˆencia da doen¸ca por 100 mil habitantes, ou seja, antes da queda da barragem, na semana que a barragem caiu, um ano ap´os a trag´edia, o ”pico”dos casos da doen¸ca e ap´os o ”pico”.
(a) 10aSE (b) 39aSE
(c) 50aSE (d) 91aSE
Figura 5: Mapas coropl´eticos das taxas de incidˆencia de febre amarela nas semanas epide- miol´ogicas 10, 39, 50 e 91
Nos mapas da Figura 5, os munic´ıpios de Minas Gerais apresentam baixas taxas de in- cidˆencia nos casos de febre amarela.
O auge da epidemia ocorreu nas semanas epidemiol´ogicas apresentadas na Figura 6, evidˆenciando elevadas taxas de incidˆencia da doen¸ca em munic´ıpios pr´oximos. O per´ıodo da epidemia acon- tece no in´ıcio do ano de 2017.
(a) 106aSE (b) 107aSE
(c) 108aSE (d) 109aSE
Figura 6: Mapas coropl´eticos das taxas de incidˆencia de febre amarela nas semanas epide- miol´ogicas 106, 107, 108 e 109
4 Resultados 39
(a) 121aSE (b) 131aSE
(c) 137aSE (d) 138aSE
Figura 7: Mapas coropl´eticos das taxas de incidˆencia de febre amarela nas semanas epide- miol´ogicas 121, 131 137 e 138
A Figura 7 aponta uma redu¸c˜ao expressiva a partir da 120a semana epidemiol´ogica das
taxas de incidˆencia dos casos da doen¸ca no estado de Minas Gerais.
Ap´os ter gerado mapas de semanas epidemiol´ogicas dos 853 munic´ıpios de Minas Gerais ser´a dado um foco para a regi˜ao onde aconteceu a trag´edia. Tendo como referˆencia a Figura 4 e percurso do Rio Doce, foram 37 munic´ıpios, representados na Figura 8.
Figura 8: Munic´ıpios atingidos pela Lama da Samarco e percurso do Rio Doce
Por falta de esta¸c˜oes metereol´ogicas ou dados nas mesmas, n˜ao foi poss´ıvel obter informa¸c˜oes de precipita¸c˜ao dos 37 munic´ıpios. O ´unico munic´ıpio que tinha dados na sua esta¸c˜ao mete- reol´ogica era Caaratinga. A s´erie hist´orica representada na Figura 9 descreve o comportamento da precipita¸c˜ao (mm) e dos casos de febre amarela por semana epidemiol´ogica em Caaratinga.
4 Resultados 41
Figura 9: S´erie Hist´orica da precipita¸c˜ao (mm) e casos notificados por semana epidemiol´ogica em Caaratinga.
Caaratinga teve o maior n´umero de casos de febre amarela em 2017, totalizando 271 casos, sendo considerado um valor discrepante. Em Caaratinga o ”pico”dos casos da doen¸ca aconteceu na 106asemana epidemiol´ogica, com 94 casos, e a maior quantidade de precipita¸c˜ao (mm) antes
do ”pico”ocorreu na 55a semana epidemiol´ogica, ou seja, 51 semanas depois. Ao visualizar a
Figura 9, sinalizando a queda da barragem, foi poss´ıvel verficar que as chuvas tamb´em podem ter influenciado no aumento dos casos. Por´em n˜ao s´o a precipita¸c˜ao poderia ser respons´avel pela epidemia. A s´erie hist´orica apresentada na Figura 9, mostra uma varia¸c˜ao sazonal1 da
precipita¸c˜ao (mm) no munic´ıpio de Caaratinga nos anos de 2015 a 2017 tendo as maiores ocorrˆencias nas primeiras semanas epidemiol´ogicas de cada ano.
Com o intuito de buscar explica¸c˜ao do n´umero de casos da doen¸ca outra vari´avel importante para a investiga¸c˜ao seria a quantidade de rejeitos despejados em cada munic´ıpio, mas ainda n˜ao existe ou n˜ao se tem acesso a esse tipo de informa¸c˜ao. Por isso, as vari´aveis percentual de mata Atlˆantica, medido por hectares, e tamanho projetado pelo IBGE para 2015, medidas em cada munic´ıpio, ter˜ao como objetivo explicar se quanto mais mata e popula¸c˜ao um munic´ıpio tiver, mais casos de febre amarela ocorrer´a.
Na an´alise explorat´oria realizada nos 37 munic´ıpios, verificou que em 2015 e 2016 n˜ao foram registrados casos da doen¸ca. J´a em 2017, 10 munic´ıpios tiveram casos de febre amarela. A partir disso, o estudo ser´a direcionado como primeiro foco o ano de 2017.
1Varia¸c˜ao na incidˆencia de uma doen¸ca, cujos ciclos coincidem com as esta¸c˜oes do ano. Essa varia¸c˜ao ocorre dentro do per´ıodo de um ano.
Com a finalidade de estimar o n´ıvel de autocorrela¸c˜ao espacial entre as ´areas foi usado o ´ındice de Moran global para os casos de febre amarela em 2017. O teste de pseudo-significˆancia
para a vari´avel foi I =(0, 245) com p-valor =(< 0, 0001) indicando a depˆendencia espacial. A primeira etapa da modelagem, consistiu em fazer uma transforma¸c˜ao dos dados na vari´avel resposta (casos de febre amarela em 2017). Como esta vari´avel consiste em uma contagem, principalmente com poucos dados, foi realizada uma transforma¸c˜ao nos dados para aproximar a vari´avel resposta a uma distribui¸c˜ao Normal. Para realizar a transforma¸c˜ao lo- gar´ıtmica nos dados, foi necess´ario somar 1 na vari´avel resposta (casos de febre amarela em 2017), pois havia presen¸ca de zeros. Vale ressaltar que para os modelos apresentados, a preci- pita¸c˜ao n˜ao foi utilizada pois os dados obtidos s´o pertenciam a um s´o munic´ıpio. ´E necess´ario destacar que o intercepto foi retirado do modelo de regress˜ao linear e modelo espaciail pois o p-valor n˜ao era significativo. No modelo de regress˜ao linear n˜ao foi retirado a vari´avel mata, visto que se retirasse n˜ao alteraria significativamente o valor do crit´erio de compara¸c˜ao, al´em de que, s´o um parˆametro a mais n˜ao alteraria muito em termos de parcimˆonia. No modelo Generalizado de Poisson foi observado uma sobredispers˜ao nos dados, isto ´e VAR(X)>E(X), por isso o ideal seria ajustar a variˆancia.
• No modelo de regress˜ao linear, que desconsidera a dependˆencia espacial, obteve-se: Tabela 5: Modelo de Regress˜ao Linear
Coeficiente Estimativa P-valor
Mata Atlˆantica 0, 00004 0, 0618
Proje¸c˜ao Populacional 2015 0, 00001 < 0, 00001
• J´a para o modelo linear generalizado, foram encontradas as seguintes estimativas para os coeficientes :
Tabela 6: Modelo Generalizado Poisson
Coeficiente Estimativa P-valor
Intercepto 1, 15600 < 0, 00001 Mata Atlˆantica 0, 00008 < 0, 00001 Proje¸c˜ao Populacional 2015 0, 00008 < 0, 00001
Nos Modelos Espaciais SAR e CAR, temos : • SAR
Tabela 7: Modelo SAR
Coeficiente Estimativa P-valor
Mata Atlˆantica 0, 00004 0, 01341 Proje¸c˜ao Populacional 2015 0, 00001 < 0, 00001
4 Resultados 43
• CAR
Tabela 8: Modelo CAR
Coeficiente Estimativa P-valor
Mata Atlˆantica 0, 00005 0, 0115
Proje¸c˜ao Populacional 2015 0, 00001 < 0, 00001
Todos modelos exceto o Modelo Generalizado de Poisson usaram dados transformados. As- sim, o AIC desse modelo baseado na quantidade de casos (n˜ao transformados) n˜ao ´e compar´avel aos demais, por estar em escala diferente. Para m´etodo comparativo, foi necess´ario inserir uma mesma escala em todos os modelos apresentados. Para escolha do melhor modelo, foi utilizado o EQM (erro quadr´atico m´edio), que soma as diferen¸cas entre o valor estimado e o valor real dos dados, ponderados pelo n´umero de termos, ou seja, compara os valores observados com os valores previstos. Abaixo segue a Tabela 9 com o AIC e EQM de cada modelo.
Tabela 9: Crit´erio de Informa¸c˜ao de Akaike e Erro Quadr´atico M´edio dos Modelos
Modelos AIC EQM
Regress˜ao Linear 104.69 168.31 Generalizado Poisson 1487 71.64
SAR 105.03 191.68
CAR 104.9 231.65
Para uma vizualiza¸c˜ao dos dados dos casos de febre amarela, segue os mapas coropl´eticos dos valores observados na Figura10 e estimados pelos modelos propostos na Figura11.
Figura 11: Mapa dos valores estimados pelos modelos propostos
(a) Regress˜ao Linear (b) CAR
4 Resultados 45
Nos mapas produzidos a partir dos valores estimados pelos modelos da Figura 11 ´e poss´ıvel observar que apenas o mapa produzido pelo modelo linar generalizado Poisson se afasta dos demais, evidenciando o problema de sobredispers˜ao dos dados.
Nos mapas dos res´ıduos, a an´alise considera que, quanto mais alta a concentra¸c˜ao de res´ıduos positivos ou negativos, existe presen¸ca de autocorrela¸c˜ao espacial.
Figura 12: Mapa dos res´ıduos dos modelos propostos.
(a) Regress˜ao Linear (b) CAR
4 Resultados 47
Uma an´alise da autocorrela¸c˜ao dos res´ıduos foi realizada para confrontar os mapas e saber se realmente h´a ind´ıcios de presen¸ca de autocorrela¸c˜ao espacial entre as observa¸c˜oes. A n˜ao verifica¸c˜ao da hip´otese de independˆencia do erro, indica a necessidade de incluir um componente espacial no modelo de regress˜ao linear.
Tabela 10: ´Indice de autocorrela¸c˜ao espacial para os res´ıduos dos Modelos Modelos Estat´ıstica I Moran Global P-valor
Regress˜ao Linear −0.2148 0.9699
Generalizado Poisson −0.086 0.845
SAR −0.066 0.6501
CAR 0.136 0.0556
Na Tabela 10, sendo a hip´otese nula para o teste de significˆancia do ´ındice I de Moran associada `a independˆencia espacial, percebe-se que tal hip´otese foi aceita para os res´ıduos de cada modelo testado.