Mortalidade por acidentes de transporte em Goiás
Guilherme Fernando Hathy da Costa | GRR20160237
Everton Luiz de Souza | GRR20124692
Contents
1 Resumo 3 2 Introdução 4 3 Materiais e Métodos 5 3.1 Material . . . 5 3.2 Métodos . . . 5 3.3 Modelagem Estatística . . . 6 3.4 Análise de Diagnóstico . . . 8 3.5 Predição . . . 8 4 Conclusão 81
Resumo
Goiás registra, por dia, cerca de 240 acidentes de trânsito nas ruas e rodovias, com pelo menos 150 feridos e cinco mortos. Segundo estatísticas do governo estadual, em um ano, são gastos R$ 1,3 bilhão no Estado para atender a essas ocorrências. Com esse valor seria possível construir, por exemplo, 50 mil casas populares. Para modelar a mortalidade por acidente de transporte em Goiáis foi utilizado o modelo Binomia negativo, que teve um ajuste muito satisfatório aos dados.
2
Introdução
O presente trabalho tem como objetivo apresentar uma análise estatística, por meio de modelos lineares generalizados para de contagem.
O trabalho ajusta um modelo para estudar a mortalidade por acidente de transporte em Goiáis, alem de um estudo dos pressupostos para saber se o modelo se ajustou bem aos dados.
Pesquisas apontam que o crescimento populacional em Goiás entre 2009 e 2019 foi de 18,43%, enquanto o da frota de carros subiu quase 5 vezes. Em Goiânia por exemplo, há 0.8 veículo para cada habitante enquanto a média nacional é de 1 carro para 3.89 habitantes. Ficando assim, em 6º no ranking de maior frota do país. No número de motos, a cidade fica em 4ª no ranking.
Goiás registra, por dia, cerca de 240 acidentes de trânsito nas ruas e rodovias, com pelo menos 150 feridos e cinco mortos. Segundo estatísticas do governo estadual, em um ano, são gastos R$ 1,3 bilhão no Estado para atender a essas ocorrências. Com esse valor seria possível construir, por exemplo, 50 mil casas populares.
3
Materiais e Métodos
3.1
Material
Os dados foram retirados do site do DATASUS, que disponibiliza informações que podem servir para sub-sidiar análises objetivas da situação sanitária, tomadas de decisão baseadas em evidências e elaboração de programas de ações de saúde.
O conjunto de dados possui 246 observações, com 7 variaveis observadas. Cada linha da base diz respeito a 1 dos 246 municípios do estado do Goiais, foram coletadas as variáveis:
• Resposta - Número de acidentes de trânsito no município. • PopTotal - População Censitári.
• TaxaAnalfabetismo - Percentual de pessoas com 15 anos ou mais de idade que não sabem ler e escrever.
• IndiceGini - O índice ou coeficiente de Gini é uma medida de desigualdade de dados que é muito utilizada para medir a desigualdade de renda.
• taxaDesemprego - É a divisão da População Desocupada pela População Economicamente Ativa • pib - O produto interno bruto representa a soma de todos os bens e serviços finais produzidos numa
determinada região, durante um período determinado.
• RendaMedia - É a divisão da renda do municipio pelo numero de habitantes.
A tabela 1 possui as 6 primeiras observações da base de dados. Por questão de escala foi aplicado o log nas variáveis PopTotal, pib e Renda Média.
Table 1: Resumo das covariáveis
Resposta PopTotal TaxaAnalfabetismo IndiceGini taxaDesemprego pib RendaMedia
0 8.876824 8.2 0.4258 4.60 9.916351 6.342491 11 9.705524 11.6 0.4427 3.41 9.480656 6.235352 4 9.931978 14.2 0.5419 7.80 10.016351 6.481608 0 7.816014 13.6 0.4325 8.60 9.247137 6.200144 2 8.553332 14.2 0.6123 5.71 10.335145 6.234293 0 7.593374 10.1 0.4658 1.30 9.934696 6.266840
A figura 1 mostra uma simetria razoável das covariáveis, principalmente das transformadas.
3.2
Métodos
Modelos de regressão Binomial Negativa do tipo II são frequentemente utilizados para modelar dados de contagem. Como função de ligação, foi utilizada a função logit. Que foi a função de ligação que obteve o menor AIC e a maior verossimilhança. A definição do modelo com as características citadas é descrito abaixo:
Yi|xi∼ BN (µi, φ)
g(µi) = β0+ β1Xi1+ ... + βpXip
log(PopTotal) 6 10 0 40 80 TaxaAnalfabetismo 5 20 0 20 40 IndiceGini 0.4 0.7 0 40 80 taxaDesemprego 0 10 0 40 80 log(pib) 8.5 11.0 0 40 80 log(RendaMedia) 5.5 6.5 0 40 80
Figure 1: Distribuição da covariáveis
Onde Yié a variável resposta e Xi são as covariáveis associados a cada observação.
A seleção de covariáveis tem como objetivo a identificação de um modelo que seja simples e capaz de se ajustar bem aos dados. Para isso, foi usado o algoritmo stepwise considerando como critério de seleção o AIC (Akaike Information Criterion), que é dados pela formula:
AIC = −2ˆl + 2p
Onde ˆl é a verossimilhança maximizada e p o número de parâmetros estimados. O algoritmo inicia-se com todos os termos e seleciona-se para a exclusão o termo de menor contribuição para o ajuste. A cada interação o algoritmo verifica a possibilidade da inclusão de um termo já incluido. O processo encerra quando nenhum termo excluido tiver força o suficiente para entrar no modelo e nenhum termo incluido for fraco para sair do modelo.
3.3
Modelagem Estatística
Para a escolha da distribuição foi usado o critério AIC para comparar o modelo usando a distribuição binomial negativa e poison. A binomial negativa obteve um AIC igual a 1086.022 e a distrubuição poison obteve um AIC igual a 1086.002, assim foi escolhido o modelo binomial negativa com função de ligação logarítmica.
Após o uso do algoritmo stepwise na direção forward (iniciando o algoritmo com o modelo nulo e inserindo variáveis uma a uma até que se encontre o menor AIC, sendo o modelo limite o modelo saturado) as variável Taxa de desemprego e renda média foram excluidas do modelo. O novo modelo teve um AIC igual a 1082.5, então optamos por esse modelo pois ele produziu o menor AIC e abandonou dois termos.
O modelo apresentou Deviance nula igual a 1153.06 para 245 graus de liberdade e Deviance residual igual a 272.75 para 242 graus de liberdade.
PopTotal
Resposta
100
50
0
150
200
250
300
350
7 8 910
11
12
13
14
TaxaAnalfabetismo
Resposta
2
3
4
5
6
7
51015202530
IndiceGini
Resposta
2
4
6
8
0.40.50.60.70.8
pib
Resposta
2
3
4
5
6
7
9.0
9.5
10.0
10.5
11.0
11.5
12.0
Figure 2: Efeito da covariáveis
Table 2: Resumo das Estimativas para o Modelo Ajustado
Coeficiente X.Estimativa X.E..Erro.Padrão Estatística.Z X.Pr. . . Z.
(Intercept) -10.32189 1.22307 -8439 <2e-16 ***
PopTotal 0.87680 0.05331 16447 <2e-16 ***
TaxaAnalfabetismo 0.02406 0.01601 1502 0.0496 *
IndiceGini 1.93163 0.97732 1976 0.0481 *
pib 0.22433 0.09757 2299 0.0215 *
A tabela 2 possui as estimativas para os nossos ˆβi.
A figura 2 mostra o efeito marginal de cada variável, com as demais fixadas na média. Sendo possivel notar que ambas as variáveis tem influencia positiva no modelo.
0.0
0.5
1.0
1.5
2.0
2.5
3.0
0.0
1.0
2.0
3.0
Binomial Negativa
Percentil da N(0,1)
Resíduos
Figure 3: Envelope Simulado
3.4
Análise de Diagnóstico
Na Figura 3, é apresentado o gráfico dos resíduos e envelope simulados para uma banda de confiança de 95% de confiança. Com ele é possível identificar que o modelo se ajustou bem aos dados, pois os resíduos estão dispersos no interior dos envelopes simulados, sem aparente padrão sistemático dando indício de que o modelo está bem ajustado.
## Negative binomial model (using MASS package)
A distância de Cook mede a influência da observação i sobre todos n valores ajustados ˆYi. A figura 4 não
apresenta nenhuma observação com Di > 1, logo não temos medidas influentes.
3.5
Predição
Para fins de ilustração, foi criado dois perfis de cidade, um utilizando a média de todas as variaveis e o outro utilizando o minimo de cada variavel, o resultado pode ser visto na tabela 3.
Table 3: Predição
PopTotal TaxaAnalfabetismo IndiceGini pib Predição 6.946014 2.40000 0.3667000 8.792053 0.22 9.058222 12.43537 0.4929134 9.777929 2.90
4
Conclusão
No presente trabalho desenvolveu-se um modelo para predizer mortalidade por acidente de transporte em Goiáis, os modelos desenvolvidos apresentaram estatística de ajuste e medidas de diagnóstico satisfatórias,
0.00
0.04
0.08
Cook's distance
0
50
100
150
200
250
12
61
Distância de Cook
Index
Figure 4: Distância de Cook