• Nenhum resultado encontrado

Grupo 5

N/A
N/A
Protected

Academic year: 2021

Share "Grupo 5"

Copied!
8
0
0

Texto

(1)

Universidade Federal do Paraná Setor de Ciências Exatas Departamento de Estatística

CE225 – Modelos Lineares Generalizados

MODELAGEM DE DADOS DE ÓBITO POR AGRESSÃO NO ESTADO DO

MATO GROSSO

Hugo de Siqueira Pereira – GRR20170428 Isabella Possa Gonçalves – GRR20170377 Isadora Chiamulera – GRR20180797

(2)

1. RESUMO

O objetivo deste trabalho é gerar um modelo linear generalizado (GLM) para a mortalidade por agressão no estado do Mato Grosso, tendo como base variáveis demográficas e socioeconômicas. Para isso, as variáveis consideradas foram: população, proporção de população masculina, renda média do município, PIB, analfabetismo, desemprego e número de habitantes em três faixas etárias. Para modelagem dos dados foram testadas as distribuições Poisson e Binomial Negativa. Devido à grande dispersão dos dados, a distribuição Binomial Negativa apresentou um melhor ajuste. A seleção das variáveis foi realizada através do algoritmo stepwise, resultando em um modelo composto por três covariáveis que têm efeito sobre o número de óbitos por agressão nas cidades do estado. Os resíduos foram analisados graficamente e apresentaram resultados satisfatórios, além disso, não foram identificadas observações influentes.

2. INTRODUÇÃO

No Brasil as estatísticas e informações sobre mortalidade encontram-se na página do Departamento de Informática do Sistema Único de Saúde (DATASUS). A base de dados do Ministério da Saúde contém informações de todos os Estados brasileiros, sendo fornecidas pela Secretaria de Vigilância em Saúde em conjunto com as Secretarias Estaduais e Municipais de Saúde. Conforme estabelecido pela Organização Mundial da Saúde (OMS) a causa do óbito deve ser codificada, sendo informada através da Classificação Internacional de Doenças e Problemas Relacinados à Saúde (CID-10).

Desde 2011, além do CID a declaração de óbito possui um maior detalhamento de informações, auxiliando no monitoramento e nas decisões de políticas públicas referentes à violência, principalmente em casos de agressões contra mulheres, que antes eram negligenciadas pela falta de dados (IPEA). O objetivo deste trabalho é identificar possíveis covariáveis significativas para estimar o número de óbitos por agressão no Estado do Mato Grosso através de um modelo de regressão linear generalizado.

3. MATERIAL E MÉTODOS

A base de dados utilizada nesse estudo foi adquirida na página do Departamento de Informática do Sistema Único de Saúde (DATASUS) tendo um total de 141 observações. A variável resposta é o número de óbitos causado por agressão nos municípios do estado do Mato Grosso (variável discreta). Como possíveis variáveis explicativas do modelo de regressão linear generalizado foram selecionadas nove covariáveis, conforme descritas seguir:

• População: variável discreta - população residente referente ao ano de 2017; • Analfabetismo: variável contínua - taxa de analfabetismo referente ao ano de 2010; • Renda: variável contínua - renda média domiciliar per capita referente ao ano de 2010; • PIB: variável contínua - PIB per capita referente ao ano de 2013;

• Masculino: variável contínua - percentual de população residente do sexo masculino referente ao ano de 2012;

• 15 a 19: variável contínua - - população na faixa entre 15 e 19 anos referente ao ano de 2012; • 20 a 59: variável contínua - população na faixa entre 20 e 59 anos referente ao ano de 2012; • 60 ou mais: variável contínua - população na faixa de 60 anos ou mais referente ao ano de 2012 • Desemprego: variável contínua - taxa de desemprego referente ao ano de 2010.

(3)

Inicialmente foi realizada uma análise exploratória, sendo necessárias alterações nos dados brutos com o objetivo de compatibilizar escalas e evitar multicolinearidade. Os dados foram avaliados por meio de uma análise descritiva, onde foi verificado o comportamento de cada variável explicativa em relação à variável resposta. Em seguida, uma análise de correlação foi realizada com a intenção de verificar a existência de dependência linear entre as variáveis e possíveis candidatas à offsets.

Como a variável resposta trata-se de um dado de contagem, número de ocorrências de um evento, o modelo linear generalizado foi ajustado com distribuição Poisson e função de ligação canônica. Porém, o modelo não foi suficiente para acomodar a superdispersão dos dados, uma alternativa foi a utilização do modelo com distribuição Binomial Negativa, definido da seguinte forma:

𝑦𝑖|𝑥𝑖 ~ 𝐵𝑖𝑛𝑜𝑚𝑖𝑎𝑙𝑁𝑒𝑔𝑎𝑡𝑖𝑣𝑎(𝜇𝑖, 𝜙) 𝑙𝑜𝑔(𝜇𝑖) = 𝜂𝑖 = 𝛽0+ 𝛽1𝑥𝑖1+ 𝛽2𝑥𝑖2+. . . +𝛽𝑝𝑥𝑖𝑝

onde yi é a variável resposta; xi1, ..., xip são as variáveis explicativas; µi é a taxa de ocorrência da variável resposta; ϕ é o parâmetro de dispersão; β0, β1, ..., βp são parâmetros a serem estimados; e ηi é o preditor linear.

Os modelos foram comparados pelo Critério de Informação Akaike (AIC) e pelas respectivas verossimilhanças, em seguida as covariáveis foram selecionadas a partir do algoritmo de seleção automática stepwise e os resíduos analisados graficamente. Para o ajuste do modelo foram utilizadas as funções glm e glm.nb do software R, assim como os pacotes adicionais MASS, corrplot, car, ggplot2, gridExtra, multcomp, statmod e hnp.

4. RESULTADOS E DISCUSSÃO

A análise exploratória dos dados revelou uma grande disparidade entre as escalas das variáveis resposta, por esse motivo, alguns ajustes foram realizados. As variáveis população e renda foram multiplicadas por 0.01 e a variável PIB por 0.001. A população masculina foi transformada em taxa em relação à população total. A Tabela 1 apresenta um resumo das variáveis presentes na base de dados.

Variável Mínimo Média Máximo Desvio padrão

obitos 0 7.801 176 19.0359 populacao 9.31 237.20 5901.18 587.801 analfabetismo 2.40 11.79 25.80 4.47619 renda 2.638 5.573 11.279 1.58624 PIB 6.977 26.999 144.968 21.9275 masculino 0.4885 0.5246 0.5830 0.01461 X15a19 0.07008 0.09012 0.12580 0.00975 X20a59 0.3891 0.5251 0.6512 0.04498 X60oumais 0.02300 0.08475 0.1833 0.03380 desemprego 1.220 5.659 14.850 2.29090

(4)

A Figura 1 representa o histograma das variáveis. No primeiro gráfico destaca-se a grande assimetria da variável resposta, o ponto mais a direita deste gráfico corresponde à quantidade de óbitos na cidade de Cuiabá, com 176 ocorrências. Além disso, pode-se perceber que as variáveis população e PIB apresentam grande assimetria, para contornar essa situação os esses dados foram transformados pela função logarítmica.

Figura 1 - Gráficos descritivos das variáveis.

Uma análise de correlação entre as variáveis é apresentada na Figura 2. Verifica-se que as variáveis explicativas renda e analfabetismo são fortemente correlacionadas (0.72), com o objetivo de evitar multicolinearidade, esta variável foi excluída da base, pois apresentou menor correlação, em módulo, com a variável resposta (-0.36).

Analisando a variável resposta com as demais, o maior valor absoluto de correlação foi de 0.70, referente à variável população, neste caso, optou-se por não retirar a variável da base antes da realização do primeiro ajuste. A correlação positiva entre o número de óbitos e a renda mostrou um resultado diferente da expectativa, a ideia inicial era de que municípios com uma maior renda tivessem menores índices de violência. Além disso, a variável masculino apresentou correlação negativa com a variável resposta, municípios com maior proporção de mulheres apresentam maior número de óbitos por agressão.

(5)

Figura 2 - Análise de correlação entre as variáveis.

Inicialmente foi ajustado o modelo assumindo distribuição Poisson com função de ligação logarítmica (canônica). Para considerar o indicativo de superdispersão observado no histograma da variável resposta, foi ajustado um segundo GLM, com resposta Binomial Negativa e função de ligação logarítmica. Os modelos foram comparados de acordo com o AIC e a verossimilhança, conforme a Tabela 2.

Modelo AIC LogLik

Poisson 631.57 -306.79 Binomial Negativo 609.38 -294.69

Tabela 2 - Critérios para seleção do modelo.

O modelo que apresentou menor AIC e maior verossimilhança foi o modelo Binomial Negativo. Adicionalmente, a adequação dos modelos foi verificada através dos gráficos meio Normais com envelopes simulados (Figura 3). Nota-se uma melhor aderência dos dados ao modelo Binomial Negativo.

(6)

Figura 3 - Comparação entre os resíduos com envelopes simulados para os modelos Poisson e Binomial Negativo.

Com a distribuição definida, seguiu-se para a seleção das covariáveis através do algoritmo de seleção automática stepwise. O modelo selecionado teve deviance residual de 166 com 137 graus de liberdade e AIC de 601.11. As estimativas e os erros padrões do modelo final são apresentados na Tabela 3:

Coeficiente Estimador Erro padrão significância Nível de

Intercepto -10.167 2.32589 0.1% populacao 1.1761 0.06927 0.1% renda 0.06238 0.03728 10% masculino 10.2673 4.07150 5%

Tabela 3 – Resumo do ajuste.

O teste da razão de verossimilhança do modelo inicial e do modelo reduzido, que indica a significância estatística das variáveis inclusas no modelo, apresentou um p-valor (0,88) não significativo, portanto pode-se concluir que o modelo restrito se ajusta aos dados amostrais tão bem quanto o modelo considerando todas as covariáveis.

O modelo final pode ser expresso da seguinte maneira na escala do preditor:

log(𝜇𝑖) = −10.1671 + 1.1761 ∗ 𝑝𝑜𝑝𝑢𝑙𝑎𝑐𝑎𝑜𝑖+ 0.06238 ∗ 𝑟𝑒𝑛𝑑𝑎𝑖+ 10.2673 ∗ 𝑚𝑎𝑠𝑐𝑢𝑙𝑖𝑛𝑜𝑖

Os coeficientes positivos dos estimadores das três variáveis do modelo final indicam que municípios mais populosos, maior concentração de renda e maior proporção de homens apresentam maiores índices de óbitos por agressão.Um resultado que difere da expectativa inicial é a estimativa positiva para o coeficiente masculino, ela aponta uma maior quantidade de óbitos em cidades com maior proporção de homens.

(7)

Os resíduos do modelo escolhido foram analisados visualmente através dos gráficos (Figura 4). No gráfico de resíduos quantílicos aleatorizados versus valores ajustado verifica-se resíduos centrados na média, com variância constante e ausência de outliers. O gráfico quantil-quantil para resíduos quantílicos aleatorizados apresenta um bom ajuste à reta normal. No gráfico de resíduos com envelopes simulados as observações ficaram dentro das bandas de confiança, sendo que algumas ficaram bem próximas ao limite superior. Pelo gráfico de distância de Cook dois pontos aparecem em destaque, porém pela escala da distância não são definidos como observações influentes. Dessa maneira não foi necessária a realização de novos ajustes.

Figura 4 - Gráfico de resíduos quantílicos aleatorizados versus valores ajustados; Gráfico Quantil-quantil para resíduos quantílicos aleatorizados; Gráfico normal de probabilidade com envelope simulado; Distância de Cook.

5. CONCLUSÃO

O estudo mostrou que entre as distribuições testadas, a Binomial Negativa teve melhor ajuste devido à grande dispersão dos dados. O modelo revelou o efeito de condições demográficas (população e proporção da população masculina) e sócio-econômicas (renda) no número de óbitos por agressão. Dentre elas, a que obteve o menor nível de significância foi a variável renda, (apenas 10%). Verificou-se que variáveis demográficas tem maior relação com a variável resposta.

O resultado positivo para o estimador da variável população é coerente com a realidade e sugere que quanto maior a cidade e maior a incidência de óbitos. Para uma análise futura, seria interessante verificar a quantidade de óbitos por agressão entre os sexos masculino e feminino. Além disso, a disponibilização de outros dados como índice de alcoolismo e uso de drogas também podem ser significativos.

(8)

6. REFERÊNCIAS

DATASUS. Óbitos por causas externas. Disponível em:

<http://tabnet.datasus.gov.br/cgi/sim/Obitos_Causas_Ext_1996_2012.pdf>

IPEA. Atlas de violência. Disponível em:

<http://www.ipea.gov.br/atlasviolencia/quem/5/glossario>

IPEA. Notícias. Disponível em:

<http://www.ipea.gov.br/portal/index.php?option=com_alphacontent&ordering=3&li mitstart=11160&limit=20>

Referências

Documentos relacionados

A) Fornecer aos usuários os dados básicos e essenciais da formação do resultado do exercício, obtido através da dedução das despesas operacionais obtendo-se o lucro líquido

A) A não ser quando assessora uma personalidade, não é função de um Jornalista em assessoria de imprensa realizar a promoção pessoal de um gestor. B) Em função

Esse passo ´ e importante pois embora o modelo averaging obtido na se¸c˜ ao 2.2 tenha deixado de ser h´ıbrido, ou seja, com dinˆ amicas distintas chaveadas, ele ainda continua

Os planos de contribuição definida CD são planos onde a empresa patrocinadora faz contribuições a um fundo de pensão em benefício ao funcionário, porém a mesma não

La instalación del Cuarto para San Juan de la Cruz es una experiencia compleja para los espectadores: es temporal como el teatro y todo lo que no se puede abarcar en un momento;

Diante destes números, exemplos não faltam de pessoas que apoiam o ensino de programação para crianças. Assim como Barack Obama e Bill Gates.. Não se limite a fazer

Nos dois anos agrícolas, os decréscimos no rendimento de grãos com o aumento na irregularidade da distribuição espacial de plantas na linha foram ocasionados pela redução do número

The 1.46r ImageJ software was used for determining the lum- bosacral angle according to the following methods: the four variations Cobb (Cobb L1-S1 ; Cobb L1-L5 ; Cobb L2-S1 e