Universidade Federal do Paraná Departamento de Estatística
MODELAGEM DA MORTALIDADE POR COMPLICAÇÕES
DE ASSISTÊNCIA MÉDICA E CIRÚRGICA NA BAHIA
Felipe Cordeiro Melo - GRR20170417 Nilton da Silva Reis Filho - GRR20170371 Willian Henrique de Paula Ramos - GRR20170386
Modelos Lineares Generalizados
Curitiba,
Sumário
1 Resumo 2 2 Introdução 2 3 Materiais e métodos 2 3.1 Métodos . . . 3 4 Resultados e discussão 3 4.1 Análise descritiva . . . 3 4.2 Ajuste do modelo . . . 5 4.3 Análise do diagnóstico . . . 7 5 Considerações finais 101
Resumo
Foram utilizados Modelos Lineares Generalizados, na tentativa de explicar taxa de mortalidade provindas de complicações por assistência médica e cirúrgica no estado da Bahia. Dois ajustes foram realizados e analisados para posteriores conclusões, no primeiro ajuste foi utilizado como distribuição proposta a poisson, e função de ligação logarítmica, porém, apesar de apresentar visualmente um modelo bem ajustado, sua interpretação acaba sendo restringida e até mesmo equivocada pela enorme quantidade de observação zeradas na base. Dessa forma, optou-se pelo segundo ajuste utilizando-se técnicas para tratar os dados com superdisperção inflacionados em zero, para este segundo modelo, usou-se a distribuição Poisson inflacionados de zeros (ZIP) com a mesma função de ligação da anterior. Com esse novo ajuste, obtivemos resultados mais próximos da realidade e algumas conclusões a respeito da influência das covariáveis na variável resposta em questão puderam ser obtidas.
2
Introdução
Diariamente em diversos meios de comunicações, notícias de brasileiros mortos dentro de hospitais, vítimas de um mal tratamento médico ou até mesmo a falta dele, são extremamente comuns em nosso país. O Estudo a seguir visa explicar se fatores econômicos e sociais de uma determinada região podem influenciar em óbitos por complicações de assistência médica. Maior do Nordeste em território e população, a Bahia foi o estado escolhido para análise. A partir do estudo a seguir, questões como: Qualidade dos médicos que atendem no Estado, Óbitos pela falta de hospitais em regiões mais afastadas e até mesmo se a renda e nível de educação interferem para possíveis problemas de atendimento poderão ser analisados e incorporados ao modelo.
3
Materiais e métodos
Os dados foram obtidos a partir do levantamento por parte do governo (SUS) entre os anos de 1996 á 2017, e foram fornecidos pelo tabnet do DATASUS para estudo. O conjunto extraído do site é composto por 417 linhas (cada uma referente a um município do estado da Bahia) e 8 variáveis, são elas:
• OBT_OC: Número de óbitos por ocorrência de complicações de assistência médica e cirúrgica);
• TX_ANALF: Taxa de analfabetismo no Estado; • RENDA_PC: Renda média domiciliar per capita; • TX_DESEMPREGO: Taxa de desemprego; • PIB_PC: Produto interno bruto per capita; • IDHM: Índice de desenvolvimento humano;
• POP_TOTAL: Número de habitantes de cada cidade pelo censo 2010;
Após a seleção das covariáveis, foi utilizado o software livre R para aplicação dos métodos de análise. Como suporte, alguns pacotes auxiliaram na construção dos diagnósticos e estudos do modelo, são eles: gamlss, car, MASS e tidyverse.
3.1 Métodos
Dois ajustes foram realizados para fins analíticos e comparativos, nos dois ajustes foram utilizados a distribuição poisson com função de ligação log de duas formas diferentes (com e sem inflação em zeros), e devido ao pequeno número de covariáveis da base, optou-se pela não utilização de métodos para seleção delas.
Inicialmente, foi realizada a estimação dos parâmetros do modelo referente ao primeiro ajuste via função glm(), que apresentaram significância e coeficientes distintos. Em seguida realizou-se uma análise dos resíduos que apresentaram problemas devido ao excesso de zeros na coluna da variável resposta, dessa forma um novo modelo foi ajustado utilizando-se a distribuição Poisson inflacionados de zeros (ZIP), modelo que permitiu meio de análises gráficas e exploratórias, um ajuste satisfatório para estudo completo das variáveis.
4
Resultados e discussão
4.1 Análise descritiva
Para entender-se as variáveis envolvidas no problema, foi realizado uma análise descritiva da base de dados. Iniciando com o estudo da variável resposta, OBT_OC, tem-se na figura 1 a seguinte distribuição dos valores:
0 100 200 300 400 0 10 20
Mortes por complicações de assistência médica e cirurgica
Cidades por registros
Figura 1: Distribuição da quantidade de mortes por complicações de assistência médica e cirurgica
Observa-se que apenas 25 das 417 cidades da Bahia apresentaram algum registro de ocorrência de morte por complicações de assistência médica e cirúrgica. Sendo assim, desconfiou-se que algumas cidades não possuíam hospitais e por essa razão não teriam registros da variável de interesse. A partir do perfil dos hospitais baianos, que pode ser encontrado no site da secretária de saúde da Bahia, foi possível constatar a existência de aproximadamente 65 hospitais na Bahia, onde a maioria deles estão nas cidades de Feira de Santana e Salvador, ambas as mais populosas da Bahia. É possível também observar que algumas cidades possuem hospitais mas não possuem ocorrência de morte por complicações de assistência médica ou cirúrgica, como as cidades de Ilhéus e Seabra.
Na figura 2 pode-se observar a distribuição das variáveis contidas na base de dados e suas respectivas correlações com as demais variáveis.
Corr: −0.277 Corr: 0.455 Corr: −0.676 Corr: 0.049 Corr: −0.309 Corr: 0.182 Corr: 0.0598 Corr: −0.34 Corr: 0.33 Corr: 0.281 Corr: 0.34 Corr: −0.823 Corr: 0.842 Corr: 0.268 Corr: 0.339 Corr: 0.786 Corr: −0.281 Corr: 0.481 Corr: 0.0669 Corr: 0.0958 Corr: 0.337
OBT_OC TX_ANALF RENDA_PC TX_DESEMPREGO PIB_PC IDHM POP_TOTAL
OBT_OC TX_ANALF REND A_PC TX_DESEMPREGO PIB_PC IDHM POP_T O T AL
0 5 10 15 20 25 10 20 30 40 250 500 750 1000 5 10 15 20 25 0 50000 100000 150000 0.5 0.6 0.7 0e+00 1e+06 2e+06 0.0 0.2 0.4 0.6 10 20 30 40 250 500 750 1000 5 10 15 20 25 0 50000 100000 150000 0.5 0.6 0.7 0e+00 1e+06 2e+06
Figura 2: Correlação e distribuição das variáveis
É possível visualizar na figura acima que as maiores correlações entre as variáveis são entre a variável resposta e as covariáveis POP_TOTAL e RENDA_PC. Ambas as covariáveis podem apresentar tais correlações por talvez incorporarem informações a respeito de existência de hospitais na cidade e o fluxo de pacientes atendidos nos mesmos.
4.2 Ajuste do modelo
Por conta da natureza da variável resposta, considerou-se em um primeiro ajuste o modelo especificado abaixo, considerando a distribuição Poisson e a função de ligação logarítmica.
Y |xi ∼ P oisson(λi) log{λi} = ˆβ0+ ˆβ1x1+ ˆβ2x2 + ˆβ3x3+ ˆβ4x4+ ˆβ5x5+ ˆβ6x6 onde: x1 : TX_ANALF x2 : RENDA_PC x3 : TX_DESEMPREGO x4 : log(PIB_PC) x5 : IDHM x6 : log(POP_TOTAL)
As estimativas dos parâmetros do modelo, juntamente com seus respectivos erros padrões podem ser visto na tabela 1.
Tabela 1: Estimativas dos parâmetros para o modelo GLM Poisson
Paramêtros Estimativas Erro Padrão Valor z P-valor
Intercepto -42.9595 8.6618 -4.960 < 0.001 TX_ANALF -0.0058 0.0708 -0.083 0.934 RENDA_PC -0.01385 0.0024 -5.737 < 0.001 TX_DESEMPREGO-0.1787 0.0607 -2.942 0.003 log(PIB_PC) -0.466535 0.3841 -1.214 0.2245 IDHM 52.5819 10.4444 5.034 < 0.001 log(POP_TOTAL) 1.7743 0.2496 7.108 < 0.001
Das variáveis utilizadas no ajuste apenas log(RENDA_PC) e TX_ANALF não foram significativas no ajuste. Na seção 4.3 será visto o diagnóstico desse modelo e as respectivas conclusões.
Pelo modelo especificado acima não incorporar a grande quantidade de zeros presentes na variável resposta, considerou-se um ajuste alternativo para este problema. Foi considerado um modelo de mistura que permitisse a adição de uma distribuição que degenerasse a grande quantidade de zeros. Para isso, foi utilizado o modelo Poisson inflacionado de zeros (ZIP), com sua especificação apresenta abaixo.
Yi ∼ 0 com probabilidade πi
P oisson(λi) com probabilidade 1 − πi
Y |xi ∼ ZIP (λi, πi) log{ πi 1 − πi } = ˆβ0 + ˆβ1x4+ ˆβ2x6 log{λi} = ˆβ0+ ˆβ1x1 + ˆβ2x2+ ˆβ3x3+ ˆβ4x5 onde: x1 : TX_ANALF x2 : RENDA_PC x3 : TX_DESEMPREGO x4 : log(PIB_PC) x5 : IDHM x6 : log(POP_TOTAL)
A especificação das covariáveis log(PIB_PC) e log(POP_TOTAL) para log{1−πiπi } deu por entender-se que ambas pudessem incorporar informação a respeito de possíveis causadores de ausência na quantidade de mortes por complicações de assistência médica e cirúrgica, como falta de hospitais, baixo volume de pacientes e informações perdidas. Abaixo, nas tabelas 2 e 3, é visto as estimativas para os parâmetros de cada um dos β0s presentes no modelo.
Tabela 2: Estimativas para os parâmetros associados a distribuição degenerada em zero
Paramêtros Estimativas Erro Padrão Valor t P-valor
Intercepto 7.6527 5.0702 1.509 0.132
log(PIB_PC) 1.5591 0.7418 -3.696 0.0362
log(POP_TOTAL) -1.9275 0.4836 -3.986 < 0.001
Tabela 3: Estimativas para os parâmetros associados a distribuição para contagem
Paramêtros Estimativas Erro Padrão Valor z P-valor
Intercepto -2.5646 7.3112 -0.351 0.7259
TX_ANALF -0.1679 0.0836 -2.009 0.0452
RENDA_PC 0.0009 0.0012 0.719 0.4723
TX_DESEMPREGO-0.0771 0.0768 -1.004 0.3162
IDHM 8.9898 9.5157 0.945 0.3453
Pode-se verificar que as duas covariáveis utilizadas para o parâmetro da distribuição associada aos zeros foram significativas a um nível de 5%. Por outro lado, para a distruibição de contagem apenas a covariável TX_ANALF foi significativa, demonstrando que a escolha das variáveis explicativas não foram as melhores para o ajuste realizado.
4.3 Análise do diagnóstico
A análise do diagnóstico foi realizada para se verificar a qualidade dos ajustes feitos acima e ratificar a importância do segundo modelo em relação ao primeiro.
−10 −8 −6 −4 −2 0 2 −2 0 2 4 Predicted values Residuals Residuals vs Fitted 388 69 147 0 100 200 300 400 0 20 40 60 Obs. number Cook's distance Cook's distance 336 131 177 0.0 0.5 1.0 1.5 2.0 2.5 3.0 0 1 2 3 4 Theoretical quantiles Residuals
Figura 3: Diagnósticos para o GLM Poisson
Aparentemente, há uma certa quantidade de pontos mal ajustado, as distâncias de cook para os pontos estão extremamente altas. O terceiro gráfico, meio-normal, pode-se notar que alguns pontos estão fora dos envelopes simulados. Com os indícios de que o modelo apresentava falta de ajuste para alguns pontos, foi verificado individualmente quais municípios correspondiam aos pontos indicados acima, em sua maioria, os pontos mal ajustados foram onde houve ocorrência de morte por complicações de assistência médica e cirúrgica. O fato de o modelo se ajustar bem apenas para as observações zeradas na variável resposta se dá pelo fato de o modelo não incorporar informações sobre os zeros, sendo indicado o uso de um modelo que permita tal especificação para um ajuste mais adequado.
No diagnóstico de resíduos do modelo que incorpora a grande quantidade de zeros, já podemos analisar uma grande melhora no ajuste em comparação com o anterior. Os resíduos estão se distribuindo de forma aleatória, sem nenhum padrão de aumento de variabilidade, concluímos, a princípio, que o problema da superdispersão foi resolvido, como podemos analisar no gráfico de Resíduos x Valores Ajustados e existe uma boa adesão à Distribuição Normal, como podemos visualizar no gráfico de Densidade do Resíduos Quantílicos e no gráfico Q-Q Normal dos mesmos. Portanto, temos boas evidências de que o modelo ZIP escolhido se ajusta bem aos dados.
0 5 10 15 20 25 30 35
−2
0
2
4
Against Fitted Values
Fitted Values Quantile Residuals 0 100 200 300 400 −2 0 2 4 Against Index Index Quantile Residuals −2 0 2 4 0.0 0.2 0.4 Density Estimated Quantile Residuals Density −3 −2 −1 0 1 2 3 −2 0 2 4 Normal Q−Q Plot Theoretical Quantiles Sample Quantiles
Figura 4: Diagnósticos para o modelo ZIP
Há apenas uma ressalva a se fazer para um ponto que se destacou em quase todos os gráficos. Essa observação foi checada e obteve-se que ela corresponde a cidade de Feira de Santana, que apesar de ser uma das mais populosas, apresenta um PIB per capita parecido com as demais cidades do estado. Sendo assim considerou-se o ajuste do modelo sem a referida observação a fim de se verificar alguma influência significativa no ajuste.
0 5 10 15 20 25
−2
0
2
Against Fitted Values
Fitted Values Quantile Residuals 0 100 200 300 400 −2 0 2 Against Index Index Quantile Residuals −2 0 2 4 0.0 0.2 0.4 Density Estimated Quantile Residuals Density −3 −2 −1 0 1 2 3 −2 0 2 Normal Q−Q Plot Theoretical Quantiles Sample Quantiles
Figura 5: Diagnósticos para o modelo ZIP sem possível outlier
É possível notar que o comportamento do modelo se altera de forma significativa sem os registros de Feira de Santana, apesar de poder ser considerado um ponto influente, a retirada dessa observação para ajuste de um modelo final poderia ser mais prejudicial para análise no geral, considerando que a cidade é uma das poucas que apresentam valores para variável resposta. Sendo assim, decidiu-se proseguir a análise considerando o modelo com todas as observações.
de liberdade, utilizando o teste de chi-quadrado de boa adequação do modelo temos:
D ∼ χ2409
o teste nos resulta em um p-valor de aproximadamente 1. Esses resultados favorecem o modelo e a hipótese de um bom ajuste dele para os dados propostos.
5
Considerações finais
O estudo de morte por complicações de assistência médica e cirúrgica no estado da Bahia, apresentou aspectos interessantes e desafiadores do ponto de vista de modelagem usando modelos lineares generalizados. A grande quantidade de zeros da variável resposta foi a principal dificuldade encontrada no ajuste dos modelos. Para contornar tal problema, o uso de um modelo de mistura, no caso o de poisson com inflação de zeros, se mostrou uma alternativa viável que produziu resultados razoáveis para o problema em questão.
Para finalizar, recomenda-se para estudos futuros a utilização de um conjunto de covariáveis com uma configuração diferente das apresentadas aqui. Uma especificação alternativa também pode ser utilizada para trabalhar com o problema da grande quantidade de zeros a fim de se obter um ajuste melhor.