Grupo 8

(1)

Universidade Federal do Paraná Departamento de Estatística

MODELAGEM DA MORTALIDADE POR COMPLICAÇÕES

DE ASSISTÊNCIA MÉDICA E CIRÚRGICA NA BAHIA

Felipe Cordeiro Melo - GRR20170417 Nilton da Silva Reis Filho - GRR20170371 Willian Henrique de Paula Ramos - GRR20170386

Modelos Lineares Generalizados

Curitiba,

(2)

Sumário

1 Resumo 2 2 Introdução 2 3 Materiais e métodos 2 3.1 Métodos . . . 3 4 Resultados e discussão 3 4.1 Análise descritiva . . . 3 4.2 Ajuste do modelo . . . 5 4.3 Análise do diagnóstico . . . 7 5 Considerações finais 10

(3)

1 Resumo

Foram utilizados Modelos Lineares Generalizados, na tentativa de explicar taxa de mortalidade provindas de complicações por assistência médica e cirúrgica no estado da Bahia. Dois ajustes foram realizados e analisados para posteriores conclusões, no primeiro ajuste foi utilizado como distribuição proposta a poisson, e função de ligação logarítmica, porém, apesar de apresentar visualmente um modelo bem ajustado, sua interpretação acaba sendo restringida e até mesmo equivocada pela enorme quantidade de observação zeradas na base. Dessa forma, optou-se pelo segundo ajuste utilizando-se técnicas para tratar os dados com superdisperção inflacionados em zero, para este segundo modelo, usou-se a distribuição Poisson inflacionados de zeros (ZIP) com a mesma função de ligação da anterior. Com esse novo ajuste, obtivemos resultados mais próximos da realidade e algumas conclusões a respeito da influência das covariáveis na variável resposta em questão puderam ser obtidas.

2 Introdução

Diariamente em diversos meios de comunicações, notícias de brasileiros mortos dentro de hospitais, vítimas de um mal tratamento médico ou até mesmo a falta dele, são extremamente comuns em nosso país. O Estudo a seguir visa explicar se fatores econômicos e sociais de uma determinada região podem influenciar em óbitos por complicações de assistência médica. Maior do Nordeste em território e população, a Bahia foi o estado escolhido para análise. A partir do estudo a seguir, questões como: Qualidade dos médicos que atendem no Estado, Óbitos pela falta de hospitais em regiões mais afastadas e até mesmo se a renda e nível de educação interferem para possíveis problemas de atendimento poderão ser analisados e incorporados ao modelo.

3 Materiais e métodos

Os dados foram obtidos a partir do levantamento por parte do governo (SUS) entre os anos de 1996 á 2017, e foram fornecidos pelo tabnet do DATASUS para estudo. O conjunto extraído do site é composto por 417 linhas (cada uma referente a um município do estado da Bahia) e 8 variáveis, são elas:

(4)

• OBT_OC: Número de óbitos por ocorrência de complicações de assistência médica e cirúrgica);

• TX_ANALF: Taxa de analfabetismo no Estado; • RENDA_PC: Renda média domiciliar per capita; • TX_DESEMPREGO: Taxa de desemprego; • PIB_PC: Produto interno bruto per capita; • IDHM: Índice de desenvolvimento humano;

• POP_TOTAL: Número de habitantes de cada cidade pelo censo 2010;

Após a seleção das covariáveis, foi utilizado o software livre R para aplicação dos métodos de análise. Como suporte, alguns pacotes auxiliaram na construção dos diagnósticos e estudos do modelo, são eles: gamlss, car, MASS e tidyverse.

3.1 Métodos

Dois ajustes foram realizados para fins analíticos e comparativos, nos dois ajustes foram utilizados a distribuição poisson com função de ligação log de duas formas diferentes (com e sem inflação em zeros), e devido ao pequeno número de covariáveis da base, optou-se pela não utilização de métodos para seleção delas.

Inicialmente, foi realizada a estimação dos parâmetros do modelo referente ao primeiro ajuste via função glm(), que apresentaram significância e coeficientes distintos. Em seguida realizou-se uma análise dos resíduos que apresentaram problemas devido ao excesso de zeros na coluna da variável resposta, dessa forma um novo modelo foi ajustado utilizando-se a distribuição Poisson inflacionados de zeros (ZIP), modelo que permitiu meio de análises gráficas e exploratórias, um ajuste satisfatório para estudo completo das variáveis.

4 Resultados e discussão

4.1 Análise descritiva

Para entender-se as variáveis envolvidas no problema, foi realizado uma análise descritiva da base de dados. Iniciando com o estudo da variável resposta, OBT_OC, tem-se na figura 1 a seguinte distribuição dos valores:

(5)

0 100 200 300 400 0 10 20

Mortes por complicações de assistência médica e cirurgica

Cidades por registros

Figura 1: Distribuição da quantidade de mortes por complicações de assistência médica e cirurgica

Observa-se que apenas 25 das 417 cidades da Bahia apresentaram algum registro de ocorrência de morte por complicações de assistência médica e cirúrgica. Sendo assim, desconfiou-se que algumas cidades não possuíam hospitais e por essa razão não teriam registros da variável de interesse. A partir do perfil dos hospitais baianos, que pode ser encontrado no site da secretária de saúde da Bahia, foi possível constatar a existência de aproximadamente 65 hospitais na Bahia, onde a maioria deles estão nas cidades de Feira de Santana e Salvador, ambas as mais populosas da Bahia. É possível também observar que algumas cidades possuem hospitais mas não possuem ocorrência de morte por complicações de assistência médica ou cirúrgica, como as cidades de Ilhéus e Seabra.

Na figura 2 pode-se observar a distribuição das variáveis contidas na base de dados e suas respectivas correlações com as demais variáveis.

(6)

Corr: −0.277 Corr: 0.455 Corr: −0.676 Corr: 0.049 Corr: −0.309 Corr: 0.182 Corr: 0.0598 Corr: −0.34 Corr: 0.33 Corr: 0.281 Corr: 0.34 Corr: −0.823 Corr: 0.842 Corr: 0.268 Corr: 0.339 Corr: 0.786 Corr: −0.281 Corr: 0.481 Corr: 0.0669 Corr: 0.0958 Corr: 0.337

OBT_OC TX_ANALF RENDA_PC TX_DESEMPREGO PIB_PC IDHM POP_TOTAL

OBT_OC TX_ANALF REND A_PC TX_DESEMPREGO PIB_PC IDHM POP_T O T AL

0 5 10 15 20 25 10 20 30 40 250 500 750 1000 5 10 15 20 25 0 50000 100000 150000 0.5 0.6 0.7 0e+00 1e+06 2e+06 0.0 0.2 0.4 0.6 10 20 30 40 250 500 750 1000 5 10 15 20 25 0 50000 100000 150000 0.5 0.6 0.7 0e+00 1e+06 2e+06

Figura 2: Correlação e distribuição das variáveis

É possível visualizar na figura acima que as maiores correlações entre as variáveis são entre a variável resposta e as covariáveis POP_TOTAL e RENDA_PC. Ambas as covariáveis podem apresentar tais correlações por talvez incorporarem informações a respeito de existência de hospitais na cidade e o fluxo de pacientes atendidos nos mesmos.

4.2 Ajuste do modelo

Por conta da natureza da variável resposta, considerou-se em um primeiro ajuste o modelo especificado abaixo, considerando a distribuição Poisson e a função de ligação logarítmica.

Y |xi ∼ P oisson(λi) log{λi} = ˆβ0+ ˆβ1x1+ ˆβ2x2 + ˆβ3x3+ ˆβ4x4+ ˆβ5x5+ ˆβ6x6 onde: x1 : TX_ANALF x2 : RENDA_PC x3 : TX_DESEMPREGO x4 : log(PIB_PC) x5 : IDHM x6 : log(POP_TOTAL)

(7)

As estimativas dos parâmetros do modelo, juntamente com seus respectivos erros padrões podem ser visto na tabela 1.

Tabela 1: Estimativas dos parâmetros para o modelo GLM Poisson

Paramêtros Estimativas Erro Padrão Valor z P-valor

Intercepto -42.9595 8.6618 -4.960 < 0.001 TX_ANALF -0.0058 0.0708 -0.083 0.934 RENDA_PC -0.01385 0.0024 -5.737 < 0.001 TX_DESEMPREGO-0.1787 0.0607 -2.942 0.003 log(PIB_PC) -0.466535 0.3841 -1.214 0.2245 IDHM 52.5819 10.4444 5.034 < 0.001 log(POP_TOTAL) 1.7743 0.2496 7.108 < 0.001

Das variáveis utilizadas no ajuste apenas log(RENDA_PC) e TX_ANALF não foram significativas no ajuste. Na seção 4.3 será visto o diagnóstico desse modelo e as respectivas conclusões.

Pelo modelo especificado acima não incorporar a grande quantidade de zeros presentes na variável resposta, considerou-se um ajuste alternativo para este problema. Foi considerado um modelo de mistura que permitisse a adição de uma distribuição que degenerasse a grande quantidade de zeros. Para isso, foi utilizado o modelo Poisson inflacionado de zeros (ZIP), com sua especificação apresenta abaixo.

Yi ∼      0 com probabilidade πi

P oisson(λi) com probabilidade 1 − πi

Y |xi ∼ ZIP (λi, πi) log{ πi 1 − πi } = ˆβ0 + ˆβ1x4+ ˆβ2x6 log{λi} = ˆβ0+ ˆβ1x1 + ˆβ2x2+ ˆβ3x3+ ˆβ4x5 onde: x1 : TX_ANALF x2 : RENDA_PC x3 : TX_DESEMPREGO x4 : log(PIB_PC) x5 : IDHM x6 : log(POP_TOTAL)

(8)

A especificação das covariáveis log(PIB_PC) e log(POP_TOTAL) para log{_1−πiπi } deu por entender-se que ambas pudessem incorporar informação a respeito de possíveis causadores de ausência na quantidade de mortes por complicações de assistência médica e cirúrgica, como falta de hospitais, baixo volume de pacientes e informações perdidas. Abaixo, nas tabelas 2 e 3, é visto as estimativas para os parâmetros de cada um dos β0s presentes no modelo.

Tabela 2: Estimativas para os parâmetros associados a distribuição degenerada em zero

Paramêtros Estimativas Erro Padrão Valor t P-valor

Intercepto 7.6527 5.0702 1.509 0.132

log(PIB_PC) 1.5591 0.7418 -3.696 0.0362

log(POP_TOTAL) -1.9275 0.4836 -3.986 < 0.001

Tabela 3: Estimativas para os parâmetros associados a distribuição para contagem

Paramêtros Estimativas Erro Padrão Valor z P-valor

Intercepto -2.5646 7.3112 -0.351 0.7259

TX_ANALF -0.1679 0.0836 -2.009 0.0452

RENDA_PC 0.0009 0.0012 0.719 0.4723

TX_DESEMPREGO-0.0771 0.0768 -1.004 0.3162

IDHM 8.9898 9.5157 0.945 0.3453

Pode-se verificar que as duas covariáveis utilizadas para o parâmetro da distribuição associada aos zeros foram significativas a um nível de 5%. Por outro lado, para a distruibição de contagem apenas a covariável TX_ANALF foi significativa, demonstrando que a escolha das variáveis explicativas não foram as melhores para o ajuste realizado.

4.3 Análise do diagnóstico

A análise do diagnóstico foi realizada para se verificar a qualidade dos ajustes feitos acima e ratificar a importância do segundo modelo em relação ao primeiro.

(9)

−10 −8 −6 −4 −2 0 2 −2 0 2 4 Predicted values Residuals Residuals vs Fitted 388 69 147 0 100 200 300 400 0 20 40 60 Obs. number Cook's distance Cook's distance 336 131 177 0.0 0.5 1.0 1.5 2.0 2.5 3.0 0 1 2 3 4 Theoretical quantiles Residuals

Figura 3: Diagnósticos para o GLM Poisson

Aparentemente, há uma certa quantidade de pontos mal ajustado, as distâncias de cook para os pontos estão extremamente altas. O terceiro gráfico, meio-normal, pode-se notar que alguns pontos estão fora dos envelopes simulados. Com os indícios de que o modelo apresentava falta de ajuste para alguns pontos, foi verificado individualmente quais municípios correspondiam aos pontos indicados acima, em sua maioria, os pontos mal ajustados foram onde houve ocorrência de morte por complicações de assistência médica e cirúrgica. O fato de o modelo se ajustar bem apenas para as observações zeradas na variável resposta se dá pelo fato de o modelo não incorporar informações sobre os zeros, sendo indicado o uso de um modelo que permita tal especificação para um ajuste mais adequado.

No diagnóstico de resíduos do modelo que incorpora a grande quantidade de zeros, já podemos analisar uma grande melhora no ajuste em comparação com o anterior. Os resíduos estão se distribuindo de forma aleatória, sem nenhum padrão de aumento de variabilidade, concluímos, a princípio, que o problema da superdispersão foi resolvido, como podemos analisar no gráfico de Resíduos x Valores Ajustados e existe uma boa adesão à Distribuição Normal, como podemos visualizar no gráfico de Densidade do Resíduos Quantílicos e no gráfico Q-Q Normal dos mesmos. Portanto, temos boas evidências de que o modelo ZIP escolhido se ajusta bem aos dados.

(10)

0 5 10 15 20 25 30 35

−2

0

2

4

Against Fitted Values

Fitted Values Quantile Residuals 0 100 200 300 400 −2 0 2 4 Against Index Index Quantile Residuals −2 0 2 4 0.0 0.2 0.4 Density Estimated Quantile Residuals Density −3 −2 −1 0 1 2 3 −2 0 2 4 Normal Q−Q Plot Theoretical Quantiles Sample Quantiles

Figura 4: Diagnósticos para o modelo ZIP

Há apenas uma ressalva a se fazer para um ponto que se destacou em quase todos os gráficos. Essa observação foi checada e obteve-se que ela corresponde a cidade de Feira de Santana, que apesar de ser uma das mais populosas, apresenta um PIB per capita parecido com as demais cidades do estado. Sendo assim considerou-se o ajuste do modelo sem a referida observação a fim de se verificar alguma influência significativa no ajuste.

0 5 10 15 20 25

−2

0

2

Against Fitted Values

Fitted Values Quantile Residuals 0 100 200 300 400 −2 0 2 Against Index Index Quantile Residuals −2 0 2 4 0.0 0.2 0.4 Density Estimated Quantile Residuals Density −3 −2 −1 0 1 2 3 −2 0 2 Normal Q−Q Plot Theoretical Quantiles Sample Quantiles

Figura 5: Diagnósticos para o modelo ZIP sem possível outlier

É possível notar que o comportamento do modelo se altera de forma significativa sem os registros de Feira de Santana, apesar de poder ser considerado um ponto influente, a retirada dessa observação para ajuste de um modelo final poderia ser mais prejudicial para análise no geral, considerando que a cidade é uma das poucas que apresentam valores para variável resposta. Sendo assim, decidiu-se proseguir a análise considerando o modelo com todas as observações.

(11)

de liberdade, utilizando o teste de chi-quadrado de boa adequação do modelo temos:

D ∼ χ2₄₀₉

o teste nos resulta em um p-valor de aproximadamente 1. Esses resultados favorecem o modelo e a hipótese de um bom ajuste dele para os dados propostos.

5 Considerações finais

O estudo de morte por complicações de assistência médica e cirúrgica no estado da Bahia, apresentou aspectos interessantes e desafiadores do ponto de vista de modelagem usando modelos lineares generalizados. A grande quantidade de zeros da variável resposta foi a principal dificuldade encontrada no ajuste dos modelos. Para contornar tal problema, o uso de um modelo de mistura, no caso o de poisson com inflação de zeros, se mostrou uma alternativa viável que produziu resultados razoáveis para o problema em questão.

Para finalizar, recomenda-se para estudos futuros a utilização de um conjunto de covariáveis com uma configuração diferente das apresentadas aqui. Uma especificação alternativa também pode ser utilizada para trabalhar com o problema da grande quantidade de zeros a fim de se obter um ajuste melhor.