Universidade Federal do Paraná Setor de Ciências Exatas Departamento de Estatística
Modelos Lineares Generalizados com Função de Ligação Binomial –
Heart Desease
CE225 – Modelos Lineares Generalizados
Eduardo Yuddi Sato
Lucka Kiohei Neves Maekawa
Paulo Augusto Grosso de Souza
Resumo
Doença cardíaca é uma doença que afeta o coração e os vasos sanguíneos, incluindo problemas estruturais e coágulos. Para poder entender a doença e predizer se o paciente terá ou não doença cardíaca a partir de variáveis explicativas, foi feito um estudo observacional envolvendo 14 variáveis independentes dado que a variável dependente (ter doença cardíaca) pode assumir duas respostas. A análise estatística se deu através de um modelo linear generalizado, mais especificamente uma distribuição Binomial com função de ligação Cauchy. Para seleção das variáveis explicativas no modelo ajustado final, foi realizada uma seleção de covariáveis pelo método “backward”, utilizando-se o critério de informação Akaike (AIC), a fim de testar qual dos modelos ajustados preliminarmente se adequou melhor aos dados. Os resultados mostraram que o melhor modelo é aquele que considera 12 covariáveis, verificou-se a qualidade do ajuste final, o qual explica bem as variáveis do modelo.
1. Introdução
Doença cardíaca é uma doença que afeta o coração e os vasos sanguíneos, incluindo problemas estruturais e coágulos. Existem inúmeras doenças cardíacas, como arritmia cardíaca; infarto; hipertensão; hipotensão; sopro; entre outras.
Existem diversos fatores e sintomas relacionados à doença cardíaca, entre eles estão intensidade de dor no peito; resultado de eletrocardiograma; batimento cardíaco máximo alcançado.
Neste contexto, o trabalho foi realizado com o objetivo de verificar tendência de que um indivíduo venha a ter doença cardíaca a partir dos sintomas e fatores selecionados.
2. Materiais e Métodos
2.1.
Variáveis
Para realizar este estudo, foi utilizado a base de dados Heart Desease disponível no site
www.mldata.io. Os dados possuem 14 atributos e são todos coletados de um hospital em Cleveland, Ohio, Estados Unidos. As variáveis que constituem a base são:
• age: Idade do paciente
• sex: Sexo do paciente: 1 se homem, 0 se mulher
• cp: Tipo de dor no peito: 1 se angina típica, 2 se angina atípica, 3 se dor não angina e 4 se assintomática
• trestbps: Pressão sanguínea em repouso (mm Hg) • chol: Colesterol Sérico (mg/dl)
• fbs: Açúcar no sangue em jejum: 1 se maior que 120 mg/dl e 0 caso contrário
• restecg: Resultados eletrocardiográficos em repouso: 0 se normal, 1 se tendo anormalidade da onda ST-T e 2 se mostrando hipertrofia ventricular esquerda provável ou definitiva.
• thalach: Frequência cardíaca máxima alcançada
• exang: Angina induzida pelo exercício: 1 se sim, 0 se não.
• oldpeak: Depressão ST induzida por exercício em relação ao repouso.
• slope: A inclinação do segmento ST do pico de exercício: 1 se subida, 2 se plano e 3 se descida.
• ca: Número de vasos principais (0 a 3) coloridos por fluoroscopia. • thal: 3 se normal, 6 se defeito fixo e 7 se defeito reversível
• num: 0 se paciente possui doença cardíaca e 1 se não possui.
2.2.
Modelo Linear Generalizado
Foi considerada variável num como atributo predito para construção do modelo. Ele assume valor binário: 0 se possui doença cardíaca e 1 se não possui. Por se tratar de uma variável binária, usamos como componente aleatório a distribuição Binomial. O componente sistemático foi formulado através da combinação linear da variável preditora. Para definir a função de ligação utilizamos o critério de informação de Akaike (AIC).
2.3.
Seleção de covariáveis
Para selecionar as covariáveis que estarão no modelo final, dentre todas que estavam na base de dados, foi utilizado o método Backward, com AIC como critério de seleção automática. O modelo foi ajustado com 75% dos dados coletados aleatoriamente.
2.4.
Poder preditivo
A base original foi separada aleatoriamente em duas, uma para o ajuste do modelo com 75% dos dados (base ajuste) e os 25% restantes para validação (base validação) do modelo final.
Para conciliarmos bons resultados de sensibilidade e especificidade do nosso modelo, utilizamos a curva ROC, ela é uma representação gráfica que ilustra o desempenho de um modelo preditivo binário.
3. Resultados e discussões
3.1.
Análise exploratória dos dados
Na análise dos dados foi identificada 6 registros em que a variável ca possuía observações fora do escopo, tal variável pode assumir somente os valores 1, 2 ou 3. Portanto, excluiu-se da base registros com valores fora desse intervalo.
Após a remoção das observações foi analisada a correlação entre as covariáveis. Para as variáveis quantitativas não foi identificada nenhuma relação linear, como pode ser visto no gráfico 1.
Gráfico 1: pairs dos dados
Tabela 1.1- Dados quantitativos
Tabela 1.2 – Dados qualitativos
3.2.
Ajuste do modelo
Para ajustar o modelo a base de dados foi dividida aleatoriamente em duas partes, 75% dos dados foram selecionados como a base de ajuste, e os 25% restantes para a base de validação. Utilizando a base de ajuste, incialmente foram incluídas todas as variáveis no modelo inicial. Após isso, utilizou-se o método backward para utilizou-selecionar as variáveis do modelo final, comparando cada função de ligação pelo Critério de Informação de Akaike (AIC). Os respectivos AICs são apresentados na tabela 2.
Tabela 2 – Valores AIC
O modelo que apresentou menor AIC foi o ajuste com a função de ligação Cauchy. Com deviance nula 308,60 com 222 graus de liberdade e deviance residual 144,96 com 210 graus de liberdade, uma redução de 163.64 na deviance. Juntamente com a análise do gráfico dos envelopes simulados (gráfico 2) é possível constatar que o modelo se mostrou adequado.
age trestbps chol thalach oldpeak ca
Mínimo 29 94 126 71 0 0 Média 54,54 131,7 247,4 149,6 1,06 0,67 Máximo 77 200 564 202 6,2 2 sex Cp Homem Mulher 1 2 3 4 201 96 23 49 83 142 fbs restecg 0 1 0 1 2 254 43 147 4 146 exang slope 0 1 1 2 3 200 97 139 137 21 thal num 3 6 9 Yes No 164 18 115 160 137 Função de Ligação G.L AIC Logito 13 176,76 Probito 13 177,85 Cloglog 13 176,46 Cauchy 13 170,95
Gráfico 2 – Gráfico dos envelopes simulados
O resultado do modelo ajustado com distribuição binomial e função de ligação Cauchy é apresentado na tabela 3.
Tabela 3 – Summary ajuste
Estimador Estimativa μ Erro Padrão Valor Z NS
Intercepto β0 14,32 -0,63 4,23 3,37 *** sex0 β1 -2,96 -10,24 1,09 -2,71 ** cp2 β2 -3,92 -3,88 1,45 -2,68 ** cp3 β3 -0,41 -0,28 1,00 -0,41 cp4 β4 -4,73 -0,90 1,51 -3,13 ** trestbps β5 -0,03 10,34 0,01 -1,16 . exang1 β6 -1,55 -0,16 0,95 -1,61 oldpeak β7 -0,86 -2,13 0,46 -1,86 . slope2 β8 -3,51 -0,02 1,13 -3,07 ** slope3 β9 0,41 -0,26 2,11 0,19 ca β10 -2,80 -1,34 0,81 -3,43 *** thal6 β11 0,39 -0,33 1,38 0,287 thal9 β12 -2,61 -0,39 1,00 -2,604 ** *** 0,001 ** 0,01 * 0,05 . 0,1
3.3.
Modelo ajustado e interpretação
tan (π ∗ (μ −1
2)) = 14,32 − 2,96β1− 3,92β2− 0,41β3− 4,73β4− 0,03β5− 1,55β6− 0,86β7− 3,51β8− 0,4β9− 2,8β10+ 0,39β11− 2,6β12 μ = −0,63 − 10,24𝛽1− 3,88𝛽2− 0,28𝛽3− 0,9𝛽4+ 10,34𝛽5− 0,16𝛽6− 2,13𝛽7− 0,02β8− 0,26𝛽9− 1,34𝛽10− 0,33𝛽11− 0,39𝛽12
O valor estimado para o intercepto equivale a -0.634, e é interpretado como valor estimado para chance de ter doença cardíaca quando as covariáveis são fixas em 0, mas na prática não podemos realizar esta predição, pois a predição não pode extrapolar o intervalo de valores utilizados para modelagem e conforme pode ser visto, somente as variáveis “oldpeak” e “ca” podem assumir o valor 0, zerando assim o beta estimado. Para as variáveis quantitativas e qualitativas a interpretação é diferente, para as quantitativas a cada unidade acrescida existe o efeito das estimativas na chance de doença cardíaca, e para as qualitativas o efeito ocorre na presença do fator. Um exemplo de variável quantitativa é a relação da covariável “ca” com a variável resposta, quando os demais betas são fixos, a cada acréscimo de uma unidade da variável “ca” a resposta média cai 1.37. E para as qualitativas, para cada nova observação do fator “slope2” a média da variável resposta cai em 0.031.
3.4.
Predição do Modelo
A validação foi feita a partir de uma predição, com os valores de sensibilidade, especificidade e acurácia, com o ponto ótimo de 0.148 (tabela 4) obtido a partir da curva ROC (gráfico 4). Analisando os resultados nota-se que o modelo prediz melhor se o paciente realmente não tem problemas cardíacos do que realmente tem, dado que a especificidade é maior que a sensibilidade. Além disse se comparado com o ponto de corte padrão de 0.50, o novo ponto de corte apresentou melhor acurácia e sensibilidade.
Tabela 4
Ponto de Corte Acurácia Sensibilidade Especificidade
0,50 0,8378 0,871 0,814
0,148 0,9054 0,774 1,000
Gráfico 4 – Curva ROC
4. Conclusão
No presente trabalho desenvolveu-se um modelo para predizer a probabilidade de doença cardíaca, considerando covariáveis frequentemente utilizadas para detecção das doenças. Os modelos desenvolvidos apresentaram estatística de ajuste e medidas de diagnóstico satisfatórias, com sensibilidade de 0.774, especificidade de 1.000 e acurácia de 0.9054. 8Recomenda-se para distribuição Binomial, a função de ligação Cauchy.