Grupo 6

(1)

UNIVERSIDADE FEDERAL DO PARAN ´

A

DEPARTAMENTO DE ESTAT´ISTICA

MODELOS LINEARES GENERALIZADOS

Relat´

orio

Modelos Lineares Generalizados Aplicados a Predi¸

c˜

ao de Doen¸

ca

Hep´

atica

Alunos: Elen Grochovski - GRR 20170407

Gian Santos - GRR 20170394

Nicole Marques - GRR 20170387

Professor C´

esar Augusto Taconeli

Curitiba

2019

(2)

Resumo

Objetiva-se analisar a concentra¸cão de certas enzimas no organismo e sua rela¸cão com o de-senvolvimento de doen¸cas hepáticas. Foi utilizado modelo linear generalizado, com fun¸cão de probabilidades binomial e três diferentes fun¸cões de liga¸cão especificadas: logito, probito e comple-mento log-log. O f´ıgado é um órgão importante do corpo humano, converte nutrientes obtidos dos alimentos em componentes essenciais, armazena vitaminas e minerais, produz muitas prote´ınas, incluindo fatores da coagula¸cão e enzimas, e metaboliza e destoxifica substâncias nocivas para o corpo. As doen¸cas hepáticas são as que causam inflama¸cão ou lesão do f´ıgado, afetando sua fun¸cão. Toda a análise se procedeu por meio de fun¸cões na ferramenta estat´ıstica R, bem como com gráficos de res´ıduos padronizados aleatorizados estudentizados e envelopes simulados para gráficos meio-normais. Os três modelos apresentaram resultados parecidos e optamos pelo modelo logito, pois obtém os mais altos valores de sensibilidade, especificidade e acurácia.

(3)

Sum´

ario

1 Introdu¸c˜ao 3

2 Material e m´etodos 3

2.1 Vari´aveis exploradas . . . 3

2.2 Descri¸c˜ao dos dados e ajustes iniciais . . . 3

2.3 Recursos computacionais . . . 3

2.4 Ajuste de modelos e sele¸c˜ao de covari´aveis . . . 4

2.4.1 Pressupostos . . . 4

2.4.2 Modelos com todas as covari´aveis . . . 4

2.4.3 Reajuste dos modelos . . . 4

2.4.4 Teste da raz˜ao de verossimilhan¸ca . . . 5

2.4.5 Fator de infla¸c˜ao da variˆancia . . . 5

2.4.6 An´alise de diagn´ostico . . . 5

2.4.7 Poder preditivo do modelo . . . 7

3 Resultados e discuss˜ao 8 3.1 An´alise final e modelo escolhido . . . 8

3.2 Interpreta¸c˜ao do modelo . . . 8

4 Conclus˜ao 9

(4)

1 Introdu¸

c˜

ao

No presente trabalho, a aplica¸cão do Modelo Linear Generalizado foi conduzida a partir da base de dados Indian liver patient do site MLData. A regressão utilizada foi para dados binários devido `

a natureza categórica da variável resposta. A base contém variáveis que podem ser influentes na predi¸cão de doen¸ca hepática em pacientes do Estado de Andhra Pradesh na Índia. Do total de 583 pacientes cadastrados na base, aproximadamente 70% apresentam doen¸ca hepática. A análise foi realizada com base na idade e gênero do paciente e em alguns resultados de exames espec´ıficos. A doen¸ca hepática pode manifestar-se de diversas formas. As manifesta¸cões caracter´ısticas são: cor amarelada da pele e da parte branca dos olhos (icter´ıcia), diminui¸cão ou interrup¸cão do fluxo biliar (colestase), aumento do tamanho do f´ıgado (hepatomegalia), aumento anormal da pressão arterial nas veias que levam o sangue do intestino para o f´ıgado (hipertensão portal), acúmulo de l´ıquido na cavidade abdominal (ascite), deteriora¸cão da fun¸cão cerebral devido ao acúmulo de substâncias tóxicas normalmente removidas pelo f´ıgado (encefalopatia hepática) e insuficiência hepática.

2 Material e m´

etodos

2.1 Vari´

aveis exploradas

As variáveis relacionadas aos pacientes na base de dados são: variável binária indicador da doen¸ca (CLASS), variável discreta idade (AGE), variável nominal gênero (GENDER), variáveis cont´ınuas total de bilirrubina (TB), bilirrubina direta (DB), fosfatase alcalina (ALKPHOS), ala-nina aminotransferase (SGPT), aspartato aminotransferase (SGOT), prote´ına total (TP), albu-mina (ALB) e propor¸cão de albumina e globulina (AG).

2.2 Descri¸

c˜

ao dos dados e ajustes iniciais

Considerou-se necessário uma breve explica¸cão dos termos técnicos apresentados anteriormente. Prote´ınas e enzimas, como citadas na literatura médica, têm grande papel na deteçcão de doen¸cas hepáticas. As enzimas aceleram a velocidade das rea¸cões, o que contribui para o metabolismo. Como exemplo, a fosfatase alcalina é uma enzima presente em diversos tecidos do corpo, es-tando em maior quantidade nas células de canais que conduzem a bile do interior do f´ıgado para o intestino. Também enzima, a alanina aminotransferase apresenta valores em excesso em exa-mes de sangue quando atua em lesões no f´ıgado. Caso a lesão seja crônica, a enzima aspartato aminotransferase torna-se elevada, sendo localizada mais internamente na célula do f´ıgado. Em rela¸cão a prote´ınas, tanto a albumina quanto a globulina estão presentes no sangue, sendo a primeira produzida exclusivamente pelo f´ıgado. Suas análises são importantes em exames cl´ınicos para detectar doen¸cas visto que revelam a condi¸cão do funcionamento do organismo. A bilirru-bina, por sua vez, é uma substância amarelada encontrada na bile que, em excesso, pode indicar problemas no f´ıgado.

Quanto aos dados, os 583 pacientes possuem idades em grande intervalo, variando de 4 a 90 anos, sendo 44 a idade média. Além do mais, aproximadamente 75% são homens e em torno de 71% do total de enfermos possuem doen¸ca hepática. Aplicou-se a fun¸cão logar´ıtmica nas variáveis TB, DB, ALKPHOS, SGPT, GOT e AG devido a valores muito baixos. De forma aleatória, 70% dos dados foi utilizado para ajuste de modelos e o restante para a valida¸cão dos mesmos.

2.3 Recursos computacionais

As análises estat´ısticas apresentadas no decorrer do trabalho foram realizadas com o aux´ılio de R, ambiente computacional e linguagem de programa¸cão desenvolvido na década de 90, que objetiva

(5)

fornecer ferramentas computacionais para relatórios estat´ısticos. Utilizou-se fun¸cões de pacotes desta linguagem produzindo valores mensuráveis também como gráficos, úteis para a interpreta¸cão dos dados.

2.4 Ajuste de modelos e sele¸

c˜

ao de covari´

aveis

Como a variável resposta CLASS é binária, ou seja, recebe valor zero caso o paciente não possua doen¸ca hepática e valor um, o oposto; optou-se por analisar 3 modelos próprios para dados binários. Os modelos são: logito, probito e complemento log-log.

2.4.1 Pressupostos

Há suposi¸cões fundamentais para a média e sua rela¸cão com a variância da reposta para o modelo linear generalizado. Como foram testadas três diferentes fun¸cões de liga¸cão, fun¸cões es-tas que relacionam os parâmetros estimados e a média da variável resposta, utilizando a fun¸cão de probabilidades binomial. Os três modelos possuem como componente sistemático ηi = β0 +

β1age + β2genderM ale + β3T B + β4DB + β5alkphos + β6sgpt + β7sgot + β8T P + β9ALB + β10AG,

tendo yi|xi ∼ Binomial(n, µi) e σi2 = µi. No entanto, na fun¸c˜ao de liga¸c˜ao logito, ηi =

g(µi) assume fun¸c˜ao ln

µi

1−µi

. Na fun¸cão de liga¸cão probito ηi = φ(µi) e ln (− ln (1 − µi)) é

a fun¸c˜ao representante do complemento log-log.

2.4.2 Modelos com todas as covari´aveis

Foram inseridas, primeiramente, todas as dez covariáveis nos três modelos citados anterior-mente. Todas as estimativas apresentaram o mesmo sinal e o mesmo n´ıvel de significância em compara¸cão com os demais modelos. As variáveis alanina aminotransferase (SGPT), total de bilir-rubina (TB) e albumina (ALB) apresentaram significância ao n´ıvel de 1%, enquanto idade (AGE) e propor¸cão de albumina e globulina (AG) apresentaram significância ao n´ıvel de 5%. As demais variáveis não apresentaram significância estat´ıstica no modelo, isto é, não estão tão relacionadas ao resultado da presen¸ca ou não de doen¸ca hepática dos pacientes do Estado de Andhra Pradesh na Índia.

Modelo AIC Verossimilhan¸ca Deviance

logito 414.409 -196.205 392.409

probito 413.436 -195.718 391.436

cloglog 411.858 -194.929 389.858

Tabela 1: Valores AIC, verossimilhan¸ca e deviance residual dos 3 modelos

2.4.3 Reajuste dos modelos

Entretanto, inserir todas as covariáveis é apenas um modelo entre vários. Como forma de analisar os demais poss´ıveis modelos e escolher o mais parcimonioso, aplicou-se o método stepwise nos três modelos anteriores. Dessa forma, pode-se analisar a inser¸cão das covariáveis uma a uma no modelo para verificar sua significância na presen¸ca das outras. Feito isso, em todos os modelos as variáveis que permaneceram no modelo foram alanina aminotransferase (SGPT) com n´ıvel de significância de 0,1%, enquanto total de bilirrubina (TB), albumina (ALB) e prote´ına total (TP) com 1%. Ao passo que idade (AGE) e propor¸cão de albumina e globulina (AG) com 5%.

(6)

Modelo AIC Verossimilhan¸ca Deviance

logito 408.836 -197.418 394.836

probito 407.152 -196.576 393.152

cloglog 404.653 -195.327 390.653

Tabela 2: Valores AIC, verossimilhan¸ca e deviance residual dos 3 modelos 2.4.4 Teste da raz˜ao de verossimilhan¸ca

Uma outra etapa importa é analisar o teste da razão de verossimilhan¸ca do modelo inicial e do reduzido dos três modelos. Os resultados apresentaram p-valores maiores que o n´ıvel de significância estabelecido de 5%, ou seja, os modelos restritos se ajustam aos dados amostrais tão bem quanto o modelo considerando todas as covariáveis.

2.4.5 Fator de infla¸c˜ao da variˆancia

O fator de infla¸cão da variância (VIF) é uma medida que mensura a multicolinearidade das variáveis no modelo. Quando este fator apresenta valores elevados influencia negativamente a estima¸cão dos parâmetros do modelo.

Nos três modelos reduzidos anteriormente com o método stepwise, a maioria das variáveis tiveram valores VIF ao redor de 1. As variáveis prote´ına total (TP), albumina (ALB) e propor¸cão de albumina e globulina (AG) tiveram, respectivamente, valores em torno de 15, 30 e 10, o que indicam altos ´ındices de multicolinearidade.

Na área médica, é intuitivo observar que a variável albumina (ALB), uma classe de prote´ınas, está também presente na variável de prote´ına total (TP), o que justifica os altos valores das mesmas. Sendo assim, removeu-se a variável ALB da regressão. Agora com a análise dos modelos sem a variável ALB, a variável TP deixou de ser significativa nos modelos, sendo assim, também removida. Ao final, com a quatro variáveis restantes (AGE, TB, SGPT e AG) não se observou maiores problemas de alta multicolinearidade, com todos os valores VIF em torno de 1.

2.4.6 An´alise de diagn´ostico

Pode-se usar o gráfico de res´ıduos padronizados aleatorizados estudentizados para validar a análise de diagnóstico. Este gráfico faz uso da inversa para transformar os res´ıduos numa distri-bui¸cão Normal. Caso esses res´ıduos não demonstrem seguir tal distribui¸cão, torna-se um indicativo que a distribui¸cão proposta pode estar incorreta.

Para esses erros são válidos os pressupostos de regressão linear, cujos erros devem ser indepen-dentes e identicamente distribu´ıdos, seguindo uma distribui¸cão N (0, 1).

(7)

Figura 1: Gr´aficos de res´ıduos padronizados aleatorizados estudentizados

Observa-se no gráfico de res´ıduos do modelo probito, ao meio, à esquerda, alguns pontos próximos dos valores -3 e 3 considerados limites para res´ıduos.

Realizou-se uma análise de pontos influentes com três gráficos de diagnósticos (res´ıduos es-tudentizados, distância de Cook e pontos de alavanca) e observou-se os pontos 116, 272, 476 e 576 com um pouco de destaque. Retirou-se esses pontos da análise e não se observou mudan¸cas significativas nos coeficientes ajustados e seus devidos erros padrões, portanto optou-se por deixar os pontos na base de ajuste.

Também pode-se utilizar do gráfico de dispersão dos dados com envelopes simulados para analisar se o modelo ajusta aos dados corretamente e se a distribui¸cão binomial é a adequada. São considerados na constru¸cão do gráfico uma simula¸cão de dados gerados pelo modelo e o quanto esses dados são semelhantes a amostra utilizada para ajustar o modelo.

Nos gráficos abaixo, percebemos que ambos os três modelos estão corretamente ajustados aos dados, com a exce¸cão dos pontos extremos que podemos visualizar no canto superior esquerdo dos gráficos. No entanto, como comentado acima, retirar esses pontos da base não seria relevante, portanto, optou-se por mantê-los.

Figura 2: Envelopes simulados para gr´aficos meio-normais 6

(8)

2.4.7 Poder preditivo do modelo

O poder preditivo do modelo pode também ser considerado um avaliador da qualidade do ajuste. Para analisá-lo, deve-se estabelecer uma probabilidade de ponto de corte cuja variável resposta receba valor 1 para probabilidades preditas pelo modelo maiores que o ponto de corte e que a variável resposta receba valor 0 para probabilidades preditas pelo modelo menores que o ponto de corte.

Analisando alguns exames utilizados para diagnostico de doen¸cas hepáticas, aqueles muito espec´ıficos obtêm alta especificidade, assim, eliminando a hipótese de doen¸ca com maior acurácia. Quanto a exames mais simples, verifica-se um equil´ıbrio entre especificidade e sensibilidade, com esta última sempre um pouco mais elevada que a primeira.

Utilizou-se a fun¸cão coords do pacote pROC da linguagem R junto à curva ROC e obteve-se que os melhores pontos de corte seriam 0.69 para os modelos logito e probito e 0.68 para o modelo cloglog. Fazendo uso desses pontos obteve-se os valores de especificidade (percentual de verdadeiros negativos), sensibilidade (percentual de verdadeiros positivos) e acurácia (valor preditivo geral) para cada um dos links utilizados conforme tabela abaixo.

Modelo Ponto de corte Sensibilidade Especificidade Acur´acia

logito 0.69 0.6967 0.7924 0.7257

probito 0.69 0.6885 0.7924 0.7200

cloglog 0.68 0.6803 0.7924 0.7143

Tabela 3: Poder preditivo do modelo

Os pontos de corte 0.68 e 0.69 obtiveram uma acurácia de em média 72%, para todos os modelos. A especificidade e sensibilidade resultaram em valores não muito diferentes. Portanto, julgou-se esses bons pontos de corte para seus respectivos modelos.

Figura 3: Curva ROC

A curvas ROC na figura apresenta o poder preditivo dos três modelos. A linha colorida repre-senta a curva ROC com dados de valida¸cão, já a linha vermelha representa a curva ROC com os dados do ajuste. Pode-se observar que as curvas são bem parecidas indicando um bom ajuste do modelo validado pelos dados.

(9)

3 Resultados e discuss˜

ao

3.1 An´

alise final e modelo escolhido

Como abordado nos tópicos anteriores, inicialmente foi analisado modelos com todas as 10 covariáveis. Até então o modelo complemento log-log apresentou menores valores de AIC, verossimilhan¸ca e deviance. Contudo, julgou-se importante reestruturar os modelos considerando o método stepwise que avalia a inser¸cão das variáveis uma a uma e sua significância na presen¸ca das outras. Os três modelos anteriores, cada um com sua fun¸cão de liga¸cão, após a inser¸cão do método, tornaram-se mais enxutos, ou seja, com cinco covariáveis e todas apresentando significância de no m´ınimo 5%. Realizou-se também o teste TRV e todos apresentaram boa parcimônia em rela¸cão aos modelos prévios. Os valores de AIC, verossimilhan¸ca e deviance também diminu´ıram, o que faz tais modelos melhores que os inicialmente estabelecidos, sendo também o modelo complemento log-log com menores valores de indicadores.

Sendo até o momento os modelos gerados usando o método stepwise como os mais aconselháveis, ainda se julgou importante analisar o grau de multicolinearidade entre as variáveis. As variáveis albumina (ALB) e prote´ına total (TP) foram removidas.

Em seguida, realizou-se uma análise de diagnóstico com gráficos de dispersão de dados com envelopes simulados e os três modelos reduzidos apresentaram uma ótima adesão a distribui¸cão proposta assim como bons gráficos de res´ıduos padronizados aleatorizados estudentizados. O mo-delo probito apresentou levemente uma melhor adesão dos quantis no gráfico QQ-plot.

Posteriormente em análise do poder preditivo, os três modelos apresentaram valores de ponto de corte, sensibilidade, especificidade e acurácia similares e bons.

Considerando a análise dos dados e valores similares de indicadores de escolha de modelo, chegou-se à conclusão que, dentre os modelos registrados no presente trabalho, o modelo logito foi escolhido como o mais parcimonioso por apresentar valores similares aos demais, porém os mais altos valores de sensibilidade, especificidade e acurácia.

3.2 Interpreta¸

c˜

ao do modelo

Para interpretar o modelo escolhido logito, deve-se observar a tabela a seguir com valores im-portantes de estimativa, erro padrão e p-valor indicando a significância das variáveis no modelo. É relevante relembrar que as variáveis TB, SGPT e AG estão transformadas pela fun¸cão logar´ıtmica.

Vari´aveis do modelo logito Estimativa Erro padr˜ao p-valor

(intercepto) -3.105 0.814 < 0.001

idade (AGE) 0.016 0.008 0.029

total de bilirrubina (TB) 0.556 0.192 0.004

alanina aminotrasferase (SGPT) 0.882 0.207 < 0.001

propor¸c˜ao de albumina e globulina (AG) -0.685 0.395 0.083

Tabela 4: Valores importantes do modelo logito escolhido A express˜ao do modelo logito final, na escala do preditor, ´e dada por:

Por motivos interpretativos e preditivos, desejou-se calcular a probabilidade de um paciente possuir doen¸ca hepática com o seguinte perfil (variáveis transformadas já estão com valores na escala log): idade (AGE) = 44, total de bilirrubina (TB) = 0,40, alanina aminotrasferase (SGPT) = 3 e propor¸cão de albumina e globulina (AG) = 0.

ln µi 1 − µi = −3, 105 + 0, 016 ∗ AGE + 0, 556 ∗ T B + 0, 882 ∗ SGP T − 0, 685 ∗ AG = 0, 48 (1) 8

(10)

IC(95%) do preditor = 0, 48 ± Zα/2∗ Erro padr˜ao = 0, 48 ± 1, 96 ∗ 0, 175 = (0, 142; 0, 832) (2)

Observa-se em (1) o valor da probabilidade do perfil ter doen¸ca hep´atica na escala do preditor e em (2) o intervalo de confian¸ca apropriado.

µi =

exp(−3, 105 + 0, 016 ∗ AGE + 0, 556 ∗ T B + 0, 882 ∗ SGP T − 0, 685 ∗ AG)

1 + exp(−3, 105 + 0, 016 ∗ AGE + 0, 556 ∗ T B + 0, 882 ∗ SGP T − 0, 685 ∗ AG) = 0, 61 (3)

IC(95%) da m´edia = exp(0, 142; 0, 832)

1 + exp(0, 142; 0, 832) = (0.535; 0, 696) (4)

Observa-se em (3) o valor da probabilidade do perfil ter doen¸ca hep´atica na escala da m´edia e em (4) o intervalo de confian¸ca apropriado.

A estimativa da fun¸cão logar´ıtmica propor¸cão de albumina e globulina (AG) tem valor ne-gativo, ou seja, isoladamente, quanto maior os valores, menor será a probabilidade do paciente possuir doen¸ca hepática. As outras variáveis, isoladamente, quanto maior os valores, aumenta a probabilidade do paciente possuir doen¸ca hepática.

4 Conclus˜

ao

O presente estudo foi realizado no intuito de predizer a doen¸ca hepática fazendo uso dos co-nhecimentos adquiridos em Modelos Lineares Generalizados. Foram realizadas analises em três modelos, sendo eles logito, probito e complemento log-log, sem muitos problemas de ajuste. Todos os modelos apresentaram resultados parecidos e optamos pelo qual obteve os maiores valores para sensibilidade, especificidade e acurácia, além de ter uma interpreta¸cão mais viável aos parâmetros. Uma outra solu¸cão para análise futura seria a escolha das variáveis por meio de métodos de regulariza¸cão, Ridge ou Lasso, onde colocamos um determinado peso sobre nossos coeficientes penalizando o algoritmo de estima¸cão dos betas mantendo, assim, as estimativas dos parâmetros próximas a zero ou nulas.

5 Referˆ

encias

GIOLO, Suely Ruiz. Introdu¸cão à Análise de Dados Categóricos com Aplica¸cões. Curitiba: Blucher, 2017.

GIOLO, Suely R. , em 2018. CE073 An´alise de Dados Categ´oricos, Curitiba. Disponivel em https://docs.ufpr.br/~giolo/categoricos.html. Access on 11 November 2019.

SOUZA, Germano de, em 2018. A albumina e a globulina na dete¸c˜ao de doen¸cas no f´ıgado, Lis-boa Portugal. Dispon´ıvel em https://lifestyle.sapo.pt/saude/saude-e-medicina/artigos/ a-albuminaglobulina-na-detecao-de-doencas-no-figado. Acesso em 12 de novembro de 2019.