• Nenhum resultado encontrado

Grupo 6

N/A
N/A
Protected

Academic year: 2021

Share "Grupo 6"

Copied!
10
0
0

Texto

(1)

UNIVERSIDADE FEDERAL DO PARAN ´

A

DEPARTAMENTO DE ESTAT´ISTICA

MODELOS LINEARES GENERALIZADOS

Relat´

orio

Modelos Lineares Generalizados Aplicados a Predi¸

ao de Doen¸

ca

Hep´

atica

Alunos: Elen Grochovski - GRR 20170407

Gian Santos - GRR 20170394

Nicole Marques - GRR 20170387

Professor C´

esar Augusto Taconeli

Curitiba

2019

(2)

Resumo

Objetiva-se analisar a concentra¸c˜ao de certas enzimas no organismo e sua rela¸c˜ao com o de-senvolvimento de doen¸cas hep´aticas. Foi utilizado modelo linear generalizado, com fun¸c˜ao de probabilidades binomial e trˆes diferentes fun¸c˜oes de liga¸c˜ao especificadas: logito, probito e comple-mento log-log. O f´ıgado ´e um ´org˜ao importante do corpo humano, converte nutrientes obtidos dos alimentos em componentes essenciais, armazena vitaminas e minerais, produz muitas prote´ınas, incluindo fatores da coagula¸c˜ao e enzimas, e metaboliza e destoxifica substˆancias nocivas para o corpo. As doen¸cas hep´aticas s˜ao as que causam inflama¸c˜ao ou les˜ao do f´ıgado, afetando sua fun¸c˜ao. Toda a an´alise se procedeu por meio de fun¸c˜oes na ferramenta estat´ıstica R, bem como com gr´aficos de res´ıduos padronizados aleatorizados estudentizados e envelopes simulados para gr´aficos meio-normais. Os trˆes modelos apresentaram resultados parecidos e optamos pelo modelo logito, pois obt´em os mais altos valores de sensibilidade, especificidade e acur´acia.

(3)

Sum´

ario

1 Introdu¸c˜ao 3

2 Material e m´etodos 3

2.1 Vari´aveis exploradas . . . 3

2.2 Descri¸c˜ao dos dados e ajustes iniciais . . . 3

2.3 Recursos computacionais . . . 3

2.4 Ajuste de modelos e sele¸c˜ao de covari´aveis . . . 4

2.4.1 Pressupostos . . . 4

2.4.2 Modelos com todas as covari´aveis . . . 4

2.4.3 Reajuste dos modelos . . . 4

2.4.4 Teste da raz˜ao de verossimilhan¸ca . . . 5

2.4.5 Fator de infla¸c˜ao da variˆancia . . . 5

2.4.6 An´alise de diagn´ostico . . . 5

2.4.7 Poder preditivo do modelo . . . 7

3 Resultados e discuss˜ao 8 3.1 An´alise final e modelo escolhido . . . 8

3.2 Interpreta¸c˜ao do modelo . . . 8

4 Conclus˜ao 9

(4)

1

Introdu¸

ao

No presente trabalho, a aplica¸c˜ao do Modelo Linear Generalizado foi conduzida a partir da base de dados Indian liver patient do site MLData. A regress˜ao utilizada foi para dados bin´arios devido `

a natureza categ´orica da vari´avel resposta. A base cont´em vari´aveis que podem ser influentes na predi¸c˜ao de doen¸ca hep´atica em pacientes do Estado de Andhra Pradesh na ´India. Do total de 583 pacientes cadastrados na base, aproximadamente 70% apresentam doen¸ca hep´atica. A an´alise foi realizada com base na idade e gˆenero do paciente e em alguns resultados de exames espec´ıficos. A doen¸ca hep´atica pode manifestar-se de diversas formas. As manifesta¸c˜oes caracter´ısticas s˜ao: cor amarelada da pele e da parte branca dos olhos (icter´ıcia), diminui¸c˜ao ou interrup¸c˜ao do fluxo biliar (colestase), aumento do tamanho do f´ıgado (hepatomegalia), aumento anormal da press˜ao arterial nas veias que levam o sangue do intestino para o f´ıgado (hipertens˜ao portal), ac´umulo de l´ıquido na cavidade abdominal (ascite), deteriora¸c˜ao da fun¸c˜ao cerebral devido ao ac´umulo de substˆancias t´oxicas normalmente removidas pelo f´ıgado (encefalopatia hep´atica) e insuficiˆencia hep´atica.

2

Material e m´

etodos

2.1

Vari´

aveis exploradas

As vari´aveis relacionadas aos pacientes na base de dados s˜ao: vari´avel bin´aria indicador da doen¸ca (CLASS), vari´avel discreta idade (AGE), vari´avel nominal gˆenero (GENDER), vari´aveis cont´ınuas total de bilirrubina (TB), bilirrubina direta (DB), fosfatase alcalina (ALKPHOS), ala-nina aminotransferase (SGPT), aspartato aminotransferase (SGOT), prote´ına total (TP), albu-mina (ALB) e propor¸c˜ao de albumina e globulina (AG).

2.2

Descri¸

ao dos dados e ajustes iniciais

Considerou-se necess´ario uma breve explica¸c˜ao dos termos t´ecnicos apresentados anteriormente. Prote´ınas e enzimas, como citadas na literatura m´edica, tˆem grande papel na detec¸c˜ao de doen¸cas hep´aticas. As enzimas aceleram a velocidade das rea¸c˜oes, o que contribui para o metabolismo. Como exemplo, a fosfatase alcalina ´e uma enzima presente em diversos tecidos do corpo, es-tando em maior quantidade nas c´elulas de canais que conduzem a bile do interior do f´ıgado para o intestino. Tamb´em enzima, a alanina aminotransferase apresenta valores em excesso em exa-mes de sangue quando atua em les˜oes no f´ıgado. Caso a les˜ao seja crˆonica, a enzima aspartato aminotransferase torna-se elevada, sendo localizada mais internamente na c´elula do f´ıgado. Em rela¸c˜ao a prote´ınas, tanto a albumina quanto a globulina est˜ao presentes no sangue, sendo a primeira produzida exclusivamente pelo f´ıgado. Suas an´alises s˜ao importantes em exames cl´ınicos para detectar doen¸cas visto que revelam a condi¸c˜ao do funcionamento do organismo. A bilirru-bina, por sua vez, ´e uma substˆancia amarelada encontrada na bile que, em excesso, pode indicar problemas no f´ıgado.

Quanto aos dados, os 583 pacientes possuem idades em grande intervalo, variando de 4 a 90 anos, sendo 44 a idade m´edia. Al´em do mais, aproximadamente 75% s˜ao homens e em torno de 71% do total de enfermos possuem doen¸ca hep´atica. Aplicou-se a fun¸c˜ao logar´ıtmica nas vari´aveis TB, DB, ALKPHOS, SGPT, GOT e AG devido a valores muito baixos. De forma aleat´oria, 70% dos dados foi utilizado para ajuste de modelos e o restante para a valida¸c˜ao dos mesmos.

2.3

Recursos computacionais

As an´alises estat´ısticas apresentadas no decorrer do trabalho foram realizadas com o aux´ılio de R, ambiente computacional e linguagem de programa¸c˜ao desenvolvido na d´ecada de 90, que objetiva

(5)

fornecer ferramentas computacionais para relat´orios estat´ısticos. Utilizou-se fun¸c˜oes de pacotes desta linguagem produzindo valores mensur´aveis tamb´em como gr´aficos, ´uteis para a interpreta¸c˜ao dos dados.

2.4

Ajuste de modelos e sele¸

ao de covari´

aveis

Como a vari´avel resposta CLASS ´e bin´aria, ou seja, recebe valor zero caso o paciente n˜ao possua doen¸ca hep´atica e valor um, o oposto; optou-se por analisar 3 modelos pr´oprios para dados bin´arios. Os modelos s˜ao: logito, probito e complemento log-log.

2.4.1 Pressupostos

H´a suposi¸c˜oes fundamentais para a m´edia e sua rela¸c˜ao com a variˆancia da reposta para o modelo linear generalizado. Como foram testadas trˆes diferentes fun¸c˜oes de liga¸c˜ao, fun¸c˜oes es-tas que relacionam os parˆametros estimados e a m´edia da vari´avel resposta, utilizando a fun¸c˜ao de probabilidades binomial. Os trˆes modelos possuem como componente sistem´atico ηi = β0 +

β1age + β2genderM ale + β3T B + β4DB + β5alkphos + β6sgpt + β7sgot + β8T P + β9ALB + β10AG,

tendo yi|xi ∼ Binomial(n, µi) e σi2 = µi. No entanto, na fun¸c˜ao de liga¸c˜ao logito, ηi =

g(µi) assume fun¸c˜ao ln



µi

1−µi



. Na fun¸c˜ao de liga¸c˜ao probito ηi = φ(µi) e ln (− ln (1 − µi)) ´e

a fun¸c˜ao representante do complemento log-log.

2.4.2 Modelos com todas as covari´aveis

Foram inseridas, primeiramente, todas as dez covari´aveis nos trˆes modelos citados anterior-mente. Todas as estimativas apresentaram o mesmo sinal e o mesmo n´ıvel de significˆancia em compara¸c˜ao com os demais modelos. As vari´aveis alanina aminotransferase (SGPT), total de bilir-rubina (TB) e albumina (ALB) apresentaram significˆancia ao n´ıvel de 1%, enquanto idade (AGE) e propor¸c˜ao de albumina e globulina (AG) apresentaram significˆancia ao n´ıvel de 5%. As demais vari´aveis n˜ao apresentaram significˆancia estat´ıstica no modelo, isto ´e, n˜ao est˜ao t˜ao relacionadas ao resultado da presen¸ca ou n˜ao de doen¸ca hep´atica dos pacientes do Estado de Andhra Pradesh na ´India.

Modelo AIC Verossimilhan¸ca Deviance

logito 414.409 -196.205 392.409

probito 413.436 -195.718 391.436

cloglog 411.858 -194.929 389.858

Tabela 1: Valores AIC, verossimilhan¸ca e deviance residual dos 3 modelos

2.4.3 Reajuste dos modelos

Entretanto, inserir todas as covari´aveis ´e apenas um modelo entre v´arios. Como forma de analisar os demais poss´ıveis modelos e escolher o mais parcimonioso, aplicou-se o m´etodo stepwise nos trˆes modelos anteriores. Dessa forma, pode-se analisar a inser¸c˜ao das covari´aveis uma a uma no modelo para verificar sua significˆancia na presen¸ca das outras. Feito isso, em todos os modelos as vari´aveis que permaneceram no modelo foram alanina aminotransferase (SGPT) com n´ıvel de significˆancia de 0,1%, enquanto total de bilirrubina (TB), albumina (ALB) e prote´ına total (TP) com 1%. Ao passo que idade (AGE) e propor¸c˜ao de albumina e globulina (AG) com 5%.

(6)

Modelo AIC Verossimilhan¸ca Deviance

logito 408.836 -197.418 394.836

probito 407.152 -196.576 393.152

cloglog 404.653 -195.327 390.653

Tabela 2: Valores AIC, verossimilhan¸ca e deviance residual dos 3 modelos 2.4.4 Teste da raz˜ao de verossimilhan¸ca

Uma outra etapa importa ´e analisar o teste da raz˜ao de verossimilhan¸ca do modelo inicial e do reduzido dos trˆes modelos. Os resultados apresentaram p-valores maiores que o n´ıvel de significˆancia estabelecido de 5%, ou seja, os modelos restritos se ajustam aos dados amostrais t˜ao bem quanto o modelo considerando todas as covari´aveis.

2.4.5 Fator de infla¸c˜ao da variˆancia

O fator de infla¸c˜ao da variˆancia (VIF) ´e uma medida que mensura a multicolinearidade das vari´aveis no modelo. Quando este fator apresenta valores elevados influencia negativamente a estima¸c˜ao dos parˆametros do modelo.

Nos trˆes modelos reduzidos anteriormente com o m´etodo stepwise, a maioria das vari´aveis tiveram valores VIF ao redor de 1. As vari´aveis prote´ına total (TP), albumina (ALB) e propor¸c˜ao de albumina e globulina (AG) tiveram, respectivamente, valores em torno de 15, 30 e 10, o que indicam altos ´ındices de multicolinearidade.

Na ´area m´edica, ´e intuitivo observar que a vari´avel albumina (ALB), uma classe de prote´ınas, est´a tamb´em presente na vari´avel de prote´ına total (TP), o que justifica os altos valores das mesmas. Sendo assim, removeu-se a vari´avel ALB da regress˜ao. Agora com a an´alise dos modelos sem a vari´avel ALB, a vari´avel TP deixou de ser significativa nos modelos, sendo assim, tamb´em removida. Ao final, com a quatro vari´aveis restantes (AGE, TB, SGPT e AG) n˜ao se observou maiores problemas de alta multicolinearidade, com todos os valores VIF em torno de 1.

2.4.6 An´alise de diagn´ostico

Pode-se usar o gr´afico de res´ıduos padronizados aleatorizados estudentizados para validar a an´alise de diagn´ostico. Este gr´afico faz uso da inversa para transformar os res´ıduos numa distri-bui¸c˜ao Normal. Caso esses res´ıduos n˜ao demonstrem seguir tal distribui¸c˜ao, torna-se um indicativo que a distribui¸c˜ao proposta pode estar incorreta.

Para esses erros s˜ao v´alidos os pressupostos de regress˜ao linear, cujos erros devem ser indepen-dentes e identicamente distribu´ıdos, seguindo uma distribui¸c˜ao N (0, 1).

(7)

Figura 1: Gr´aficos de res´ıduos padronizados aleatorizados estudentizados

Observa-se no gr´afico de res´ıduos do modelo probito, ao meio, `a esquerda, alguns pontos pr´oximos dos valores -3 e 3 considerados limites para res´ıduos.

Realizou-se uma an´alise de pontos influentes com trˆes gr´aficos de diagn´osticos (res´ıduos es-tudentizados, distˆancia de Cook e pontos de alavanca) e observou-se os pontos 116, 272, 476 e 576 com um pouco de destaque. Retirou-se esses pontos da an´alise e n˜ao se observou mudan¸cas significativas nos coeficientes ajustados e seus devidos erros padr˜oes, portanto optou-se por deixar os pontos na base de ajuste.

Tamb´em pode-se utilizar do gr´afico de dispers˜ao dos dados com envelopes simulados para analisar se o modelo ajusta aos dados corretamente e se a distribui¸c˜ao binomial ´e a adequada. S˜ao considerados na constru¸c˜ao do gr´afico uma simula¸c˜ao de dados gerados pelo modelo e o quanto esses dados s˜ao semelhantes a amostra utilizada para ajustar o modelo.

Nos gr´aficos abaixo, percebemos que ambos os trˆes modelos est˜ao corretamente ajustados aos dados, com a exce¸c˜ao dos pontos extremos que podemos visualizar no canto superior esquerdo dos gr´aficos. No entanto, como comentado acima, retirar esses pontos da base n˜ao seria relevante, portanto, optou-se por mantˆe-los.

Figura 2: Envelopes simulados para gr´aficos meio-normais 6

(8)

2.4.7 Poder preditivo do modelo

O poder preditivo do modelo pode tamb´em ser considerado um avaliador da qualidade do ajuste. Para analis´a-lo, deve-se estabelecer uma probabilidade de ponto de corte cuja vari´avel resposta receba valor 1 para probabilidades preditas pelo modelo maiores que o ponto de corte e que a vari´avel resposta receba valor 0 para probabilidades preditas pelo modelo menores que o ponto de corte.

Analisando alguns exames utilizados para diagnostico de doen¸cas hep´aticas, aqueles muito espec´ıficos obtˆem alta especificidade, assim, eliminando a hip´otese de doen¸ca com maior acur´acia. Quanto a exames mais simples, verifica-se um equil´ıbrio entre especificidade e sensibilidade, com esta ´ultima sempre um pouco mais elevada que a primeira.

Utilizou-se a fun¸c˜ao coords do pacote pROC da linguagem R junto `a curva ROC e obteve-se que os melhores pontos de corte seriam 0.69 para os modelos logito e probito e 0.68 para o modelo cloglog. Fazendo uso desses pontos obteve-se os valores de especificidade (percentual de verdadeiros negativos), sensibilidade (percentual de verdadeiros positivos) e acur´acia (valor preditivo geral) para cada um dos links utilizados conforme tabela abaixo.

Modelo Ponto de corte Sensibilidade Especificidade Acur´acia

logito 0.69 0.6967 0.7924 0.7257

probito 0.69 0.6885 0.7924 0.7200

cloglog 0.68 0.6803 0.7924 0.7143

Tabela 3: Poder preditivo do modelo

Os pontos de corte 0.68 e 0.69 obtiveram uma acur´acia de em m´edia 72%, para todos os modelos. A especificidade e sensibilidade resultaram em valores n˜ao muito diferentes. Portanto, julgou-se esses bons pontos de corte para seus respectivos modelos.

Figura 3: Curva ROC

A curvas ROC na figura apresenta o poder preditivo dos trˆes modelos. A linha colorida repre-senta a curva ROC com dados de valida¸c˜ao, j´a a linha vermelha representa a curva ROC com os dados do ajuste. Pode-se observar que as curvas s˜ao bem parecidas indicando um bom ajuste do modelo validado pelos dados.

(9)

3

Resultados e discuss˜

ao

3.1

An´

alise final e modelo escolhido

Como abordado nos t´opicos anteriores, inicialmente foi analisado modelos com todas as 10 covari´aveis. At´e ent˜ao o modelo complemento log-log apresentou menores valores de AIC, verossimilhan¸ca e deviance. Contudo, julgou-se importante reestruturar os modelos considerando o m´etodo stepwise que avalia a inser¸c˜ao das vari´aveis uma a uma e sua significˆancia na presen¸ca das outras. Os trˆes modelos anteriores, cada um com sua fun¸c˜ao de liga¸c˜ao, ap´os a inser¸c˜ao do m´etodo, tornaram-se mais enxutos, ou seja, com cinco covari´aveis e todas apresentando significˆancia de no m´ınimo 5%. Realizou-se tamb´em o teste TRV e todos apresentaram boa parcimˆonia em rela¸c˜ao aos modelos pr´evios. Os valores de AIC, verossimilhan¸ca e deviance tamb´em diminu´ıram, o que faz tais modelos melhores que os inicialmente estabelecidos, sendo tamb´em o modelo complemento log-log com menores valores de indicadores.

Sendo at´e o momento os modelos gerados usando o m´etodo stepwise como os mais aconselh´aveis, ainda se julgou importante analisar o grau de multicolinearidade entre as vari´aveis. As vari´aveis albumina (ALB) e prote´ına total (TP) foram removidas.

Em seguida, realizou-se uma an´alise de diagn´ostico com gr´aficos de dispers˜ao de dados com envelopes simulados e os trˆes modelos reduzidos apresentaram uma ´otima ades˜ao a distribui¸c˜ao proposta assim como bons gr´aficos de res´ıduos padronizados aleatorizados estudentizados. O mo-delo probito apresentou levemente uma melhor ades˜ao dos quantis no gr´afico QQ-plot.

Posteriormente em an´alise do poder preditivo, os trˆes modelos apresentaram valores de ponto de corte, sensibilidade, especificidade e acur´acia similares e bons.

Considerando a an´alise dos dados e valores similares de indicadores de escolha de modelo, chegou-se `a conclus˜ao que, dentre os modelos registrados no presente trabalho, o modelo logito foi escolhido como o mais parcimonioso por apresentar valores similares aos demais, por´em os mais altos valores de sensibilidade, especificidade e acur´acia.

3.2

Interpreta¸

ao do modelo

Para interpretar o modelo escolhido logito, deve-se observar a tabela a seguir com valores im-portantes de estimativa, erro padr˜ao e p-valor indicando a significˆancia das vari´aveis no modelo. ´E relevante relembrar que as vari´aveis TB, SGPT e AG est˜ao transformadas pela fun¸c˜ao logar´ıtmica.

Vari´aveis do modelo logito Estimativa Erro padr˜ao p-valor

(intercepto) -3.105 0.814 < 0.001

idade (AGE) 0.016 0.008 0.029

total de bilirrubina (TB) 0.556 0.192 0.004

alanina aminotrasferase (SGPT) 0.882 0.207 < 0.001

propor¸c˜ao de albumina e globulina (AG) -0.685 0.395 0.083

Tabela 4: Valores importantes do modelo logito escolhido A express˜ao do modelo logito final, na escala do preditor, ´e dada por:

Por motivos interpretativos e preditivos, desejou-se calcular a probabilidade de um paciente possuir doen¸ca hep´atica com o seguinte perfil (vari´aveis transformadas j´a est˜ao com valores na escala log): idade (AGE) = 44, total de bilirrubina (TB) = 0,40, alanina aminotrasferase (SGPT) = 3 e propor¸c˜ao de albumina e globulina (AG) = 0.

ln  µi 1 − µi  = −3, 105 + 0, 016 ∗ AGE + 0, 556 ∗ T B + 0, 882 ∗ SGP T − 0, 685 ∗ AG = 0, 48 (1) 8

(10)

IC(95%) do preditor = 0, 48 ± Zα/2∗ Erro padr˜ao = 0, 48 ± 1, 96 ∗ 0, 175 = (0, 142; 0, 832) (2)

Observa-se em (1) o valor da probabilidade do perfil ter doen¸ca hep´atica na escala do preditor e em (2) o intervalo de confian¸ca apropriado.

µi =

exp(−3, 105 + 0, 016 ∗ AGE + 0, 556 ∗ T B + 0, 882 ∗ SGP T − 0, 685 ∗ AG)

1 + exp(−3, 105 + 0, 016 ∗ AGE + 0, 556 ∗ T B + 0, 882 ∗ SGP T − 0, 685 ∗ AG) = 0, 61 (3)

IC(95%) da m´edia = exp(0, 142; 0, 832)

1 + exp(0, 142; 0, 832) = (0.535; 0, 696) (4)

Observa-se em (3) o valor da probabilidade do perfil ter doen¸ca hep´atica na escala da m´edia e em (4) o intervalo de confian¸ca apropriado.

A estimativa da fun¸c˜ao logar´ıtmica propor¸c˜ao de albumina e globulina (AG) tem valor ne-gativo, ou seja, isoladamente, quanto maior os valores, menor ser´a a probabilidade do paciente possuir doen¸ca hep´atica. As outras vari´aveis, isoladamente, quanto maior os valores, aumenta a probabilidade do paciente possuir doen¸ca hep´atica.

4

Conclus˜

ao

O presente estudo foi realizado no intuito de predizer a doen¸ca hep´atica fazendo uso dos co-nhecimentos adquiridos em Modelos Lineares Generalizados. Foram realizadas analises em trˆes modelos, sendo eles logito, probito e complemento log-log, sem muitos problemas de ajuste. Todos os modelos apresentaram resultados parecidos e optamos pelo qual obteve os maiores valores para sensibilidade, especificidade e acur´acia, al´em de ter uma interpreta¸c˜ao mais vi´avel aos parˆametros. Uma outra solu¸c˜ao para an´alise futura seria a escolha das vari´aveis por meio de m´etodos de regulariza¸c˜ao, Ridge ou Lasso, onde colocamos um determinado peso sobre nossos coeficientes penalizando o algoritmo de estima¸c˜ao dos betas mantendo, assim, as estimativas dos parˆametros pr´oximas a zero ou nulas.

5

Referˆ

encias

GIOLO, Suely Ruiz. Introdu¸c˜ao `a An´alise de Dados Categ´oricos com Aplica¸c˜oes. Curitiba: Blucher, 2017.

GIOLO, Suely R. , em 2018. CE073 An´alise de Dados Categ´oricos, Curitiba. Disponivel em https://docs.ufpr.br/~giolo/categoricos.html. Access on 11 November 2019.

SOUZA, Germano de, em 2018. A albumina e a globulina na dete¸c˜ao de doen¸cas no f´ıgado, Lis-boa Portugal. Dispon´ıvel em https://lifestyle.sapo.pt/saude/saude-e-medicina/artigos/ a-albuminaglobulina-na-detecao-de-doencas-no-figado. Acesso em 12 de novembro de 2019.

Referências

Documentos relacionados