• Nenhum resultado encontrado

Modelo preditivo para o risco de readmissão hospitalar

N/A
N/A
Protected

Academic year: 2021

Share "Modelo preditivo para o risco de readmissão hospitalar"

Copied!
75
0
0

Texto

(1)

Universidade de Aveiro Departamento de Matemática 2018

JOÃO

ANTÓNIO

ARAÚJO

BARROSO

Modelo preditivo para o risco de readmissão

hospitalar

(2)
(3)

Para ser grande, sê inteiro: nada Teu exagera ou exclui.

Sê todo em cada coisa. Põe quanto és No mínimo que fazes.

Assim em cada lago a lua toda Brilha, porque alta vive.

 Ricardo Reis Universidade de Aveiro Departamento de Matemática

2018

JOÃO

ANTÓNIO

ARAÚJO

BARROSO

Modelo preditivo para o risco de readmissão

hospitalar

(4)
(5)

Universidade de Aveiro Departamento de Matemática 2018

JOÃO

ANTÓNIO

ARAÚJO

BARROSO

Modelo preditivo para o risco de readmissão

hospitalar

Predictive model for hospital readmission risk

Dissertação apresentada à Universidade de Aveiro para cumprimento dos re-quisitos necessários à obtenção do grau de Mestre em Matemática e Aplica-ções, realizada sob a orientação científica do Doutor Luís Silva, Professor au-xiliar convidado do Departamento de Matemática da Universidade de Aveiro, e do Doutor Bernardo Marques, Data Scientist da MHii Solutions.

(6)
(7)

Dedico este meu trabalho, bem como todo o meu percurso académico aos meus Pais, que tanto se esforçaram e se empenharam nesta fase da minha vida, e ainda à minha Avó, uma das pessoas mais corajosas, lutadoras e vitoriosas que já alguma vez conheci. Que a saudade se transforme em força!

(8)
(9)

o júri / the jury

presidente / president Prof. Doutora Andreia Oliveira Hall

professora associada do Departamento de Matemática da Universidade de Aveiro

vogais / examiners committee Prof. Doutora Ana Maria Perfeito Tomé

professora associada do Departamento de Eletrónica, Telecomunicações e Informática da Uni-versidade de Aveiro

Prof. Doutor Luís Miguel Almeida da Silva

(10)
(11)

agradecimentos /

acknowledgements As minhas primeiras palavras de agradecimento têm de ir, necessariamente,para todos aqueles que de forma direta ou indiretamente tornaram a minha formação académica, bem como a realização do estágio curricular e o desen-volvimento da tese mais fáceis, contribuindo para a minha formação pessoal e profissional dando-me o apoio necessário para tal.

Desta forma, deixo apenas algumas palavras, poucas, mas com um sentido e profundo agradecimento.

Ao Professor Luís Silva, meu orientador, um muito obrigado por toda a dispo-nibilidade, pelos conselhos, pelas críticas, mas sobretudo pelo apoio e estí-mulo ao longo da concretização deste trabalho.

Ao meu co-orientador, Dr. Bernardo Marques, que sempre se demonstrou disposto e pronto a ajudar, agradeço pela aprendizagem adquirida e confi-ança demonstrada ao longo deste estágio. Não menos importante, queria agradecer ao resto da equipa da MHii Solutions por me ter recebido de forma tão acolhedora, fazendo-me sentir parte integrante da equipa e que de igual forma colaboraram para um melhor desempenho da minha parte durante os 6 meses de estágio.

Agradeço, ainda, a todos os professores com quem tive o privilégio de me cruzar tanto na licenciatura como no mestrado, cujos ensinamentos me per-mitiram conduzir este trabalho. Em especial, ao Professor Agostinho Agra, por me ter ajudado e apoiado a ultrapassar as adversidades ao longo do mestrado e ainda ao Professor João Pedro Cruz, pela compreensão e oportunidade que me deu ao longo dos últimos 5 meses.

Agradeço a toda a minha família que tanto se esforçou e empenhou ao longo da minha vida. Não só pelo esforço monetário que fizeram, mas também por toda a força, incentivo e apoio que me deram.

À minha namorada Filipa, pelo incentivo, motivação e por sempre acreditar. Por último, mas não menos importante, agradeço aos meus amigos pelo com-panheirismo e alento que me foram dando ao longo deste percurso.

Graças ao esforço de todos consegui superar os obstáculos desta caminhada, a todos eles dedico este trabalho!

(12)
(13)

Palavras Chave random forest, readmissão hospitalar, OpenCPU, modelo preditivo.

Resumo O desenvolvimento deste projeto passou por 4 fases: duas pesquisas

prelimi-nares em momentos distintos; construção e avaliação de modelos preditivos; desenvolvimento de uma aplicação web com a solução de um desses mode-los.

A primeira fase do projeto consistiu numa pesquisa em que o objetivo foi a recolha de um grande número de artigos relacionados com problemáticas no meio hospitalar. Para esta fase dedicou-se cerca de um mês de trabalho. Desta primeira etapa, determinou-se o objetivo do projeto: o desenvolvimento de um modelo preditivo para o risco de readmissão hospitalar.

A segunda fase do projeto foi sem dúvida a que mais tempo se despendeu, onde se dedicaram mais de dois meses de trabalho. Para esta fase foi dispo-nibilizada uma base de dados hospitalar real (de vários hospitais) com cerca de um milhão de observações e centenas de variáveis. Esta fase pode ser dividida em várias etapas: numa etapa inicial procurou-se compreender e resolver incoerências através de modificações e transformações da base de dados original; na segunda fase efetuaram-se modificações ao formato de al-gumas variáveis e criaram-se outras novas variáveis com recurso às variáveis já existentes; na terceira etapa, após finalizadas as transformações à base de dados, selecionaram-se alguns conjuntos de variáveis por ordem de signifi-cância; na última fase construiram-se e testaram-se vários modelos random forest com os conjuntos de treino selecionados na etapa anterior.

Na a terceira fase, o objetivo englobava selecionar uma tecnologia Machine Learning (ML) para posterior desenvolvimento de uma aplicação web. Assim, procedeu-se a uma nova pesquisa sobre tecnologias ML, nomeadamente o Apache Spark, o H2O, o H2O Sparkling Water, o Microsoft Azure ML e o OpenCPU. Para esta fase, foi dedicado cerca de um mês de trabalho. Após a pesquisa e decisão da tecnologia a utilizar, desenvolveu-se uma apli-cação web. Mais uma vez, foi dedicado cerca de um mês de trabalho para se finalizar esta fase.

(14)
(15)

Keywords random forest, hospital readmission, OpenCPU, predictive model.

Abstract The development if this project underwent four stages: two preliminary

re-searches within different timeframes; the construction and evaluation of pre-dictive patterns; the development of a web app that ultimately would solve one of those patterns.

The first stage of the project consisted on a research whose aim was the col-lection of several articles related to issues in the hospital environment. This stage took about a month to be completed, and from this the practical aim of the project was determined: the development of a predictive pattern for the risk of hospital’s readmission.

The second stage was undoubtedly the most time consuming, with more than two months of work. To this phase a real and from several hospitals’ database was made available, with about one million observations and hundreds of vari-ables. This stage can be divided into four substeps: firstly, it was attempted an understanding and resolution of inconsistencies through modifications and transformations of the original database; in a second phase, modifications were made to the format of some variables and new others created using those already existing as a resource; then, in the aftermath of the second phase, a group of variables were selected according to their degree of rele-vance; at last, several Random Forest patterns were built and tested together with the training sets previously selected.

The third stage’s aim was the selection of a Machine Learning (ML) technology to further development of a web app. Therefore, a new research on ML tech-nology - namely Apache Spark, H2O, H2O Sparkling Water, Microsoft Azure ML and OpenCPU - was promptly made. This research took approximately a month to be completed.

As the research and decision on which technology should be used reached its conclusion, the web app was developed. Once again, about a month was the time spent to finalize this phase of the project.

(16)
(17)

Conteúdo

Conteúdo i

Lista de Figuras iii

Lista de Tabelas v

Lista de Acrónimos vii

1 Introdução 1

1.1 Informação e Conhecimento . . . 1

1.2 Revisão da Literatura . . . 2

1.3 Visão Geral do Problema . . . 5

1.4 Descrição da Entidade de Acolhimento . . . 6

1.4.1 Prologica . . . 6

1.4.2 MHii Solutions . . . 6

1.5 Planeamento da Tese . . . 7

2 Compreensão do Negócio 9 2.1 Compreensão do Problema no Âmbito do Serviço de Urgências . . . 9

2.2 Compreensão da Perspetiva do Cliente . . . 10

(18)

4.2 Problemas nos Dados . . . 24

4.3 Pré-processamento dos Dados . . . 25

4.4 Análise Exploratória de Dados . . . 27

5 Modelação e Avaliação 31 5.1 Modelação dos Dados . . . 31

5.2 Classificação Utilizando o Conjunto de Dados Interpretação . . . 32

5.2.1 Avaliação . . . 34

5.3 Classificação Utilizando o Conjunto de Dados Previsão . . . 35

5.3.1 Avaliação . . . 37

5.4 Classificação Utilizando um Conjunto de Dados com Variáveis Citadas na Literatura 38 5.4.1 Avaliação . . . 40 6 Desenvolvimento 41 6.1 R Package . . . 41 6.2 OpenCPU . . . 41 6.3 Aplicação Web . . . 43 7 Conclusão 45 7.1 Trabalho Futuro . . . 46 Referências 49 Apêndice A 51 ii

(19)

Lista de Figuras

3.1 Exemplo de uma árvore de classificação, usando duas das variáveis deste estudo. . . 14

3.2 Sub-árvore correspondente à execução descrita. . . 14

5.1 Erros OOB dos modelos por no de árvores. . . 33

5.2 Erros OOB dos modelos por no de árvores. . . 36

5.3 Erros OOB dos modelos por no de árvores. . . 39

6.1 Interface da API OpenCPU. . . 42

6.2 Execução da API OpenCPU com o package desenvolvido. . . . 43

(20)
(21)

Lista de Tabelas

1.1 Número de estudos analisados, categorizados por temas. . . 3

1.2 Frequências absolutas e relativas de variáveis no total de estudos analisados. . . 4

1.3 Métodos e variáveis considerados/as em estudos do risco de readmissão hospitalar. . . 5

3.1 Matriz de confusão para um problema de 2 classes. . . 17

4.1 Frequências absolutas e relativas por tipo de serviço. . . 21

4.2 Descrição das variáveis presentes na base de dados. . . 23

4.3 Correspondência dos códigos ICD9-CM com as categorias das doenças e lesões. . . 25

4.4 Tabela de frequências absolutas e relativas por variável qualitativa. . . 28

4.5 Sumário da variável quantitativa Idade. . . 29

4.6 Sumário do número de admissões por mês do ano. . . 29

4.7 Sumário do número de admissões por estação do ano. . . 29

5.1 Resultados das estatísticas dos modelos para um no específico de árvores. . . 34

5.2 Resultados das estatísticas dos modelos para um no específico de árvores. . . 36

5.3 Resultados das estatísticas de avaliação por simulação. . . 37

5.4 Resultados das estatísticas dos modelos para um no específico de árvores. . . . 38

5.5 Resultados das estatísticas de avaliação por simulação. . . 39

(22)
(23)

Lista de Acrónimos

CLR - Conditional Logistic Regression DT - Decision Tree

GBM - Gradient Boosting Machine LR - Logistic Regression

LRVS - Logistic Regression with

multi-step Variable Selection

NN - Neural Network

PLR - Penalized Logistic Regression RF - Random Forest

(24)
(25)

CAPÍTULO

1

Introdução

1.1 Informação e Conhecimento

“Conhecimento é poder” ou “Informação é poder!” é uma ideia que não é nova, data já de há muitos anos. A primeira ocorrência documentada veio por Imam Ali (599-661 DC) no livro do século X Nahj Al-Balagha, em que diz “Conhecimento é poder e pode comandar a obediência. Um homem de conhecimento durante a sua vida pode fazer as pessoas obedecerem-lhe e seguirem-no e ele é louvado e venerado após a sua morte. Lembre-se que o conhecimento é um soberano e a riqueza é o seu subordinado.”. Aqui neste exemplo podemos ver que já no século VI, VII a humanidade sabia o poder da informação. Ainda mais recentemente Aaron Swartz, co-autor da criação do RSS e um dos fundadores do Reddit que foi preso em 2011 por usar a rede do Instituto de Massachusetts para descarregar sem pagamento grande volumes de artigos da revista cientifica STOR, disse “A informação é poder. Mas como todo o poder, existem aqueles que o querem manter só para si.”. Aaron Swartz, que defendia que a informação deveria ser pública para todos os cidadãos, morreu em 2013 com apenas 26 anos vítima de suicídio.

Falar em Machine Learning (ML) é falar de tratar informação, de fazer previsões através de dados conhecidos. A verdade é que a nível global a ideia “Informação é poder” é atualmente mais verdadeira do que sempre. Devido à evolução das novas tecnologias de computação e, principalmente, à capacidade de aplicar automaticamente cálculos matemáticos complexos a

(26)

O mesmo acontece com o ser humano. Isto é, por muito que não se aperceba o ser humano tende a ter comportamentos similares. Uma das provas disso é, por exemplo, a teoria da vinculação cujo princípio mais importante declara que um recém-nascido precisa desenvolver um relacionamento com, pelo menos, um cuidador primário para que o seu desenvolvimento social e emocional ocorra normalmente, ou por exemplo segundo Alfeu Marcatto, psicólogo clínico, que diz “Um padrão de comportamento é uma maneira de agir que sempre se repete diante de situações semelhantes. Aprender é criar padrões. Quando estamos diante de algo novo, dizemos que nos é desconhecido. Não temos padrões para aquilo. Procuramos então ligá-lo a algo que já conhecemos, a um padrão existente. Daí passamos a procurar compreendê-lo, passamos a construir um padrão de repetição que nos permita reconhecer este algo quando o virmos de novo.” [1].

É devido ao facto de existirem incalculáveis padrões no universo que os algoritmos ML têm tanto sucesso, porque permitem que os computadores tomem decisões inteligentes baseados em comportamentos que não foram diretamente programados, mas sim aprendidos ou adaptados por meio de algum conhecimento/informação. Daí a abordagem ML ter como principal

benchmarking o próprio ser humano.

No momento atual, as organizações sentem cada vez mais a necessidade de fazer uso dos dados que por ali passam todos os dias. Informação que antigamente não era aproveitada e/ou descartada é agora utilizada devido ao reaparecimento do ML.

1.2 Revisão da Literatura

Numa fase inicial deste trabalho foram colecionados dezenas de artigos referentes a problemas no serviço hospitalar. Foram selecionados apenas artigos publicados em língua inglesa entre setembro de 1993 e junho de 2016.

De entre um total de 45 artigos analisados, os conjuntos de dados daqueles que foram discriminados foram baseados maioritariamente nos cuidados de saúde dos Estados Unidos da América (8). No entanto, 11 são conjuntos de dados de cuidados de saúde asiáticos, incluindo China (3), India (3), Japão (2), Singapura (1), Nova Zelândia (1) e Irão (1), 9 são americanos, EUA (8) e Canadá (1) e somente 5 europeus, Grécia, Inglaterra, Escócia, Itália e Espanha.

Para facilitar a comparação, os artigos estudados foram agrupados em 8 categorias (ver Tabela 1.1). De entre estas categorias, a previsão de doenças foi o tema mais frequente (9 artigos), principalmente na previsão de doenças que afetam os rins (3 artigos). Para fechar o top 3 foram analisados 8 artigos relativamente à diferenciação de neoplasias benignas e malignas e 8 em previsão de readmissões hospitalares. De notar que todos os artigos selecionados são artigos relativos a problemas de classificação.

O tamanho total dos conjuntos de dados variou entre 28 e 3.3 milhões de observações, tendo-se encontrado centenas de diferentes tipos de variáveis. Cerca de 40% dos artigos selecionados utilizam imagens como variáveis, ou variáveis que derivam de imagens obtidas previamente (imagens estas que variam entre mamografias, tomografias, ecografias, estas maioritariamente usadas na diferenciação de neoplasias, eletrocardiogramas nas doenças pulmonares, até imagens cerebrais e procedimentos elaborados para calcular a atenção visual

(27)

Tabela 1.1: Número de estudos analisados, categorizados por temas.

Temas Total de artigos

Previsão de doenças Rins 3 9 Campo visual 2 Pulmão 2 Apêndice 1 Fígado 1

Diferenciação de neoplasias benignas e malignas

Pulmão 3 8 Fígado 1 Mama 1 Tiroide 1 Urinário 1 Útero 1

Previsão de readmissões hospitalares 8

Efeitos adversos Ataque cardíaco 4 6 Falência de um ou mais órgãos 1 Transplante renal a longo prazo 1 Identificação de autismo 5

Progressão/Gravidade de uma doença

Campo visual 2

(28)

na deteção de pacientes com autismo), assim como, se verificou também a utilização de variáveis muito específicas relativamente à problemática em estudo.

De acordo com o conjunto de dados disponível as variáveis que mais interessam são as variáveis demográficas e as variáveis que fazem parte, ou que se podem calcular, através dos campos da Base de Dados Nacional de Grupos de Diagnósticos Homogéneos do Portal da Codificação Clínica e dos GDH, pelo que serão aqui apenas destacadas as variáveis de interesse (assim como os artigos que as utilizam).

As variáveis de interesse selecionadas dos artigos estudados são representadas na Tabela 1.2, assim como as suas frequências relativa e absoluta.

Tabela 1.2: Frequências absolutas e relativas de variáveis no total de estudos analisados.

Variáveis Freq. Absoluta Freq. Relativa * 100

Idade 17 37,78%

Sexo 11 24,44%

Tempo de Estadia 6 13,33%

Tipo de Admissão 6 13,33%

Admissões Anteriores / Historial Médico 4 8,89%

Etnia 4 8,89%

Comorbidades 3 6,67%

Destino Após Alta 3 6,67%

Diagnósticos 3 6,67% Medicação 2 4,44% Procedimentos 2 4,44% Serviços 2 4,44% Crónica 1 2,22% Transferências 1 2,22%

Da tabela podemos concluir que as variáveis demográficas Idade (37,78%) e Sexo (24,44%) são aquelas que aparecem com mais frequência nos artigos relacionados com problemáticas no serviço hospitalar, sendo que, de forma geral os artigos que englobam o maior número destas variáveis são sem dúvida os artigos focados nas readmissões hospitalares. Desta forma, decidiu-se que o problema a estudar neste trabalho será o cálculo da probabilidade do risco de readmissão hospitalar. Relativamente aos artigos das readmissões realizou-se um levantamento dos métodos e das variáveis utilizadas e que pode ser consultado na Tabela 1.3.

Verificou-se que variáveis como Etnia, Admissões Anteriores / Historial Médico e Medicação aparecem, regularmente, nos artigos relacionados com as readmissões hospitalares, no entanto, neste estudo estas variáveis não estão disponíveis, porém poderiam ser uma futura melhoria ao modelo.

A partir da Tabela 1.3 podemos concluir que as variáveis Idade e Sexo foram utilizadas por quase todos os modelos de readmissões estudados (95%), assim como o Tempo de Estadia que foi utilizado cerca de 80% das vezes, enquanto que as restantes variáveis, exceto o Tipo de Admissão e as Admissões Anteriores / Historial Médico (55%), foram utilizadas em menos de metade das vezes.

(29)

Tabela 1.3: Métodos e variáveis considerados/as em estudos do risco de readmissão hospitalar.

SVM (artigos [2][3][4]) LR (artigos [2][3][5][4]) LRVS (artigos [2][3]) PLR (artigo [2]) CLR (artigo [3]) Admissões anteriores /

Historial médico

[2][4] [2][4] [2] [2] 0

Comorbidades [3] [3] [3] 0 [3]

Cronica [3] [3] [3] 0 [3]

Destino após alta [3] [3] [3] 0 [3]

Diagnósticos 0 [5] 0 0 0 Etnia [2][3] [2][3] [2][3] [2] 0 Idade [2][3][4] [2][3][4][5] [2][3] [2] [3] Procedimentos [3] [3][5] [3] 0 [3] Serviços [3] [3][5] [3] 0 [3] Sexo [2][3][4] [2][3][4][5] [2][3] [2] [3] Tempo de estadia [2][3] [2][3][5] [2][3] [2] [3] Tipo de admissão [3] [3][5] [3] 0 [3] Transferências [2] [2] [2] [2] 0

DT (artigo [6]) RF (artigos [2][3][5][4]) AdaBoost (artigo [5]) NN (artigos [2][5]) GBM (artigo [4]) Admissões anteriores /

Historial médico

[6] [2][4] 0 [2] [4]

Comorbidades 0 [3] 0 0 0

Cronica 0 [3] 0 0 0

Destino após alta 0 [3] 0 0 0

Diagnósticos 0 [5] [5] [5] [4] Etnia 0 [2][3] 0 [2] 0 Idade 0 [2][3][4][5] [5] [2][5] [4] Procedimentos 0 [3][5] [5] [5] 0 Serviços 0 [3][5] [5] [5] 0 Sexo 0 [2][3][4][5] [5] [2][5] [4] Tempo de estadia [6] [2][3][5] [5] [2][5] 0 Tipo de admissão [6] [3][5] [5] [5] [4] Transferências 0 [2] 0 [2] 0

1.3 Visão Geral do Problema

A atual rede hospitalar presente em Portugal, que faz parte do Serviço Nacional de Saúde (SNS), perdura desde o final dos anos 70.

Perante a Constituição da República Portuguesa todos os cidadãos têm direito à prestação de cuidados globais de saúde, assim sendo, não faz qualquer sentido existir uma organização que apenas garante a prestação de cuidados de saúde a quem tem possibilidades financeiras. Mas outrora, era esta a política praticada e tínhamos uma organização chamada Organização dos Serviços de Saúde Pública que deu então lugar ao atual SNS. Até então cabia ao Estado a assistência aos pobres.

Desde finais do século XIX que a prestação de serviços de saúde pública tem sofrido alterações de influência política, económica, social e religiosa de modo a garantirem promover a saúde da população durante o decorrer dos anos.

(30)

pode ser o reflexo de uma abordagem ineficaz ou da ocorrência de complicações referentes ao diagnóstico inicial, sendo considerada como evento prejudicial para a qualidade dos cuidados de saúde prestados.

Este é um dos problemas ML mais abordados no contexto do Serviço de Urgências, pelo que um dos principais objetivos deste projeto é a previsão do risco de readmissão no Serviço de Urgências, bem como, a sua implementação utilizando o software OpenCPU.

1.4 Descrição da Entidade de Acolhimento

1.4.1 Prologica

Fundada em Portugal em 1984, a Prologica iniciou a sua atividade na prestação de serviços nas áreas da Tecnologia da Informação e Comunicação, fornecendo soluções de hardware e

software.

Durante os seus 30 anos de existência, foram diversos os seus acionistas, sendo que de 1984 até 1999 pertenceu a uma rede de acionistas privados. Entre 1999 e 2005 pertencia a um dos maiores grupos belgas de IT - a SYSTEMAT GROUP. No final de 2005, um grupo de investigadores portugueses criou a Prologica SGPS e adquiriu 67% das ações da Prologica SA, dando assim início a um novo ciclo, chegando mesmo a tomar a totalidade da empresa ao fim de 2 anos.

Em 2007, juntamente com a empresa JP Sá Couto fundaram a YOUTSU, um consórcio responsável pela gestão e entrega dos computadores Magalhães. Estes computadores, montados em Portugal sob o âmbito do programa e-escolinha, tinham como objetivo serem entregues às crianças do ensino básico em Portugal, através do Ministério das Obras Públicas, Transportes e Comunicações.

Em novembro de 2010, a Prologica foi premiada pela conceituada revista Exame com o prémio de “Melhor Empresa no setor Electro-Eletrónico”, reforçando assim a sua posição como uma das melhores empresas a atuar no setor de serviços IT.

Em 2015, aproximadamente 1 ano antes do início do presente estágio, a Prologica deu início a duas novas start-ups a MHii e a Bridge, apostando mais nas áreas da saúde e educação.

1.4.2 MHii Solutions

O Centro Empresarial e Tecnológico de São João da Madeira, mais conhecido por Sanjotec, é uma iniciativa que visa apoiar a comunidade empresarial local e regional facilitando e dinamizando a aproximação entre as empresas e a comunidade científica. Este apresenta um conjunto de recursos que ajudam a desenvolver o meio empresarial da região, consolidando-os com a oferta de vários serviços e conteúdos, apoiando assim, a inovação e o empreendedorismo em projetos de base tecnológica, nomeadamente na área de Tecnologias da Informação, como é o exemplo da MHii Solutions.

A MHii Solutions, fundada em 2015, é uma start-up com cerca de uma dezena de colabora-dores, onde o seu foco prende-se exclusivamente em capacitar as organizações, que trabalham no sector da saúde, a desbloquear o poder dos seus dados e com isto melhorar a tomada de

(31)

decisão. Ao combinar inteligência e experiência em engenharia de dados, análise avançada,

business intelligence e design de interação, a empresa procura fornecer as melhores soluções

de análise que possibilitem melhorar os resultados de saúde e bem-estar.

Para além do já mencionado, a MHii proporciona a oportunidade de trabalhar com uma diversidade de ferramentas, fornecendo-nos assim um maior know-how. O facto de ser uma empresa com uma média de idades particularmente jovem, permite fomentar o trabalho de equipa, onde a interajuda e as dinâmicas de grupo prevalecem, tornando assim, de um modo geral, os estágios mais enriquecedores.

1.5 Planeamento da Tese

Esta tese pretende seguir a metodologia Cross-Industry Standard Process for Data Mining (CRISP-DM)[7]. Acreditamos que esta é a abordagem mais correta para usar nesta fase e, especialmente, para ser aplicada no cenário da saúde porque começa pela fase mais fundamental na solução de um problema de negócios na área da saúde: a compreensão do negócio. Nesse sentido, como esta tese pretende ajudar a desenvolver novas abordagens baseadas em ML para prever as readmissões é crucial ter uma compreensão profunda do negócio, sendo preciso esclarecer algumas questões como:

• “O que é uma readmissão hospitalar?”

• “Quais as fases de um paciente numa visita ao Serviço de Urgências?” • “Em qual destas fases seria espectável o médico obter esta solução?”

A definição de readmissão não é unânime, verificando-se uma enorme disparidade de conceitos na literatura revista acerca desta temática e, como operadores da nova solução, seria necessário discutir em que momentos da consulta aquela seria utilizada e para isso seria necessário conhecer as fases de uma consulta médica. Estas são algumas questões que se tentaram responder durante este trabalho.

Um dos desafios fundamentais desta tese foi o investimento em tempo em torno da fase da preparação dos dados, pois baseou-se no pressuposto de que “melhores dados geralmente superam melhores algoritmos”[8]. Pretende-se desenvolver um conjunto de dados com o maior número de variáveis observadas na revisão da literatura.

(32)

também o estudo e levantamento de dezenas de artigos, já referenciados na Secção 1.2, foi muito importante.

A fase de exploração, compreensão e processamento dos dados foi sem dúvida aquela em que mais tempo foi investido. Há muitos problemas de qualidade de dados em jogo quando um modelo preditivo em tempo real é implementado num ambiente de saúde, enfatizando assim a importância de passar muito tempo nas fases de compreensão e processamento dos dados.

Na fase da modelação tentaremos absorver as lições aprendidas com outros modelos de previsão de saúde originários de estudos clínicos ou modelos clínicos, com o intuito de desenvolver o modelo com melhor poder de previsão possível.

Por fim, segue-se a fase da implementação, onde foram estudadas algumas tecnologias ML e se escolheu aquela que possuía mais vantagens de acordo com os princípios da empresa.

(33)

CAPÍTULO

2

Compreensão do Negócio

A compreensão do negócio é uma das fases da metodologia adotada para encarar este projeto. A metodologia CRISP-DM é um modelo de processo data mining que descreve abordagens comummente usadas por especialistas na área. O CRISP-DM é a metodologia de data mining mais citada e utilizada na prática [7] e é composta por seis etapas sem uma sequência fixa, propondo um fluxo de processos iterativos entre etapas onde a passagem para a fase seguinte depende sempre do resultado da atual. Dependendo do resultado de cada etapa, pode ser necessário recuar mais do que uma etapa no processo. As seis fases do CRISP-DM são as seguintes:

• Compreensão do negócio • Compreensão dos dados • Preparação dos dados • Modelação

• Avaliação

• Desenvolvimento

Estas seis etapas serão abordadas a partir deste momento.

(34)

mostram que o aumento das taxas de readmissão pode estar relacionado com a diminuição de despesas no setor da saúde, na qualidade dos serviços e em altas taxas de mortalidade. De acordo com alguns artigos, a pressão económica nos EUA resultou numa diminuição do tempo médio de consulta por paciente num hospital, a partir do qual se verificou um aumento do número de readmissões hospitalares, o qual podem originar consequências irremediáveis. Algumas dessas readmissões podem, de facto, ser evitadas, porque são readmissões relacionadas com altas hospitalares precoces ou com cuidados de saúde inadequados ou ineficazes. Benbassat e Taragin (2000) [12] afirmam que entre 9 a 48% das readmissões podem ser prevenidas por estarem relacionadas com cuidados de saúde inadequados durante a consulta. Para além disso, os mesmos autores afirmam que entre 12 a 75% das readmissões podem ser evitadas com a educação do paciente, uma avaliação correta antes de decidir a alta do paciente e a extensão dos cuidados de saúde ao agregado familiar [12]. De facto, o suporte a longo prazo para cuidados domiciliários parece desempenhar um papel importante na prevenção das readmissões hospitalares.

Vários estudos descobriram também que certas características do paciente (idade, sexo e comorbidades) estão relacionadas com a taxa de readmissão [2][3][4][5] e , como mencionado em Bernardo Sousa-Pinto et al. (2013) [13] também com certas características do hospital. De acordo com este artigo, as taxas de readmissão são mais altas nos hospitais centrais (mais frequentados), maiores, mais complexos, com tecnologias mais sofisticadas e especializadas, pois estes recebem uma maior proporção de pacientes gravemente doentes. Do ponto de vista das características dos pacientes, tanto nos EUA como na Europa, verificou-se que as taxas de readmissão são mais elevadas nas pessoas idosas. Relativamente ao género do paciente, observaram-se mais readmissões nos pacientes do sexo masculino. Por fim, em relação a doenças relacionadas com as readmissões, as mais prevalentes são de facto doenças cardiovasculares e respiratórias.

A diminuição das taxas de readmissão hospitalar implica uma diminuição dos recursos hospitalares e uma evolução na qualidade dos tratamentos fornecidos, reconhecendo-se assim como uma tarefa de relevante importância. No entanto, são poucos os estudos que tentaram analisar as readmissões em Portugal, pelo que a obtenção de uma redução na taxa torna-se uma tarefa difícil, justificando assim o objetivo deste estudo.

Em resumo, o desenvolvimento desta solução tem em vista a possibilidade de uma redução das readmissões hospitalares e ao mesmo tempo uma evolução na qualidade dos serviços, dando maior atenção a casos mais emergentes e, para além disso, uma redução nos gastos de recursos hospitalares não necessários.

2.2 Compreensão da Perspetiva do Cliente

Como em qualquer oportunidade de negócio, antes de se desenvolver qualquer solução é necessário um levantamento de requisitos, ou seja, uma recolha, compreensão, revisão e articulação das necessidades dos stakeholders. Nesse sentido, esta tese envolveu um processo preliminar de investigação de “valor” na perspetiva do cliente.

(35)

A perspetiva do cliente é um dos pontos de vista que foi necessário analisar durante várias fases ao longo deste trabalho. Começando por uma pesquisa sobre problemas de previsão/otimização mais abordados no contexto hospitalar, decidiu-se que a solução mais “valiosa” neste mercado passaria por calcular a probabilidade do risco de readmissão no âmbito do Serviço de Urgências. Para além deste processo preliminar, uma outra questão que se colocou foi “Do ponto de vista real onde seria expectável obter esta probabilidade? Ou seja, em que momento da consulta seria conveniente o cliente (médico) usar a aplicação?”. Nesta perspetiva, decidiu-se que a aplicação deverá funcionar para qualquer momento após o paciente passar a triagem hospitalar, especialmente na primeira intervenção médica. De referenciar que “pensar do ponto de vista médico” foi uma tarefa que nos acompanhou durante quase todo o desenvolvimento da solução. Por exemplo, durante o desenvolvimento do modelo foi necessário analisar se determinadas variáveis fariam sentido ser incluídas naquele momento da consulta.

Durante a execução do projeto, ponderou-se na possibilidade de entrevistar alguns pro-fissionais da área da saúde, nomeadamente médicos, afim de compreender se do ponto de vista clínico a solução faria sentido. Contudo, por motivos demais, tal não foi possível de se concretizar.

2.3 Modelação do Problema de Negócio

Para se estar apto para desenvolver um modelo que calcule a probabilidade do risco de read-missão no Serviço de Urgências é necessário definir detalhadamente o conceito de readread-missão. Após revisão da documentação estudada foi escolhida uma definição que reúne pelo menos um aspeto de cada uma das seguintes.

As readmissões hospitalares podem ser classificadas como planeadas e eventuais. As planeadas são aquelas necessárias para a continuidade da avaliação diagnóstica ou para a aplicação de terapêuticas. As não planeadas podem ser agrupadas em potencialmente evitáveis e não evitáveis. Quanto menor o intervalo entre a primeira admissão e a readmissão, maior a possibilidade do retorno por complicação ter sido potencialmente evitável [14].

As readmissões não planeadas são eventos clínicos agudos que requerem cuidados prestados de urgência. Quando as taxas de readmissão não planeadas são mais elevadas que o esperado, suscita-se menor qualidade de atendimento e estas são o foco da medição da qualidade dos

(36)

Perante o exposto e após discussão com o grupo de trabalho, optou-se por adotar a seguinte estratégia para modelar o problema: selecionar para casos positivos todas as admissões quando num período de 30 dias ingressasse, eventualmente, no mesmo hospital o mesmo paciente com o mesmo diagnóstico de admissão e para casos negativos os restantes casos. Nesse sentido, o nosso modelo visa “prever o risco de readmissão não planeada a 30 dias”.

(37)

CAPÍTULO

3

Metodologias

3.1 Árvores de Classificação

As árvores de classificação, um caso particular das árvores de decisão para problemas de classificação são um instrumento com um enorme potencial na tomada de decisão. Este método possui a capacidade de aprimorar e formalizar o processo da tomada de decisão [22].

O surgimento deste algoritmo remonta a séculos de história, onde os mais antigos relatos descrevem árvores de decisão criadas manualmente. Atualmente, esta técnica tem sido cada vez mais usada em modelos computacionais.

As árvores de classificação são um método que aproxima funções discretas, onde a função aprendida é representada por meio de uma árvore. A forma mais simples de demonstrar esta técnica consiste numa representação gráfica, do género de um fluxograma ou árvore, que permite representar e avaliar problemas que envolvem decisões sequenciais partindo de uma decisão inicial. Uma das principais vantagens destes métodos é a hipótese de decompor um problema complexo em diversos subproblemas mais simples. De uma forma recursiva, os novos subproblemas identificados voltam a ser decompostos em subproblemas ainda mais simples. Sucintamente, estes modelos utilizam a estratégia de dividir para conquistar: um problema complexo é decomposto em sub-problemas mais simples e recursivamente esta técnica é aplicada a cada sub-problema [23].

(38)

Figura 3.1: Exemplo de uma árvore de classificação, usando duas das variáveis deste estudo.

Figura 3.2: Sub-árvore correspondente à execução descrita.

Considerada como um dos mais populares algoritmos de inferência, são diversas as suas áreas de aplicação, nomeadamente em diagnósticos médicos e em análise de risco de crédito [24].

Formalizando, uma árvore de classificação é uma coleção de nós (internos), ramos e folhas (nós terminais) dispostos numa estrutura em forma de árvore. As divisões ocorrem nos nós internos, enquanto os rótulos das classes são armazenados nas folhas. As árvores são criadas para otimizar uma determinada função, o que envolve a escolha dos parâmetros que melhor separam os dados nos nós internos, ou seja, em cada nó é necessário determinar uma regra que defina a partição dos dados com o objetivo de separar as classes. Para isto, usamos uma métrica denominada como medida de impureza que em cada nó permite escolher a variável e o valor mais vantajosos pelos quais particionar. Como exemplo de uma destas medidas temos a entropia de Shannon, que é comummente utilizada na teoria da informação e pode ser definida como:

(39)

H(S) = −X

c∈C

pclog(pc),

onde S é o conjunto de valores de treino e pc é a probabilidade de uma amostra ser da classe c.

O ganho de informação (I) não é mais do que a redução esperada na impureza causada pelo particionamento das observações usando uma determinada variável [24] e pode ser definido como: Ij = H(Sj) − X k∈(L,R) S k j |S| H(S k j),

onde Sj é o conjunto de observações de treino no nó j, H(Sj) é a entropia de Shannon no nó j antes da divisão, e SL

j e SjR são os conjuntos de observações dos nós filhos direito e esquerdo, respetivamente, do nó j após a divisão. Desta forma, o ganho de informação mede a diferença da entropia de Shannon antes e após a divisão.

Treinar os parâmetros θj do nó j envolve maximizar o ganho de informação nesse nó. A cada nó é associada uma função de divisão binária que decide para qual nó filho atravessará de seguida.

As vantagens associadas às árvores de classificação são usualmente atribuídas à sua simplicidade: são fáceis de entender e interpretar; os resultados de classificação e regressão podem ser explicados pela lógica booleana; são fáceis de implementar e, independentemente do tamanho do conjunto de dados, podem lidar com a variabilidade do tipo dos atributos (numérico, categórico).

No entanto, o problema de construir uma árvore de classificação ideal é NP-completo; assim, as árvores construídas com algoritmos greedy podem não produzir uma solução globalmente ótima.

Um outro problema associado às árvores de classificação é serem propensas a overfitting e a generalizar mal. Ensembles de árvores de classificação, como random forests, aliviam o problema do overfitting, introduzindo um elemento de aleatoriedade ao construir as árvores individuais e criando um ensemble dessas árvores aleatórias.

(40)

podada. A cada árvore adicionada à random forest é calculado o erro Out-of-box (OOB). O erro OOB estima a performance da previsão avaliando as previsões sobre as observações que não foram utilizadas na construção da árvore em questão. Com a estimação do erro OOB não há necessidade de um conjunto de dados de validação independente, embora muitas vezes subestimem a melhoria real do desempenho e o número ótimo de iterações. Durante o teste, todas as decision trees da floresta classificam a amostra de teste e a classe atribuída é aquela que é mais frequente nas decision trees individuais. As random forest mostraram ser robustas ao ruído e outliers. Além disso, generalizam bem as variações nos dados.

3.3 Seleção de Variáveis

O método de seleção de variáveis explicativas usado neste modelo é conhecido como VSURF, que em inglês significa Variable Selection Using Random Forests. Como o próprio nome indica, este é um método construído especificamente para calcular a significância das variáveis num modelo random forest.

A base de atuação do procedimento VSURF consiste em três etapas:

1. A primeira etapa concentra-se na triagem de variáveis baseando-se na sua importância que é calculada durante a execução da random forest. Para isso, calcula-se um limite tendo em conta o desvio padrão (em múltiplas execuções da floresta aleatória) do índice de importância de uma variável sem importância e a partir deste são eliminadas as variáveis inúteis;

2. Na segunda etapa executa-se uma estratégia de seleção de variáveis forward ao conjunto de variáveis selecionadas da etapa anterior. Este tipo de seleção consiste, muito sucinta-mente, na adição de variáveis uma a uma, onde, a cada passo é construído e testado um modelo random forest. O modelo que apresentar o erro OOB mais baixo é selecionado e o conjunto de variáveis em que por ele utilizado é chamado de conjunto de interpretação; 3. Por fim, a terceira e última etapa baseia-se em eliminar a redundância do conjunto de interpretação, o que leva a um conjunto menor chamado de conjunto de previsão. Consiste num método de seleção de variáveis stepwise ascendente. O método stepwise ascendente é basicamente um processo forward, onde, a cada passo é também realizada uma análise a todas as variáveis já introduzidas, de maneira a que se mantenham significativas após a introdução da nova variável. Esta segunda análise corresponde a um processo backward, onde se inicia com todas as variáveis possíveis e se vão removendo uma a uma até todas serem estatisticamente significativas.

3.4 Matriz de Confusão / Avaliação de Modelos

Em análise preditiva e para um problema de 2 classes, uma matriz de confusão é uma tabela com duas linhas e duas colunas que reporta o número de true positives, true negatives, false

positives e false negatives. O recurso a esta matriz permite umaa análise mais detalhada do

que a mera proporção de previsões corretas (accuracy). Isto porque, a accuracy isoladamente não é uma métrica confiável para avaliar o desempenho de um classificador, nomeadamente

(41)

quando o conjunto de dados for não balanceado. Introduzimos então, de seguida, todas as métricas analisadas durante a avaliação dos modelos (estas métricas derivam da matriz de confusão).

Tabela 3.1: Matriz de confusão para um problema de 2 classes.

R R¯

P TP FP p

¯

P FN TN p¯

r r¯ n

R = observações reais positivas, ¯

R = observações reais negativas,

P = previsões positivas, ¯

P = previsões negativas,

TP (True Positive) = número de observações positivas previstas corretamente, TN (True Negative) = número de observações negativas previstas corretamente,

FP (False Positive) = número de observações negativas reais previstas erradamente (como positivas),

FN (False Negative) = número de observações positivas reais previstas erradamente (como negativas),

r = número de observações positivas reais, ¯

r = número de observações negativas reais,

p = número de previsões positivas, ¯

p = número de previsões negativas,

n = número total de observações,

onde assim, o número de acertos se localiza na diagonal principal (TP + TN).

Precision ou positive predictive value representa a percentagem de observações previstas corretamente em todas as observações previstas como positivas, e é definido por:

P P V = T P

(42)

Specificity ou true negative rate representa a percentagem de observações previstas corretamente em todas observações negativas, e é definido por:

T N R = T N

T N + F P (3.4)

Accuracy representa a percentagem de observações previstas corretamente no total de observações, e é definido por:

ACCY = T P + T N

T P + T N + F P + F N (3.5)

Balanced Error Rate representa a média das percentagens de observações previstas erradamente por classe no total de observações, e é definido por:

BER = (1 − T P R) + (1 − T N R)

node classes (3.6)

Receiver Operating Characteristic Curve (Curva ROC)

Em estatística, a curva ROC é o gráfico que ilustra a capacidade de diagnóstico de um classificador binário à medida que o seu limite de discriminação varia.

O gráfico da curva ROC é criado traçando o True Positive Rate (TPR) contra o False

Positive Rate (FPR), que pode ser calculado como 1-specificity. A curva ROC é, portanto, a sensitivity em função do FPR. A análise da curva ROC fornece ferramentas para selecionar

modelos possivelmente ótimos e descartar os subótimos independentemente do contexto de custo ou da distribuição das classes.

A curva ROC foi desenvolvida pela primeira vez por engenheiros elétricos e engenheiros de radar durante a Segunda Guerra Mundial para detetar objetos inimigos em campos de batalha e mais tarde introduzida na psicologia para explicar a deteção percetiva de estímulos. A análise desta curvas tem sido, desde então, utilizada em medicina, radiologia, biometria, previsão de riscos naturais, meteorologia, avaliação do desempenho de modelos e outras áreas, sendo cada vez mais utilizada em Machine Learning e Data Mining.

A área debaixo da curva ROC (AUC) é definida como a proporção de vezes que o modelo discrimina corretamente uma observação positiva de uma observação negativa. Segundo a literatura, uma AUC de 0.5 indica que o modelo não funciona melhor do que escolher aleatoriamente; uma AUC de 0.7 a 0.8 indica uma habilidade discriminativa aceitável; uma AUC superior a 0.8 indica uma boa habilidade discriminativa; AUC igual a 1 indica um modelo perfeito.

3.5 OpenCPU

"OpenCPU is a system for embedded scientific computing and reproducible research. The server exposes an HTTP API to develop and execute scripts, functions and reports." [25]

(43)

O que quer isto dizer? Muito sucintamente, o OpenCPU, executado num servidor remoto, é capaz de ler, chamar e executar scripts, funções e relatórios do R por meio de pedidos HTTP.

Os pedidos HTTP podem ter diferentes configurações, dependendo do que se quer fazer e do ambiente em que se está a trabalhar. No presente projeto possuem o seguinte formato:

/ocpu/user/username/library/pkgname/

Este é o formato requerido pelo OpenCPU para packages R instalados na biblioteca convencional de um utilizador Linux (username).

Ora, uma vez que um dos objetivos deste trabalho é o desenvolvimento web de uma solução que prevê a probabilidade do risco de readmissão no Serviço de Urgências a 30 dias, necessitamos de construir um package R que forneça essa probabilidade. Para isto é necessária a criação e instalação, no servidor remoto, de pelo menos uma função que retorne essa probabilidade fornecida por um dos modelos descritos no Capítulo 5.

O OpenCPU suporta diversos formatos diferentes de input e output, que podem ser consultados no manual do OpenCPU: “The OpenCPU System: Towards a Universal Interface

for Scientific Computing through Separation of Concerns” [25]. Para esta solução o formato

utilizado foi o formato JSON.

Este sistema separa a computação estatística (produzida nas funções R) de outras partes da aplicação. Os utilizadores não necessitam de conhecimento em R e qualquer linguagem de programação que seja capaz de efetuar um pedido HTTP pode chamar funções e/ou scripts R, sem necessidade de ver o código.

Neste trabalho tem-se como objetivo desenvolver um produto “pronto” para comercializar. Desta forma foi desenvolvida uma aplicação web com recurso às linguagens HTML, JavaScript, ao mecanismo CSS, à biblioteca jQuery e ao método AJAX. Estas questões serão desenvolvidas com mais detalhe no Capitulo 6.

Concluindo, o OpenCPU expõe o R como um serviço web e a partir daqui temos a capacidade de construir uma aplicação web que faz previsões utilizando este serviço.

(44)
(45)

CAPÍTULO

4

Exploração dos Dados

4.1 Relatório Inicial do Conjunto de Dados

Nesta fase do processo, considerada como uma das fases iniciais, foi necessário entender corretamente os dados fornecidos para não ser posta em causa a viabilidade da solução produzida. Como em qualquer área de negócio esta é uma tarefa de extrema importância, principalmente para quem é inexperiente, como foi o caso.

O objetivo desta fase é dar a conhecer ao leitor todos os constituintes da base de dados disponível (observações e variáveis), assim como os formatos dos mesmos. A propósito, por motivos de preservar a segurança da informação, todos os exemplos aqui apresentados não são exemplos reais, apenas preservam o formato real.

A amostra considerada para a realização deste projeto é um conjunto de dados com informação das admissões registadas durante dois anos de vários hospitais portugueses. Esta amostra foi disponibilizada em formato CSV (ASCII comma delimited data files) e utilizou-se o Microsoft Excel 2016 como ferramenta de suporte à visualização.

Este conjunto é constituído por 1.048.574 observações e 153 variáveis. As admissões consi-deradas são relativas ao Serviço de Ambulatório, Hospital de Dia, Internamento, Radioterapia e Urgências.

(46)

resultou num subconjunto com apenas 38.065 observações (admissões) e as mesmas 153 variáveis.

De notar que todas as variáveis categóricas da Tabela 4.2 possuem um código numérico ou alfanumérico que as caracterizam. Sem entrar em muitos detalhes, dois exemplos diferentes dessas codificações são a variável Sexo e as variáveis Diagnostico. No caso da variável Sexo, esta possui 2 níveis e os valores que lhe são atribuídos são 1 ou 2, onde 1 significa que é um paciente do sexo masculino e 2 do sexo feminino. Relativamente às variáveis Diagnostico, cada uma delas possui milhares de níveis (que não serão aqui especificados) e são codificadas de acordo com a codificação ICD9-CM. A Classificação Internacional de Doenças (9a revisão) (ICD9) foi projetada como sistema de classificação de cuidados de saúde, fornecendo um conjunto de códigos de diagnóstico para classificar doenças, incluindo uma ampla variedade de sinais, sintomas, descobertas anormais, queixas, circunstâncias sociais e causas externas de lesão ou doença.

Os códigos ICD9-CM são compostos por 5 carateres alfanuméricos onde os três primeiros correspondem às lesões e doenças de acordo com a Tabela 4.3 e os dois últimos correspondem a doenças derivadas das 18 categorias da Tabela 4.3 e/ou a detalhes das doenças. Estas subcategorias podem ser consultadas na plataforma online da World Health Organization.

De acordo com a tabela, temos então uma base de dados constituída por 150 variáveis não nulas, 7 quantitativas e 135 qualitativas, sendo que as restantes correspondem a datas e horas.

(47)

Tabela 4.2: Descrição das variáveis presentes na base de dados.

Variável Descrição da variável Tipo da variável Ano Ano da admissão do paciente na urgência Quantitativa (anos) Hospital Identificação do hospital Qualitativa (31 níveis) Numero Número hospitalar do paciente Quantitativa (∈ N) Sexo Género do paciente Qualitativa (2 níveis) DataNascimento Data de nascimento do paciente Qualitativa (datas) EFR Entidade financeira responsável Quantitativa (∈ N) Residencia Código do local de residência do paciente Qualitativa (3247 níveis) Distrito Distrito do paciente NULA Concelho Concelho do paciente NULA Freguesia Freguesia do paciente NULA Servico1

Serviços Qualitativa (449 níveis) ..

. Servico20 Entrada1

Datas de entrada nos respetivos serviços Qualitativa (datas) ..

. Entrada20 Saida1

Datas de saída nos respetivos serviços Qualitativa (datas) ..

. Saida20

DiagnosticoAdmissao Diagnóstico de admissão Qualitativa (7 níveis) Diagnostico1

Diagnósticos Qualitativa (6893 níveis) ..

.

Diagnostico20 Causa1

Eventos ambientais, circunstâncias e outras condições

Qualitativa (632 níveis) ..

. como causa de lesão e outros efeitos adversos Causa20

Procedimento1

Procedimentos Qualitativa (2835 níveis) ..

.

Procedimento20

MorfologiaTumoral Morfologia tumoral Qualitativa (491 níveis) DestinoAposAlta Destino após alta Qualitativa (5 níveis) NDiasPreOperatorio Numero de dias em pré-operatório Quantitativa (∈ N) NDiasUCI Numero de dias em UCI (Unidade Cuidados Intensivos) Quantitativa (∈ N) TipoAdmissao Tipo de admissão Qualitativa (7 níveis) TransferenciaPara Hospital de destino Qualitativa (82 níveis) TransferenciaDe Hospital de proveniência Qualitativa (92 níveis) MotivoTransferencia Motivo da transferência Qualitativa (5 níveis) Tempo Tempo total de consulta (em horas) Quantitativa (∈ N) Idade Idade Quantitativa (∈ N) DiagnosticoPrincipalGDH Diagnóstico principal designa-se e define-se como aquele que, Qualitativa (498 níveis) (HCFA16) depois do estudo do doente, é considerado responsável pela admissão

do doente no hospital (Agrupador HCFA16 - codificação GDH)

DiagnosticoPrincipalGDH Diagnóstico principal designa-se e define-se como aquele que, Qualitativa (665 níveis) (AP21) depois do estudo do doente, é considerado responsável pela admissão

(48)

4.2 Problemas nos Dados

Após uma breve análise ao conjunto de dados foi possível identificar, de imediato, um problema relativo ao formato das variáveis do tipo Data: todas as variáveis deste tipo estavam no formato middle-endian. Um exemplo de middle-endian na vida quotidiana é o formato de data americano onde é tradicionalmente escrito na ordem “mês, dia, ano”.

Para efeitos de operações sobre as variáveis deste tipo converteram-se todas as variáveis do tipo Data para o formato little-endian, “dia, mês, ano”, uma vez que é o formato usado em quase todo mundo, desde Ásia (Central, Sudeste e Sudoeste), Nova Zelândia, partes da Europa, América Latina, África do Norte, India, Indonésia, Irão, Nigéria, Bangladesh, Rússia e Arábia Saudita.

Um segundo problema detetado foi a discordância entre as variáveis Tempo, HoraEntrada e HoraSaida. O principal objetivo da variável Tempo passa por assinalar o total de tempo, em horas, de permanência de um paciente no Serviço de Urgências. Detetaram-se vários casos em que aquele valor não correspondia à subtração das variáveis que nos indicam a hora de saída e hora de entrada. Para resolução deste problema utilizaram-se essas variáveis para recalcular a variável Tempo e após isso, converteu-se em minutos, assinalando desta forma o total de minutos de permanência no Serviço de Urgências.

Foram também identificadas 203 admissões onde não existia informação sobre a data de entrada e/ou a hora de saída era anterior à hora de entrada. Decidiu-se eliminar estes registos, uma vez que o número de casos é demasiado pequeno para causar um impacto relevante ao modelo.

Uma outra incoerência identificada, ocorreu nas variáveis que descrevem as transferências de pacientes entre hospitais, TransferidoDe e TransferidoPara, nas quais foram encontrados mais registos na variável TransferidoDe que na variável TransferidoPara. Descartando a informação que descrevia se o paciente deu entrada no hospital por transferência ou se foi transferido, criou-se uma nova variável binária Transferencias ao qual se atribui o valor 1 no caso de haver informação sobre a existência de uma transferência e o valor 0 caso contrário.

Dada a existência de muitos níveis nas variáveis relativas aos diagnósticos (Diagnostico1, . . . , Diagnostico20), com níveis a variar entre 493 e 3.357, optou-se por agrupar os mesmos de acordo com as categorias da Tabela 4.3, criando-se assim novas variáveis Diagnostico1Categoria, . . . , Diagnostico20Categoria com 19 níveis, os 18 anteriores mais a classe 0 para campos de diagnóstico não preenchidos.

De forma idêntica e para não perder o detalhe da variável Diagnostico, uma vez que neste exemplo apenas estamos a aproveitar a informação dos três primeiros algarismos desta variável, foram também geradas as variáveis Diagnostico1SubCategoria, ..., Diagnostico20SubCategoria com recurso aos 4o e 5o carateres da variável Diagnostico e agrupando-os de acordo com o ICD9-CM.

(49)

Tabela 4.3: Correspondência dos códigos ICD9-CM com as categorias das doenças e lesões.

ICD9-CM Doenças e lesões

001-139 Doenças infeciosas e parasitárias

140-239 Neoplasias

240-279 Doenças endócrinas, nutricionais e metabólicas, e transtornos de imunidade 280-289 Doenças do sangue e dos constituintes do sangue

290-319 Transtornos mentais

320-389 Doenças do sistema nervoso e órgãos sensoriais 390-459 Doenças do sistema circulatório

460-519 Doenças do sistema respiratório 520-579 Doenças do sistema digestivo 580-629 Doenças do sistema geniturinário

630-679 Complicações da gravidez, da criança e do puerpério 680-709 Doenças da pele e do tecido subcutâneo

710-739 Doenças do sistema músculo-esquelético e do tecido conjuntivo 740-759 Anomalias congénitas

760-779 Certas condições originárias do período perinatal 780-799 Sintomas, sinais e condições definidas da doença

800-899 Lesão e envenenamento

V01-V89 Classificação suplementar de fatores que influenciam o estado de saúde e o contacto com os serviços de saúde

4.3 Pré-processamento dos Dados

A fase de pré-processamento dos dados, em inglês designada por feature engineering, foi sem dúvida a mais exigente, trabalhosa e demorada deste trabalho. Para esta fase do processo foi desenvolvido um extenso script R de modo a tratar/transformar, de forma automatizada, um conjunto de características/variáveis de forma sequencial. Alguns algoritmos são demasiado sensíveis ao tipo de dados que lhes são fornecidos e requerem os dados de uma forma específica.

Todas as tarefas de pré-processamento que foram aplicadas nesta etapa, podem ser resumidas a:

• Remover variáveis irrelevantes devido a colunas de valor NULL; • Remover variáveis irrelevantes devido a terem variância nula; • Remover variáveis irrelevantes devido a estarem repetidas; • Substituir valores omissos;

(50)

Variáveis Variância Nula

O mesmo processo foi aplicado com o objetivo de encontrar variáveis de valor único. As variáveis Ano, Modulo e ResidenciaHospital foram assim eliminadas por não apresentarem variabilidade nos seus valores.

Variáveis Repetidas

Em seguida listam-se as variáveis que de alguma forma representam o mesmo que outras no mesmo conjunto de dados:

• DataNascimento – A data de nascimento é um dos casos, onde temos no mesmo conjunto de dados uma variável que representa a idade do paciente;

• DestinoAposAltaGDH – No caso do destino após alta, codificação GDH (Grupo de Diagnósticos Homogéneos), existe também uma variável que indica o destino após alta numa codificação diferente;

• DiagnosticoPrincipalGDH(HCFA16), DiagnosticoPrincipalGCD(HCFA16) – Relativamente às variáveis em agrupador HCFA 16, existem também duas outras variáveis em agrupador AP 21.

Para estes casos mantiveram-se as variáveis Idade e DestinoAposAlta e as DiagnosticoPrinci-pal em agrupador AP 21, eliminando-se então 4 variáveis. Os agrupadores AP 21 podem ser considerados apenas como uma versão mais recente dos agrupadores HCFA 16.

Valores Omissos

Em relação aos valores omissos estes foram apenas detetados em variáveis do tipo categórico pelo que se atribui a classe 0 para todos os valores omissos da base de dados.

Criação de Novas Variáveis

Uma das metodologias aplicada na fase de feature engineering consistiu em criar novas variáveis através dos dados já existentes. De salientar que as variáveis criadas foram variáveis citadas em alguns artigos estudados.

A variável Turno foi criada através da variável HoraEntrada já existente. Esta é uma variável ternária, ou seja, pode assumir três valores: 1 se o paciente deu entrada entre as 08:00:00 e as 15:00:00; 2 se deu entrada entre as 15:00:00 e as 22:00:00; 3 se deu entrada entre as 22:00:00 e as 08:00:00 (manhã, tarde e noite, respetivamente).

As variáveis Comorbidade e Cronica [3] são variáveis binárias e foram criadas a partir das variáveis de diagnóstico. Assumem valor 1 se for um paciente crónico ou comórbido e 0 caso contrário.

Uma vez que o modelo escolhido para o desenvolvimento deste projeto é um modelo que apenas aceita variáveis categóricas (factor) com no máximo 53 categorias e/ou variáveis numéricas, foram criadas as variáveis DiaEntrada e DiaSaida através das variáveis Entrada1 e DiaSaida. Sendo que um ano tem no máximo 53 semanas, converteram-se estas variáveis em categóricas.

(51)

Por fim, criou-se a variável target Readmissao, sendo esta também uma variável binária que toma os valores 0 ou 1, onde 1 indica que o paciente em questão foi readmitido num prazo de 30 dias e 0 caso contrário.

Após a criação desta variável eliminaram-se as observações que originaram a readmissão (a segunda admissão do mesmo paciente num prazo de 30 dias), uma vez que estas estariam correlacionadas com a primeira admissão através da variável data, dando assim privilégios ao modelo que não nos interessam. Eliminaram-se então um total de 779 observações, resultando num conjunto de dados com 37.083 observações.

4.4 Análise Exploratória de Dados

Como referido de forma implícita anteriormente, entre 1 de janeiro de 2007 e 31 de dezembro de 2007 foram registadas no Serviço de Urgências de um determinado hospital português 37.083 admissões, sendo a maioria dessas admissões relativas a pacientes do sexo feminino (52.7%). Note-se ainda que a altura do dia “preferida” pelos pacientes para se deslocarem ao hospital é no turno da manhã (08:00 às 15:00) com mais de metade das admissões (53.16%). A Tabela 4.4 apresenta estes resultados, bem como as frequências absoluta e relativa das restantes variáveis qualitativas de interesse.

Sabe-se também que 12.76% dos pacientes possuem uma qualquer doença crónica e 28.09% são pacientes comórbidos.

Pode ver-se ainda que os principais responsáveis por ocasionar o maior número de admissões no hospital foram doenças e/ou perturbações do aparelho circulatório, digestivo e respiratório (14.23%, 10.37% e 9.72%, respetivamente). Pode verificar-se na variável DiagnosticoPrinci-palGCD da Tabela 4.4 as patologias responsáveis pelas restantes admissões. Dos 5031 pacientes que foram transferidos (3.97% do total de admissões), está disponível a informação de apenas 1500 dos motivos que originaram essas transferências (29.82% do total de transferências), sendo que a maioria foi transferida para seguimento (98.07% de 1500 motivos) e uma minoria por falta de recursos (1.00% de 1500 motivos) ou para tratamento de uma condição associada (0.93% de 1500 motivos).

Aquando da sua saída do Serviço de Urgências os pacientes tomam variados destinos, sendo que 88.95% destes foram reencaminhados para o seu domicílio, 3.96% para outro hospital, 1.81% para um serviço domiciliário e 1.16% saíram contra parecer médico. Da totalidade de

(52)

Tabela 4.4: Tabela de frequências absolutas e relativas por variável qualitativa. Variável Categoria Freq. Absoluta Freq. Relativa * 100%

Sexo Feminino 19541 52,70%

Masculino 17542 47,30%

Domicílio 32987 88,95%

Falecido 1524 4,11%

DestinoAposAlta Outro hospital 1470 3,96%

Serviço domiciliário 671 1,81%

Saída contra parecer médico 431 1,16%

Manhã 19715 53,16% Turno Tarde 11154 30,08% Noite 6214 16,76% Comorbidades Não 26666 71,91% Sim 10417 28,09% Cronica Não 32350 87,24% Sim 4733 12,76% Transferencias Não 32052 86,43% Sim 5031 13,57% MotivoTranferencia

Paciente não transferido 35583 95,96%

Para seguimento 1471 3,97%

Por falta de recursos 15 0,04%

Para tratamento de condição associada 14 0,04%

Não programada 21542 58,09%

TipoAdmissao Programada 13214 35,63%

SIGIC Produção Adicional 2327 6,28% Doenças e Perturbações do Aparelho

Circu-latório

5278 14,23%

Doenças e Perturbações do Aparelho Diges-tivo

3847 10,37%

Doenças e Perturbações do Aparelho Respi-ratório

3603 9,72%

Gravidez, Parto e Puerpério 3145 8,48% Doenças e Perturbações do Sistema

Músculo-esquelético e Tecido Conjuntivo

3033 8,18%

Doenças e Perturbações do Sistema Nervoso 2964 7,99% Doenças e Perturbações do Rim e do

Apare-lho Urinário

2432 6,56%

Doenças e Perturbações do Ouvido, Nariz, Boca e Garganta

1749 4,72%

Doenças e Perturbações do Sistema Hepato-biliar e Pâncreas

1737 4,68%

Doenças e Perturbações Endócrinas Nutrici-onais e Metabólicas

1567 4,23%

Doenças e Perturbações do Olho 1452 3,92% Doenças e Perturbações do Aparelho Genital

Feminino

1053 2,84%

DiagnosticoPrincipal

Doenças e Perturbações da Pele, Tecido Ce-lular Subcutâneo e Mama

817 2,20%

GCD Doenças Infecciosas e Parasitárias (Sistémi-cas ou de Localização Não Específica)

688 1,86%

Doenças e Perturbações do Aparelho Genital Masculino

605 1,63%

Doença ou Traumatismos, Intoxicações e Efeitos Tóxicos de Drogas

562 1,52%

Doenças e Perturbações Mieloproliferativas e Mal-diferenciadas

558 1,50%

Sem informação 453 1,22%

Doenças e Perturbações Mentais 441 1,19% Infecções pelo Vírus da Imunodeficiência

Hu-mana

287 0,77%

Queimaduras 233 0,63%

Doenças e Perturbações do Sangue/Órgãos Hematopoiéticos e Doenças Imunológicas

229 0,62%

Factores com Influência no Estado de Saúde e Outros Contactos com os Serviços de Saúde

137 0,37%

Traumatismos Múltiplos Significativos 126 0,34% Uso de Álcool/Droga e Perturbações Mentais

Orgânicas Induzidas por Álcool ou Droga

83 0,22%

Recém-nascidos e Lactentes com Afecções do Período Perinatal

4 0,01%

(53)

Tabela 4.5: Sumário da variável quantitativa Idade.

Variável Min. 1.o Q Mediana 3.o Q Máx. Média Desvio Padrão

Idade 0.00 32.00 53.00 70.00 101.00 49.64 24.53

Tabela 4.6: Sumário do número de admissões por mês do ano.

Mês Freq. Absoluta Freq. Relativa * 100%

Outubro 3452 9,31% Julho 3322 8,96% Novembro 3311 8,93% Janeiro 3307 8,92% Junho 3282 8,85% Maio 3250 8,76% Setembro 3090 8,33% Março 3027 8,16% Agosto 2892 7,80% Fevereiro 2822 7,61% Abril 2814 7,59% Dezembro 2514 6,78%

Tabela 4.7: Sumário do número de admissões por estação do ano.

Estações Freq. Absoluta Freq. Relativa * 100%

Outono 9763 26,33%

Verão 9547 25,74%

Primavera 9524 25,68%

Inverno 8249 22,24%

Pode ver-se que a maior parte dos pacientes deram entrada no hospital com uma admissão do tipo não programada (58.09%), enquanto que 35.63% já tinham programado ir ao hospital naquele determinado dia. As admissões programadas não podem ser consideradas readmissões, uma vez que consideramos como readmissão apenas as admissões espontâneas que resultaram de um não melhoramento e/ou um agravamento do estado de saúde após uma anterior visita ao hospital. As restantes admissões são do tipo SIGIC Produção Adicional (produção que excede a produção base contratualizada com os hospitais do SNS, bem como a efetuada

(54)
(55)

CAPÍTULO

5

Modelação e Avaliação

Tendo em conta o processo de desenvolvimento CRISP-DM [7], após as etapas de compreensão e preparação de dados, seguem-se a construção e avaliação do modelo. Assim, nas próximas secções são descritos os passos para efetuar estas últimas etapas.

5.1 Modelação dos Dados

Considerando as etapas anteriormente efetuadas para familiarização dos dados, resolução de problemas e construção do conjunto de dados final, este é o momento ideal para iniciar a construção do modelo. Nas próximas secções apresentam-se as várias etapas percorridas para desenvolver o modelo que melhor deteta as readmissões hospitalares. Para isso foram testados modelos treinados por 3 conjuntos de dados diferentes. A abordagem adotada passou pelos seguintes passos:

• Extrair os conjuntos de variáveis selecionadas pelo método VSURF;

• Aplicar modelos random forest a dois dos conjuntos anteriores e a um outro conjunto de variáveis selecionadas na literatura;

• Avaliação segundo as medidas mencionadas na Secção 3.4.

De acordo com o processo descrito na Secção 3.3 aplicou-se o método de seleção de variáveis VSURF do qual resultaram 3 subconjuntos de variáveis do conjunto original. De notar que

Referências

Documentos relacionados

[r]

Fonte: IDC, 2015 (Inquérito a 467 organizações portuguesas que possuem alguma presença na Internet)..

De seguida, vamos adaptar a nossa demonstrac¸ ˜ao da f ´ormula de M ¨untz, partindo de outras transformadas aritm ´eticas diferentes da transformada de M ¨obius, para dedu-

O segundo Beneficiário será designado pelo Segurado na Proposta de Adesão, podendo ser substituído a qualquer tempo, mediante solicitação formal assinada pelo próprio Segurado, para

servidores, software, equipamento de rede, etc, clientes da IaaS essencialmente alugam estes recursos como um serviço terceirizado completo...

O padre veio para eles e abraçou-se também, subitamente perturbado por uma analogia, assim dissera o italiano, Deus ele próprio, Baltasar seu filho, Blimunda

Os elementos caracterizadores da obra são: a presença constante de componentes da tragédia clássica e o fatalismo, onde o destino acompanha todos os momentos das vidas das

1- Indica com P, se a frase estiver na voz passiva e com A se estiver na ativa. Depois, passa-as para a outra forma. a) Vimos um cisne moribundo.. Assinala com um X o