• Nenhum resultado encontrado

FUNDAÇÃO GETULIO VARGAS ESCOLA DE ADMINISTRAÇÃO DE EMPRESAS DE SÃO PAULO FABRICIO PROSPERO MACHADO

N/A
N/A
Protected

Academic year: 2021

Share "FUNDAÇÃO GETULIO VARGAS ESCOLA DE ADMINISTRAÇÃO DE EMPRESAS DE SÃO PAULO FABRICIO PROSPERO MACHADO"

Copied!
42
0
0

Texto

(1)

FUNDAÇÃO GETULIO VARGAS

ESCOLA DE ADMINISTRAÇÃO DE EMPRESAS DE SÃO PAULO

FABRICIO PROSPERO MACHADO

PREDIÇÃO DA HOSPITALIZAÇÃO EM PACIENTES IDOSOS NO

DE-PARTAMENTO DE EMERGÊNCIA: UMA ABORDAGEM UTILIZANDO

APRENDIZADO DE MÁQUINA

SÃO PAULO

2019

(2)

FABRICIO PROSPERO MACHADO

PREDIÇÃO DA HOSPITALIZAÇÃO EM PACIENTES IDOSOS NO

DE-PARTAMENTO DE EMERGÊNCIA: UMA ABORDAGEM UTILIZANDO

APRENDIZADO DE MÁQUINA

Trabalho Aplicado apresentado à Escola de Administração de Empresas de São Paulo da Fundação Getulio Vargas, como requisito para a obtenção do título de Mestre Profissional em Gestão para a Competitividade.

Linha de pesquisa: Gestão em Saúde.

Orientador: Prof. Dr. Fernando Lopes Alberto.

SÃO PAULO

2019

(3)

Ficha Catalográfica

Machado, Fabricio Prospero.

Predição da hospitalização de pacientes idosos no departamento de emergência : aborda-gem utilizando aprendizado de máquina / Fabricio Prospero Machado. - 2019.

42 f.

Orientador: Fernando Lopes Alberto.

Dissertação (mestrado profissional MPGC) – Fundação Getulio Vargas, Escola de Admi-nistração de Empresas de São Paulo.

1. Aprendizado do computador. 2. Serviços de medicina de emergência. 3. Processo deci-sório. 4. Hospitais - Administração. I. Alberto, Fernando Lopes. II. Dissertação (mestrado profissional MPGC) – Escola de Administração de Empresas de São Paulo. III. Fundação Getulio Vargas. IV. Título.

CDU 007

Ficha Catalográfica elaborada por: Isabele Oliveira dos Santos Garcia CRB SP-010191/O Biblioteca Karl A. Boedecker da Fundação Getulio Vargas - SP

(4)

FABRICIO PROSPERO MACHADO

PREDIÇÃO DA HOSPITALIZAÇÃO EM PACIENTES IDOSOS NO

DE-PARTAMENTO DE EMERGÊNCIA: UMA ABORDAGEM UTILIZANDO

APRENDIZADO DE MÁQUINA

Trabalho Aplicado apresentado à Escola de Administração de Empresas de São Paulo da Fundação Getulio Vargas, como requisito para a obtenção do título de Mestre Profissional em Gestão para a Competitividade.

Linha de pesquisa: Gestão em Saúde.

Orientador: Prof. Dr. Fernando Lopes Alberto.

Data da aprovação: ____/____/____

Banca examinadora:

____________________________ Dra. Ana Maria Malik

FGV- EAESP

_____________________________ Dr. Fernando Lopes Alberto

FGV-EAESP

_____________________________ Dra. Samanda Dall’Agnese

SulAmerica

_____________________________ Dra. Teresa Elena Pereira Sacchetta United Health Group

(5)

RESUMO

A disparidade entre oferta e demanda de recursos no sistema de saúde é um problema mundial e cada vez mais grave. Entre os principais problemas está a escassez de leitos de internação e a demanda crescente de admissões hospitalares. Neste contexto, predizer quais pacientes se-rão admitidos e quais recebese-rão alta hospitalar é de grande valia para gestores e administrado-res hospitalaadministrado-res. Estudos demonstram que a triagem, realizada de maneira manual, por médi-cos e enfermeiros, é capaz predizer a admissão hospitalar. O aprendizado de máquina (AM) oferece uma opção automatizada que permite a obtenção, em tempo real, dos dados disponí-veis do paciente no momento da triagem, provindos de prontuários eletrônicos e dispositivos médicos, e pode predizer qual a probabilidade de admissão destes pacientes. O objetivo prin-cipal deste trabalho é desenvolver um algoritmo de inteligência artificial baseado em aprendi-zado de máquina que permita predizer admissão hospitalar de pacientes no momento da tria-gem, bem como avaliar o desempenho do algoritmo desenvolvido. A metodologia envolveu a coleta sistemática de dados de pacientes com média de idade de 63 anos no período entre 14 de setembro de 2015 e 18 de março de 2018, contabilizando 177.578 casos observados. Sobre esses dados foram utilizadas correções para dados desbalanceados, além das técnicas habitu-ais de AM como Gradient Boosting, Support Vector Machine e Regressão Logística. O mode-lo desenvolvido foi capaz de predizer admissão hospitalar com acurácia, sensibilidade e espe-cificidade de 78%, 79% e 73%, respectivamente. Essa abordagem, realizada de forma inédita no Brasil em um serviço privado especializado em atendimento de idosos, apresentou resulta-dos promissores que merecem ser estendiresulta-dos para outros serviços, incluindo o sistema público de saúde (SUS), haja vista seu enorme potencial de conferir agilidade no atendimento, segu-rança ao paciente e economia dos recursos escassos disponíveis para a saúde.

(6)

ABSTRACT

The disparity between resource supply and demand in the health care system is a worldwide and growing problem. Among the main problems is the scarcity of hospitalization beds and the growing demand for hospital admissions. In this context, predicting which patients will be admitted and which will be discharged is of great value to hospital managers and administra-tors. Studies show that screening, performed manually by doctors and nurses, can predict hos-pital admission. Machine learning (ML) offers an automated option that enables real-time re-trieval of available patient data at the time of triage from electronic medical records and med-ical devices, and can predict how likely these patients are to be admitted. The main objective of this work is to develop a machine learning based artificial intelligence algorithm that al-lows to predict hospital admission of patients at the time of triage, as well as to evaluate the performance of the developed algorithm. The methodology involved the systematic collection of data from patients with a mean age of 63 years, between September 14, 2015 and March 18, 2018, accounting for 177,578 observed cases. Corrections for unbalanced data were used on this data, in addition to the usual ML techniques such as Gradient Boosting, Support Vec-tor Machine and Logistic Regression. The developed model was able to predict hospital ad-mission with accuracy, sensitivity and specificity of 78%, 79% and 73%, respectively. This approach, unpublished in Brazil in a private service specialized in elderly care, presented promising results that deserve to be extended to other services, including the public health system (SUS), given its enormous potential to provide agile care, patient safety and saving of scarce health resources.

(7)

LISTA DE ABREVIAÇÕES E SIGLAS AM Aprendizado de Máquina DE Departamento de Emergência FN Falso Negativo FP Falso Positivo GB Gradient Boosting ML Machine Learning RF Random Forest RL Regressão Logística

ROC Curva de Característica de Operação do Receptor SMT Sistema de Triagem de Manchester

SUS Sistema Único de Saúde

SVM Suport Vector Machines

VN Verdadeiro Negativo VP Verdadeiro Positivo

VPN Valor Preditivo Negativo

(8)

SUMÁRIO

1 INTRODUÇÃO 7

1.1 OBJETIVOS 11

2 REFERENCIAL TEÓRICO 12

1.2 APRENDIZAGEM DE MÁQUINA 12

1.3 PRINCIPAIS CENÁRIOS DE APRENDIZAGEM DE MÁQUINA 14

1.4 DESVANTAGENS DE ML 15

1.5 CENÁRIOS DE APRENDIZAGEM DE MÁQUINA NA MEDICINA 16

1.6 EXEMPLOS DE APRENDIZAGEM DE MÁQUINA 17

1.7 TRIAGEM 18

3 PROCEDIMENTOS METODOLÓGICOS 22

4 ANÁLISE DOS RESULTADOS 31

5 CONCLUSÕES 34

5.1 DISCUSSÃO 34

5.2 TENDÊNCIAS FUTURAS 35

(9)

7

1 INTRODUÇÃO

A disparidade entre oferta e demanda de recursos no sistema de saúde é um problema mundial e cada vez mais grave (LUO et al., 2019). Esse fenômeno, inicialmente promovido pelo aumento populacional e pela urbanização, afeta não apenas os países desenvolvidos, mas também países em desenvolvimento. Agora, acentuado pelo fenômeno do envelhecimento populacional (COHEN, 2003). A associação entre envelhecimento e aumento da preocupação com a saúde pessoal resultou em demanda crescente por serviços médicos, não sendo acompanhada pela disponibilidade de recursos dentro dos sistemas de saúde. Entre os mais importantes e escassos, já que sua oferta depende de grandes somas de investimentos e de muito tempo até que estejam disponíveis, estão os leitos de internação - elementos relevantes para retaguarda do sistema de serviços de saúde.

De acordo com o Ministério da Saúde, no Brasil, em relação à demanda, 11.813.331 internações foram realizadas no SUS em 2018, um aumento de 6% se comparado aos números de 2012 (11.092.589). Na China, o número de hospitalizações em 2016 aumentou em 83,4% se comparado a 2011. (PENG, WU, XU; 2014). Em relação à oferta, no Brasil, houve um decréscimo de 4% de leitos entre 2012 e 2017.

Figura 1: Número de Leitos de Internação no Brasil 2012 a 2017.

(10)

8

Outro problema enfrentado pelo sistema de saúde é o número considerável de internações hospitalares desnecessárias, o que agrava ainda mais a disparidade entre oferta e demanda de recursos. Internações desnecessárias contribuem para a escassez de leitos hospitalares, geração de filas e desperdício de recursos da saúde, inclusive a mão de obra médica. Para exemplificar as dimensões do problema, mais de US$ 30 bilhões foram gastos em admissões hospitalares desnecessárias nos Estados Unidos em 2006 (HPN, 2011).

Os problemas relacionados ao desperdício de recursos são ainda maiores quando observamos hospitais terciários. Muitos pacientes que poderiam ser tratados em unidades de atendimento de âmbito primário o fazem em hospitais terciários.

Na China, de acordo com o “2016 China's health and family planning career development bulletin,” publicado em 2016 pela Comissão Nacional de Planejamento da Saúde do país, o número de pacientes nos hospitais terciários aumentou a uma taxa maior do que aquela das instituições de atendimento primário. Enquanto a proporção de atendimento em instituições de atendimento primário caiu de 61,8% para 56,4%; a proporção de atendimentos médicos nos hospitais terciários aumentou de 37,3% para 48,7%. Os hospitais terciários destinam-se principalmente a fornecer serviços para doenças agudas graves ou situações clínicas mais complexas, como são os casos que demandam atenção em unidades de terapia intensiva, pacientes com indicação de transplantes ou ainda casos oncológicos, por exemplo. Devido à falta de um controlador no sistema de saúde chinês, a maioria dos hospitais terciários tem de lidar com um grande número de admissões desnecessárias de pacientes sofrendo de condições de baixa complexidade. Essas pessoas geram longas listas de espera nos hospitais terciários, o que retarda o tratamento dos pacientes que realmente precisariam de hospitalização.

Com base nesses antecedentes, pesquisas se concentraram em criar ferramentas de auxílio a decisão com a finalidade de classificar os pacientes por meio de sistema de pontuação e prioridades, de acordo com a criticidade do caso do paciente (NOSEWORTHY, MCGURRAN, HADORN; 2003). No entanto, modelos de classificação e triagem, para serem efetivos, exigem o apoio de grande número de especialistas, além de serem um processo demorado e subjetivo, limitando, até certo ponto, sua utilização em prontos-socorros e serviços de emergência hospitalares.

Ademais, a maioria dos sistemas de triagem considera apenas urgência, e não leva em conta os recursos disponíveis. O Manchester Triage System, a Canadian Triage and Acuity Scale e a Australasian Triage Scale, por exemplo, classificam os pacientes apenas em termos de

(11)

9

urgência. Eles desconsideram os recursos hospitalares e a possibilidade de admissão no momento da consulta. Uma combinação de modelos analíticos e de simulação demonstrou que a triagem baseada em complexidade do atendimento, em comparação com os atuais sistemas de triagem baseados em urgência, pode melhorar o desempenho dos departamentos de emergência, não apenas em termos de segurança do paciente, mas também de eficiência operacional. (SAGHAFIAN et al., 2011).

Outros problemas em relação à triagem manual podem ser enumerados. Em primeiro lugar, o processo de tomada de decisão de um profissional de saúde é facilmente influenciado pelo ambiente. Por exemplo, alguns pacientes podem pular a sessão de triagem e serem admitidos diretamente no hospital. Em segundo lugar, o processo se baseia no julgamento e na experiência humana. A confiança no conhecimento empírico pode causar resultados enviesados (XU, WONG, CHIN, 2013). Por exemplo, diferentes profissionais de saúde podem decidir de maneira diferente quando lidam com o mesmo tipo de paciente. E o mesmo profissional de saúde, quando se depara com o mesmo tipo de paciente em diferentes momentos, pode decidir de maneira diferente. Essa falta de objetividade na tomada de decisão dificulta a padronização do atendimento para situações clínicas semelhantes, aumenta o tempo necessário para o atendimento, consome recursos desnecessários e, em última análise, pode comprometer a qualidade da assistência à saúde do paciente. Em terceiro lugar, é extremamente difícil para o profissional de saúde controlar as necessidades do paciente dinamicamente no tempo. As informações de registro do paciente são atualizadas em tempo real, mas os profissionais de saúde são capazes de visualizar o sistema em um horário específico e, portanto, podem não compreender a situação geral. Algumas variáveis importantes podem não ser consideradas devido à falta de acesso à informação, acarretando, nesse caso a tomada de decisão com base em informações desatualizadas em relação ao paciente.

Em resumo, estas são as deficiências da triagem manual: suscetibilidade a interferências externas, subjetividade, e atualizações não realizadas em tempo real. Uma abordagem de aprendizado de máquina tem o potencial de compensar essas deficiências.

Modelos de aprendizado de máquina tem sido amplamente utilizados em pesquisas na área da saúde, tais como auxílio em diagnósticos médicos e sistemas de apoio à decisão. Chong et al construíram um modelo de aprendizagem de máquina e modelo de regressão logística multivariada para predizer lesão cerebral traumática pediátrica moderada a grave no departamento de emergência. Zheng et al propuseram uma série de abordagens utilizando

(12)

10

mineração de dados, redes neurais, algoritmos de florestas aleatórias (RF) e máquinas de vetores de suporte (SVM) para classificar pacientes readmitidos em alto e baixo risco. Pollettini e cols. desenvolveu uma abordagem assistida por computador para a recomendação automática de níveis de vigilância baseado em modelos linguísticos e modelos de classificação de aprendizado de máquina utilizando informações de prontuários eletrônicos dos pacientes. Ichikawa et al desenvolveram uma ferramenta de verificação de saúde virtual utilizando abordagens de árvore de decisão de aumento de gradiente (GBDT), RF, e regressão logística (LR) para identificação de pessoas com alto risco de hiperuricemia. Seus modelos de aprendizagem de máquina mostraram bom desempenho em predizer o desenvolvimento de hiperuricemia. Krämer et al desenvolveram um modelo para diferenciar admissões urgentes de não-urgentes ou eletivas, e predizer a urgência do paciente com um valor numérico.

Figura 2: Representação jornada do Paciente no Departamento de Emergência. O algoritmo de Aprendizado de Máquina tem como objetivo predizer, no momento da triagem, se o paciente será internado ou receberá alta.

Diante deste cenário de disparidade entre a oferta e demanda de leitos hospitalares, desperdício de recursos médicos, ineficiência na triagem e predição de admissão hospitalar utilizando-se ferramentas manuais, bem como algum sucesso dos modelos de aprendizado de máquina como sistemas de apoio a decisão médica, observamos a necessidade da criação de

(13)

11

ferramentas de predição e auxílio a decisão que informem, em tempo hábil, quais pacientes necessitam ou não serem internados e possam, utilizando o aprendizado de máquina.

O objetivo deste estudo é criar um algoritmo de aprendizado de máquina capaz de predizer internações hospitalares no momento da triagem na unidade de emergência hospitalar (Figura 2). Nesse algoritmo levaremos em consideração 17 informações do paciente obtidas de prontuário eletrônico.

1.1 OBJETIVOS

Os objetivos deste trabalho são:

 Criar um algoritmo de Machine Learning capaz de predizer internações hospitalares.  Determinar a acurácia, sensibilidade e especificidade do algoritmo em questão.

 Realizar a comparação entre o algoritmo de Aprendizado de Máquina criado e a escala de Manchester na Previsão de internações hospitalares.

(14)

12

2 REFERENCIAL TEÓRICO

No presente capítulo, divido em duas partes, serão apresentados os aportes teóricos responsáveis por sustentar as análises e resultados da dissertação. Na primeira apresentaremos os fundamentos de Aprendizagem de Máquina, cenários de utilização de AM e aplicações da técnica na área pesquisada. Na segunda abordaremos o referencial teórico sobre o Sistema de Triagem de Manchester.

1.2 APRENDIZAGEM DE MÁQUINA

A aprendizagem de máquina (AM) pode ser amplamente definida como conjunto de métodos computacionais que utilizam a experiência para melhorar o desempenho ou para fazer previsões acuradas (SAMUEL, 1959). O AM aborda um conjunto de técnicas que possuem a potencialidade de revolucionar a medicina no século 21 (OBERMEYER; EMANUEL, 2016). Neste contexto, o termo experiência se refere às informações passadas disponíveis, que tipicamente se apresentam como dados eletrônicos. Estes dados podem estar na forma de conjuntos digitalizados, classificados por humanos, ou outros tipos de informações obtidas via interação com o meio ambiente. Em todos os casos, sua qualidade e tamanho são cruciais para o sucesso das previsões realizadas (LEE et al., 2019).

O AM consiste em algoritmos de previsão eficientes e precisos. Como em outras áreas da ciência da computação, algumas medidas críticas da qualidade desses algoritmos são sua complexidade de tempo e espaço. Mas, no AM, precisaremos adicionalmente da noção de complexidade da amostra para avaliar o tamanho da amostra necessário para o algoritmo aprender um grupo de conceitos (MOHRI; ROSTAMIZADEH; TALWALKAR, 2018). Como elemento da conceituação de AM destaca-se que um dos principais requisitos para um comportamento inteligente é a aprendizagem (KONONENKO, 2001), mesmo que esta ocorra sem supervisão de um agente humano, ou até mesmo sem programação prévia (LEE et al., 2019).

Geralmente, o que garante o aprendizado teórico de um algoritmo é a relação entre a complexidade das classes conceituais e o tamanho da amostra de treinamento. Como o sucesso de um algoritmo de aprendizado depende dos dados utilizados, este é diretamente relacionado à análise de dados e estatísticas. Portanto, técnicas de AM são métodos baseados

(15)

13

em dados que combinam tópicos fundamentais de ciência da computação, estatística, probabilidade e otimização (MOHRI; ROSTAMIZADEH; TALWALKAR, 2018), podendo até ser definido como a área de intersecção entre as referidas áreas (CLEOPHAS; ZWINDERMAN, 2013).

Em muitas disciplinas científicas, o objetivo principal é modelar a relação entre um conjunto de quantidades observáveis (entradas) e outro conjunto de variáveis relacionadas a essas (saídas). Uma vez determinado tal modelo matemático, é possível prever o valor das variáveis desejadas (output) medindo as observáveis (input). Muitos fenômenos do mundo real são complexos demais para modelar diretamente como um relacionamento de input-output (BAŞTANLAR; ÖZUYSAL, 2014).

A AM fornece técnicas que podem automaticamente construir um modelo computacional desses relacionamentos complexos para processar os dados disponíveis e maximizar um critério de desempenho dependente do problema. O processo automático da criação do modelo é chamado de treinamento (training) e os dados utilizados para fins de treinamento são chamados de "dados de treinamento” (training data). O modelo computacional treinado pode fornecer insights sobre como as variáveis de entrada são mapeadas para a saída e pode ser usado para fazer previsões de novos valores de entrada que não fizeram parte dos dados de treinamento (BAŞTANLAR; ÖZUYSAL, 2014).

Para ser capaz de aprender um modelo preciso, os algoritmos de aprendizado de AM geralmente exigem grandes quantidades de dados de treinamento. Portanto, um primeiro passo importante no uso de técnicas de aprendizado de máquina é coletar um grande conjunto de exemplos de treinamento representativos e armazená-lo de uma forma que seja adequada para fins computacionais.

Avanços recentes na coleta de dados digitais, armazenamento e capacidade de processamento tornaram possível a aplicação da aprendizagem de máquina em muitos domínios, como diagnóstico médico, bioinformática, informática química, análise de redes sociais, análise de mercado de ações e robótica. Geralmente, há mais de um modelo computacional que pode ser treinado para um determinado problema de aprendizado de máquina.

Não há regra fixa para selecionar um determinado modelo ou um algoritmo. O desempenho de um modelo específico depende de vários fatores, como a quantidade e a qualidade dos dados de treinamento (training data), a complexidade e a forma do relacionamento entre as variáveis de entrada e saída e as restrições computacionais, como tempo de treinamento e memória disponível. Dependendo do problema, muitas vezes é necessário experimentar diferentes modelos e algoritmos para encontrar os mais adequados. Felizmente, existem

(16)

14

pacotes de software padrão que combinam diferentes algoritmos no mesmo framework. Depois que os dados disponíveis são preparados em um formato adequado, esses pacotes tornam mais simples tentar as diferentes alternativas.

1.3 PRINCIPAIS CENÁRIOS DE APRENDIZAGEM DE MÁQUINA

No intuito de aplicar as técnicas de AM, cada cenário exige todo um aporte diferente, mais adequado para cada situação. A seguir serão apresentados três tipos: aprendizagem supervisionada, aprendizagem não-supervisionada, aprendizagem por reforço (MOHRI; ROSTAMIZADEH; TALWALKAR, 2012, 2018).

Nas técnicas de aprendizagem supervisionada o analista já necessita de um alvo, então o sistema recebe um conjunto de exemplos rotulados como dados de treinamento e faz previsões para todos os pontos não vistos. Esse é o cenário mais comum associado a problemas de classificação, regressão e classificação (CLEOPHAS; ZWINDERMAN, 2013; MOHRI; ROSTAMIZADEH; TALWALKAR, 2012).

Figura 3: aprendizado de máquina.

Nas técnicas de aprendizagem não supervisionada o sistema recebe exclusivamente dados de treinamento não rotulados e faz previsões para todos os pontos não vistos. Como, em geral, nenhum exemplo rotulado está disponível nesse cenário, pode ser difícil avaliar

(17)

15

quantitativamente o desempenho de um aprendiz. Agrupamento e redução de dimensionalidade (clustering and dimensionality reduction) são exemplos de problemas de aprendizado não-supervisionados (MOHRI; ROSTAMIZADEH; TALWALKAR, 2012). Nas técnicas de aprendizagem semi-supervisionada o sistema recebe uma amostra de treinamento que consiste em dados rotulados e não rotulados e faz previsões para todos os pontos não vistos. O aprendizado semi-supervisionado é comum em ambientes em que os dados não rotulados são facilmente acessíveis, mas os rótulos são caros e trabalhosos para se obter. Vários tipos de problemas que surgem em aplicativos, incluindo tarefas de classificação, regressão ou classificação, podem ser enquadrados como instâncias de aprendizado semi-supervisionado. A esperança é que a distribuição de dados não rotulados, acessíveis ao modelo, possa ajudá-lo a alcançar um desempenho melhor do que no ambiente supervisionado. A análise das condições sob as quais isso pode realmente ser realizado é o tópico de muitas pesquisas modernas de aprendizado de máquina teórica e aplicada (MOHRI; ROSTAMIZADEH; TALWALKAR, 2012).

Na técnica de aprendizagem por reforço as fases de treinamento e teste também são misturadas na aprendizagem de reforço. Para coletar informações, o sistema interage ativamente com o ambiente e, em alguns casos, afeta o meio ambiente e recebe uma recompensa imediata por cada ação. O objetivo do sistema é maximizar sua recompensa em um curso de ações e iterações com o ambiente. (MOHRI; ROSTAMIZADEH; TALWALKAR, 2012).

1.4 DESVANTAGENS DE ML

Ao observar pela ótica dos vieses possíveis das técnicas de AM diversos tópicos podem ser destacados como overfitting, dados perdidos, dados com ruído, nível de explicabilidade, entre outros desvios que podem gerar dificuldades na interpretação, na validade e confiabilidade do desenho das aplicações (MOHRI; ROSTAMIZADEH; TALWALKAR, 2018).

Em relação ao overfitting, na fase de treinamento, o algoritmo processa erros de registro e/ou ruídos do conjunto de dados, isso repercute em altos indicadores de acurácia que são meramente inflacionados, então ao aplicar em novos datasets a capacidade de previsão cai bruscamente, de maneira conjunta é fundamental selecionar as variáveis mais importantes para evitar redundância, tempo e capacidade extra de processamento, sendo assim, os modelos precisam ser construídos de maneira parcimoniosa (LEE et al., 2019).

(18)

16

No intuito de evitar estas desvantagens das técnicas de AM existem algumas precauções que podem ser tomadas, como a utilização de indicadores de qualidade como os goodness of fit test, outra maneira é automatizar a apresentação de resultados mediante vários algoritmos, ao comparar os resultados é possível verificar qual possui mais ajuste à realidade (LEE et al., 2019).

1.5 CENÁRIOS DE APRENDIZAGEM DE MÁQUINA NA MEDICINA

Com o processo de digitalização das informações, os hospitais mais modernos começaram a registrar os dados dos pacientes em tempo real, possibilitando seu armazenamento para posterior análise. Contudo, o diferencial proporcionado pelos modelos de AM consistem em apresentar resultados de maneira imediata principalmente na automação de problemas com necessidades de baixo nível de especialização ou conhecimento computacional (KONONENKO, 2001).

Por outro lado, existem diversas aplicações responsáveis por identificar e classificar imagens médicas diagnósticas com suspeita de câncer. De fato, essa área da medicina diagnóstica tem avançado principalmente para automatizar o diagnóstico com aplicativos de celular, por exemplo, possibilitando que esse processo seja mais preciso do que a dependência do diagnóstico direto por médico, passível de subjetividade (CLEOPHAS; ZWINDERMAN, 2013).

Ainda na medicina diagnóstica, softwares com aplicações de AM também podem ser úteis para baratear e diminuir o custo do diagnóstico e aumentando seu acesso, além da solução anteriormente mencionada sobre a precisão. Um exemplo prático dessas aplicações é a detecção e interpretação da relevância de microcalcificações em exames de mamografia (WERNICK et al., 2010).

Outra vertente analítica procura estudar as combinações genéticas, principalmente para prever seu comportamento e impacto clínico futuro. Nesse contexto, diversos fatores podem ser controlados, oferecendo maior acurácia e apresentando implicações diretas no diagnóstico precoce de câncer, por exemplo (CLEOPHAS; ZWINDERMAN, 2013; SHIPP et al., 2002).

(19)

17

1.6 EXEMPLOS DE APRENDIZAGEM DE MÁQUINA

Modelos de aprendizado de máquina têm sido amplamente utilizados em pesquisas na área da saúde, tais como auxílio em diagnósticos médicos e sistemas de apoio à decisão. Chong et al. (2015) construíram um modelo de aprendizagem de máquina e modelo de regressão logística multivariada para predizer lesão cerebral traumática pediátrica moderada a grave no departamento de emergência, utilizando 39 casos e 156 controles. Nas pontuações de corte ideais, o método AM melhorou o método de regressão logística em relação à área sob a curva ROC (0,98 vs 0,93), sensibilidade (94,9% vs 82,1%), especificidade (97,4% vs 92,3%), VPP (90,2% vs 72,7%) e VPN (98,7% vs 95,4%) (CHONG, LIU, BARBIER, 2015).

Vários pesquisadores se concentraram na classificação ou priorização de pacientes. Zheng et al propuseram uma série de abordagens utilizando mineração de dados, redes neurais, algoritmos de florestas aleatórias (RF) e máquinas de vetores de suporte (SVM) para classificar pacientes readmitidos em alto e baixo risco. Utilizaram 1.641 160 casos, obtiveram 78,4% de acurácia e sensibilidade de 97,3% (ZENG et al.; 2015). Pollettini e cols. desenvolveram uma abordagem assistida por computador para a recomendação automática de níveis de vigilância baseado em modelos linguísticos e modelos de classificação de aprendizado de máquina utilizando informações de prontuários eletrônicos dos pacientes. Ichikawa et al. desenvolveram uma ferramenta de verificação de saúde virtual utilizando abordagens de árvore de decisão de aumento de gradiente (GBDT), RF, e regressão logística (RL) para identificação de pessoas com alto risco de hiperuricemia. Utilizaram 61313 casos. Seus modelos de aprendizagem de máquina mostraram bom desempenho em predizer o desenvolvimento de hiperuricemia. Os resultados mostraram que as abordagens de RF e GBDT proporcionaram os melhores desempenhos em termos de sensibilidade e especificidade, respectivamente. Os valores da área sob a curva (AUC) dos modelos, que refletem a capacidade discriminativa total da classificação, foram de 0,796 [intervalo de confiança de 95% (IC): 0,766–0,825] para o GBDT, 0,784 [IC de 95%: 0,752– 0,815] para o RF e 0,785 [IC 95%: 0,752-0,819] para as abordagens de RL. Krämer et al desenvolveram um modelo para diferenciar admissões urgentes de não-urgentes ou eletivas, e predizer a urgência do paciente com um valor numérico. Utilizaram 61 informações dos pacientes como variáveis de entrada. Seu modelo tem uma precisão de 96% e uma área sob a curva ROC maior que 0,99.

(20)

18

1.7 TRIAGEM

O termo triagem vem do verbo francês trier, que significa tipar, escolher, separar. A triagem foi utilizada pelos militares como método de apoio à guerra. É atribuído a Jean Dominique Larrey, cirurgião do exército de Napoleão na Revolução Francesa, a concepção do método, que constituía em avaliar rapidamente e identificar os soldados feridos, separar os que exigiam atenção médica urgente e priorizar o tratamento para recuperá-los o mais rápido possível para o campo de batalha. Esse processo aperfeiçoou-se ao longo dos anos, mas sempre relacionado às guerras ou às grandes catástrofes, não sendo aplicado à população civil até a década de 1960, quando se notabilizou nos Estados Unidos crescente processo de mudança da prática médica, com reflexos na procura pelos serviços de urgência. Essa situação levou à necessidade de classificar os doentes e determinar aqueles que necessitavam de cuidado imediato.

Para Jiménez, os objetivos da triagem ou da classificação de risco são: (1) identificar rapidamente os pacientes em situação de risco de morte; (2) determinar a área mais adequada para tratar o doente que se apresenta ao serviço de emergência; (3) reduzir o congestionamento nas áreas de tratamento do serviço de emergência, para melhoria do fluxo de pacientes; (4) garantir a reavaliação periódica dos pacientes; (5) informar aos pacientes e famílias o tipo de serviço de que necessita aquele doente e o tempo estimado de espera; (6) assegurar as prioridades em função do nível de classificação; (7) contribuir com informações que ajudem a definir a complexidade do serviço, casuística, eficiência, carga de trabalho, consumo de recursos e satisfação do usuário; (8) priorizar apenas o acesso ao atendimento. Entre os sistemas de triagem mais empregados no mundo, destacam-se quatro: (1) Emergency Severity Index-ESI, (2) Canadian Triage and Acuity Scale (CTAS), (3) Australasian Triage Scale (ATS), (4) Sistema de Triagem de Manchester.

Emergency Severity Index-ESI

É um sistema de triagem utilizado nos Estados Unidos desde 1999 (GILBOY et al., 2005). A prioridade é definida comm base em um único fluxograma, com avaliação dos recursos necessários para a adequada assistência. Não há determinação quanto ao tempo para atendimento. Cada instituição determina a sua norma interna. Apresenta cinco níveis de prioridade:

 nível 1: emergente: avaliação médica imediata;

(21)

19

 nível 3: os sintomas relacionam-se à doença aguda e os fatores de risco não indicam risco de deterioração rápida;

 nível 4: pacientes com queixas crônicas, sem ameaça à função de órgãos vitais;  nível 5: os pacientes apresentam-se estáveis e não necessitam de recursos.

A previsão dos recursos é utilizada apenas para pacientes menos graves; sendo assim, os que necessitam de dois, um ou zero recursos são classificados como 3, 4 e 5, respectivamente.

Australasian Triage Scale (ATS)

Na Austrália, em meados dos anos 70, desenvolveu-se uma escala de cinco prioridades baseada em tempo-alvo e cor. Nos anos 1990, foi modificada e adotada como parte da política de triagem pelo Australasian College for Emergency Medicine-ACEM e em2000 passou a se chamar Australasian Triage Scale (ATS).

Compreende cinco categorias de urgência. A cada uma dessas categorias corresponde uma série de descritores clínicos, que vão desde sintomas a parâmetros clínicos e comportamentais. Não contém parte específica para crianças. É aplicada por enfermeiros, que utilizam essa lista de descritores clínicos para atribuir uma categoria de urgência, assim descritas:

 categoria 1: imediata ameaça à vida - imediato;  categoria 2: iminente ameaça à vida - 10 minutos;  categoria 3: potencial ameaça à vida - 30 minutos;  categoria 4: pacientes sérios potencialmente -60 minutos;  categoria 5: pacientes menos urgentes - 120 minutos.

Foi editada em 1998 e é baseada no estabelecimento de uma relação entre um grupo de eventos sentinelas, que são definidos pelos diagnósticos da International Classification of Diseases, 9th revision - CID-9 CM (posteriormente atualizada pela CID 10 CM), e as condições mais frequentes apresentadas pelos doentes que procuram o serviço de urgência. Foi implantada no Canadá em 1999 e é utilizada amplamente em todo o país.

A escala apresenta cinco níveis, que correspondem a uma cor e tempo-alvo, assim descritos:  nível 1: reanimação - azul: imediato;

 nível 2: emergente - vermelho: 15 minutos;  nível 3: urgente - amarelo: 30 minutos;

(22)

20

 nível 4: menos urgente ou semiurgente - verde: 60 minutos;  nível 5: não urgente - branco: 120 minutos.

Sistema de Triagem Manchester (STM)

Foi desenvolvido pelo Manchester Triage Group e começou a ser utilizado nos serviços de emergência do Reino Unido a partir de 1996 e no Brasil em 2008, inclusive nos hospitais elencados para o presente estudo, razão pela qual será analisado de forma particularizada neste artigo.

Conforme Mackway-Jones et al. (2006), triagem é um sistema de gerenciamento de risco clínico, implementado em todo o mundo para gerenciar fluxo de paciente com segurança, quando a necessidade exceder a capacidade. Assim como nos outros sistemas, o STM possui cinco categorias ou níveis. A cada categoria é atribuído um número, cor, nome e tempo-alvo máximo aceitável até o primeiro atendimento médico, como se segue:

 Nível 1: emergente, vermelho, imediato;  Nível 2: muito urgente, laranja: 10 minutos;  Nível 3: urgente, amarelo: 60 minutos;  Nível 4: pouco urgente – verde: 120 minutos;  Nível 5: não urgente – azul: 240 minutos.

O STM apresenta um número de vantagens identificadas para sua utilização (Cronin, 2003), como: é internacionalmente reconhecido, confiável e avaliado profissionalmente; tem sido adotado com sucesso em diferentes sistemas de saúde; sustenta o conceito de auditoria individual sobre as triagens realizadas pelos profissionais de triagem; o conceito pode ser expandido para outros serviços de emergência com características diferentes; oferece roteiro sistemático e lógico para a tomada de decisão e disponibiliza um pacote dedicado de treinamento em triagem.

Entre as orientações do STM, destaca-se a necessidade de se distinguir prioridade clínica de gestão clínica. A gestão clínica refere-se a características de cada um dos doentes que afetam o seu tratamento e a ordem do atendimento como, por exemplo, idosos, portadores de necessidades especiais, detentos, alcoolizados ou drogados, etc. Além disso, aspectos relacionados ao serviço, tais como composição da equipe, superlotação da unidade, muitos pacientes graves ao mesmo tempo, etc., podem aumentar o tempo de espera e a insatisfação do paciente. Cada serviço deve desenvolver meios para lidar com essas situações, Van der

(23)

21

Wulp et al. (2009) analisaram a capacidade do Sistema de Triagem Manchester (STM) em prever admissões hospitalares. Neste estudo 46.537 pacientes atendidos utilizaram o STM. Desses, 12.279 (26,4%) foram excluídos por falta de dados do STM. Um total de 34 258 pacientes com dados de triagem do STM foram, portanto, incluídos no estudo. A idade média (DP) dos pacientes triados com MTS foi de 42,4 (23,5) anos. Mais da metade dos pacientes atendidos no DE eram do sexo masculino (51,6% MTS). Os pacientes triados com o STM foram alocados principalmente nas categorias amarela (37,7%) ou verde (44,5%); categorias como vermelho e azul raramente ocorreram (0,6% e 0,8%, respectivamente). Os resultados deste estudo mostraram que a urgência, conforme definida no STM, foi um bom preditor de admissão e provou estar intimamente relacionado à mortalidade.

Figura 6: Triagem de Manchester, Risco, Tempo de Espera, Recomendações e Frequência de Monitoramento. Escala de Risco Tempo de Espera Recomendação Frequência de Monitoramento

V 120 min Avaliação da enfermagem. 120 min

IV 60 min Avaliação imediata da enfermagem. 60 min III 30 min Avaliação de médico e enfermagem. 30 min

II 10 min

Avaliação imediata de médico e enfermagem

10 min

(24)

22

3 PROCEDIMENTOS METODOLÓGICOS

Os procedimentos metodológicos foram subdivididos em três componentes. O primeiro descreve a população do estudo e variáveis coletadas. O segundo descreve o processo de criação do algoritmo de aprendizagem de máquina. O terceiro descreve as métricas de avaliação do algoritmo criado e da escala de Manchester.

Figura 7: Modelo da pesquisa.

População e Variáveis Coletadas

Utilizamos dados de 6 hospitais de uma operadora de saúde localizada na cidade de São Paulo com estrutura verticalizada, ou seja, que oferece ao seu cliente o plano de saúde propriamente dito, além de unidades prestadoras dos serviços de assistência à saúde, como rede médica, procedimentos diagnósticos e hospitais. Em 2018, a operadora contabilizava 420 mil vidas, com aproximadamente 720.000 atendimentos no PS por ano. Os hospitais dessa operadora selecionados para esse trabalho atendem predominantemente idosos com idade média de 63 anos.

Para criação do modelo, foram incluídas todas as visitas ao PS realizadas entre 14 de setembro de 2015 e 18 de março de 2018. No total, o trabalho consta com 177.578 casos observados. Todos os dados foram anonimizados. Para cada paciente da base de dados coletou-se um total de 17 variáveis de entrada. Como variável de saída (variável resposta), rotulamos cada atendimento como admissão ou alta.

Abaixo enumerados os atributos das 17 variáveis de entrada coletadas, bem como explicação sobre as mesmas.

(25)

23

Figura 8: Lista de variáveis coletadas e descrição.

Variáveis Descrição

TM_MOBILIDADE

Esta variável avalia a mobilidade do paciente e os classifica em quatro categorias: (1) deambula sem auxílio, (2) deambula com auxílio, (3) utiliza cadeira de rodas e (4) acamado. SOMA_INTERNAÇÕES Representa a soma de horas de internações anteriores

TM_SPO2AR Representa a saturação arterial de oxi-hemoglobina medida de forma não invasiva através de oxímetro de pulso.

TEMPO_QUEIXA Representa o tempo de queixa principal em dias.

TM_PAS Representa a pressão arterial em milímetros de mercúrio (mmHg).

IDADE Representa a idade do paciente em anos e meses.

QUANTIDADE_INTERNACAO_ANTERIOR Representa a quantidade de vezes que o paciente foi internado na rede hospitalar própria anteriormente.

TM_FC Representa a frequência cardíaca.

TM_GLASGOW

Refere-se à escala de coma de Glasgow com objetivo de registrar o nível de consciência do paciente. A pontuação possível vai de 3 a 15 pontos.

TM_TEMPERATURA Representa a temperatura corporal em graus Celsius

TM_FR Representa a frequência respiratória

TM_SNC

Avalia o status neurológico do paciente em: (1) responde a estímulo doloroso, (2) responde a comando de voz, (3) sonolento, (4) alerta (5) agitado, (6) irritado e (7) confuso.

PA_SEXO_M Paciente do sexo masculino

PA_SEXO_F Paciente do sexo feminino

TM_GLICEMIA Representa o resultado da glicemia aferida à beira do leito em aparelho portátil.

TM_ACOMPANHAMENTO Aponta a existência de acompanhamento prévio na rede ambulatorial da rede verticalizada.

TM_ALERGIA Identifica se o paciente possui ou não possui alergias.

Metodologia Utilizada Para Criação do Algoritmo de Machine Learning

Os passos para criação de um algoritmo são os seguintes: Aquisição dos Dados, Limpeza de Dados, Separação (split) dos dados em uma base de teste e uma base de treinamento do modelo, Teste do Modelo e Implantação do Modelo Criado (Figura 7).

Para a construção do modelo mobilizamos 3 membros da equipe de tecnologia de informação interna da empresa: um engenheiro de dados, responsável pela aquisição e limpeza dos dados,

(26)

24

um cientista de dados, responsável pela divisão dos dados em base de teste e base de treinamento e construção do algoritmo e um médico para teste e avaliação do modelo.

Aquisição de dados

A aquisição dos dados, realizada por um engenheiro de dados, representa a etapa do processo em que os dados são coletados nos diversos bancos de dados da empresa e disponibilizados para utilização. Nesta etapa do processo, esse profissional resgatou as informações pertinentes, isto é, variáveis de entrada e saída, no prontuário eletrônico dos pacientes da população determinada e alocou em sistema de nuvens virtual para que pudessem ser trabalhadas oportunamente.

Pré-Processamento dos Dados

O pré-processamento de dados é um passo fundamental para melhorar a qualidade dos dados brutos. O pacote estatístico R foi usado para pré-processamento de dados. Nesta etapa trabalhamos os dados faltantes (missing data), realizamos o balanceamento e a normalização dos dados. Abaixo explicação sobre cada um destes itens.

Dados Faltantes (Missing Data)

Dados em falta desafiam os pesquisadores desde os primórdios da pesquisa de campo. (Gra-ham, J. W. (2009). Missing Data Analysis: Making It Work in the Real World. Annual Review of Psychology, 60(1), 549–576.doi:10.1146/annurev.psych.58.110405.085). Dados inseridos de maneira manual são o maior problema devido a erros de digitação ou mesmo ausência de valores. Entre os campos com maior prevalência de dados faltantes, estão “número de internações anteriores” (QUANTIDADE_INTERNACAO_ANTERIOR) e “tempo de queixa principal” (TEMPO_QUEIXA) em nossos bancos de dados. Utilizamos o método de interpolação múltipla para lidar com os valores ausentes com alta precisão. Usamos a imputação múltipla como método de entrada. O método foi implantado usando o software R.

Balanceamento dos Dados e Solução DownSample

O termo “dados desbalanceados” significa a significativa prevalência de variáveis resposta classificadas como “alta” em relação com “admissão”. Esse fenômeno é facilmente observável em nosso contexto pois, de fato, a maioria dos pacientes que chega até um pronto socorro acaba recebendo alta após o atendimento, e uma minoria evolui para a internação.

(27)

25

Para lidar com essa situação, foi necessário equilibrar os dados, ou seja, aumentar o tamanho da classe “admissão” (up sample solution) ou diminuir a classe “alta” (down sample solution). Devido a melhores resultados, utilizamos a segunda alternativa, denominada solução down sample.

A Solução Down Sample é uma técnica que consiste em equalizar o número de observações entre a classe majoritária (“alta”) com a classe minoritária (“admissão”), decrescendo a quantidade de observações da classe majoritária. Para tanto adotamos os seguintes passos: (1) Separação entre as observações “urgente” e “não-urgente”. (2) Contabilização das observações da classe minoritária. (3) Determinação de uma amostra aleatória simples dos dados majoritários do mesmo tamanho que as observações minoritárias. (4) União entre os dados minoritários com a amostra obtida no passo (3). Como resultado destes passos obtivemos uma base de dados balanceada ou equilibrada, com semelhante percentual de classes na variável resposta.

(28)

26

Normalização

A normalização é necessária para regressões logísticas com regularização L1 (LASSO ou menor encolhimento absoluto e operador de seleção) para que todas as variáveis tenham o mesmo intervalo de magnitude. Os coeficientes de normalização foram então aplicados ao conjunto de dados de treinamento.

Split - Divisão em Base de Teste e Base de Validação

Para desenvolver nosso modelo, dividimos aleatoriamente os dados em um conjunto de dados de treinamento de 80% e em um conjunto de dados de teste de 20%. Depois que o conjunto de dados foi dividido, cada recurso foi padronizado para que tivesse uma média zero e desvio padrão no conjunto de dados de treinamento, processo denominado normalização.

Construção e Treinamento do Modelo

Para construção do modelo utilizou-se a técnica ensemble. A técnica visa combinar múltiplos modelos de classificação via um meta-classificador (TANG; ALELYANI; LIU, 2015; WOLPERT, 1992), como mostrado na Figura, a seguir.

(29)

27

Neste estudo, utilizamos tal técnica para combinar três diferentes modelos classificatórios: random forest (BREIMAN, 2001a), gradient boosting classifier (FRIEDMAN, 2002) e support vector machine – SVM (VAPNIK, 2000) utilizando um quarto modelo que foi a regressão logística (CABRERA, 1994) como meta-classificador.

Random Forest (RF)

Random forest é uma técnica computacional eficiente para manipulação rápida de grandes bases de dados. Ela tem sido utilizada em muitos projetos de pesquisa recentes e aplicações do mundo real em diversos domínios, entre eles a bioinformática, uma vez que se mostra apropriada para lidar com bases que apresentam muitos atributos e poucos exemplos, como é o caso dos estudos de expressão gênica.

Gradient Boosting (GB)

O Gradient Boosting é uma técnica de aprendizado de máquina para problemas de regressão e classificação. O princípio é combinar iterativamente vários modelos simples, chamados “modelos fracos”, para obter um “modelo forte”. Esta técnica produz sequencialmente o modelo na forma de combinações lineares de árvores de decisão. O método GB pode ser visto como um algoritmo de otimização numérica que visa encontrar um modelo adicional que minimize a perda de função. Assim, o algoritmo GB adiciona iterativamente a cada etapa uma nova árvore de decisão que reduz a perda função.

Suport Vector Machines (SVM)

Um SVM é um método de aprendizado supervisionado que é usado para classificação e regressão. Esse algoritmo é uma abordagem relativamente nova e tem apresentado bom desempenho nos últimos anos. O classificador SVM é baseado em classificadores lineares e, em dados separados por linha, é tentada a seleção de uma linha que é ligeiramente mais confiável. O objetivo é resolver a equação WT x + b = 0 para x ponto de dados e encontra a linha ótima para esses dados. Nessa equação, W é ponto de dados e b é o peso de polarização antes de separar dados por linha. Para que o modelo seja capaz de classificar os dados com alta complexidade, os dados são mapeados para uma dimensão maior por função (ABDI; GIVEKI, 2013; RAIKWAL; SAXENA, 2012).

(30)

28

Este modelo estatístico tem como objetivo produzir uma saída, geralmente binária, a partir de um conjunto de variáveis explicativas de cada observação. No modelo criado, a regressão logística funciona como meta-classificador. Receberá como entrada, isto é, variáveis explicativas, a saída dos três modelos descritos, elegendo o melhor como resultado final. Com isto, conseguimos minimizar as fraquezas apresentadas pelos três modelos.

O modelo foi treinado utilizando-se Python. Python é uma linguagem de programação de alto nível, interpretada, de script, imperativa, orientada a objetos, funcional, de tipagem dinâmica e forte. Python foi principalmente usado para unir os 3 modelos (ensemble).

Teste do Modelo

Após o modelo de algoritmo de aprendizado de máquina ser treinado, ele precisa ser avaliado. Um conjunto de treinamento é normalmente usado para construir modelo; um conjunto de teste é usado para avaliar o desempenho, permitindo que o usuário ajuste os parâmetros do modelo conforme necessário.

Parâmetros diferentes fazem um modelo produzir resultados diferentes, e precisamos ajustar os parâmetros para escolher o melhor modelo. Depois que um modelo ótimo é obtido, um conjunto de teste é usado para previsão, permitindo que o usuário avalie o desempenho do modelo final.

Produção

O modelo foi colocado em produção como pesquisa interna de forma a estabelecer a observação dos processos de gestores de leito a fim de fornecer insights relacionados a alocação dos pacientes.

(31)

29

Métricas de Avaliação do Algoritmo

No intuito de avaliar os principais critérios de qualidade é necessário compreender alguns termos que são utilizados para compô-los. O primeiro deles é o verdadeiro positivo (VP) que aponta que o paciente possui a doença e sua previsão é positiva. o segundo é o falso positivo (FP) quando o paciente não tem a doença, mas o modelo aponta um valor positivo. O terceiro é o verdadeiro negativo (VN) quando o paciente não tem a doença e a previsão aponta o valor negativo. O quarto e último é um falso negativo (FN) quando o paciente tem a doença, mas a previsão aponta o valor negativo.

A acurácia aponta o total de verdadeiros-positivo e verdadeiros-negativo em relação ao total de verdadeiros-positivo, falsos-positivo, verdadeiros-negativo e falsos-negativo. Ou seja, o total geral. Sendo assim, esse indicador possui a função de indicar a proporção entre o total de elementos que são apontados como verdadeiros em relação ao total global de elementos classificados, de acordo com a equação a seguir.

Acurácia = (VP + VN) / (VP + FP + VN + FN)

A sensibilidade relaciona o total de verdadeiros positivo em relação ao total de verdadeiros positivos mais os falsos negativos indicando a proporção total de pacientes que realmente possuem a doença. A equação a seguir representa o cálculo do indicador.

(32)

30

A especificidade aponta o total de pacientes que está sem a doença. Para tal, relaciona o total de verdadeiros-negativo com o total de falsos-positivo e verdadeiros-negativo. De acordo com a equação a seguir.

Especificidade = VN / (VN + FP)

Após a determinação das métricas para o algoritmo de máquina desenvolvido, determinaram-se as métricas para a escala de triagem de Manchester. Realizou-determinaram-se, então, a comparação entre as duas ferramentas para a predição de admissões hospitalares. Em relação a escala de Manchester consideramos os pacientes classificados como I, II e III no grupo de não-admitidos e aqueles classificados como IV e V no grupo de não-admitidos (figura). A classificação no sistema de Manchester foi realizada por uma enfermeira auxiliada pela ETS.

(33)

31

4 ANÁLISE DOS RESULTADOS

O presente capítulo objetivou apresentar a análise dos resultados do modelo proposto. Para tal, foram utilizadas as técnicas detalhadas no capítulo anterior.

Para comparar os modelos de triagem realizados pela enfermagem utilizando o STM e o modelo preditivo construído com AM utilizamos os critérios de acurácia, error, precisão, sensibilidade, especificidade, recall e matriz de confusão. A acurácia, sensibilidade e especificidade do modelo de AM desenvolvido foram 78%, 79% e 73% respectivamente. A acurácia, sensibilidade e especificidade do modelo da triagem foram 3%, 1% e 85% respectivamente.

(34)

32

Figura 14: Falso positivo e negativo.

A matriz de confusão é determinada entre a classe de destino e a classe de saída. As células diagonais em cada matriz mostram o número de casos que foram classificados corretamente, e as células fora da diagonal mostram os casos classificados perdidos.

(35)

33

Figura 16: Matriz de confusão - AM.

No algoritmo desenvolvido através de AM calculamos a importância relativa das diversas variáveis de entrada na predição de alta ou admissão. A variável com maior importância relativa foi a mobilidade do paciente (99%). Esta variável avalia a mobilidade do paciente e os classifica em quatro categorias: (1) deambula sem auxílio, (2) deambula com auxílio, (3) utiliza cadeira de rodas e (4) acamado. Das 17 variáveis, apenas uma, Glicemia, necessita a necessidade de coleta de exames e 3 necessitam de aferição por meio de dispositivos (PA, TEMPERATURA e SPO2).

(36)

34

5 CONCLUSÕES

O presente capítulo é composto por duas seções: a primeira delas apresenta as discussões dos resultados do capítulo anterior, a segunda apresenta as tendências de pesquisas futuras.

5.1 DISCUSSÃO

Neste estudo foi desenvolvida uma ferramenta de AM e seu desempenho foi avaliado em relação à triagem realizada, por meio do STM no departamento de emergência de uma rede de hospitais privados de São Paulo pertencentes a uma operadora verticalizava de saúde . O modelo criado demonstrou inequivocamente maior acurácia e sensibilidade na identificação e classificação dos pacientes na predição de internação ou alta em uma população de paciente assistidos pelo serviço entre 14 de setembro de 2015 e 18 de março de 2018.

O atendimento rápido no departamento de emergência tem sido consistentemente associado a melhores resultados para os pacientes, fornecendo uma forte justificativa para sua previsão na triagem, quando o momento do atendimento é influenciado pela primeira vez (CHALFIN et al., 2007; ELLIOTT et al., 2015; INTAS et al., 2012).

O AM não foi projetado para operar isoladamente nas decisões clínicas, mas para usar dados para apoiar e melhorar a tomada de decisão pelo provedor de serviços em saúde. Nesse contexto o AM se alinha com a noção abrangente de que apoio à decisão clínica emparelhado com a intuição do provedor pode levar a melhoria do processo com ganho de velocidade e de consistência na tomada de decisão, reduzindo o número de variáveis . Com o apoio dessas ferramentas computacionais poderosas vislumbra-se poder aprender como criar alianças entre a experiência e a perícia da enfermagem e modelos preditivos da evolução dos doentes.

Vale ressaltar, no entanto, que embora os sistemas comparados aqui sejam projetados para triagem no departamento de emergência, cada um aborda o objetivo de forma diferente: o modelo de ML é impulsionado pela predição automatizada de desfechos de internação ou alta, enquanto o STM avalia a urgência da necessidade médica e risco de mortalidade. Essas duas abordagens se sobrepõem, mas as diferenças conceituais limitam a interpretação resultados comparativos.

(37)

35

Em conclusão, níveis elevados de aglomeração de pacientes nos prontos-socorros com consequentes atrasos e padrões atuais de prática de triagem intensificaram a necessidade de triagem mais precisa e melhor diferenciação do paciente. O modelo de AP criado demonstra uma oportunidade de aplicar a análise preditiva avançada a dados de registros de saúde eletrônicos em larga escala para apoiar a tomada de decisão da triagem e melhorar o gerenciamento de risco do paciente no departamento de emergência. Esse trabalho foi desenvolvido em uma rede de hospitais privada na cidade de São Paulo, pertencente a uma operadora verticalizada de saúde. Consideramos, portanto, serem necessários novos estudos prospectivos em em diferentes serviços de assistência à urgência e emergência para que se possa considerar a ampliação desse recurso para o cuidado de diferentes populações atendidas, incluindo o sistema de saúde público.

5.2 TENDÊNCIAS FUTURAS

A pesquisa de IA tem obtido um benefício significativo do desenvolvimento de grandes conjuntos de dados abertos que fornecem dados de treinamento de alta qualidade, atuam como referência para comparação entre diferentes modelos e fornecem ainda a oportunidade para a cooperação internacional. Esforços contínuos para criar grandes conjuntos de dados de alta qualidade e acesso aberto, com cooperações internacionais oferecendo incentivos financeiros para resolver problemas importantes têm grande potencial, como sugerido nos dados apresentados nesse trabalho, de beneficiar a medicina de emergência (STEWART; SPRIVULIS; DWIVEDI, 2018).

Os atuais modelos de última geração utilizam arquiteturas criadas por especialistas e exigem o ajuste fino de múltiplos parâmetros. Há interesse em usar o próprio AM para projetar e otimizar arquiteturas de AM com avanços recentes nessa área. Os computadores eram acessíveis apenas a um grupo muito pequeno de especialistas altamente qualificados, mas passaram a se tornar tecnologia de consumo facilmente utilizável. Nessa mesma linha, o advento da computação em nuvem democratizou completamente o acesso de quem dispõe de um simples smartphone a recursos computacionais, notadamente, capacidade de processamento e de armazenamento, extraordinárias. Avanços na automação de AM podem permitir acesso mais fácil a técnicas poderosas, dentro do próprio campo dos processos médicos,para não especialistas (STEWART; SPRIVULIS; DWIVEDI, 2018).

(38)

36

Um desafio significativo é determinar as melhores formas de implantar sistemas de inteligência artificial em ambientes clínicos de trabalho. É provável que os sistemas de IA sejam iniciados em mais larga escala como ferramentas de apoio à decisão clínica, em vez de substituir os clínicos, médicos. Há uma série de áreas de ganhos rápidos para os sistemas de saúde que não podem ser negligenciados, pois significam melhora da qualidade do atendimento ao paciente e potencial aumento significativo do acesso à saúde. Acreditamos que atualmente já é possível identificar áreas onde a tecnologia atual já iguala ou excede o desempenho do médico especialista, incluindo análise de imagem e alerta de deterioração clínica (STEWART; SPRIVULIS; DWIVEDI, 2018).

(39)

37

REFERÊNCIAS

ARAÚJO, Flávio HD; SANTANA, André M.; NETO, Pedro de A. Santos. Using machine learning to support healthcare professionals in making preauthorisation decisions. Interna-tional journal of medical informatics, v. 94, p. 1-7, 2016.

AUSTRALASIAN COLLEGE FOR EMERGENCY MEDICINE. Guidelines on the Im-plementation of the Australasian Triage Scale in Emergency Departments. Disponível em: <http://www.acem.org.au/media/policies_and_guidelines/G24_Implementation_ ATS.pdf>. Acesso em: 11 set. 2019.

BAŞTANLAR, Y.; ÖZUYSAL, M. Introduction to Machine Learning. In: miRNomics: Mi-croRNA Biology and Computational Analysis. [s.l: s.n.]. v. 1107p. 105–128.

BEVERIDGE, Robert et al. L’échelle canadienne de triage & de gravité pour les départe-ments d’urgence Guide d’implantation. Can J Emerg Med, v. 1, n. 3, 1999.

BREIMAN, L. Statistical modeling: The two cultures (with comments and a rejoinder by the author). Statistical Science, v. 16, n. 3, p. 199–231, 2001a.

BREIMAN, L. Random Forests. Machine Learning, v. 45, n. 1, p. 5–32, 2001b.

CABRERA, A. Logistic regression analysis in higher education: An applied perspective. Higher education: Handbook of theory and …, v. 1, n. April, p. 225–256, 1994.

CHALFIN, D. B. et al. Impact of delayed transfer of critically ill patients from the emergency department to the intensive care unit*. Critical Care Medicine, v. 35, n. 6, p. 1477–1483, jun. 2007.

CHONG, Shu-Ling et al. Predictive modeling in pediatric traumatic brain injury using ma-chine learning. BMC medical research methodology, v. 15, n. 1, p. 22, 2015.

CLEOPHAS, T. J.; ZWINDERMAN, A. H. Machine learning in medicine. Machine Learn-ing in Medicine, v. 9789400758, p. 1–265, 2013.

COHEN, Joel E. Human population: the next half century. Science, v. 302, n. 5648, p. 1172-1175, 2003.

CONROY, S. Emergency room geriatric assessment--urgent, important or both? Age and Ageing, v. 37, n. 6, p. 612–613, 1 out. 2008.

CONSIDINE, J.; LEVASSEUR, S. A.; CHARLES, A. Development of physiological dis-criminators for the Australasian Triage Scale. Accident and Emergency Nursing, v. 10, n. 4, p. 221–234, out. 2002.

ELLIOTT, D. J. et al. An Interdepartmental Care Model to Expedite Admission from the Emergency Department to the Medical ICU. The Joint Commission Journal on Quality and Patient Safety, v. 41, n. 12, p. 542–549, 1 dez. 2015.

FERNANDES, C. M. B. et al. Five-Level Triage: A Report from the ACEP/ENA Five-Level Triage Task Force. Journal of Emergency Nursing, v. 31, n. 1, p. 39–50, jan. 2005.

(40)

38

FRIEDMAN, J. H. Stochastic gradient boosting. Computational Statistics & Data Analysis, v. 38, n. 4, p. 367–378, fev. 2002.

GILBOY, Nicki et al. Emergency severity index, version 4: implementation handbook. Rock-ville, MD: Agency for Healthcare Research and Quality, p. 1-72, 2005.

GRAHAM, John W. Missing data analysis: Making it work in the real world. Annual review of psychology, v. 60, p. 549-576, 2009.

HING, E.; BHUIYA, F. Wait Time for Treatment in Hospital Emergency Departments: 2009. [s.l: s.n.].

HPN. The heritage health prize competition. 2011. Disponível em: <heritagehealthpri-ze.com>. Acesso em: 11 set. 2019.

HODGE, A. et al. A review of the quality assurance processes for the Australasian Triage Scale (ATS) and implications for future practice. Australasian Emergency Nursing Jour-nal, v. 16, n. 1, p. 21–29, 9 fev. 2013.

HURWITZ, J. E. et al. A flexible simulation platform to quantify and manage emergency de-partment crowding. BMC Medical Informatics and Decision Making, v. 14, n. 1, p. 50, 9 dez. 2014.

ICHIKAWA, Daisuke et al. How can machine-learning methods assist in virtual screening for hyperuricemia? A healthcare machine-learning approach. Journal of biomedical informat-ics, v. 64, p. 20-24, 2016.

INTAS, G. et al. The Impact of ED Boarding Time, Severity of Illness, and Discharge Desti-nation on Outcomes of Critically Ill ED Patients. Advanced Emergency Nursing Journal, v. 34, n. 2, p. 164–169, 2012.

JACOBSON, E. U.; ARGON, N. T.; ZIYA, S. Priority Assignment in Emergency Response. Operations Research, v. 60, n. 4, p. 813–832, ago. 2012.

KONONENKO, I. Machine learning for medical diagnosis: history, state of the art and per-spective. Artificial Intelligence in Medicine, v. 23, n. 1, p. 89–109, ago. 2001.

LEE, J. et al. The validity of the canadian triage and acuity scale in predicting resource utili-zation and the need for immediate life-saving interventions in elderly emergency department patients. Scandinavian Journal of Trauma, Resuscitation and Emergency Medicine, v. 19, n. 1, p. 68, 2011.

LEE, S. et al. Machine Learning in Relation to Emergency Medicine Clinical and Operational Scenarios: An Overview. The western journal of emergency medicine, v. 20, n. 2, p. 219– 227, mar. 2019.

LUO, Li et al. Using machine‐learning methods to support health‐care professionals in mak-ing admission decisions. The International journal of health plannmak-ing and management, 2019.

MACKWAY, J. K.; MARSDEN, J.; WINDLE, J. Emergency triage: Manchester triage group. Massachussets: Blackwell publishing, 2006.

(41)

39

MOHRI, M.; ROSTAMIZADEH, A.; TALWALKAR, A. Foundations of Machine Learn-ing. 1. ed. Cambridge: The MIT Press, 2012.

MOHRI, M.; ROSTAMIZADEH, A.; TALWALKAR, A. Foundations of Machine Learn-ing. 2. ed. Cambridge, MA: The MIT Press, 2018.

NOSEWORTHY, T. W. et al. Waiting for scheduled services in Canada: development of pri-ority‐setting scoring systems. Journal of evaluation in clinical practice, v. 9, n. 1, p. 23-31, 2003.

OBERMEYER, Z.; EMANUEL, E. J. Predicting the Future — Big Data, Machine Learn-ing, and Clinical Medicine. New England Journal of Medicine, v. 375, n. 13, p. 1216–1219, 29 set. 2016.

PARENTI, N. et al. A systematic review on the validity and reliability of an emergency de-partment triage scale, the Manchester Triage System. International Journal of Nursing Studies, v. 51, n. 7, p. 1062–1069, jul. 2014.

POLLETTINI, Juliana T. et al. Using machine learning classifiers to assist healthcare-related decisions: classification of electronic patient records. Journal of medical systems, v. 36, n. 6, p. 3861-3874, 2012.

PENG, Xiang; WU, Wentao; XU, Jia. Will You Be in Hospital Next Year: Leveraging Ma-chine Learning in Improving Healthcare. 2011.

SAGHAFIAN, S. et al. Complexity-Based Triage: A Tool for Improving Patient Safety and Operational Efficiency. SSRN Electronic Journal, n. June, 2011.

SAMUEL, A. L. Some studies in machine learning using the game of checkers. IBM Journal of research and development, v. 3, n. 3, p. 210–229, 1959.

SHIPP, M. A. et al. Diffuse large B-cell lymphoma outcome prediction by gene-expression profiling and supervised machine learning. Nature Medicine, v. 8, n. 1, p. 68–74, jan. 2002. SOLANS-DOMÈNECH, Maite et al. Developing a universal tool for the prioritization of pa-tients waiting for elective surgery. Health policy, v. 113, n. 1-2, p. 118-126, 2013.

STEWART, J.; SPRIVULIS, P.; DWIVEDI, G. Artificial intelligence and machine learning in emergency medicine. Emergency Medicine Australasia, v. 30, n. 6, p. 870–874, 1 dez. 2018.

TANG, J.; ALELYANI, S.; LIU, H. Feature Selection for Classification: A Review. In: AG-GARWAL, C. C. (Ed.). Data classification: algorithms and applications. 1. ed. Boca Raton: CRC Press, 2015. p. 38–64.

VAPNIK, V. N. The Nature of Statistical Learning Theory. 2. ed. New York: Qing hua da xue chu ban she, 2000.

WATSON, H. J. Tutorial: Big Data Analytics: Concepts, Technologies, and Applications. Communications of the Association for Information Systems, v. 34, n. 1, p. 1247–1268, 2014.

Referências

Documentos relacionados

c.4) Não ocorrerá o cancelamento do contrato de seguro cujo prêmio tenha sido pago a vista, mediante financiamento obtido junto a instituições financeiras, no

Os autores relatam a primeira ocorrência de Lymnaea columella (Say, 1817) no Estado de Goiás, ressaltando a importância da espécie como hospedeiro intermediário de vários parasitos

- Se o estagiário, ou alguém com contacto direto, tiver sintomas sugestivos de infeção respiratória (febre, tosse, expetoração e/ou falta de ar) NÃO DEVE frequentar

Combinaram encontrar-se às 21h

A Lei nº 2/2007 de 15 de janeiro, na alínea c) do Artigo 10º e Artigo 15º consagram que constitui receita do Município o produto da cobrança das taxas

Note on the occurrence of the crebeater seal, Lobodon carcinophagus (Hombron &amp; Jacquinot, 1842) (Mammalia: Pinnipedia), in Rio de Janeiro State, Brazil.. On May 12, 2003,

Mediante o impacto do paciente com o ambiente do centro cirúrgico, a equipe de enfermagem deve estar voltada para o aspecto humano do atendimento, centrando suas

Os doentes paliativos idosos que permanecem nas instituições privadas são encaminhados pelos hospitais em que estavam ou internados pelos próprios familiares