ETAPAS DA PESQUISA - 2 FUNDAMENTAÇÃO TEÓRICA

2 FUNDAMENTAÇÃO TEÓRICA

3.3 ETAPAS DA PESQUISA

A Figura 9 ilustra as etapas de execução do trabalho, dividindo-o em quatro eixos principais. O primeiro, chamado de literatura, representa as pesquisas realizadas e as contribuições feitas à literatura. O segundo, denominado de desenvolvimento conceitual, representa todas as atividades que compõem a elaboração dos modelos envolvendo o desenvolvimento de ideias e contribuições. O terceiro eixo, chamado de validação, representa a confirmação do bom desempenho dos modelos desenvolvidos por meio da verificação a partir dos dados reais. Por fim, o quarto eixo, é destino a associação do impacto e relevância dos modelos preditivos sob a ótica dos indicadores de sistemas de prestação de serviços de saúde baseados em valor, com contribuições à literatura.

Figura 9 – Etapas de execução do trabalho

Fonte: Elaborado pelo autor (2019).

Para dar início a Etapa 4, Feature Engineering, uma Análise Exploratória dos Dados (EDA) necessitou ser aplicada inicialmente. EDA é uma estratégia de análise de dados que possibilita a inclusão de diversas

alternativas para serem testadas e validadas (YU, 1977). Este procedimento visa analisar detalhadamente os dados disponíveis de modo a deduzir hipóteses que sejam adequadas para o problema em questão (FERNHOLZ et al., 2000).

Neste sentido, o modelo de Classificação utiliza variáveis binárias, e indica a intensidade da internação dos pacientes com PAC, ou seja, dado os sintomas apresentados, quão longa será a internação qualitativamente. Assim, o modelo prevê duas possíveis saídas, em casos quando:

• 𝑌 = 1: Paciente que teve uma internação classificada como longa duração (maior que 12 dias).

• 𝑌 = 0: Paciente que teve uma internação classificada como curta duração (menor ou igual a 12 dias).

O segundo modelo é de Regressão, na qual utiliza variáveis contínuas, e indica a quantidade de dias em que o paciente ficou internado no hospital.

Por sua vez, a etapa de Feature Engineering contou com o auxílio da ferramenta Featuretools, uma biblioteca de código aberta para a execução da criação de novas features, por meio da metodologia Deep Feature Synthesis (DFS) (KANTER, VEERAMACHANENI, 2015). DFS é um método automatizado para realizar engenharia de recursos em dados relacionais e temporais, requerendo um conjunto de dados estruturados para ser executado. Uma lista de features “primitivas” é então criada a partir de uma biblioteca “primitiva” (operações básicas de máximo e média, por exemplo). Na sequência, duas etapas são implementadas: transformação, aplicada em uma ou mais colunas de uma mesma tabela, e agregação, aplicada em várias tabelas com entidades pai/filho. Após o processo de Feature Engineering, uma lista de 227 features foram geradas a partir dos dados brutos de anamneses para o modelo de Classificação e 224 para o modelo de Regressão. Algumas das features geradas são ilustradas na Tabela 4 a seguir.

Tabela 4 - Features geradas no processo de Feature Engineering utilizando a ferramenta Featuretools

Features Descrição

dor_toracica_pleuritica Indica a presença de dor torácica pleurítica, sintoma mais comum no derrame pleural.

pas_menor_90mmhg_ou_pad_ menor_60mmhg

Avaliação da pressão arterial sistólica (PAS) menor que 90mmhg e pressão arterial diastólica (PAD) menor que 60mmhg.

hipertensao_arterial Indica a presença de sintomas de hipertensão arterial, aumento anormal e por longo período da pressão que o sangue faz ao circular pelas artérias do corpo. acidose_metabolica Indica o excesso de acidez no

sangue caracterizada por uma concentração anormalmente baixa de carbonatos.

historia_recente_de_cirurgia Indica se o paciente teve um histórico recente de cirurgias. idade_maior_igual_70_anos Indica se a idade do paciente é

maior, menor ou igual a 70 anos. imc_maior_igual_30 Indica se o Índice de Massa

Corporal (IMC), que avalia o peso do paciente em relação à altura, é maior que 30.

expectoracao_purulenta Indica a expulsão, por meio da tosse, de secreções provenientes da traqueia, brônquios e pulmões. diabetes_mellitus Indica a presença da doença uma

caracterizada pela elevação da glicose no sangue (hiperglicemia). cardiopatia Indica a presença de doenças que

acometem o coração.

pneumopatia Indica a presença de doenças que acometem os pulmões.

infeccao_aguda Indica presença de infecção aguda caracterizada tanto por viremia

elevada quanto atividade imunológica intensa e rápida queda na contagem linfócitos.

cancer_ativo Indica a presença de algum tipo de câncer ativo no paciente.

historico_tev Indica a presença de

tromboembolismo venoso, combinação de duas doenças, a trombose venosa profunda (TVP) e a embolia pulmonar (EP)

risco_de_aspiracao Indica o risco de Pneumonia por aspiração que se desenvolve devido à entrada de objetos estranhos na árvore brônquica, normalmente de origem gástrica (incluindo comida, saliva ou secreções nasais).

reducao_da_mobilidade Indica um paciente que não se enquadrando no conceito de pessoa portadora de deficiência, mas que tenha, por qualquer motivo, dificuldade de movimentar-se, permanente ou temporariamente, gerando redução efetiva da mobilidade, flexibilidade, coordenação motora e percepção. taquipneia Indica se o paciente apresentou

respiração acelerada.

dispneia Indica se o paciente apresentou falta de ar.

calafrios Indica se o paciente apresentou tremor que ocorre durante uma febre alta.

hipercoagulabilidade Indica se o paciente tinha um estado hereditário ou adquirido que aumenta o risco de formação excessiva de coágulos sanguíneos insuficiencia Indica se o paciente apresentou um

estado que ocorre o coração não consegue bombear sangue

(sistólica) ou encher-se de sangue (diastólica) adequadamente. iam_ou_avc Indica se o paciente foi acometido

por infarto agudo do miocárdio (IAM) ou acidente vascular cerebral (AVC).

Fonte: Elaborado pelo autor (2019).

Uma feature que merece destaque, também desenvolvida especialmente para os modelos, é a Modified Early Warning Scoring (MEWS), calculada para cada registro de pacientes. O MEWS é uma escala de alerta que tem como principal finalidade identificar precocemente sinais de deterioração clínica do paciente, baseado num sistema de atribuição de pontos (scores) aos parâmetros vitais, quanto mais distante dos parâmetros de normalidade maior a pontuação. Conhecer os resultados do protocolo de identificação de deterioração clínica, baseado no MEWS se faz necessário para conhecer a realidade do setor, identificar fragilidades e propor melhorias. O score para MEWS utiliza parâmetros fisiológicos para obtenção de uma pontuação, que aumenta de acordo com a alteração em relação a faixa da normalidade, conforme apresentado na Tabela 5.

Tabela 5 - Parâmetros fisiológicos para o cálculo do MEWS Parâmetros fisiológicos 3 2 1 0 1 2 3 Nível de consciência A V, D ou NR Temperatura ≤ 35 35,1 -36 36,1 - 38 38,1 - 39 ≥ 39,1 Frequência cardíaca ≤ 40 41 - 50 51 - 90 91 - 110 111 -130 ≥ 131 PA Sistólica ≤ 90 91 - 100 101 - 110 111 - 219 ≥ 220 Frequência respiratória ≤ 8 9 - 11 12 – 20 21 - 24 ≥ 25 Saturação de oxigenação ≤ 91 92 - 93 94 - 95 ≥ 96 Qualquer suplementação de O2 Sim Não

• Nível de consciência: (A) o paciente está completamente acordado, embora não necessariamente orientado. (V) o paciente tem algum tipo de resposta quando estimulado verbalmente. (D) o paciente tem resposta a um estímulo de dor. (NR) o paciente está inconsciente.

O score será definido pela soma das pontuações atingidas na avaliação do Sensório, da Temperatura, da Frequência Cardíaca, da Pressão Arterial Sistólica, da Frequência Respiratória, da Saturação Periférica de Oxigênio e da suplementação de 𝑂2. Quanto maior a pontuação atingida nos parâmetros fisiológicos, maior será a pontuação alcançada no score. De acordo com a pontuação encontrada, duas ações são disparadas:

i) Definição da frequência dos controles dos sinais vitais adequada a criticidade do caso; e,

ii) Comunicação aos profissionais envolvidos no atendimento do paciente para avaliação e definição de conduta.

A Etapa 5, Feature Processing, contemplou o processamento de todas as features geradas na etapa anterior, bem como preocupou-se com a exclusão de alguns dados fora do escopo da análise, antes da inserção nos modelos preditivos. Para isso, fora considerado apenas casos de internação por PAC de pacientes acima de 10 anos de idade, excluindo da análise os casos pediátricos. Além disso, fora considerado apenas Pneumonias classificadas na codificação da Classificação Internacional de Doenças e Problemas Relacionados a Saúde (CID), catálogo publicado pela Organização Mundial de Saúde (OMS), estando em sua décima versão. Os casos considerados foram:

• CID 10 - J15 Pneumonia bacteriana não classificada em outra parte.

• CID 10 - J15.0 Pneumonia devida à Klebsiella pneumoniae.

• CID 10 - J15.1 Pneumonia devida a Pseudomonas. • CID 10 - J15.2 Pneumonia devida a Staphylococcus. • CID 10 - J15.3 Pneumonia devida a Streptococcus do

grupo B.

• CID 10 - J15.4 Pneumonia devida a outros estreptococos.

• CID 10 - J15.5 Pneumonia devida a Escherichia coli. • CID 10 - J15.6 Pneumonia devida a outras bactérias

aeróbicas gram-negativas.

• CID 10 - J15.7 Pneumonia devida a Mycoplasma pneumoniae.

• CID 10 - J15.8 Outras pneumonias bacterianas.

• CID 10 - J15.9 Pneumonia bacteriana não especificada. Além disso, medições de sintomas após 72 horas, ou seja, três dias de internação, não foram consideradas para inserção no modelo, dado sua complexidade. Também, casos de óbito foram descartados do conjunto inicial de dados, uma vez que não trariam relevância aos resultados preditos.

A Etapa 6, Feature Selection, concentrou esforços em olhar para todas as features geradas e processadas anteriormente, e selecionar aquelas que de fato fariam mais sentido para os modelos preditivos. Nesta etapa, foram utilizadas técnicas de filter, wrapper e embedded methods, descritos anteriormente na seção 2.5.

Na sequência, ambos os modelos preditivos foram executados, seguida da avaliação das métricas obtidas, bem como aplicação do processo de Cross Validation.

A fase de Tunagem/Otimização de hiperparâmetros permitiu que os modelos preditivos pudessem ser utilizados para a predição do LOS em casos de PAC efetivamente, uma vez que buscaram melhorar o desempenho destes por meio da configuração de diversas faixas de valores para os hiperparâmetros baseados nas métricas obtidas na etapa anterior. Esta etapa contou com um processo iterativo de tentativa e erro em sua execução. A maior parte dos ajustes propostos não resultou em melhorias aos modelos primários, contudo, adaptações pontuais resultaram em avanços significativos. A faixa de hiperparâmetros alteradas em cada versão dos modelos preditivos, bem como o melhor valor encontrado, são exibidas nas Tabelas 6 e 7:

Tabela 6 - Hiperparâmetros ajustados para o modelo de Classificação

Hiperparâmetro Descrição Faixa

testada

Melhor valor encontrado colsample-bytree Indica a fração de

colunas a serem

amostras aleatórias para cada árvore. learning-rate Torna o modelo

mais robusto diminuindo os pesos em cada etapa. 0.01-0.2 0.1 max-depth A profundidade máxima de uma árvore. Utilizado para controlar o overfitting, pois a profundidade mais alta permitirá que o modelo aprenda relações muito específicas para uma determinada amostra. 3-10 4

min-child-weight Define a soma mínima dos pesos de

todas as

observações

necessárias em uma folha. Utilizado para controlar

overfitting. Valores mais altos impedem que um modelo aprenda relações que possam ser altamente específicas para a amostra particular selecionada para uma árvore. 3-10 4 n-estimators O número de árvores a serem usadas na floresta. 1-1000 500

subsample Indica a fração de observações a serem

amostras aleatórias para cada árvore. Valores mais baixos tornam o algoritmo mais conservador e evitam overfitting, mas valores muito pequenos podem levar a um underfitting.

Fonte: Elaborado pelo autor (2019).

Tabela 7 - Hiperparâmetros ajustados para o modelo de Regressão

Hiperparâmetro Descrição Faixa

testada

Melhor valor encontrado colsample-bytree Indica a fração de

colunas a serem amostras aleatórias para cada árvore.

0.5-1 1

learning-rate Torna o modelo mais robusto diminuindo os pesos em cada etapa. 0.01-0.2 0.1 max-depth A profundidade máxima de uma árvore. Utilizado para controlar o overfitting, pois a profundidade mais alta permitirá que o modelo aprenda relações muito específicas para uma determinada amostra. 3-10 2

min-child-weight Define a soma mínima dos pesos de

todas as

observações

necessárias em uma folha. Utilizado para controlar

overfitting. Valores mais altos impedem que um modelo aprenda relações que possam ser altamente específicas para a amostra particular selecionada para uma árvore. n-estimators O número de árvores a serem usadas na floresta. 1-1000 500

subsample Indica a fração de observações a serem amostras aleatórias para cada árvore. Valores mais baixos tornam o algoritmo mais conservador e evitam overfitting, mas valores muito pequenos podem levar a um underfitting.

0.5-1 0.8

Fonte: Elaborado pelo autor (2019).

Um importante algoritmo foi utilizado durante a fase de Feature importante, denominado XGBoost, para a determinação das features mais importantes em cada modelo preditivo. XGBoost (FRIEDMAN, 2001) é um algoritmo melhorado baseado em Árvores de Decisão para o chamado aumento de gradiente e pode construir árvores impulsionadas eficientemente, operando em paralelo. As árvores impulsionadas em XGBoost são divididas em árvores de Regressão e Classificação. O núcleo do algoritmo é otimizar o valor da função objetivo. Ao contrário do uso de vetores de features para calcular a similaridade entre dados de previsão e histórico, o aumento de gradiente constrói as árvores

impulsionadas para obter de maneira inteligente as pontuações de relevância de cada feature, indicando sua importância ao modelo de treinamento. Quanto mais uma feature for utilizada para tomar decisões importantes com árvores impulsionadas, maior será sua pontuação (FRIEDMAN, 2001). O algoritmo conta a importância por “ganho”, “frequência” e “cobertura”. O ganho é o principal fator de referência da importância de uma feature nos galhos das árvores. Frequência, que é uma versão simples de ganho, é o número de uma característica em todas as árvores construídas. Cobertura é o valor relativo de uma feature. Nesta pesquisa, importância, ou feature importance, foi definida pelo "ganho". Já na fase de Impacto e relevância, os resultados obtidos com os modelos preditivos, ou seja, as inferências que estes possibilitaram, foram agrupadas e associadas aos indicadores de alinhamento com VBHC. Esta etapa teve como objetivo ilustrar de forma efetiva as áreas de atuação tecnológica em que uma proposta de solução, como a levantada nesta pesquisa, pode contribuir. Baseado no impacto dos indicadores VBHC, ações foram alvitradas para serem aplicadas diretamente nos processos do hospital em questão, de modo que este trabalho apresentasse um caráter aplicável ao término do estudo.

4 RESULTADOS

Neste capítulo são apresentados os resultados obtidos com a aplicação dos dois modelos preditivos, Classificação e Regressão, sob a óticas das métricas citadas anteriormente nesta pesquisa. Também, como uma das saídas principais dos algoritmos, uma lista das features preditoras mais importantes para cada modelo é exibido.

4.1 RESULTADOS E DISCUSSÕES PARA O MODELO DE

No documento Lucas de Souza Silva (páginas 69-81)