• Nenhum resultado encontrado

Lucas de Souza Silva

N/A
N/A
Protected

Academic year: 2021

Share "Lucas de Souza Silva"

Copied!
127
0
0

Texto

(1)

UMA APLICAÇÃO DE DUAS ABORDAGENS EM APRENDIZADO DE MÁQUINA SUPERVISIONADO PARA A

PREDIÇÃO DA DURAÇÃO DE INTERNAÇÃO POR PNEUMONIA ADQUIRIDA NA COMUNIDADE EM UM

HOSPITAL BRASILEIRO

Trabalho de Conclusão de Curso apresentado ao Departamento de Engenharia de Produção e Sistemas da Universidade Federal de Santa Catarina, como requisito para a obtenção do título em Engenharia Mecânica, habilitação em Produção. Orientador: Prof. Dr. Ricardo Faria Giglio

Florianópolis 2019

(2)

Ficha de identificação da obra Elaborado pelo autor através do Programa de Geração Automática da Biblioteca Universitária

(3)

UMA APLICAÇÃO DE DUAS ABORDAGENS EM APRENDIZADO DE MÁQUINA SUPERVISIONADO PARA A

PREDIÇÃO DA DURAÇÃO DE INTERNAÇÃO POR PNEUMONIA ADQUIRIDA NA COMUNIDADE EM UM

HOSPITAL BRASILEIRO

Este Trabalho de Conclusão de Curso foi julgado adequado e aprovado, em sua forma final, pelo Curso de Graduação em Engenharia

de Produção Mecânica da Universidade Federal de Santa Catarina. Florianópolis, 3 de junho de 2019.

________________________ Prof. Dr. Guilherme Ernani Vieira

Coordenador do Curso Banca Examinadora:

________________________ Prof. Dr. Ricardo Faria Giglio

Orientador

________________________ Prof. Dr. Carlos Ernani Fries Universidade Federal de Santa Catarina

________________________ Prof. Dr. Eduardo Ferreira da Silva Universidade Federal de Santa Catarina

(4)
(5)

Aos meus pais, Osmarino Vidal da Silva e Rosali Maria de Souza Silva, e minha irmã Maisa de Souza Silva, pelo apoio e incentivo incondicional que tive ao longo da jornada na Universidade.

À Universidade Federal de Santa Catarina pela oportunidade de concluir esta formação acadêmica. Por tudo que aprendi durante a minha graduação, agradeço a todos os professores e colaboradores do Departamento de Engenharia de Produção e Sistemas e do Departamento de Engenharia Mecânica. Agradeço especialmente ao professor Ricardo Faria Giglio pela orientação e apoio neste Trabalho de Conclusão de Curso e ao professor Enzo Morosini Frazzon pelas oportunidades de capacitação profissional oferecidas durante minha caminhada no curso.

Aos meus amigos e colegas de profissão, agradeço imensamente pelas incansáveis horas de estudo, dedicação e companheirismo.

(6)
(7)

Não existe tal coisa como um processo de educação neutra. Educação ou funciona como um instrumento que é usado para facilitar a integração das gerações na lógica do atual sistema e trazer conformidade com ele, ou ela se torna a "prática da liberdade", o meio pelo qual homens e mulheres lidam de forma crítica com a realidade e descobrem como participar na transformação do seu mundo. Paulo Freire.

(8)
(9)

A Pneumonia Adquirida na Comunidade (PAC) é a maior causa de morbidade, hospitalização e mortalidade em todo o mundo e representa um desafio tanto em relação ao diagnóstico, quanto ao tratamento. Dentre as medidas usadas na avaliação da qualidade da assistência a pacientes com PAC, o mais importante componente é o tempo de permanência (Length of stay - LOS). Em concordância, o conceito de Value-based healthcare (VBHC) se concentra em melhorar os resultados de saúde do paciente, enquanto se reduz o custo total dos cuidados necessários. Neste contexto, tem-se a temática central deste trabalho, a qual se propôs a utilizar duas abordagens em Aprendizado de Máquina, conhecidas como Classificação e Regressão, para a predição do LOS em casos de PAC, num hospital brasileiro, auxiliando a tomada de decisão na gestão hospitalar, em concordância com as melhores práticas em VBHC. A partir de dados reais de anamneses colhidas e analisadas de pacientes internados em casos de PAC, diversas features foram geradas por meio de um processo automatizado utilizando uma biblioteca de código aberto em linguagem Python denominada Featuretools. Na sequência, tais features foram processadas, bem como selecionadas para inclusão em dois tipos diferentes de modelos, Classificação Binária e Regressão utilizando um algoritmo de Random Forest. As melhores métricas para avaliação de desempenho dos modelos preditivos foram determinadas considerando metodologias de Cross Validation e Tunagem/Otimização de hiperparâmetros. Entre as métricas, a curva AUC (Area Under the Receiver Operating Characteristics Curve) apresentou valores de 0.857 para o modelo de Classificação. O modelo de Regressão apresentou um coeficiente R² de 0.784. Os modelos também apresentaram como resultado um ranking de importância das diferentes features sob os valores preditos para o LOS. Por fim, em concordância com os indicadores de melhores práticas em VBHC, os resultados foram classificados sob a forma do potencial impacto que podem causar em diferentes frentes de uma abordagem de prestação de serviços de saúde baseada em valor, em comparação com a situação atual no Brasil, bem como foram propostas ações de cunho tecnológico para uma abordagem inicial.

Palavras-chave: Pneumonia Adquirida na Comunidade. Value-based healthcare. Modelos de Classificação e Regressão.

(10)
(11)

Community-acquired Pneumonia (CAP) is the biggest cause of morbidity, hospitalization and mortality worldwide and represents a challenging diagnosis and treatment. Among the measurements used in the evaluation of the quality of assistance to patients with CAP, the most important cost is the Length of stay (LOS). Accordingly, the concept of Value-based healthcare (VHBC) focus on improving the health results of the patient, while the hospital reduces the total cost of the necessary care. In this context, there is the main theme of this work, which proposed itself to use two approaches in machine learning, known as Classification and Regression, to predict LOS in CAP cases, in a Brazilian hospital, helping in decision-making in hospital management, according to the best practices of VHBC. Upon real data from anamnesis from interned patients in cases of CAP, an automatized process using an open access library in Phyton language named Featuretools generated many features. Subsequent, those features were processed, as well as selected to inclusion in two different types of Machine Learning models, Binary Classification and Regression using an algorithm of Random Forest. The best metrics to evaluate the performance of the predictive models were determined considering Cross Validation methods and Tuning/Optimization of hyperparameters. Among the metrics, the AUC curve (Area Under the Receiver Operating Characteristics Curve) presented the value 0.875 to Classification model. The Regression model presented a R² coefficient of 0.784. The models also presented themselves as a ranking result of the importance of different features under the LOS predicted values. Lastly, according to the indicators of best practices in VHBC, the results were classified under the potential impact they can cause in different ways of a health service based in a value approach, compared to the actual situation in Brazil, as well as technological actions were proposed for an initial approach.

Keywords: Community-acquired Pneumonia. Value-based healthcare. Classification and Regression Models.

(12)
(13)

Figura 1 - Benefícios do sistema de saúde baseado em valor ...32

Figura 2 - Comparação Suécia, Brasil e média dos 25 países no alinhamento VBHC ...39

Figura 3 - Conjunto de dados bidimensional genérico ...42

Figura 4 - Cinco etapas básicas em um projeto de análise preditiva ...43

Figura 5 - Árvore de Decisão Genérica ...53

Figura 6 - Confusion Matrix genérica ...59

Figura 7 - Gráfico de curva ROC genérica ...61

Figura 8 - Enquadramento metodológico da pesquisa ...68

Figura 9 - Etapas da Pesquisa ...69

Figura 10 - Contagem da variável a ser explicada para o modelo de Classificação ...81

Figura 11 - Confusion Matrix para o modelo de Classificação ...82

Figura 12 - Curva ROC para o modelo de Classificação ...82

Figura 13 - Histograma dos valores reais de LOS em dias (azul) e valores preditos pelo modelo (vermelho) ...84

Figura 14 - Comparação entre os valores preditos e a linha de tendência real ...85

(14)
(15)

Quadro 1 - Princípios de Value-based healthcare ...32 Quadro 2 - Métricas de avaliação para classificação binária ...60

(16)
(17)

Tabela 1 - Alinhamento do Brasil em relação aos indicadores VBHC 38 Tabela 2 - Conjunto de dados genérico ...43 Tabela 3 - Processo de Feature Engineering ...43 Tabela 4 - Features geradas no processo de Feature Engineering utilizando a ferramenta Featuretools ...71 Tabela 5 - Parâmetros fisiológicos para o cálculo do MEWS ...73 Tabela 6 - Hiperparâmetros ajustados para o modelo de Classificação 76 Tabela 7 - Hiperparâmetros ajustados para o modelo de Regressão ...77 Tabela 8 - Feature importance para o modelo de Classificação ...83 Tabela 9 - Feature importance para o modelo de Regressão ...95 Tabela 10 - Comparação de Feature importance para os dois modelos 87 Tabela 11 - Diferença absoluta entra a importância das features compartilhadas entre os dois modelos ...88 Tabela 12 - Indicadores VBHC que podem sofrer influência dos resultados obtidos por meio da aplicação dos modelos preditivos ...89

(18)
(19)

ANS - Agência Nacional de Saúde Suplementar ANVISA - Agência Nacional de Vigilância Sanitária AUC - Area Under The Curve

AVC - Acidente Vascular Cerebral CAP - Community-acquired Pneumonia CART - Árvore de Classificação e Regressão

CHAID - Árvore de Qui-quadrado de Interação Automática CID - Doenças e Problemas Relacionados a Saúde

CITEC - Comissão para Incorporação de Tecnologias do Ministério da Saúde

CONITEC - Comissão Nacional de Incorporação de Tecnologias no SUS DFS - Deep Feature Synthesis

DGITS - Departamento de Gestão e Incorporação de Tecnologias em Saúde

DPOC - Doença Pulmonar Obstrutiva Crônica DSM - Data Science Machine

DSM - Vírus da Imunodeficiência Humana EDA - Análise Exploratória dos Dados EHR - Eletronic Health Record EIU - The Economist Intelligence Unit EP - Embolia Pulmonar

FN - Falso Negativo FP - Falso Positivo

HTA - Organização Nacional de Avaliação de Tecnologia em Saúde IAM - Infarto Agudo do Miocárdio

(20)

IDH - Índice de Desenvolvimento Humano IMC - Índice de Massa Corporal

JCI - Joint Commission International KNN - K-ésimo Vizinho mais Próximo LOS - Length of stay

MAE - Mean Absolute Error

MEWS - Modified Early Warning Scoring MLP - Multi Layered Perceptron

MS - Ministério da Saúde MSE - Mean Squared Error

OMS - Organização Mundial de Saúde ONU - Organização das Nações Unidas PA - Pressão arterial

PAC - Pneumonia Adquirida na Comunidade PAD - Pressão Arterial Diastólica

PAS - Pressão Arterial Sistólica PIB - Produto Interno Bruto R² - R-Squared

RMSE - Root Mean Squared Error ROC - Receiver Operating Characteristic SAS - Secretaria de Atenção à Saúde

SCTIE - Secretaria de Ciência, Tecnologia e Insumos Estratégicos SE - Secretaria-Executiva

SQL - Structured Query Language SUS - Sistema Único de Saúde

SVS - Secretaria de Vigilância em Saúde TVP - Trombose Venosa Profunda

(21)

VN - Verdadeiro Negativo VP - Verdadeiro Positivo

(22)
(23)

1 INTRODUÇÃO ... 25 1.1 CONTEXTUALIZAÇÃO... 25 1.2 JUSTIFICATIVA... 27 1.3 OBJETIVOS ... 28 1.3.1 Objetivo geral ... 29 1.3.2 Objetivos específicos ... 29 1.3 ESTRUTURA DO TRABALHO ... 30 2 FUNDAMENTAÇÃO TEÓRICA ... 31 2.1 VALUE-BASED HEALTHCARE: UM PANORAMA DA APLICAÇÃO NO MUNDO E NO BRASIL ... 31

2.2 PNEUMONIA ADQUIRIDA NA COMUNIDADE E TEMPO

DE INTERNAÇÃO HOSPITALAR... 39

2.3 FEATURE ENGINEERING (ENGENHARIA DE

RECURSOS) ... 42

2.4 FEATURE PROCESSING (PROCESSAMENTO DE

RECURSOS) ... 46 2.5 FEATURE SELECTION (SELEÇÃO DE RECURSOS) ... 47

2.6 CLASSIFICAÇÃO E REGRESSÃO EM MODELOS

SUPERVISIONADOS DE APRENDIZADO DE MÁQUINA ... 51 2.6.1 Decision Tress (Árvores de Decisão) ... 52

2.6.2 Random Forest (Florestas Aleatórias) ... 54

2.6.2.1 O algoritmo ... 56 2.7 MÉTRICAS DE AVALIAÇÃO EM CLASSIFICAÇÃO E REGRESSÃO ... 58 2.7.1 Confusion Matrix (Matrix de Confusão) ... 58

2.7.2 Testes de Classificação Binária ... 59 2.7.3 Testes de Regressão ... 62 2.8 CROSS VALIDATION (VALIDAÇÃO CRUZADA) ... 64 2.9 TUNAGEM/OTIMIZAÇÃO DE HIPERPARÂMETROS ... 65

(24)

3 METODOLOGIA ... 67 3.1 CENÁRIO DE ESTUDO ... 67 3.2 ENQUADRAMENTO METODOLÓGICO ... 68 3.3 ETAPAS DA PESQUISA ... 69 4 RESULTADOS ... 81 4.1 RESULTADOS E DISCUSSÕES PARA O MODELO DE CLASSIFICAÇÃO... 81 4.2 RESULTADOS E DISCUSSÕES PARA O MODELO DE REGRESSÃO ... 84 4.3 COMPARAÇÃO DOS DOIS MODELOS DE PREDIÇÃO 88

5 DISCUSSÕES EM RELAÇÃO AOS INDICADORES

VBHC ...89 6 CONSIDERAÇÕES FINAIS ... 93 7 CONCLUSÕES ... 99 REFERÊNCIAS ... 101 ANEXO A ... 113

(25)

1 INTRODUÇÃO

1.1 CONTEXTUALIZAÇÃO

As doenças respiratórias são responsáveis por mais de 10% de todos os anos de vida ajustados por incapacidade, uma medida que estima a quantidade de vida ativa e produtiva perdida devido a uma condição, perdendo apenas para as doenças cardiovasculares (VOS et al. 2017). Também, as doenças respiratórias compõem cinco das trinta causas mais comuns de morte: a Doença Pulmonar Obstrutiva Crônica (DPOC) é a terceira; a Infecção do Trato Respiratório Inferior é a quarta; Câncer Traqueal, Brônquico e Pulmonar, ocupam o sexto o lugar; Tuberculose é o décimo segundo; e asma é vigésimo oitavo (WANG et al. 2016). Ao todo, mais de 1 bilhão de pessoas sofrem de condições respiratórias agudas ou crônicas. A dura realidade é que, a cada ano, 4 milhões de pessoas morrem prematuramente de doenças respiratórias crônicas (WORLD HEALTH ORGANIZATION, 2014). Bebês e crianças pequenas são particularmente suscetíveis. Um total de 9 milhões de crianças menores de 5 anos morrem anualmente, e a pneumonia é a principal causa de morte de crianças no mundo (WANG et al. 2016).

Especificamente, a Pneumonia Adquirida na Comunidade (PAC) é a maior causa de morbidade, hospitalização e mortalidade em todo o mundo e representa um desafio diagnóstico e de tratamento (WIEMKEN; PEYRANI; RAMIREZ, 2012). No Brasil, excetuando-se as causas relacionadas a gestação, parto e puerpério, a PAC constitui-se na principal causa de internação no Sistema Único de Saúde (SUS). Em 2017, ocorreram 598.668 internações e 52.776 óbitos por PAC em nosso país (DATASUS, 2018). Apesar de ser uma afecção das mais frequentes, há poucos estudos nacionais em relação à PAC, sejam eles clínicos ou epidemiológicos.

Desde a década de 90, os Estados Unidos vêm propondo projetos nacionais visando avaliar a qualidade da assistência a pacientes com PAC; entre eles, o National Pneumonia Project e as iniciativas do Joint Commission on Accreditation of Healthcare Organizations. Dentre as medidas usadas na avaliação da qualidade da assistência a pacientes com PAC, podem-se enumerar a avaliação da oxigenação, a escolha do antibiótico, o intervalo entre a chegada ao hospital e a administração do antibiótico, a mortalidade intra-hospitalar e os custos (CONTERNO; DE MORAES; DA SILVA FILHO, 2011). O mais importante componente desses custos é o tempo de permanência (Length of stay - LOS) em hospital e as estimativas indicam que esses custos são mais elevados do

(26)

que dos testes para diagnósticos e os subsequentes tratamentos antimicrobianos administrados (FINE et al., 2000).

Ressalta-se também que a contenção de custos é uma característica de todos os sistemas de saúde, especialmente para serviços hospitalares mais graves (SCHWARTZ, 1991). Estima-se que 30% de todas as altas hospitalares são atrasadas por razões não médicas (SELKER et al., 1989). Uma estratégia voltada à predição acurada da alta hospitalar, somado a redução nas readmissões, ajudaria a diminuir os custos de internação dos serviços médicos. Deste modo, essa economia, juntamente com uma política de gastos eficiente, poderia ser compensada no aumento de provisões para os serviços de saúde comunitárias, por exemplo. Da mesma forma, na maior parte, a alta hospitalar é rotineira e sem intercorrências. No entanto, para uma porcentagem de pessoas, a alta dos cuidados intensivos requer um planejamento cuidadoso para garantir a continuidade dos cuidados. Neste sentido, o planejamento da alta é uma característica comum dos sistemas de saúde em muitos países. O objetivo do planejamento da alta é reduzir o tempo de permanência hospitalar e a readmissão não planejada para o hospital, melhorando assim a coordenação dos serviços após a alta hospitalar.

Em concordância, o conceito de Value-based healthcare (VBHC) se concentra em melhorar os resultados de saúde do paciente, enquanto se reduz o custo total dos cuidados necessários (PORTER; TEISBERG, 2006). De maneira geral, VBHC é um modelo de prestação de cuidados de saúde no qual os prestadores, incluindo hospitais e médicos, são pagos com base nos resultados de saúde do paciente. Sob acordos de cuidados baseados em valores, os provedores são recompensados por ajudar os pacientes a melhorar sua saúde, reduzir os efeitos e a incidência de doenças crônicas e viver vidas mais saudáveis de maneira baseada em evidências. O atendimento baseado em valor difere de uma abordagem de taxa por serviço ou capitalizada, na qual os provedores são pagos com base na quantidade de serviços de saúde que prestam. O “valor” da assistência médica baseada em valor é derivado da medição dos resultados de saúde em relação ao custo de entrega dos resultados.

Num primeiro momento, criar um sistema de saúde que se concentra na redução de custos parece ser contra intuitivo em um ambiente que recompensa melhorias de qualidade. Mas esse é exatamente o desafio que os executivos da área de saúde enfrentam hoje: reduzir custos, na medida em que a qualidade aumenta. Michael Porter e Elizabeth Olmsted Teisberg em Redefining Health Care (2006) argumentam que a principal falha no atual sistema de saúde é que ele não

(27)

cria valor para o paciente, definido pelos autores como "resultado de saúde por dólar gasto". Os autores ainda mencionam que o principal culpado desta situação é o sistema arcaico ainda em funcionamento atualmente. Deste modo, a alteração deste sistema é necessária para controlar os custos, aumentando a qualidade, melhorando o acesso e consequentemente tornando a população mais saudável. O sistema médico precisa ser proativo e não reativo, com a prevenção e o gerenciamento de doenças sendo as principais chaves para alcançar este objetivo, criando valor para o paciente (PORTER; TEISBERG, 2006).

Neste contexto, tem-se a temática central deste trabalho, a qual se propõe a utilizar duas abordagens de Aprendizado de Máquina, de Classificação e Regressão, para a predição do LOS em casos de PAC, em um hospital brasileiro, auxiliando a tomada de decisão na gestão hospitalar, em concordância com as melhores práticas em VBHC. 1.2 JUSTIFICATIVA

De acordo com o estudo “Value-based healthcare: A global Assessment”, (EIU, 2016), encomendado pela empresa Medtronic e executado pela empresa britânica de serviços de previsão e consultoria The Economist – Intelligence Unit (EIU), no Brasil, 150 milhões de pessoas dependem da assistência gratuita do SUS, o maior sistema público de saúde do mundo, enquanto outras 50 milhões possuem planos de saúde particulares. Contudo, ainda há desigualdade no acesso e na qualidade da assistência à saúde. Embora o sistema público atenda a 75% da população brasileira, apenas 46% do valor total dos custos com saúde são direcionados para o setor.

Ainda de acordo com o estudo, para aumentar a eficiência, o governo criou uma Organização Nacional de Avaliação de Tecnologia em Saúde chamada Comissão Nacional de Incorporação de Tecnologias no SUS (CONITEC), órgão vinculado ao Ministério da Saúde (MS). A CONITEC tem sido eficaz na avaliação de novas tecnologias em saúde e no apoio à elaboração de diretrizes clínicas com base em evidências (Protocolos Clínicos e Diretrizes Terapêuticas). As prioridades estratégicas das autoridades de saúde são assegurar uma cobertura eficiente e melhoria da qualidade do atendimento - sem menções explícitas aos componentes do modelo de assistência com base em valor.

Dado o exposto acima, a seguinte questão de pesquisa pode ser levantada como justificativa deste trabalho: “Como é possível propor uma abordagem inicial, implementar, executar e medir ações de cunho tecnológico para redução de custos em um hospital brasileiro, que vão ao

(28)

encontro dos conceitos atuais de serviços de prestação de saúde baseados em valor?”.

Diversos autores utilizaram Aprendizado de Máquina para predição de LOS em diferentes patologias e locais pelo mundo. Liu et al., (2006) combinaram um algoritmo Árvore C5.0 com um classificador de Naive Bayes para predizer o LOS em um departamento de hospital geriátrico. Os autores conseguiram melhorar o desempenho de seu classificador usando tal modelo para atribuir valores a dados perdidos. Tanuja et al., (2011), por sua vez, compararam uma rede neural profunda (Multi Layered Perceptron - MLP), um classificador Naive Bayes, o algoritmo de k-ésimo Vizinho mais Próximo (KNN) (LAROSE, 2005), e uma Árvore de Decisão C4.5 (QUINLAN, 2014), sobre os dados LOS de uma hospital indiano. Neste trabalho, o algoritmo MLP foi escolhido por possuir um melhor desempenho, em comparação com as outras três técnicas (TANUJA; ACHARYA; SHAILESH, 2011). Pendharkar e Khurana (2014) compararam dois métodos de Árvore de Regressão, Árvore de Classificação e Regressão (CART) (BREIMAN, 2017) e Árvore de Qui-quadrado de Interação Automática (CHAID) (KASS, 1980), e Support-vector Machines (VAPNIK, 1998), usando dados de LOS de 88 hospitais na Pensilvânia. Embora não houvesse diferença significativa no desempenho dos modelos, estes autores notaram que a árvore CART era mais fácil de entender e interpretar após a obtenção dos resultados (PENDHARKAR; KHURANA, 2014). Houthooft et al., (2015) compararam diferentes algoritmos de Aprendizado de Máquina para predizer o LOS de pacientes criticamente enfermos na Unidade de Terapia Intensiva (UTI). O modelo de melhor desempenho neste último trabalho foi a Máquina de Vetores de Suporte, atingindo um erro absoluto médio de 1,79 dias para aqueles pacientes que sobreviveram a uma estadia não prolongada (HOUTHOOFT et al., 2015).

A assertividade do modelo será o tema central do trabalho, bem como a investigação das variáveis que mais impactam no LOS.

1.3 OBJETIVOS

Os objetivos deste trabalho dividem-se em objetivo geral e objetivos específicos. O primeiro trata de forma ampla do assunto a ser abordado, e o segundo aponta algumas abordagens específicas que serão expostas ao longo deste trabalho.

(29)

1.3.1 Objetivo geral

O objetivo geral deste trabalho consiste em estruturar ações para um hospital brasileiro que vão ao encontro do modelo de prestação de serviços de saúde baseado em valor, por meio da melhora na assertividade da data de alta de pacientes internados em casos de infecção pulmonar por Pneumonia Adquirida na Comunidade, utilizando as abordagens supervisionadas de Classificação e Regressão, fundamentadas em Aprendizado de Máquina.

1.3.2 Objetivos específicos

Com a finalidade de atingir o objetivo geral, propõem-se os seguintes objetivos específicos:

a) Criar features a serem utilizados nos modelos preditivos a partir de um processo de geração automatizado.

b) Aplicar os modelos preditivos, baseados nas duas abordagens diferentes, para a predição da data de alta de pacientes internados por PAC em um hospital brasileiro.

c) Aplicar métricas para avaliação dos resultados obtidos, considerando metodologias de Cross Validation, objetivando significância de precisão nas predições acima de 75% quando comparado aos dados históricos, avaliando a capacidade de generalização dos modelos preditivos. d) Aplicar metodologias de Tunagem/Otimização de hiperparâmetros para tunagem dos modelos preditivos almejando a obtenção de um melhor resultado de predição em termos de minimização do erro de predição. e) A partir dos resultados alcançados, classificar na forma de ranking as principais features em termos de relevância e impacto nas predições. f) Classificar os resultados sob a ótica dos diferentes indicadores de serviços de prestação de saúde baseados valor.

g) Propor ações para unidades de saúde levando em consideração os resultados otimizados alcançados, em concordância com os conceitos de serviços de prestação de saúde baseados em valor.

(30)

1.4 ESTRUTURA DO TRABALHO

O presente trabalho é dividido em seis capítulos. No primeiro, são apresentados o contexto em que se encontra a pesquisa, justificativa da escolha por este tema, seu objetivo geral e seus objetivos específicos, sua estrutura e por fim sua delimitação.

Em seguida, para uma melhor compreensão dos temas abordados, o segundo capítulo apresenta a fundamentação teórica dos principais conceitos. Value-based healthcare: Um panorama da aplicação no mundo e no Brasil, Pneumonia Adquirida na Comunidade e tempo de internação hospitalar, Feature Engineering, Feature Processing, Feature Selection, Classificação e Regressão em modelos supervisionados de Aprendizado de Máquina, algoritmos de Árvores de Decisão e Random Forest, Métricas de avaliação em Classificação e Regressão, Cross Validation, e finalmente Tunagem/Otimização de hiperparâmetros.

O terceiro capítulo introduz a metodologia científica aplicada nesta pesquisa. É apresentado o enquadramento metodológico do estudo, definindo sua natureza e abordagem conceitual, bem como uma Análise Exploratória dos Dados com o objetivo de pavimentar uma análise inicial antes da aplicação dos modelos preditivos.

O quarto capítulo conta com a explanação e resultado do procedimento de geração automatizada de features, o processamento e seleção destas para utilização nos modelos preditivos, bem como com o detalhamento da execução das duas abordagens supervisionadas em Aprendizado de Máquina. Na sequência, evidencia-se o processo de tunagem/otimização dos hiperparâmetros, os resultados e métricas obtidos após este processo, e, finalmente, a classificação das features em termos de relevância e impacto nos resultados obtidos para as duas abordagens propostas inicialmente.

O quinto capítulo reserva a classificação dos resultados em relação aos indicadores da aplicação de Value-based healthcare, tendo como parâmetro a situação atual no Brasil, bem como a proposição de ações para o hospital nesta direção.

O sexto capítulo conta com as considerações finais acerca das propostas de ações de cunho tecnológico para unidades de saúde.

Por último, o sétimo capítulo reserva as conclusões dos resultados alcançados para a presente pesquisa, além de pavimentar o caminho para trabalhos futuros dentro desta temática.

(31)

2 FUNDAMENTAÇÃO TEÓRICA

Neste capítulo será apresentado o suporte teórico da presente pesquisa. Inicia-se por uma revisão bibliográfica sobre os conceitos de Value-based healthcare e seu panorama em diversos países, incluindo o Brasil, seguido da exposição sobre Pneumonia Adquirida na Comunidade e tempo de internação hospitalar. Passa-se então a apresentação dos conceitos de Feature Engineering, Feature Processing e Feature Selection, Classificação e Regressão em modelos supervisionados de Aprendizado de Máquina, algoritmos de Árvores de Decisão e Random Forest, Métricas de avaliação para Classificação e Regressão, Cross Validation e Tunagem/Otimização de hiperparâmetros.

2.1 VALUE-BASED HEALTHCARE: UM PANORAMA DA APLICAÇÃO NO MUNDO E NO BRASIL

Os cuidados de saúde baseados no valor centram-se na melhoria dos resultados de saúde do paciente, reduzindo simultaneamente o custo global dos cuidados de saúde (PORTER; TEISBERG, 2006). O valor de VBHC depende do melhor resultado para o paciente após o tratamento de uma determinada doença. Ao focar nos resultados, o objetivo é redirecionado para o tratamento da condição médica que determina as necessidades médicas requeridas naquela situação (JOHANSEN; SAUNDERS, 2017).

Em seu trabalho Redefining Health Care (2006), Porter e Teisberg, mencionam que o ponto de partida para desenvolver uma estratégia em qualquer campo é definir o negócio ou negócios relevantes em que a organização compete. Na prestação de serviços de saúde não é diferente. Os prestadores de serviços de saúde não se veem como empresas, mas eles estão no negócio de prestação de serviços a pacientes. Deste modo, os autores salientam que a pergunta "em que negócio estamos?" é importante porque orienta o raciocínio de uma organização em relação a quem é o seu cliente, que necessidades a organização está tentando atender e como deveria se organizar. Implícita em toda definição de negócio está a visão de como o valor é criado. Alinhar a visão de valor de uma organização com o valor real é uma pré-condição para em desempenho excelente. O Quadro 1, adaptado de Porter e Teisberg (2006), traz importantes imperativos estratégicos e organizacionais na abordagem de serviços de prestação de saúde baseados em valor.

(32)

Quadro 1 - Princípios de Value-based healthcare 1. Redefinir o negócio em torno de condições de saúde 2. Escolher a extensão e os tipos de serviços prestados 3. Organizar-se em torno de unidades de prática medicamente integradas

4. Criar uma estratégia distinta em cada unidade de prática

5. Mensurar resultados, experiência, métodos e atributos de pacientes por unidade de prática

6. Mudar para fatura consolidada e novas abordagens de cálculo de preço

7. Distinguir serviços no mercado em termos de excelência, singularidade e resultados

8. Crescer localmente e regionalmente nas áreas de maior competência

Fonte: adaptado de Porter e Teisberg (2006).

Os benefícios de um sistema de saúde baseado em valor se estendem a pacientes, provedores, seguradoras, fornecedores e sociedade como um todo, como mostrados na Figura 1 abaixo, adaptada de Catalyst (2018), e detalhado na sequência.

Figura 1 - Benefícios do sistema de saúde baseado em valor.

Fonte: adaptado de Catalyst (2018).

• Pacientes gastam menos para obter melhores resultados: gerenciar uma doença crônica ou condição como câncer, diabetes, hipertensão arterial, doença pulmonar obstrutiva crônica ou obesidade pode ser caro e demorado para os pacientes. Os modelos de cuidados baseados em valor se concentram em ajudar os pacientes a se recuperarem mais

(33)

rapidamente de doenças e ferimentos e evitar doenças crônicas. Como resultado, os pacientes enfrentam menos consultas médicas, exames médicos e procedimentos, e gastam menos dinheiro com medicamentos prescritos à medida que a saúde a curto e a longo prazo melhoram. • Provedores alcançam eficiência e melhores taxas de

satisfação de pacientes: embora os provedores precisem passar mais tempo em novos serviços para pacientes baseados em prevenção, eles gastarão menos tempo com o gerenciamento de doenças crônicas. As medidas de qualidade e engajamento do paciente aumentam quando o foco está no valor, em vez de no volume. Além disso, os provedores não são colocados sob o risco financeiro que vem com os sistemas de pagamento capitalizados. Mesmo provedores com fins lucrativos, que podem gerar maior valor por episódio de cuidado, devem ser recompensados sob um modelo de cuidado baseado em valor.

• Seguradoras controlam custos e reduzem riscos: o risco é reduzido ao expandir-se através de uma população maior de pacientes. Uma população mais saudável e com menos reclamações se traduz em menor resgate de prêmios e investimentos dos pagadores. O pagamento com base no valor também permite que os contribuintes aumentem a eficiência agrupando pagamentos que cobrem o ciclo completo de atendimento do paciente, ou para condições crônicas, cobrindo períodos de um ano ou mais.

• Fornecedores alinham preços com os resultados de pacientes: os fornecedores se beneficiam por serem capazes de alinhar seus produtos e serviços com resultados positivos para o paciente e custo reduzido. • Sociedade melhora a saúde geral enquanto diminui os

gastos com sistema de saúde: menos dinheiro é gasto ajudando as pessoas a gerenciar doenças crônicas e internações e emergências médicas caras. Em um país como os Estados Unidos, onde os gastos com saúde respondem por quase 18% do Produto Interno Bruto (PIB)

(34)

(CATALYST, 2018), os cuidados baseados em valor prometem reduzir significativamente os custos gerais gastos com saúde.

Ainda baseando-se nos trabalhos de Porter e Teisberg (2006), o valor ao paciente na prestação dos serviços, como já discutido, só pode ser compreendido no nível de condições de saúde. O valor é determinado por quão bem um prestador atende a cada condição de saúde, não pela amplitude dos seus serviços. O valor entregue em uma condição de saúde é decorrente de um conjunto completo de atividades e especialidades envolvidas. Os autores afirmam que não são os papéis, as habilidades ou as funções, isoladamente, que importam, mas o resultado geral. Além disso, para cada aspecto do atendimento, o valor é determinado por quão bem se reúne o conjunto de habilidades e funções necessárias. Em cirurgia, por exemplo, o valor depende não apenas do cirurgião, mas também do anestesiologista, dos enfermeiros, do radiologista, de técnicos bem-preparados e outros, todos desempenhando bem em equipe. No entanto, não obstante o elevado nível da equipe cirúrgica, o ciclo de atendimento como um todo é crucial. A menos que o problema do paciente seja diagnosticado com precisão, o paciente seja adequadamente preparado e a recuperação e reabilitação sejam bem gerenciadas, os resultados serão prejudicados. Na verdade, o impacto do ciclo de atendimento é maior ainda. O valor pode ser aumentado sem cirurgia e tratando do caso de uma forma diferente. O valor pode ser maior ainda se atendimento e aconselhamento preventivo forem fornecidos ao longo do tempo, de forma que pouco ou nenhum tratamento seja necessário (PORTER; TEISBERG, 2006).

O estudo Value-based healthcare: A global assessment (2016), executado pela organização EIU (EIU, 2016), comissionado pela Medtronic, empresa multinacional de dispositivos tecnológicos para a área médica, evidencia uma série de alinhamentos de 25 países (Austrália, China, Índia, Indonésia, Japão, Coréia do Sul, França, Alemanha, Polônia, Rússia, Holanda, Espanha, Suécia, Reino Unido, Egito, Turquia, Emirados Árabes Unidos, Nigéria, África do Sul, Brasil, Chile, Colômbia, México, Canadá e Estados Unidos) com sistemas de prestação de saúde baseados em valor. Para conduzir esta pesquisa, a EIU definiu os cuidados de saúde baseados em valores e construiu uma estrutura de componentes principais do VBHC. A pesquisa é organizada em torno de quatro componentes-chave, ou domínios do VBHC, compostos por um total de 17 indicadores qualitativos, apresentados em detalhes no Anexo A. Os quatro domínios são:

(35)

• Capacitação de contexto, políticas e instituições para gerar valor no setor de saúde (8 indicadores);

• Medição de resultados e custos (5 indicadores);

• Assistência integrada e focado no paciente (2 indicadores);

• Abordagem de pagamento baseada em resultados (2 indicadores).

Os indicadores qualitativos foram pontuados pela EIU usando diretrizes de pontuação padronizadas em todos os países e chegando a pontuações binárias de sim/não ou pontuações numeradas de 0-2, 0-3 ou 0-4. As pontuações dos indicadores individuais foram acumuladas por domínio e os países foram classificados em um dos quatro grupos: baixo, moderado, alto ou muito alto, com base no nível de alinhamento com VBHC. A EIU agregou as pontuações dos indicadores individuais nos scores dos domínios e os scores dos domínios em um score geral composto. Cada domínio é igualmente ponderado e cada indicador é igualmente ponderado em cada domínio. Os principais pontos do estudo são listados a seguir:

• A Suécia é o único país que surge com um alinhamento muito alto com o VBHC e o Reino Unido é o único país com alto alinhamento com o VBHC (o alinhamento pode ser baixo, moderado, alto ou muito alto). A maioria dos países desenvolvidos no estudo tem um alinhamento moderado com abordagens de cuidados baseadas em valor.

• Índia e China - Os dois países no estudo com população superior a 1 bilhão - têm resultados geralmente semelhantes, mas divergem fortemente nos níveis de cobertura de saúde, com apenas 18% da população da Índia coberta por algum tipo de seguro de saúde enquanto na China, mais do que 95% da população é coberta por seguro de saúde pública.

• Um forte apoio político, que ajuda os países a alinhar seus sistemas de saúde mais de perto com os princípios do VBHC, tende a ser encontrado em países mais ricos. Dos sete países com uma política ou plano de alto nível para o

(36)

VBHC, apenas dois - a Turquia e a Colômbia - são países em desenvolvimento.

• O ímpeto para medir resultados e custos é fortalecido através da presença de registros de doenças e esforços de muitos países para implementar registros eletrônicos de pacientes. No entanto, em muitos casos, essas fontes de dados de saúde não são coordenadas e os sistemas de TI não são interoperáveis. Além disso, os dados de resultados, que são um pré-requisito para o alinhamento com o cuidado baseado em valor, são quase universalmente inexistentes.

• Mudar de atendimento em um único local, com base em um único provedor, para um atendimento coordenado e baseado em equipe continua sendo um desafio. Cerca de um quarto dos países do estudo (Egito, Indonésia, Nigéria, Holanda, Rússia e EUA) não tem caminhos nacionais de atenção coordenada em nenhuma das cinco áreas de terapia revisadas (cuidados de saúde mental, cuidados com diabetes, atendimento a pacientes com HIV, cuidados maternos e idosos). Nos EUA, existem vias coordenadas de atendimento, mas apenas dentro de hospitais ou grupos de provedores, e elas não são padronizadas nacionalmente.

• A vantagem dos pagamentos agrupados para coordenar os cuidados e focar no paciente é cada vez mais reconhecida. Em seis dos 25 países, os pagamentos em pacote estão sendo implementados por uma ou mais seguradoras.

• Os altos gastos com saúde nem sempre significam a presença de fatores de apoio para o alinhamento com o VBHC: nem o Japão nem os EUA - dois países que gastam mais de 10% do PIB em saúde - possuem uma Organização Nacional de Avaliação de Tecnologia em Saúde (HTA) reconhecida.

(37)

• Como a pontuação dos países no Índice de Desenvolvimento Humano (IDH) da Organização das Nações Unidas (ONU) correlaciona-se com o alinhamento com VBHC: países com scores de IDH de nível baixo ou médio (África do Sul, Indonésia, Índia, Egito e Nigéria) precisam se concentrar em outros desafios, incluindo o aumento do acesso básico aos cuidados de saúde, assim o estabelecimento do ambiente favorável para VBHC é menor na lista de prioridades nacionais.

Em relação ao Brasil, também baseando-se no estudo supracitado, embora o sistema público atenda a 75% da população brasileira, apenas 46% do valor total dos custos com saúde são direcionados para o setor, o que resulta em uma alocação mais baixa de recursos públicos per capita e uma correspondente qualidade mais baixa da assistência destinada aos usuários do SUS em comparação com os de planos de saúde particulares. As prioridades estratégicas das autoridades de saúde são assegurar uma cobertura eficiente e melhoria da qualidade do atendimento - sem menções explícitas aos componentes do modelo de assistência com base em valor. Apesar dos esforços limitados empreendidos por uma parte do setor privado na implementação de sistemas de gestão para acompanhamento de pacientes ao longo do tempo, bem como das iniciativas de governos locais no sentido de melhorar a eficiência na parceria com o setor privado, não há políticas nacionais para organização da prestação de serviços de saúde em unidades integradas ou promoção de mudanças sistemáticas e abrangentes relacionadas a abordagens centradas nos pacientes. A Tabela 1 abaixo resume o resultado dos indicadores de alinhamento em VBHC relacionados ao Brasil.

Tabela 1 - Alinhamento do Brasil em relação aos indicadores VBHC Brasil

Alinhamento geral Baixo

Domínios

Capacitação de contexto, políticas e instituições para gerar valor no setor de saúde

Baixo

Mensuração de resultados e custos Baixo Assistência integrada e centrada

no paciente

(38)

Abordagem de pagamentos com base em resultados

Baixo Fonte: adaptado de EIU (2016)

Ainda de acordo com o estudo, apesar da necessidade de integração dos sistemas de TI voltados para a saúde com o intuito de aprimorar o processo de tomadas de decisões, os sistemas de informação no Brasil são organizados por nível da assistência e os registros não são vinculados, o que reflete o alto nível de fragmentação no próprio sistema de saúde. Isso não proporciona uma visão abrangente do sistema nem permite o acompanhamento dos custos de tratamento e resultados de pacientes individuais nos diferentes níveis e tipos de serviço. O sistema de saúde brasileiro teve sucesso na implementação de protocolo integrado de assistência a pacientes com Vírus da Imunodeficiência Humana (HIV), disponibilizando atualmente acesso quase universal a medicamentos e tratamentos por meios de diversos prestadores. A Figura 2 evidencia os baixos resultados do Brasil no alinhamento VBHC, quando comparados com a Suécia (primeiro colocado) e com a média dos países analisados no estudo.

Figura 2 - Comparação Suécia, Brasil e média dos 25 países no alinhamento VBHC

(39)

2.2 PNEUMONIA ADQUIRIDA NA COMUNIDADE E TEMPO DE INTERNAÇÃO HOSPITALAR

Pneumonia adquirida na comunidade permanece uma causa significativa de internação hospitalar e morte. As taxas de mortalidade estabilizaram em 12% desde 1950, apesar dos avanços no conhecimento doença, melhorias na gestão de doenças infecciosas graves, a disponibilidade de cuidados intensivos, uso de potentes agentes antimicrobianos e vacinas eficazes (GARAU et al., 2008).

Considera-se a presença de pneumonia na vigência de sinais e sintomas congruentes com infecção de trato respiratório inferior associado a um novo infiltrado evidente em radiografia de tórax sem outra explicação para tal, sendo a PAC aquela em que o paciente é acometido fora do ambiente hospitalar ou que surge dentro das primeiras 48 horas da internação hospitalar (SCHWARTZMANN et al., 2010).

A incidência de PAC varia de 5 a 11 casos por 1.000 indivíduos/ano, sendo que essa incidência é variável levando-se em conta diferentes faixas etárias, uma vez que aquela é maior em crianças e idosos. É considerada uma doença com potencial de gravidade, sendo a principal causa de óbito entre as doenças infecciosas (JARDIM; PINHEIRO; OLIVEIRA, 2008).

O desenvolvimento de qualquer infecção, independentemente da localização no organismo, deve-se geralmente a uma das seguintes três circunstâncias: invasão do tecido ou órgão por um agente contra o qual o hospedeiro não possui imunidade; invasão por um inóculo bacteriano que supera os mecanismos de defesa do organismo; invasão por qualquer microrganismo em um hospedeiro que apresente mecanismos de defesa deficitários. Assim, os microrganismos podem chegar ao parênquima pulmonar a partir da aspiração de secreções provenientes da orofaringe, inalação de aerossóis, disseminação hematogênica a partir de foco à distância, disseminação por contiguidade ou reativação local (JARDIM; PINHEIRO; OLIVEIRA, 2008).

Há uma variação na incidência dos patógenos envolvidos na etiologia das PAC, dependendo da procedência do paciente, de suas comorbidades associadas e de sua idade, no entanto, o germe mais comumente identificado é o S. pneumoniae, seguido por M. pneumoniae, vírus respiratórios (influenza A e B, parainfluenza e adenovirus) e H. influenzae. Em pacientes idosos, ou com doenças crônicas, fatores associados com PAC grave, identifica-se também os patógenos S. aureus, bacilos gram negativos e Legionella sp. (PIASTRELLI et al., 2009; SCHWARTZMANN et al., 2010).

(40)

O diagnóstico de pneumonia se dá pela presença de sintomas agudos de doença do trato respiratório inferior, a exemplo de expectoração, dispneia associada ou não a dor torácica, achados focais ao exame físico como redução localizada do murmúrio vesicular, aumento de frêmito tóraco-vocal, macicez à percussão, pectorilóquia afônica, presença de pelo menos um achado sistêmico (confusão mental, cefaleia, sudorese, calafrios, mialgia e febre), e presença de infiltrado radiológico previamente ausente. Deve-se considerar que em idosos os sinais e sintomas típicos podem estar ausentes, sendo que a pneumonia manifestar-se-á apenas por alteração da capacidade funcional, confusão mental e descompensação de doença crônica que se apresentava estável anteriormente, a exemplo de DPOC ou Insuficiência Cardíaca Congestiva (ICC) (SCHWARTZMANN et al., 2010).

O critério CURB-65, desenvolvido pela British Thoracic Society, busca identificar pacientes com PAC grave e que requerem obrigatoriamente tratamento hospitalar. Pela facilidade de sua aplicação, sua utilização tem crescido no meio médico (SCHWARTZMANN et al., 2010). Utiliza-se das seguintes variáveis: presença de confusão mental (C); ureia plasmática acima de 50 mg/dL (U); frequência respiratória maior ou igual a 30 inspirações por minuto (R); pressão arterial (PA) sistólica abaixo de 90 mmHg ou diastólica menor ou igual a 60 mmHg; idade maior que 65 anos (JARDIM; PINHEIRO; OLIVEIRA, 2008). A cada critério preenchido, atribui-se um ponto, de modo que o escore varia de 0 a 5 pontos. De acordo com consenso da American Thoracic Society e Infectious Disease Society of America, pacientes que apresentam escore de zero ou um ponto podem ser tratados no domicílio, os demais requerendo internação hospitalar (JARDIM; PINHEIRO; OLIVEIRA, 2008).

Pneumonia é a doença infecciosa com os maiores custos de saúde (CARRETERO GRACIA et al., 1999; MONGE; SAN-MARTIN; GONZALEZ, 2001; SAGINUR, 2001; VILA-CORCOLES et al., 2009), e somado ao fato de que aproximadamente um terço de todos os pacientes com PAC são tratados no hospital, os custos resultantes constituem uma parte significativa dos custos diretos de doenças infecciosas (FINE et al., 2000; GUEST; MORRIS, 1997; NIEDERMAN et al., 1998). O mais importante componente desses custos é o tempo de permanência em hospital e as estimativas indicam que esses custos são mais elevados do que dos testes para diagnósticos e os subsequentes tratamentos antimicrobianos administrados (FINE et al., 2000).

Existe uma variabilidade considerável no LOS entre hospitais ao redor do mundo. Os diferentes relatos são discordantes e dependem dos

(41)

tipos de hospitais em que os diferentes estudos foram conduzidos (HARPER et al., 1997; LAVE et al., 1996). As diferenças podem refletir variações nas preferências na prática clínica, características hospitalares e características do paciente (MENÉNDEZ et al., 2003). Nos últimos anos, o LOS teve um decréscimo de nove para seis dias nos casos de PAC no mundo (METERSKY et al., 2000; RHEW et al., 2001), como resultado de várias estratégias e diretrizes práticas propostas a fim de reduzirem com segurança o número de dias de internação (WEINGARTEN et al., 1996).

O LOS é influenciado por vários fatores clínicos, como a comorbidade associada ao índice de gravidade da pneumonia (PSI) e a presença de complicações clínicas. Esses fatores foram avaliados em diferentes trabalhos (FINE et al., 2000; MCCORMICK et al., 1999; MENÉNDEZ et al., 2001; SIEGEL, 2000), mas ainda não houve uma identificação clara das variáveis que determinam o LOS usando métodos eficientes (MENÉNDEZ et al., 2003). Menéndez et al., (2003) também ressalta que, tampouco, houve estudos sobre as possíveis diferenças no LOS entre pacientes internados em hospital com diferentes graus de gravidade da doença.

2.3 FEATURE ENGINEERING (ENGENHARIA DE RECURSOS) Dentro do universo de Inteligência Artificial e Aprendizado de Máquina, uma feature (recurso), é tipicamente uma representação específica sobre determinados dados brutos, sendo um atributo mensurável individual, geralmente representando por uma coluna em um conjunto de dados, e finalmente, conhecido também como variável.

Considerando conjunto de dados bidimensional genérico, mostrado na Figura 3, cada observação é representada por uma linha e cada feature por uma coluna. Assim, cada linha, ou instância, normalmente indica um vetor de diferentes tipos de recursos e, por sua vez, todo o conjunto de recursos, para todas as observações, forma uma matriz bidimensional de recursos, também conhecida como feature matrix. Algoritmos de Aprendizado de Máquinas são capazes de trabalhar com essas matrizes, onde a maioria das técnicas de Feature Engineering lida com a conversão de dados brutos em alguma representação numérica, que pode facilmente ser compreendida por esses algoritmos.

(42)

Figura 3 - Conjunto de dados bidimensional genérico

Fonte: Elaborado pelo autor (2019).

As features podem ser de dois tipos principais baseados no conjunto de dados. Os recursos brutos inerentes são obtidos diretamente do conjunto de dados sem manipulação ou engenharia extra de dados. Já os recursos derivados geralmente são obtidos do processo de Feature Engineering, onde se extrai features de atributos de dados existentes. Um exemplo simples seria a criação de um novo recurso "Idade" de um conjunto de dados de funcionários contendo "Data de nascimento", subtraindo apenas a data de nascimento da data atual (SARKAR, 2018). Neste sentido, Feature Engineering é a ciência de extrair mais informações dos dados brutos existentes. A Figura 4, adaptada de Lam et al. (2017), mostra cinco etapas básicas em um projeto de análise preditiva. De acordo com os autores, entre essas etapas, a Feature Engineering é uma das tarefas mais importantes e que requer mais tempo, vez que exige um alto nível de compreensão e domínio em exploração de dados, preparando as entradas de dados corretamente para os modelos de Aprendizado de Máquina, e, desta maneira, influenciando diretamente no desempenho destes modelos.

Figura 4 - Cinco etapas básicas em um projeto de análise preditiva

(43)

O exemplo a seguir ilustra de forma básica e prática o processo de geração de uma feature a partir de determinado conjunto de dados. Considerando uma pequena amostra de dados, organizados e apresentados na Tabela 2, é possível observar três colunas de features com informações distintas.

Tabela 2 - Conjunto de dados genérico

ITEM_ID ITEM_PESO ITEM_PREÇO

F0157 9.3 249.81

F0158 5.9 48.27

F0159 17.5 141.62

Fonte: Elaborado pelo autor (2019).

Como dito anteriormente, o processo de Feature Engineering é justamente utilizar os dados brutos para criar informações úteis. A Tabela 3 ilustra de forma básica este resultado obtido de forma manual.

Tabela 3 - Processo de Feature Engineering

ID ITEM_PESO ITEM_PREÇO PREÇO_PESO

F01 9.3 249.81 26.86

F02 5.9 48.27 8.15

F03 17.5 141.62 8.09

Fonte: Elaborado pelo autor (2019).

De maneira geral, o processo de Feature Engineering é um exercício complexo, realizado iterativamente com tentativa e erro, e impulsionado pelo conhecimento que o modelador desenvolveu na respectiva área de pesquisa ao longo do tempo (KHURANA et al., 2016). Os autores mencionam em seu trabalho, que encontrar recursos adequados é um ingrediente crucial na aprendizagem de um bom modelo preditivo. Kanter e Veeramachaneni (2015) salientam que transformar dados brutos em recursos geralmente é a parte do processo que mais envolve seres humanos, porque é conduzido por intuição. Embora desenvolvimentos recentes em Deep Learning e processamento automatizado de imagens, texto e sinais, têm proporcionado significativos avanços no processo de automação em Feature Engineering, a criação de recursos para dados de comportamentos relacionais e humanos, permanece iterativo, orientado por intuição humana, desafiador e, portanto, demorado.

(44)

Recentemente, trabalhos sobre a automatização dos processos de Feature Engineering para aplicação em algoritmos de Aprendizado de Máquina vêm sendo apresentados na literatura. Nas competições públicas mais recentes em Ciência de Dados, a grande maioria dos cientistas reportou que a maior parte do tempo gasto durante a competição foi justamente nesta etapa, isto é, em trabalhar com dados brutos, preparando-os para a entrada nos modelos preditivos (LAM et al., 2017). Os autores ainda mencionam que a automação em Feature Engineering pode ajudar reduzindo significativamente a carga de trabalho dos cientistas de dados, permitindo-lhes “errar” muitas ideias para melhorar os resultados da previsão com menos esforços significativos.

Diferente da automação e seleção de modelos preditivos, onde a literatura é muito rica, apenas alguns trabalhos foram propostos na área de automação no processo de Feature Engineering. A principal razão é que esta área é, ao mesmo tempo, geral e específica na esfera do conhecimento de dados. Além disso, um conhecimento profundo no processo de procurar padrões relevantes em dados é requerido quando trata-se de Feature Engineering. Trabalhos recentes mostram que, para um tipo específico de problema e dados, como aqueles presentes em bancos de dados relacionais, a automação de recursos é viável (KANTER; VEERAMACHANENI, 2015).

Uma maneira de automatizar o processo de Feature Engineering, que vem sendo empregado atualmente, é gerar muitos recursos candidatos, selecionando o melhor por pequenos ganhos quando comparados com recursos de classe parecida (DOMINGOS, 2012). No entanto, é importante manter em mente que recursos que num primeiro momento podem parecer irrelevantes isoladamente, podem se mostrar relevantes quando em combinação com outros. Além disso, Domingos (2012) também lembra que gerar um grande número de recursos com o objetivo de encontrar quais deles são úteis em combinações pode consumir uma grande quantidade de tempo num projeto de análise preditiva, ou até mesmo o chamado overfitting (sobre ajuste) fazendo com que o modelo se torne ineficaz para prever novos resultados.

Data Science Machine (DSM) foi o primeiro sistema a automatizar o processo de geração de features a partir de um banco de dados de várias tabelas (KANTER; VEERAMACHANENI, 2015). Essa abordagem de Feature Engineering é baseada na suposição de que, para um determinado banco de dados relacional, os cientistas de dados geralmente pesquisam por features via: i) geração de consultas em Structured Query Language (SQL) para coletá-los, e ii) transformação dos dados em features. O sistema DSM objetiva automatizar ambas as

(45)

etapas criando um gráfico de entidades e da geração automática de consultas em SQL para unir as tabelas de dados ao longo de diferentes caminhos do gráfico de entidades. Na sequência, o algoritmo converte os resultados coletados em features usando um conjunto predefinido de funções de agregação simples (LAM et al., 2017).

Cognito é outro sistema que automatiza o processo de Feature Engineering, mas a partir de uma única tabela de um banco de dados. Em cada etapa do processo, o sistema Cognito aplica um conjunto de transformações matemáticas recursivamente nas colunas da tabela selecionada para obter novas features. Ao fazer isso, o número de geração de features torna-se exponencial em relação ao número de etapas. Na sequência, um processo de Feature Selection, detalhado posteriormente nesta pesquisa, é aplicado de forma a reduzir features redundantes (KHURANA et al., 2016).

Nesta pesquisa, o processo de Feature Engineering foi realizado com o uso da ferramenta Featuretools (FEATURETOOLS, 2019), uma biblioteca de código aberta para a execução da criação de novas features. 2.4 FEATURE PROCESSING (PROCESSAMENTO DE RECURSOS)

Em posse de determinados dados brutos, e após a criação de novas features utilizando estes dados e visando o modelo preditivo, faz-se necessária a etapa de pré-processamento. Tal etapa tem por objetivo padronizar qualquer que sejam as entradas para a futura alimentação de um algoritmo de Aprendizado de Máquina. Assim, essa padronização influencia diretamente no resultado da predição, uma vez que os recursos devem contar com informações precisas, sem erros de digitação, indexação, e codificação, por exemplo, para que possam ser contabilizados de forma correta nas estatísticas. A padronização de um conjunto de dados é um requisito comum entre os algoritmos de Aprendizado de Máquina: eles podem se comportar mal se os recursos individuais não forem semelhantes aos dados padrão, distribuídos normalmente. Uma dificuldade é que algoritmos diferentes fazem suposições diferentes sobre os mesmos dados e podem exigir transformações diferentes. Além disso, em alguns casos, é comum que mesmo seguindo todas as regras durante a etapa de preparação dos dados, os algoritmos podem oferecer melhores resultados sem o pré-processamento.

Esse processamento de features para formar pontos de dados mais generalizáveis para posteriormente passar pelo processo de aprendizado, pode fornecer melhorias significativas aos modelos preditivos. Alguns

(46)

outros exemplos comuns de Feature Processing, comuns de serem aplicados em projetos de análise preditiva, são listados a seguir:

a) Imputação: substituição de dados ausentes ou inválidos por valores mais significativos. Uma estratégia comum usada para imputar valores ausentes é substituir os valores ausentes pelo valor médio ou mediano. É importante entender os dados antes de escolher uma estratégia para substituir os valores ausentes.

b) Formação de produtos cartesianos de uma variável com outra. Por exemplo, caso se possua duas variáveis, como densidade populacional (urbana, suburbana, rural) e estado (Rio de Janeiro, São Paulo, Santa Catarina), pode haver informações úteis nas características formadas por um produto cartesiano dessas duas variáveis, resultando em novos recursos.

c) Transformações não lineares, como categorizar variáveis numéricas em categorias. Em muitos casos, o relacionamento entre um recurso numérico e o chamado alvo não é linear (o valor do recurso não aumenta ou diminui monotonicamente com o destino). Nesses casos, pode ser útil agrupar o recurso numérico em recursos categóricos que represente diferentes intervalos do recurso numérico. Cada recurso categórico (agrupamento) pode ser então, modelado considerando que este tem seu próprio relacionamento linear com o destino. Por exemplo, dado que o modelador sabe que o recurso numérico contínuo de idade não está linearmente correlacionado com a probabilidade de compra de um livro, ele pode optar por agrupar este dado em recursos categóricos, capturando o relacionamento com o destino de modo mais preciso. O número ideal de agrupamentos de uma variável numérica depende das características da variável e de seu relacionamento com o destino; a melhor formar de determinar isso é por meio de experimentação.

d) Recursos específicos de domínio (por exemplo, tamanho, amplitude e altura são variáveis separadas; o modelador pode criar um recurso de volume como produto dessas três variáveis).

e) Recursos específicos da variável. Alguns tipos de variáveis, como processamento de linguagem natural, recursos que capturam a estrutura de uma página da Web ou a estrutura de uma frase, têm formas genéricas de processamento que ajudam a extrair estrutura e contexto.

(47)

Nesta pesquisa, foi utilizado a biblioteca de código aberto em linguagem Python de pré-processamento, scikit-learn (SCIKIT-LEARN, 2019).

2.5 FEATURE SELECTION (SELEÇÃO DE RECURSOS)

A representação de dados brutos geralmente utiliza uma grande quantidade de recursos, dos quais apenas alguns são relevantes para o objetivo final de um determinado projeto de análise preditiva. Uma vez que muitos recursos são desconhecidos em problemas do mundo real, é necessário por parte dos modeladores introduzirem os chamados recursos candidatos (KENJI; RENDELL, 1992).

No Aprendizado de Máquina e Estatística, Feature Selection, também conhecido como seleção de variáveis, seleção de atributos ou seleção de subconjuntos de variáveis, é o processo de seleção de um subconjunto de recursos relevantes (variáveis e preditores) para uso na construção de modelos. O principal objetivo das técnicas que envolvem Feature Selection é selecionar um subconjunto 𝑑 de recursos a partir de um conjunto 𝐷 de dados, onde 𝑑 < 𝐷, sem que o sistema como um todo do modelo preditivo não seja influenciado negativamente (SOMOL et al., 1999). Ainda de acordo com Somol et al. (1999), supondo que uma função de critério adequada tenha sido escolhida para avaliar a eficácia dos subconjuntos de recursos, o processo de Feature Selection é reduzido a um problema de pesquisa que detecta um subconjunto de recursos ideal com base na medida selecionada. Portanto, alguns procedimentos computacionalmente viáveis projetados para evitar a busca exaustiva são essenciais.

Por essa razão, a questão do trade-off entre a otimização e a eficiência de algoritmos para Feature Selection é reconhecida na literatura. Como muitas técnicas de reconhecimento de padrões em dados não foram originalmente projetadas para lidar com grandes quantidades de recursos irrelevantes, combiná-las com outras técnicas tornou-se uma necessidade em muitas aplicações (GUYON; ELISSEEFF, 2003; LIU; YU, 2005). Os objetivos desta etapa na construção de modelos preditivos são diversos, sendo os mais importantes: (a) evitar overfitting e melhorar o desempenho do modelo, ou seja, desempenho de predição no caso de classificação supervisionada e melhor detecção de cluster no caso de clustering, (b) fornecer modelos mais rápidos e mais econômicos e (c) obter uma visão mais profunda dos processos subjacentes que geraram os dados (SAEYS; INZA; LARRAÑAGA, 2007).

(48)

No entanto, as vantagens das técnicas de Feature Selection têm um determinado preço, já que a pesquisa por um subconjunto de recursos relevantes introduz uma camada adicional de complexidade na tarefa de modelagem. Em vez de apenas otimizar os parâmetros do modelo para o subconjunto de recursos completo, agora é necessário também encontrar os parâmetros do modelo ideal para o subconjunto de recursos ideais, já que não há garantia de que os parâmetros ideais para o conjunto completo de recursos sejam igualmente ideais para o conjunto ideal (DAELEMANS et al., 2003). Como resultado, a busca no espaço de hipóteses do modelo é aumentada por outra dimensão: a de encontrar o subconjunto ótimo de características relevantes. As técnicas de Feature Selection diferem umas das outras na maneira como incorporam essa pesquisa no espaço adicional de subconjuntos de recursos na seleção de modelos (SAEYS; INZA; LARRAÑAGA, 2007).

Muitos algoritmos de Feature Selection incluem a classificação de recursos como um mecanismo de seleção principal ou auxiliar devido à sua simplicidade, escalabilidade e bom sucesso empírico (GUYON; ELISSEEFF, 2003). É possível encontrar na literatura diversos outros trabalhos que utilização a classificação de recursos como um método base (BEKKERMAN; TISHBY; WINTER, 2003; DE SA; CARUANA, 2003; FORMAN, 2003; WESTON et al., 2003).

Feature Selection pode ser dividida em vários subgrupos de diferentes perspectivas (GUYON; ELISSEEFF, 2003; KENJI; LARRY, 1992), sendo três principais abordagens definidas na literatura como: Feature subset selection, Nested subsets of features e Feature importance. O objetivo final do processo de Feature Selection é determinar qual das categorias acima é preferível. Quando a maximização do desempenho de um modelo de Aprendizado de Máquina é o único objetivo, os algoritmos de Feature subset selection seriam suficientes. Já os algoritmos de Nested substes of features, são úteis quando as informações sobre os valores de recursos e como se dão suas interações são desejáveis. Por sua vez, Feature importance é geralmente desejável quando o conhecimento sobre o valor discriminativo de recursos individuais é de interesse. Por exemplo, na medicina ou na bioinformática, quando cada característica corresponde a um teste médico, biométrico ou um gene, o resultado de um algoritmo Feature importance em si é de grande valor.

Ainda, as principais abordagens em processos de Feature Selection ainda podem ser organizadas em três categorias, sendo estas descritas na literatura como: filter, wrapper e embedded methods (SAEYS; INZA; LARRAÑAGA, 2007).

Referências

Documentos relacionados

Ainda que os dados tenham sido gerados de uma distribuição beta bimodal in fl acionada em zero, conferindo assim certa vantagem ao modelo de regressão BBZ, consideramos que este

Acredita-se que as pes- soas especiais devem estar presentes não só como ouvintes, mas como agentes que possam estar envolvidos nas discussões e decisões sobre uma

exercício profissional. Relativamente a Pediatria, apesar da maioria das patologias que observei terem sido do foro reumatológico, penso que o meu contacto com esta

p Also at Group of Particle Physics, University of Montreal, Montreal QC, Canada q Also at Department of Physics, University of Cape Town, Cape Town, South Africa r Also at Institute

Campos (2015) diz que nas Casas-Abrigo o abrigamento é definido como uma série de serviços que incluem programas e benefícios de acolhimento provisório

Índice de seleção encontrado e cálculo dos vários índices para as dez plantas selecionadas quanto aos carac- teres de altura de plantas (AP), diâmetro do caule (DC), número

O presente capítulo tem por objetivo abordar o contexto histórico nacional e local que impulsionou o Governo Estadual do Ceará, a partir de 2008, a promover a

Para as solu¸c˜oes de Docking do ligante LDT167, o gr´afico da Figura 49 mostra a disposi¸c˜ao das 960 solu¸c˜oes, como resposta da discrimina¸c˜ao por meio do RMSD e energia