• Nenhum resultado encontrado

Mineração de Dados Aplicada à Cardiologia Pediátrica

N/A
N/A
Protected

Academic year: 2021

Share "Mineração de Dados Aplicada à Cardiologia Pediátrica"

Copied!
129
0
0

Texto

(1)Pós-Graduação em Ciência da Computação. “Mineração de Dados Aplicada à Cardiologia Pediátrica” Por. Tarcisio Barbosa Gurgel Dissertação de Mestrado. Universidade Federal de Pernambuco posgraduacao@cin.ufpe.br www.cin.ufpe.br/~posgraduacao. RECIFE, 05/2007.

(2) UNIVERSIDADE FEDERAL DE PERNAMBUCO CENTRO DE INFORMÁTICA PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO. TARCISIO BARBOSA GURGEL. “Mineração de Dados Aplicada à Cardiologia Pediátrica". ESTE TRABALHO FOI APRESENTADO À PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO DO CENTRO DE INFORMÁTICA DA UNIVERSIDADE FEDERAL DE PERNAMBUCO COMO REQUISITO PARCIAL PARA OBTENÇÃO DO GRAU DE MESTRE EM CIÊNCIA DA COMPUTAÇÃO.. ORIENTADOR: PROF. DR. PAULO JORGE LEITÃO ADEODATO. RECIFE, MAIO/2007.

(3)

(4) Agradecimentos À minha mãe, por tudo. Ao meu orientador, Professor Paulo Adeodato, pelas idéias, sugestões e críticas que me estimularam a desenvolver este trabalho. À Doutora Sandra Mattos, co-orientadora na prática, pelo importante papel de especialista no domínio, por ter acreditado no trabalho, pela grande atenção e pelo precioso tempo dedicado. À Unidade de Cardiologia e Medicina Fetal, UCMF, por ter cedido os dados em cima dos quais o trabalho foi desenvolvido e pela atenção recebida por sua equipe médica. Ao amigo Fábio Hedayioglu, por ter sido a ponte que nos ligou à UCMF e pela importante ajuda nos passos iniciais do trabalho. À empresa NeuroTech, por ter cedido sua infra-estrutura de software que possibilitou a realização com qualidade de importantes etapas deste trabalho. À Professora Rita Zorzenon, ex-orientadora de iniciação científica, por ter me ensinado a fazer pesquisa e pelo grande incentivo. À minha futura esposa, Marianna Granja, pela revisão inicial do documento e, principalmente, pelo apoio e companheirismo. À prima Ana Luísa Freitas, pela revisão do texto das seções Resumo e Considerações Finais. À prima Clara Nóbrega, pela tradução do resumo para o Inglês.. i.

(5) Resumo As primeiras soluções desenvolvidas para a Inteligência Artificial na Medicina eram, na época da sua concepção, unicamente baseadas no conhecimento do especialista, entretanto, o cenário atual, no qual dados são abundantes, mas subutilizados, mostrou-se terreno fértil para a criação de soluções baseadas também nos dados. É onde entra a Mineração de Dados, que tem sido, nos últimos anos, fator contribuinte na criação de ferramentas médicas que têm causado um forte impacto na prestação dos serviços de saúde. Nesse contexto, a proposta deste trabalho é avaliar a Mineração de Dados como meio para conceber um Sistema de Apoio à Decisão que auxilie o processo decisório na Medicina, especificamente na Cardiologia Infantil. Foram utilizadas técnicas de Inteligência Artificial tradicionalmente aplicadas a uma variedade de domínios médicos: Árvores de Decisão e Regras de Classificação, para descrição dos dados; e Redes Neurais Artificiais, para construção de classificadores. O resultado obtido a partir das primeiras técnicas trouxe novos conhecimentos. para. os. médicos. envolvidos,. especialistas. no. domínio.. Os. classificadores criados, por sua vez, mostraram um desempenho satisfatório em duas tarefas distintas: a primeira é classificar os pacientes como saudáveis ou doentes em relação a doenças cardíacas, através de dados de exames de ecocardiogramas; a segunda, identificar, entre os novos pacientes da clínica, e sem a ajuda dos dados de exames clínicos, aqueles mais graves, com alto potencial de serem submetidos a alguma cirurgia cardíaca. A qualidade da solução desenvolvida e a sua aceitação pelos especialistas no domínio mostraram a viabilidade em utilizar a Mineração de Dados no processo de apoio à decisão na Cardiologia Infantil. Entre os potenciais benefícios, estão o maior entendimento da saúde cardíaca da população, e a utilização dos classificadores construídos, para servir como uma segunda opinião médica no momento do diagnóstico e para dar prioridade de atendimento aos pacientes mais graves. Esperase que, com o auxílio dessas ferramentas, haja uma melhoria do serviço médico prestado.. Palavras-chave: Mineração de Dados, Inteligência Artificial na Medicina, Sistemas de Apoio ao Diagnóstico. ii.

(6) Abstract The first solutions developed for the Artificial Intelligence in Medicine were, at the time of their conception, based only on expert’s knowledge, however, the current setting, in which data is abundant, but underused, has been a breeding ground for solutions also based on the data. This is where Data Mining becomes, which has been, in the past years, a contributing factor to the creation of medical tools that have caused great impact on the health services execution. In this context, the purpose of this project is to evaluate the Data Mining as a means of conceiving a Decision Support System that helps decision making in Medicine, especially in Pediatric Cardiology. Artificial Intelligence techniques traditionally applied to a variety of medical domains were used: Decision Trees and Classification Rules, for data description; and Artificial Neural Networks, to build classifiers. The result obtained from the first two techniques brought new knowledge for the physicians involved, domain experts. The created classifiers showed a satisfactory performance in two distinct tasks: the first one is to classify the patients either healthy or sick, related to cardiac diseases, using the data from echocardiogram exams; the second one is to identify, among the clinic's new patients, and without the help of clinical examination data, the most severe ones, with a potentially high chance of being submitted to some kind of cardiac surgery. The quality of the solution developed and its acceptance by the domain experts have shown the viability of using Data Mining to aid in the decision process in Pediatric Cardiology. Among the potential benefits, is a better understanding of the population’s cardiac health, and the use of the classifiers built, to be used as a secondary medical opinion at the moment of the diagnosis and to give attendance priority to the patients who have the most severe conditions. It is hoped that, with the help of these tools, there is an improvement in the health service provided.. Keywords: Data Mining, Artificial Intelligence in Medicine, Diagnostic Support Systems. iii.

(7) Índice Analítico 1.. INTRODUÇÃO .................................................................................................................. 1 1.1. 1.2. 1.3. 1.4.. CARACTERIZAÇÃO DO PROBLEMA............................................................................... 1 MOTIVAÇÃO ................................................................................................................. 2 OBJETIVO ..................................................................................................................... 2 ORGANIZAÇÃO DA DISSERTAÇÃO................................................................................ 3. 2.. SISTEMAS DE SUPORTE À DECISÃO NA MEDICINA............................................ 4. 3.. DESCRIÇÃO DO TRABALHO ....................................................................................... 8 3.1. ENTENDIMENTO DO NEGÓCIO.................................................................................... 11 3.1.1. A UCMF ................................................................................................................ 11 3.1.2. O Registro das Informações .................................................................................. 11 3.1.3. O Exame de Ecocardiograma ............................................................................... 12 3.2. ENTENDIMENTO DOS DADOS ..................................................................................... 14 3.2.1. Identificação das Fontes de Dados ....................................................................... 14 3.2.2. Base de Cadastro dos Pacientes............................................................................ 15 3.2.3. Base de Consultas.................................................................................................. 16 3.2.4. Base de Ecocardiogramas..................................................................................... 20 3.3. PREPARAÇÃO DOS DADOS ......................................................................................... 25 3.3.1. Base de Cadastro de Pacientes ............................................................................. 26 3.3.2. Base de Consultas.................................................................................................. 26 3.3.3. Base de Ecocardiogramas..................................................................................... 29. 4.. MODELAGEM................................................................................................................. 46 4.1. ÁRVORE DE DECISÃO ................................................................................................. 48 4.1.1. Base de Consultas.................................................................................................. 52 4.1.2. Base de Ecocardiogramas..................................................................................... 56 4.2. REGRAS DE CLASSIFICAÇÃO ...................................................................................... 60 4.2.1. Base de Consultas.................................................................................................. 62 4.2.2. Base de Ecocardiogramas..................................................................................... 64 4.3. REDES NEURAIS ARTIFICIAIS ..................................................................................... 66 4.3.1. Base de Consultas.................................................................................................. 68 4.3.2. Base de Ecocardiogramas..................................................................................... 69. 5.. AVALIAÇÃO DO RESULTADO................................................................................... 73 5.1. ANÁLISE DE DESEMPENHO ........................................................................................ 73 5.1.1. Rede Neural da Base de Consultas ....................................................................... 76 5.1.2. Redes Neurais da Base de Ecocardiogramas........................................................ 80 5.2. VALIDAÇÃO DO RESULTADO ..................................................................................... 89. 6.. CONSIDERAÇÕES FINAIS........................................................................................... 91. 7.. REFERÊNCIAS BIBLIOGRÁFICAS ........................................................................... 96. A. EXEMPLO DE PLANILHA ELETRÔNICA MODELO........................................................101. B. HIERARQUIA ENTRE OS CAMPOS DE MOTIVO DA BASE DE CONSULTAS ...........102. C. HIERARQUIA ENTRE OS CAMPOS DE DIAGNÓSTICO DA BASE DE CONSULTAS 103. D. VALORES DISTINTOS PARA OS CAMPOS CATEGÓRICOS DA BASE DE CONSULTAS...............................................................................................................................104. E. EXEMPLOS DAS MODALIDADES DE ECOCARDIOGRAFIAS.......................................107. iv.

(8) F. PLANILHA DE ECOCARDIOGRAMA EM FORMATO ANTIGO ....................................109. G. EXEMPLO DE PLANILHA DE ECOCARDIOGRAMA FETAL – MODELO DO HOSPITAL PORTUGUÊS.........................................................................................................110. H. EXEMPLO DE PLANILHA DE ECOCARDIOGRAMA PEDIÁTRICO – MODELO DO MEMORIAL SÃO JOSÉ............................................................................................................111. I. ALGORITMO DE SIMILARIDADE DE TEXTO ..................................................................112. J. REGRAS DE CLASSIFICAÇÃO DA BASE DE ECOCARDIOGRAMAS ..........................114. K. REGRAS DE CLASSIFICAÇÃO DA BASE DE CONSULTAS ............................................117. v.

(9) Introdução. 1. Introdução 1.1. Caracterização do Problema Por ser a Medicina complexa e ainda não muito bem entendida em todos os seus aspectos, ela difere de outros domínios técnicos nos quais o correto funcionamento e a melhor performance são teoricamente conhecidos [Horn, 2001]. Mostrando-se um domínio fértil para a Inteligência Artificial, a Medicina com ela caminha há um bom tempo na busca de descobertas. A Mineração de Dados, como uma subárea da Inteligência Artificial que faz interseção com diversas outras, tem dado nos últimos anos sua contribuição na criação de ferramentas médicas que têm causado um forte impacto na prestação dos serviços de saúde, através de melhorias no diagnóstico de doenças e da redução da pressão de tempo sobre médicos e enfermeiros [Rao et al., 2006]. Doenças cardiovasculares são as que mais matam no Brasil e no mundo [WHO, 2003]. Na forma congênita, as malformações1 cardíacas afetam de 8 a 10 em cada 1.000 nascidos vivos, o que representa aproximadamente 40% de todas as malformações congênitas graves em seres humanos [Gadow et al., 1996]. Essa incidência chega a 12,5% quando anomalias mais simples são consideradas [Hoffman & Kaplan, 2002] e é possível que a sua incidência seja ainda maior em regiões em desenvolvimento onde a desnutrição e outras morbidades maternas são mais freqüentes. As cardiopatias congênitas são ainda causa freqüente de abortamento2 espontâneo com uma incidência aproximada de 10% [Hoffman, 2002]. Em torno de um terço de todas as cardiopatias observadas na vida extra-uterina são graves e necessitam de tratamento clínico ou cirúrgico ainda no primeiro ano de vida. Apesar de ser um problema tão grave, a maioria das cardiopatias congênitas. 1 2. pode. ter. bom. prognóstico. se. diagnosticadas. e. tratadas. Termo médico sinônimo de má-formação Termo comumente utilizado na medicina, sinônimo de aborto. 1.

(10) Introdução precocemente [Marelli et al., 2007]. A Unidade de Cardiologia e Medicina Fetal, UCMF3, é uma clínica especializada no diagnóstico e tratamento de fetos e crianças portadores de doenças do coração. Essa clínica possui uma massa de dados relativos a consultas médicas e exames de ecocardiogramas ainda não explorados sistematicamente para o suporte à tomada de decisão.. 1.2. Motivação A informatização das diversas atividades relacionadas à saúde tem cada vez mais gerado enormes volumes de dados [Lavrac, 1998]. A utilização deste material, porém, está muito aquém do seu potencial.. Evidências sobre os. dados são obtidas, na maioria das vezes, através de simples estatísticas, mas o conhecimento intrínseco aos dados continua neles escondido. Uma verdadeira mina para a Mineração de Dados. Além da motivação causada pela abundância de informações relativas à saúde, há uma demanda mundial de soluções de Mineração de Dados aplicada a essa área. Uma forte evidência desta afirmação é a edição de 2006 da KDD Cup4, a copa do mundo de KDD – Knowledge Discovery in Databases, ou Descoberta de Conhecimento em Banco de Dados, da qual a Mineração de Dados é uma etapa [Fayyad et al., 1996a] –, que lança anualmente desafios que carecem de soluções. Essa edição da KDD Cup buscou soluções para identificar pacientes com embolia pulmonar a partir de dados obtidos de imagens dos pulmões originadas por exames de angiografia por tomografia computadorizada (CTA).. 1.3. Objetivo Este trabalho tem como proposta utilizar e avaliar a Mineração de Dados como meio para conceber um Sistema de Apoio à Decisão que auxilie o processo decisório na cardiologia infantil (Sistema de Apoio ao Diagnóstico). 3. Sítio da UCMF na Internet disponível no endereço http://www.ucmf.com.br/ Sítio da KDD Cup 2006 na Internet disponível no endereço http://www.cs.unm.edu/kdd_cup_2006/ 4. 2.

(11) Introdução A exploração de dados do domínio do problema utilizando técnicas variadas de Inteligência Artificial fará surgir ferramentas de apoio ao processo decisório. Tais ferramentas terão a forma de conhecimento explícito, através de Árvores de Decisão e Regras de Classificação, bem como de sistemas de inferência baseados em Redes Neurais Artificiais.. 1.4. Organização da Dissertação Esta dissertação está estruturada em capítulos da seguinte forma: •. o capítulo 2 trata dos benefícios que a Inteligência Artificial vem trazendo. à. Medicina. através. da. construção. de. sistemas. computacionais para auxiliar o diagnóstico médico; •. o capítulo 3 descreve as primeiras etapas executadas neste trabalho, que englobam o entendimento e o pré-processamento dos dados;. •. os capítulos 4 e 5 descrevem as duas etapas seguintes e finais; o capítulo 4 apresenta os modelos criados e os resultados obtidos por essas soluções, e o capítulo 5 faz uma avaliação desses resultados;. •. por fim, o capítulo 6 traz algumas considerações finais, um breve resumo do trabalho realizado com suas limitações e trabalhos futuros.. 3.

(12) Sistemas de Suporte à Decisão na Medicina. 2. Sistemas de Suporte à Decisão na Medicina Uma nova disciplina, conhecida por Inteligência Artificial na Medicina (AIM – Artificial Intelligence in Medicine), surgiu a partir da motivação de pesquisadores e profissionais de computação e de saúde que acreditavam no sucesso da utilização de sistemas inteligentes na medicina. A esperança era que tais sistemas se comportassem como médicos artificiais, capazes de auxiliar, ou, até mesmo, superar profissionais em tarefas como diagnóstico. Sistemas de Suporte à Decisão Clínica (CDSS – Clinical Decision Support Systems) é como são atualmente conhecidos, de forma genérica, estes sistemas, com uma aplicação bem mais ampla que aquela idealizada inicialmente [Coiera, 2003]. Sistemas baseados no conhecimento, também conhecidos como sistemas especialistas (expert systems) [Russell & Norvig, 1995], foram as primeiras soluções desenvolvidas. Com o conhecimento médico neles armazenado, são capazes de avaliar dados de um paciente e chegar de forma racional a conclusões. O Isabel Healthcare5 é um exemplo atual de sucesso, projetado para melhorar a qualidade do diagnóstico médico através da construção de uma lista dos diagnósticos mais prováveis a partir de um conjunto de dados clínicos. A informatização e automação das diversas atividades que envolvem os serviços de saúde têm provocado a geração de um volume cada vez maior de dados [Lavrac, 1998]. Como conseqüência, segundo Horn [Horn, 2001], as soluções desenvolvidas para a Inteligência Artificial na Medicina passaram a não focar apenas no conhecimento do especialista, mas também nos dados. Sistemas baseados em processamento digital de imagens e mineração de dados, por exemplo, fazem hoje parte dos Sistemas de Suporte à Decisão Clínica.. 5. Sítio do Isabel Healthcare na Internet disponível no endereço http://www.isabelhealthcare.com/. 4.

(13) Sistemas de Suporte à Decisão na Medicina Entre as soluções focadas nos dados, sistemas de detecção assistida por computador (CAD – Computer-Aided Detection) merecem um destaque. Os parágrafos seguintes resumem alguns casos. Mamografia é o exame utilizado de forma preventiva para detectar o câncer de mama e também como método diagnóstico, quando já há a suspeita da existência de alguma anomalia. Por diversos motivos, a tradicional análise humana desse exame, muitas vezes, não detecta o câncer existente. Sistemas de detecção assistida por computador têm consideravelmente aumentado a precisa e prévia detecção desse tipo de câncer. Tais sistemas realçam regiões das imagens das mamas com alto potencial de anormalidade. Exames baseados em tomografia computadorizada geram imagens em fatias do objeto em estudo, cada uma em diferente nível de profundidade, para permitir uma visão tridimensional aproximada. A quantidade destas fatias vem aumentando com a evolução dos equipamentos, o que torna cada vez mais difícil uma análise humana desse tipo de exame. A utilização de sistemas CAD na análise de imagens de tomografia computadorizada tem resolvido este problema, além de trazer maior eficiência na detecção de anomalias, como o câncer de pulmão e o câncer colorretal. Na detecção do câncer colorretal, a tomografia computadorizada torna possível a colonoscopia virtual, que pode chegar a substituir o exame tradicional. Radiologistas inexperientes assistidos por sistemas CAD são capazes de diagnosticar o câncer colorretal tão eficientemente quanto aqueles experientes [Rao et al., 2006]. O sucesso da aplicação de tais sistemas na medicina não se limita à detecção de tipos diferentes de câncer. Um exemplo está em uma solução que permite, de forma confiável, delinear o ventrículo esquerdo em imagens do coração, automatizando certas medições. O objetivo proposto desta solução é auxiliar na identificação de pacientes com alto potencial de serem beneficiados com um desfibrilador implantável [Rao et al., 2006]. Trabalhos de mineração de dados aplicados à Medicina, ou, mais especificamente, à Cardiologia Pediátrica, não foram encontrados com. 5.

(14) Sistemas de Suporte à Decisão na Medicina facilidade, além de terem sempre um foco diverso daquele proposto nesta dissertação. O trabalho mais próximo foi desenvolvido por Podgorelec et al. [Podgorelec et al., 2005], cujo foco, entretanto, é a introdução de um novo algoritmo para indução de regras de classificação. A semelhança está na avaliação do algoritmo desenvolvido, que é realizada em um problema de classificação com dados de cardiologia pediátrica. Os resultados obtidos mostraram que a técnica pode ser útil para confirmar o conhecimento existente sobre determinado problema médico, e, mais importante, permitir a busca por novos conhecimentos. Como melhor resultado concreto, foi apresentada uma regra de classificação que, após avaliada por um médico especialista, foi considerada como potencialmente contendo novo conhecimento médico. Um outro estudo envolvendo Mineração de dados e cardiologia, realizado por Matousek e Aubrecht [Matousek & Aubrecht, 2006], foca na tarefa de unificar fontes de dados heterogêneas para a construção de um banco de dados de cardiologia consolidado, em cima do qual a mineração de dados deve ser mais eficiente. O trabalho desenvolvido por Ordonez et al. [Ordonez et al., 2000], assim como este, realizou a extração de regras de classificação (tipo de regras de associação) a partir de dados médicos. São apresentadas as dificuldades mais comuns inerentes a essa atividade, como a baixa quantidade de casos (registros na base de dados) e o alto índice de ruído nos dados. O autor, ao acreditar na não-adequação dos algoritmos atuais para essa tarefa, propôs um novo algoritmo, mais rápido e mais restritivo, porém, resultando em regras mais concisas e relevantes. Alguns trabalhos encontrados, envolvendo aplicações de técnicas de inteligência artificial na medicina, focam no diagnóstico médico. O estudo de Silva et al. [Silva et al., 2005] tem como objetivo a utilização de redes neurais artificiais na predição de disfunção orgânica em pacientes internados em UTIs. De acordo com o autor, os métodos atuais para detecção da falência de órgãos. 6.

(15) Sistemas de Suporte à Decisão na Medicina são mais caros e demorados que a solução proposta, que, mesmo não se mostrando mais eficiente, prova a viabilidade desse novo método. Como último exemplo dos trabalhos de inteligência artificial aplicados à medicina, há o que foi desenvolvido por Zhou e Jiang [Zhou & Jiang, 2003]. A técnica para diagnóstico médico desenvolvida nesse trabalho, assim como naquele do parágrafo anterior, utilizou redes neurais artificiais, mas, dessa vez, para pré-processar a entrada de árvores de decisão. Essa técnica, segundo o autor, une o poder de generalização das redes neurais artificiais à facilidade de compreensão fornecida pelas árvores de decisão. Para chegar a essa conclusão, estudos de caso foram realizados, em dados de diabetes, hepatite e câncer de mama.. 7.

(16) Descrição do Trabalho. 3. Descrição do Trabalho A Figura 3.1 ilustra o processo de KDD, ou Descoberta de Conhecimento em Banco de Dados, cujo objetivo, de forma resumida, é obter conhecimento a partir de dados. Inicialmente, os dados de interesse são selecionados, e, em seguida, preparados para a etapa conhecida por Mineração de Dados, na qual são identificados padrões, regularidades nos dados, que, após interpretados e avaliados, tornam-se conhecimento. Apesar da importância de todas as etapas do processo de KDD para o seu sucesso, a Mineração de Dados se destaca das demais, motivo pelo qual ela passou a ser utilizada como referência a todo o processo de KDD, e é dessa Mineração de Dados que estaremos tratando neste trabalho.. Figura 3.1 – Etapas do processo de KDD [Fayyad et al., 1996b]. Este trabalho foi desenvolvido sobre dados da Cardiologia Pediátrica, fornecidos pela UCMF, e teve como proposta avaliar a Mineração de Dados, ou seja, o processo de KDD, como meio para conceber um Sistema de Apoio à Decisão na Cardiologia Pediátrica, o que foi realizado através da construção e avaliação de Árvores de Decisão, Regras de Classificação, e Redes Neurais Artificiais. Na UCMF, a decisão, hoje, é tomada sem o auxílio de ferramentas. O médico avalia o estado do paciente e, baseando-se no seu conhecimento, chega à decisão, que pode ser, por exemplo, o diagnóstico ou uma priorização.

(17) Descrição do Trabalho no atendimento de um paciente potencialmente mais grave. Como ilustrado na Figura 3.2, os objetivos principais deste trabalho são: •. a descoberta de novos conhecimentos, que serviriam para alimentar uma base de conhecimento, para auxiliar o médico no processo de tomada de decisão;. •. a construção de classificadores, que poderiam ser utilizados, por exemplo, como uma segunda opinião, que, se contrária à opinião do médico, sugeriria uma reavaliação do caso.. Dados do Paciente Classificador. Base de Conhecimento. Decisão. Figura 3.2 – Tomada de decisão na UCMF, hoje (dentro do quadro tracejado) e depois (com o auxílio da base de conhecimento e do classificador). Este trabalho foi desenvolvido seguindo as etapas do CRISP-DM6 [Wirth & Hipp, 2000] – Cross Industry Standard Process for Data Mining –, o mais utilizado modelo de processo para desenvolvimento de soluções de Mineração de Dados. De acordo com a pesquisa de opinião7 conduzida pelo KDnuggets – um conceituado sítio na Internet sobre Mineração de Dados –, o CRISP-DM é utilizado pela maioria absoluta das empresas. Apesar da existência de outros 6 7. Sítio do CRISP-DM na Internet disponível no endereço http://www.crisp-dm.org/ Enquete disponível no endereço http://www.kdnuggets.com/polls/2002/methodology.htm. 9.

(18) Descrição do Trabalho modelos de processo, incluindo uma extensão do CRISP-DM aplicada com sucesso a problemas de domínio médico [Cios & Moore, 2002], a escolha foi feita com base na preferência da comunidade de usuários. O CRISP-DM é organizado nas seis seguintes etapas, executadas como mostra o diagrama da Figura 3.3: 1. Entendimento do Negócio (Business Understanding); 2. Entendimento dos Dados (Data Understanding); 3. Preparação dos Dados (Data Preparation); 4. Modelagem (Modeling); 5. Avaliação dos Resultados (Evaluation); 6. Implantação da Solução (Deployment).. Figura 3.3 – Fases do CRISP-DM. Este capítulo descreve as execuções das três primeiras etapas. As duas etapas seguintes, Modelagem e Avaliação dos Resultados, são descritas cada uma em capítulos distintos. A última etapa não foi executada por não pertencer ao escopo do trabalho proposto.. 10.

(19) Descrição do Trabalho. 3.1. Entendimento do Negócio 3.1.1.. A UCMF. A Unidade de Cardiologia e Medicina Fetal é uma clínica especializada no diagnóstico e tratamento de fetos e crianças portadores de doenças do coração. Funciona em parceria com o CADUCEUS, um centro de estudo e pesquisa com programa de educação continuada para a capacitação de profissionais em áreas de saúde, e o Círculo do Coração de Pernambuco, ONG de apoio para crianças carentes. A clínica atua no Hospital Português, Hospital Memorial São José e na Maternidade da Encruzilhada. Aproximadamente 800 pacientes são atendidos mensalmente; 25% destes são carentes e 20% vêm de outras localidades (interior do estado e estados circunvizinhos). A clínica veio armazenando, ao longo dos seus mais de dez anos de existência, informações relativas a consultas médicas e exames de ecocardiogramas. Essa massa de dados gerada, porém, ainda não havia sido explorada sistematicamente para o suporte à tomada de decisão.. 3.1.2.. O Registro das Informações. O paciente novato, na primeira visita, fornece suas informações pessoais, que são as primeiras a serem armazenadas no sistema de cadastro informatizado da clínica. Os próximos dados armazenados no banco de dados da clínica são aqueles referentes à consulta e possíveis exames, que podem ser. radiografia,. eletrocardiograma. e. ecocardiograma.. Os. exames. de. radiografias e de eletrocardiogramas não são diretamente armazenados; apenas as conclusões feitas a partir deles são alimentadas no banco de dados. Os ecocardiogramas também não têm suas informações inseridas no banco, mas todos os seus dados são armazenados no formato digital em planilhas eletrônicas.. 11.

(20) Descrição do Trabalho. 3.1.3.. O Exame de Ecocardiograma. Os exames de ecocardiograma são realizados em uma sala que possui, além do ecocardiógrafo, um computador PC a ele conectado. Este computador é operado durante o exame por um assistente, que preenche uma planilha eletrônica modelo com os dados pessoais do paciente e com os valores das medidas que são ditadas pelo médico. Enquanto o médico opera o aparelho de ecocardiograma, o assistente recebe instruções para capturar as imagens geradas. Ao final, o médico faz a triagem das imagens capturadas que devem ir para a planilha eletrônica e termina de preenchê-la com a sua conclusão. A planilha do exame possui um modelo padrão, com alguns dos seus campos já preenchidos com aqueles valores esperados para um indivíduo sadio. Estes valores pré-estabelecidos são modificados apenas nos casos em que alguma anormalidade está presente. As modificações, quando acontecem, são livres, não seguem padrão algum. É possível ainda que haja modificação dos valores pré-estabelecidos em caso de normalidade, quando, no campo de conclusão, o médico achar que as opções disponíveis não dizem tudo. Um exemplo desta planilha modelo é ilustrado no Apêndice A. As fotografias das figuras 3.4 e 3.5 mostram o ecocardiógrafo e o PC a ele conectado.. 12.

(21) Descrição do Trabalho. Figura 3.4 – Ecocardiógrafo. Figura 3.5 – PC conectado ao ecocardiógrafo. 13.

(22) Descrição do Trabalho. 3.2. Entendimento dos Dados 3.2.1.. Identificação das Fontes de Dados. O banco de dados da UCMF é formado por algumas tabelas relacionais, das quais duas são de interesse para este trabalho: Pacientes, que possui todos os dados cadastrais dos pacientes, e Consultas, que armazena as informações relativas às consultas e resultados de seus possíveis exames. A terceira fonte de dados disponível são as planilhas eletrônicas dos exames de ecocardiogramas. Para ser utilizada, essa fonte de dados tem que ser convertida em uma tabela relacional. As tabelas Pacientes e Consultas se relacionam através do código do paciente, chave primária identificadora do paciente apenas no banco de dados. Como os dados das planilhas de ecocardiogramas não estão no banco de dados, não há código do paciente, e, conseqüentemente, não dá para relacionar diretamente os ecocardiogramas aos pacientes cadastrados e suas consultas. A figura 3.6 resume as fontes de dados disponíveis, seus formatos e suas conexões.. Figura 3.6 – Fontes de dados e suas conexões. 14.

(23) Descrição do Trabalho. 3.2.2.. Base de Cadastro dos Pacientes. Essa base armazena os dados cadastrais dos pacientes, fornecidos à recepção da clínica durante a primeira consulta. A base é formada por informações de identificação, de filiação, de seguro saúde, de endereço residencial, para contato e outras pessoais, como data de nascimento, sexo, peso e altura. Porém, ter entre os cadastrados fetos e crianças recém-nascidas tem como conseqüência a possível ausência de um nome próprio. Nestes casos, que são muito freqüentes, o paciente leva o nome da mãe, com algum tipo de observação que indica ser este um feto ou um recém-nascido. O mesmo acontece com a data de nascimento quando o paciente é ainda um feto. A base de cadastro de pacientes é a maior das três fontes de dados identificadas, possuindo, no momento da pesquisa, aproximadamente, 27 mil registros. Como a relação entre essa base e a base de consultas é 1:n, a última deveria ser maior, mas não é, já que ela foi criada há menos tempo.. 3.2.2.1.. Dicionário de Dados. A tabela 3.1 apresenta a visão da base de pacientes com o tipo de dados de cada campo e seus respectivos significados. Tabela 3.1 – Visão da base de pacientes Campo COD_PACI. Tipo Numérico. NOMEC. Texto. COD_CONV MAT_CONV. Categórico Texto. DATANASC. Data. PESO ALTURA. Numérico Numérico Categórico dicotômico Texto Texto Texto Data. SEXO PAI_MAE MAE PROFIS ENDER. Descrição Código identificador do paciente no banco de dados Nome do paciente. Quando este é feto ou recém-nascido, usase o nome da mãe com uma observação. Código do seguro saúde do paciente Matrícula no seguro saúde Data de nascimento do paciente, ou da mãe, quando é este um feto ou recém-nascido. Peso do paciente Altura do paciente Sexo do paciente Nome do pai, ou da mãe quando este não está presente Nome da mãe (quando o pai está presente) Profissão do pai, ou da mãe quando este não está presente Endereço residencial. 15.

(24) Descrição do Trabalho CEP BAIRRO CIDADE UF TELEF OBS DATACAD. 3.2.2.2.. Numérico Texto Texto Texto Texto Texto Texto. CEP da residência Bairro da residência Cidade da residência Estado da residência Telefone para contato Observação Data do cadastro. Análise Descritiva. A qualidade dos dados está resumida na tabela 3.2, que mostra o nível de preenchimento de todos os campos e algumas observações acerca do formato dos dados armazenados. Tabela 3.2 – Qualidade dos dados da base de cadastro de pacientes Campo COD_PACI. Ausentes Observação 0,00% Há presença de comentários e observações em vez de nomes NOMEC 0,00% próprios Há códigos numéricos misturados com categóricos; presença de COD_CONV 0,49% códigos inválidos Vários formatos distintos de matrículas; presença de valores MAT_CONV 40,43% inválidos DATANASC 15,60% Presença de datas inválidas PESO 99,27% Não é utilizada uma única unidade de medida ALTURA 99,57% Não é utilizada uma única unidade de medida SEXO 99,12% Há presença de comentários e observações em vez de nomes PAI_MAE 35,31% próprios Há presença de comentários e observações em vez de nomes MAE 39,95% próprios PROFIS. 97,54% Há presença de comentários e observações em vez de ocupações. ENDER CEP BAIRRO CIDADE UF TELEF OBS DATACAD. 13,63% 99,44% 14,45% 16,62% 9,88% 4,60% 90,52% 12,31%. 3.2.3.. Há códigos de CEP inválidos Há valores inválidos Há valores inválidos Há valores inválidos Há valores inválidos Presença de datas inválidas. Base de Consultas. A base de consultas é a principal base de dados da clínica. Todas as informações de interesse sobre os pacientes estão nela armazenadas, por 16.

(25) Descrição do Trabalho exemplo: o motivo pelo qual um dado paciente foi encaminhado ao cardiologista e a especialidade do médico que o encaminhou, os sintomas mais relevantes apresentados no momento da chegada, o diagnóstico mais recente e o médico responsável. Apesar de sua importância, a base de consultas foi criada há relativamente pouco tempo. No período desta pesquisa, a base possuía pouco mais de quatro mil registros, o que pode ser considerado pouco para a aplicação de alguns algoritmos de Mineração de Dados.. 3.2.3.1.. Dicionário de Dados. A tabela 3.3 apresenta a visão da base de consultas com o tipo de dados de cada campo e seus respectivos significados. Há na tabela 3.4, logo em seguida, um glossário médico com alguns termos utilizados na tabela 3.3. Tabela 3.3 – Visão da base de consultas Campo cod_paci dataDiagnosticoInicial medicoSolicitante categoria motivo1 motivo2 comentarioMotivos assintomatico cianose. Tipo. Descrição Código identificador do paciente no Numérico banco de dados Data Data do primeiro diagnóstico Especialidade do médico que Categórico encaminhou o paciente ao cardiologista Categórico Seguro saúde do paciente Categórico Motivo da consulta Motivo específico da consulta Categórico (especificação do motivo1) Texto Comentário sobre o(s) motivo(s) Categórico dicotômico Indica a ausência de sintomas Indica se o paciente apresenta Categórico dicotômico cianose. cirurgiaCardiacaPrevia. Categórico dicotômico. icc. Categórico dicotômico. hap. Indica se o paciente já foi submetido a uma intervenção cirúrgica no coração. Indica se o paciente possui insuficiência cardíaca congestiva Indica a presença de hipertensão Categórico dicotômico arterial pulmonar, doença detectada a partir dos exames clínicos. sopro. Categórico dicotômico Indica a presença de sopro no coração. has. Indica a presença de hipertensão Categórico dicotômico arterial sistêmica, doença detectada a partir dos exames clínicos. 17.

(26) Descrição do Trabalho. sGenetica. Categórico dicotômico. Indica a presença de alguma síndrome genética. primeiroDiagnostico. Indica a presença de outros sintomas, Categórico dicotômico considerados não-relevantes para a cardiologia Categórico Diagnóstico do paciente. segundoDiagnostico. Categórico. terceiroDiagnostico. Categórico. comentarioDiagnositco conduta comentarioConduta responsavelDiagnostico. Texto Categórico Texto Texto. outro. dataMudancaDiagnosticoInicial Data tipoModificacao. Categórico. novoDiagnostico. Texto. ResponsavelNovoDiagnostico. Texto. Diagnóstico específico do paciente (especificação do primeiroDiagnóstico) Diagnóstico mais específico do paciente (especificação do segundoDiagnóstico) Comentário sobre o diagnóstico A conduta seguida pelo médico Comentário sobre a conduta Médico responsável pelo diagnóstico Se houve mudança no diagnóstico, indica a sua data Se houve mudança no diagnóstico, indica o tipo da mudança Se houve mudança no diagnóstico, indica o novo diagnóstico Se houve mudança no diagnóstico, indica o médico responsável pela mudança. Há uma hierarquia entre os campos motivo1 e motivo2, e outra entre os campos primeiroDiagnostico, segundoDiagnostico e terceiroDiagnostico. As relações entre os valores de tais campos nos diferentes níveis da hierarquia estão no Apêndice B, para os motivos, e no Apêndice C, para os diagnósticos.. Tabela 3.4 – Glossário com os termos médicos utilizados na tabela 3.3 Termo Cianose Hipertensão Arterial Pulmonar Hipertensão Arterial Sistêmica Insuficiência Cardíaca Congestiva Sopro. Significado Tom azulado da pele, devido à baixa oxigenação do sangue Aumento anormal da pressão sangüínea no pulmão Aumento anormal da pressão sangüínea no corpo Cansaço aos esforços ou à alimentação Ruído anormal. 18.

(27) Descrição do Trabalho. 3.2.3.2.. Análise Descritiva. A qualidade dos dados está resumida na tabela 3.5, que mostra o nível de preenchimento de todos os campos e algumas observações acerca do formato dos dados armazenados. Tabela 3.5 – Qualidade dos dados da base de consultas Campo Ausentes Observação cod_paci 0,00% dataDiagnosticoInicial 1,09% Vários formatos distintos de data medicoSolicitante 2,19% categoria 3,72% motivo1 0,77% motivo2 8,95% comentarioMotivos 79,38% Texto em linguagem natural assintomatico 0,00% cianose 0,00% cirurgiaCardiacaPrevia 0,00% icc 0,00% hap 0,00% sopro 0,00% has 0,00% sGenetica 0,00% outro 0,00% primeiroDiagnostico 4,72% segundoDiagnostico 7,37% terceiroDiagnostico 83,38% comentarioDiagnositco 79,59% Texto em linguagem natural conduta 0,05% comentarioConduta 93,19% Texto em linguagem natural responsavelDiagnostico 1,53% Não existe um código único por médico dataMudancaDiagnosticoInicial 89,21% Vários formatos distintos de data tipoModificacao 94,58% novoDiagnostico 94,61% Texto em linguagem natural ResponsavelNovoDiagnostico 94,47% Não existe um código único por médico. A base de consultas não possui campos com dados de natureza numérica. Os valores distintos para suas variáveis categóricas estão listados na tabela do Apêndice D, ordenados pelas suas freqüências de ocorrência.. 19.

(28) Descrição do Trabalho. 3.2.4.. Base de Ecocardiogramas. O exame de ecocardiograma é um ultra-som do coração que tem como objetivo avaliar sua anatomia, capacidade de contração e relaxamento (função) e o bombeamento do sangue do coração para os grandes vasos (hemodinâmica). Essa avaliação é feita através de cada uma de suas três modalidades: a ecocardiografia bidimensional, que verifica a anatomia; a ecocardiografia modo M, para a função; e a ecocardiografia Doppler, para avaliar o bombeamento do sangue. Exemplos de imagens geradas pelo ecocardiógrafo para cada uma destas ecocardiografias são apresentadas no Apêndice E. Cada exame de ecocardiograma realizado na clínica tem seus dados e resultados armazenados em planilhas eletrônicas, atualmente no formato da ferramenta Microsoft Excel. Este procedimento, que foi iniciado desde a criação da. UCMF,. em. 1994,. veio. amadurecendo. ao. longo. dos. anos. e. conseqüentemente passando por pequenas mudanças, o que gerou uma grande quantidade e variedade de modelos de planilhas. O Apêndice F mostra um exemplo de planilha em um formato antigo; os Apêndices G e H ilustram modelos mais recentes de ecocardiograma fetal e pediátrico, respectivamente. A UCMF agrupa os campos do ecocardiograma em cinco partes lógicas, como mostra a tabela 3.6 a seguir. Tabela 3.6 – Partes das planilhas de ecocardiograma. Parte Parte 1 Parte 2. Parte 3. Parte 4 Parte 5. Conteúdo Informações gerais. Algumas informações do paciente já conhecidas antes do exame de ecocardiograma, como a idade e o motivo da consulta, e outras informações relacionadas ao exame, como o nome do médico e a data de realização. Dados obtidos da ecocardiografia bidimensional. Dados obtidos da ecocardiografia modo M e da ecocardiografia Doppler. São os campos referentes à ecocardiografia modo M: "Função cardíaca" e aqueles medidos em milímetros. São os campos da ecocardiografia Doppler: os demais. As unidades de medida dos campos podem ser vistas na planilha modelo do Apêndice A. Informações acerca da qualidade técnica do exame. Informa, por exemplo, se o paciente estava agitado durante o exame, o que pode influenciar algumas medições. Conclusões (diagnóstico e observações). 20.

(29) Descrição do Trabalho. 3.2.4.1.. Dicionário de Dados. A tabela 3.7 apresenta a visão da base de ecocardiogramas com o tipo de dados de cada campo e seus respectivos significados. Essa é a visão da base após o processo automatizado de extração dos dados das planilhas, detalhado no próximo capítulo. Os cinco primeiros campos, destacados em itálico, foram gerados, enquanto os demais são cópias exatas dos valores originais. Tabela 3.7 – Visão da base de ecocardiogramas Campo. Tipo. Arquivo. Texto. Ano. Numérico. Mês. Modelo da Planilha. Parte 2. Parte 1. Fetal ou Pediátrico. Descrição Nome do arquivo, em formato XLS do Microsoft Excel, com a planilha do exame de ecocardiograma Ano em que o exame foi realizado (informação obtida do diretório onde o arquivo está armazenado). Mês em que o exame foi realizado Categórico (informação obtida do diretório onde o arquivo está armazenado) Modelo da planilha do exame (de Categórico um total de 13 modelos identificados) Indica se o exame é um Ecocardiograma Fetal ou um Categórico Ecocardiograma Pediátrico dicotômico (informação obtida do diretório onde o arquivo está armazenado). Nome. Texto. Nome do paciente. Se este não possuir nome, por ser um feto ou um recém-nascido, faz-se referência ao nome da mãe.. MA. Texto. Nome do médico. Motivo. Texto. Motivo do exame. Peso (kg) Altura (m) Ex.No Data. Numérico Numérico Numérico Data. Idade (ou Id. Mat). Texto. SC. Numérico. GP. Texto. Id. fetal. Texto. Posição do Coração. Texto. Situs e Conexões. Texto. Peso do paciente em kg Altura do paciente em metros Número do exame Data de realização do exame Idade do paciente. Se for um feto, indica a idade da mãe. Superfície corpórea (uma função do peso e da altura) Gesta-para. Indica, para a mãe do paciente fetal, a relação quantidade de gestações / número de filhos nascidos vivos. Idade do paciente fetal Posição do coração em relação ao tórax Situs e conexões. Dimensão do Coração 1. Texto. Dimensão do coração - primeiro. 21.

(30) Parte 3. Descrição do Trabalho. Dimensão do Coração 2. Texto. Drenagem venosa Atrios Septo interatrial. Texto Texto Texto. Valvas atrioventriculares. Texto. Ventriculos. Texto. Septo interventricular. Texto. Valvas ventriculoarteriais. Texto. Grandes vasos Pericárdio. Texto Texto. PARTE II Circulo do Coracao. Texto. Função cardíaca. Texto. Fluxos intracardíacos 1. Texto. Fluxos intracardíacos 2. Texto. Fluxos intracardíacos 3. Texto. Ritmocardíaco FC. Texto Numérico. VEd. Numérico. VEs. Numérico. SIV. Numérico. PP. Numérico. Ao AE. Numérico Numérico. Vmáx.Ao. Numérico. TE Ao. Numérico. QS. Numérico. VD AP. Numérico Numérico. FE. Numérico. Fenc. Numérico. AE/Ao. Numérico. SIV/PP. Numérico. Vmáx.AP. Numérico. valor Dimensão do coração - segundo valor Integridade da drenagem venosa Integridade dos átrios Integridade do septo interatrial Integridade das valvas atrioventriculares Integridade dos ventrículos Integridade do septo interventricular Integridade das valvas ventriculoarteriais Integridade dos grandes vasos Integridade do pericárdio Conteúdo da Parte 2 do exame para os modelos de planilha do Círculo do Coração Função cardíaca Fluxos intracardíacos - primeiro valor Fluxos intracardíacos - segundo valor Fluxos intracardíacos - terceiro valor Ritmo cardíaco Freqüência cardíaca Dimensão do ventrículo esquerdo na diástole Dimensão do ventrículo esquerdo na sístole Dimensão do septo interventricular Dimensão da parede posterior do ventrículo esquerdo Dimensão da aorta Dimensão do átrio esquerdo Velocidade máxima do sangue na aorta Tempo de ejeção na aorta Débito cardíaco sistêmico (uma função dos campos FC, Ao, Vmáx.Ao e TEAo) Dimensão do ventrículo direito Dimensão da artéria pulmonar Fração de ejeção (uma função de VEd e VEs) Fração de encurtamento (uma função de VEd e VEs) Razão entre as dimensões do átrio esquerdo e da aorta (AE/Ao) Razão entre as dimensões do septo interventricular e da parede posterior do ventrículo esquerdo (SIV/PP) Velocidade máxima do sangue na artéria pulmonar. 22.

(31) Parte 5. Parte 4. Descrição do Trabalho TE AP. Numérico. QP. Numérico. QUALIDADE TÉCNICA DO EXAME 1. Texto. QUALIDADE TÉCNICA DO EXAME 2. Texto. CONCLUSÕES E RECOMENDAÇÕES 1 CONCLUSÕES E RECOMENDAÇÕES 2 CONCLUSÕES E RECOMENDAÇÕES 3 CONCLUSÕES E RECOMENDAÇÕES 4 CONCLUSÕES E RECOMENDAÇÕES 5 CONCLUSÕES E RECOMENDAÇÕES 6 CONCLUSÕES E RECOMENDAÇÕES 7. Texto Texto Texto Texto Texto Texto Texto. 3.2.4.2.. Tempo de ejeção na artéria pulmonar Débito cardíaco pulmonar (função dos campos FC, AP, Vmáx.AP e TEAP) Qualidade técnica do exame linha 1 Qualidade técnica do exame linha 2 Conclusões - linha 1 Conclusões - linha 2 Conclusões - linha 3 Conclusões - linha 4 Conclusões - linha 5 Conclusões - linha 6 Conclusões - linha 7. Análise Descritiva. A qualidade dos dados está resumida na tabela 3.8, que mostra o nível de preenchimento de todos os campos e algumas observações acerca do formato dos dados armazenados. A maioria dos campos da base está presente em todos os modelos de planilha, porém, alguns deles pertencem a modelos específicos, como pode ser observado mais adiante na tabela 3.11. A quantidade de ausentes da tabela 3.8 foi calculada considerando apenas a distinção entre os campos unicamente fetais e aqueles unicamente pediátricos. Para os demais, todos os registros foram utilizados no cálculo. Tabela 3.8 – Qualidade dos dados da base de ecocardiogramas Campo Arquivo Ano Mês Modelo da Planilha Fetal ou Pediátrico Nome MA Motivo Peso (kg) Altura (m) Ex.No Data Idade (ou Id. Mat) SC. Ausentes 0,00% 0,00% 0,00% 0,00% 0,00% 0,00% 1,75% 10,15% 5,24% 16,42% 3,91%. Observação. Ausência de identificador único por médico Ausência de identificador único por motivo Presença de outliers e valores inválidos Presença de outliers e valores inválidos Presença de valores inválidos Vários formatos distintos de data e presença de 0,07% valores inválidos Valor numérico expresso como texto de forma 2,71% não-padronizada 5,80% Presença de valores inválidos. 23.

(32) Descrição do Trabalho. GP Id. fetal Posição do Coração Situs e Conexões Dimensão do Coração 1 Dimensão do Coração 2 Drenagem venosa Atrios Septo interatrial Valvas atrioventriculares Ventriculos Septo interventricular Valvas ventriculoarteriais Grandes vasos Pericárdio PARTE II Circulo do Coracao Função cardíaca Fluxos intracardíacos 1 Fluxos intracardíacos 2 Fluxos intracardíacos 3 Ritmocardíaco FC VEd VEs SIV PP Ao AE Vmáx.Ao TE Ao QS VD AP FE Fenc. Valores categóricos expressos de forma nãopadronizada; presença de valores inválidos Valor numérico expresso como texto de forma 1,57% não-padronizada 0,45% Valores categóricos expressos de forma não3,24% padronizada 0,45% 0,51% Valores categóricos expressos de forma não3,79% padronizada Valores categóricos expressos de forma não3,78% padronizada Valores categóricos expressos de forma não3,27% padronizada Valores categóricos expressos de forma não3,25% padronizada Valores categóricos expressos de forma não3,95% padronizada Valores categóricos expressos de forma não3,26% padronizada Valores categóricos expressos de forma não3,31% padronizada Valores categóricos expressos de forma não3,39% padronizada Valores categóricos expressos de forma não3,27% padronizada Texto longo com todas as informações da Parte 0,00% 2 Valores categóricos expressos de forma não3,14% padronizada Valores categóricos expressos de forma não3,58% padronizada Valores categóricos expressos de forma não5,20% padronizada Valores categóricos expressos de forma não20,68% padronizada Valores categóricos expressos de forma não8,99% padronizada 4,94% 5,14% 5,07% 5,42% 5,46% 4,96% 5,23% 6,11% 6,25% 5,00% 10,67% 8,30% 5,10% 5,09% 4,16%. 24.

(33) Descrição do Trabalho AE/Ao SIV/PP Vmáx.AP TE AP QP QUALIDADE TÉCNICA DO EXAME 1 QUALIDADE TÉCNICA DO EXAME 2 CONCLUSÕES E RECOMENDAÇÕES 1 CONCLUSÕES E RECOMENDAÇÕES 2 CONCLUSÕES E RECOMENDAÇÕES 3 CONCLUSÕES E RECOMENDAÇÕES 4 CONCLUSÕES E RECOMENDAÇÕES 5 CONCLUSÕES E RECOMENDAÇÕES 6 CONCLUSÕES E RECOMENDAÇÕES 7. 5,01% 5,49% 6,73% 6,86% 5,15% 2,11% 3,90% 62,30% 10,43% 14,91% 18,98% 34,99% 78,54% 94,96%. Valores categóricos expressos de forma nãopadronizada Valores categóricos expressos de forma nãopadronizada Valores categóricos expressos de forma fracamente padronizada Valores categóricos expressos de forma fracamente padronizada Valores categóricos expressos de forma fracamente padronizada Valores categóricos expressos de forma fracamente padronizada Valores categóricos expressos de forma fracamente padronizada Valores categóricos expressos de forma fracamente padronizada Valores categóricos expressos de forma fracamente padronizada. Devido à falta de padronização no preenchimento dos campos das planilhas, aqueles de natureza categórica se confundem com campos de texto. No capítulo seguinte, os campos mais relevantes serão processados e uma análise descritiva do resultado será apresentada.. 3.3. Preparação dos Dados As fontes de dados precisam passar por um pré-processamento antes de serem importadas para as ferramentas de mineração de dados. Antes de qualquer coisa, todas elas têm que estar em formato tabelar, o que não acontece com as planilhas de ecocardiogramas. A base de dados relacional dos ecocardiogramas será então criada nesta etapa do CRISP-DM. O passo seguinte é a filtragem dos dados, que consiste na eliminação tanto de registros da base como de campos irrelevantes ou com conteúdo de difícil obtenção.. 25.

(34) Descrição do Trabalho. 3.3.1.. Base de Cadastro de Pacientes. Apesar de ser a base mais rica em volume, a qualidade dos dados é muito baixa, como mostrou a tabela 3.2 durante a análise descritiva desta base. De acordo com a tabela: •. Informações importantes como peso, altura e sexo apresentam menos de 1% de preenchimento;. •. As datas de nascimento e de cadastro apresentam muitos valores inválidos;. •. Os nomes dos pais, que poderiam ser úteis para rastrear pacientes inicialmente sem nome e que passaram a ter nome, possuem uma quantidade relativamente alta de ausentes, além de apresentarem conteúdo inválido;. •. Os dados residenciais não seguem um padrão para, por exemplo, nomes de bairros ou formato de CEP, além de também apresentarem informações inválidas.. Os únicos campos não descartados desta base foram o código de identificação do paciente no banco de dados e o seu nome. Há um interesse no nome do paciente por ser essa a única forma de relacionar a base de consultas à base de ecocardiogramas. Um problema já apontado que existe neste campo ocorre quando o paciente ainda não possui um nome, levando nestes casos o nome da mãe. Outro problema é que um mesmo nome nem sempre é escrito da mesma forma mais de uma vez. Estes problemas serão tratados durante a preparação da base de ecocardiogramas, adiante, na seção 3.3.3.5.. 3.3.2.. Base de Consultas. A base de consultas teve um melhor planejamento do que a base de cadastro, o que deu àquela uma boa estrutura, com uma padronização nos domínios da maioria dos seus campos. O processamento necessário sobre essa base englobou os seguintes pontos, explicados adiante: •. Filtragem dos campos a serem utilizados; 26.

(35) Descrição do Trabalho •. Criação de um campo que indica a presença ou a ausência de preenchimento do campo comentarioMotivos;. •. Preparação do campo primeiroDiagnostico, alvo da classificação, para diminuir a quantidade inicial de classes de 7 para 3 e 2.. 3.3.2.1.. Filtragem dos Campos. A tabela 3.9 exibe a relação dos campos descartados e os respectivos motivos. Tabela 3.9 – Campos descartados da base de consultas Campo dataDiagnosticoInicial hap has. Motivo Apresenta vários formatos distintos de data Informação a posteriori, obtida a partir dos exames clínicos Informação a posteriori, obtida a partir dos exames clínicos Baixo nível de preenchimento e conteúdo textual em comentarioMotivos linguagem natural (formato de difícil processamento) Alto nível de detalhe da informação em relação à baixa segundoDiagnostico quantidade de registros da base Alto nível de detalhe da informação em relação à baixa terceiroDiagnostico quantidade de registros da base Baixo nível de preenchimento e conteúdo textual em comentarioDiagnositco linguagem natural (formato de difícil processamento) Baixo nível de preenchimento e conteúdo textual em comentarioConduta linguagem natural (formato de difícil processamento) responsavelDiagnostico Não existe um código único por médico dataMudancaDiagnosticoInicial Apresenta vários formatos distintos de data Conteúdo textual em linguagem natural (formato de difícil novoDiagnostico processamento) ResponsavelNovoDiagnostico Não existe um código único por médico. Como aponta a tabela, os campos de data foram descartados por apresentarem vários formatos distintos de data, o que impossibilita seu processamento direto. Os campos de comentários foram descartados por possuírem um baixo nível de preenchimento e um tipo de dado de difícil processamento. A ausência de um código identificador único por médico fez com que fossem também eliminados os campos de identificação dos médicos responsáveis. Outras variáveis importantes foram descartadas devido à alta diversidade da informação que elas apresentam em relação à baixa quantidade de registros 27.

(36) Descrição do Trabalho presentes na base. Estas variáveis, que indicam informações ricas em detalhe relativas a diagnóstico, tornaram-se sem valor para a mineração de dados por possuírem um domínio com uma alta quantidade de valores categóricos distintos em uma base que dá pouca ou até nenhuma representatividade para estes valores. Os últimos campos eliminados da base foram os relativos à hipertensão arterial, por serem informações a posteriori. A hipertensão não é um sintoma, mas uma doença, detectada apenas após a realização dos exames. Como o objetivo do trabalho é avaliar o paciente no momento da chegada, apenas as informações conhecidas neste ponto podem ser utilizadas (informações a priori); aquilo que é conhecido após o diagnóstico já não faz sentido em ser utilizado (informações a posteriori).. 3.3.2.2.. Criação de Campo. Com a eliminação relativamente alta de campos da base, qualquer informação que possa ser aproveitada é válida. Entre as variáveis mais importantes estão aquelas relacionadas ao motivo pelo qual um paciente foi encaminhado ao cardiologista. O campo de comentário relativo ao motivo da consulta foi eliminado, mas a informação que indica a presença ou ausência de algum comentário pode ser aproveitada. Para não se perder este dado, a partir do campo comentarioMotivos foi criado um novo campo binário chamado haComentarioMotivos.. 3.3.2.3.. Pré-processamento do Campo de Diagnóstico Inicial. Como mostra a tabela 3.10, este campo categórico apresenta originalmente sete valores distintos, o que pode ser considerado uma quantidade relativamente alta para a variável alvo quando se trata de algoritmos de classificação. Estes valores, porém, podem ser agrupados de acordo com algum critério, e, desta maneira, diminuir a quantidade de classes.. 28.

(37) Descrição do Trabalho O primeiro critério utilizado foi reunir em uma única classe aqueles diagnósticos mais graves, que são normalmente seguidos de um processo cirúrgico (Anormal Cirúrgico), e, em uma outra classe, os menos graves (Anormal Clínico). Como resultado desse primeiro agrupamento temos a diminuição da quantidade de classes de sete para três. Foi ainda utilizado um segundo critério, para diminuir a quantidade de classes de três para dois. Esse último agrupamento isolou os pacientes da classe Anormal Cirúrgico (Cirúrgico) dos demais, unindo os pacientes da classe Normal com aqueles da classe Anormal Clínico, criando uma classe de pacientes ou saudáveis ou com cardiopatias menos graves (Não-cirúrgico). A tabela 3.10 deixa clara a relação entre os valores originais e o os novos. Por simplicidade, no restante da dissertação, a classe Anormal Clínico será referenciada apenas por Anormal. Tabela 3.10 – Classes originais e novas do campo de diagnóstico inicial da base de consultas 1 2 3 4 5 6 7. 7 classes originais Cardiopatia congênita simples Cardiopatias congênitas complexas Anormal (Outro) Cardiopatia adquirida Fator de Risco para coronariopatia Arritmia Normal. 3.3.3.. 3 classes derivadas. 2 classes derivadas. Anormal Cirúrgico. Cirúrgico. Anormal Clínico (ou apenas Anormal). Não-cirúrgico. Normal. Base de Ecocardiogramas. A base de ecocardiogramas é a mais rica em informação, e a que está armazenada no formato mais difícil. Muita informação foi perdida durante a limpeza das bases de pacientes e de consultas, o que deu mais importância à base de ecocardiogramas para este trabalho. Outra característica que chama a atenção para essa base é que o exame de ecocardiograma é o principal instrumento para se chegar ao diagnóstico, informação que está presente nas planilhas, juntamente com as suas muitas variáveis categóricas e numéricas. Apesar dos dados estarem em um formato de difícil processamento, vale um investimento na preparação desta base.. 29.

(38) Descrição do Trabalho Extrair os dados das planilhas e colocá-los em um formato tabelar foi uma atividade extremamente custosa, principalmente em tempo. As maiores dificuldades surgiram da falta de regularidade do formato das planilhas, que existem em vários modelos e versões, e dos dados armazenados. Ao final do trabalho, uma aplicação foi construída, capaz de identificar o modelo da grande maioria das planilhas, extrair os seus dados e armazená-los em formato tabelar. Um outro problema enfrentado, bastante comum em dados de natureza médica [Cios & Moore, 2002], foi a falta de padronização dos dados armazenados. Este problema foi contornado, como será mostrado adiante nesta seção, através de um processamento que converteu todas as variáveis categóricas em dicotômicas.. 3.3.3.1.. Período da Base. Em relação à estrutura das planilhas e à forma como elas estão organizadas, foram observadas estabilidade e uniformidade a partir de 2003. Antes desse ano não havia aparentemente uma preocupação com a organização da informação, apenas com o formato final impresso do exame. Como resultado, não existia um padrão de nomenclatura dos arquivos, nem se seguia uma hierarquia de diretórios para armazená-los. A criação da base de ecocardiogramas a partir da extração dos dados das planilhas eletrônicas é um procedimento automatizado, logo, uma mínima organização se faz necessária. Como conseqüência desta restrição, a base de ecocardiogramas foi extraída das planilhas a partir de janeiro de 2003. Os dados mais recentes no momento da extração são de maio de 2006, resultando em uma base de mais de três anos.. 30.

(39) Descrição do Trabalho. 3.3.3.2.. Aplicação para Geração da Base. O procedimento automatizado para a extração dos dados das planilhas dos exames e o armazenamento destes em um formato padrão para base de dados foi implementado utilizando a linguagem Java. O formato das planilhas do Excel não é padrão para a programação, e operações simples de leitura e escrita não são triviais. Para permitir a leitura dos dados armazenados nas células das planilhas dos exames de ecocardiogramas, uma biblioteca que permitisse essa abstração foi pesquisada e escolhida. Jakarta POI8 é o nome de uma API Java que permite acessar alguns formatos de arquivos da Microsoft, entre eles o do Excel. Por ser uma aplicação open-source, pertencente a um projeto confiável, e de fácil utilização, ela foi escolhida para compor a aplicação Java construída para geração da base de dados. O maior desafio na elaboração desta aplicação foi a enorme dificuldade para identificar os variados modelos de planilha que deveriam ser reconhecidos. No início não se sabia quantos modelos existiam, e foi de uma forma exaustiva, na tentativa e no erro, que a aplicação foi incrementalmente evoluindo até reconhecer uma quantidade aceitável de modelos de planilha.. 3.3.3.3.. Identificação dos Modelos de Planilha. Há modelos naturalmente diferentes de planilha quando aplicados a situações distintas. Pacientes fetais possuem modelos diferentes daqueles dos pacientes pediátricos. O mesmo se observa entre pacientes de hospitais distintos nos quais a clínica atua; cada hospital possui modelos próprios de planilha. Estes modelos são simples de serem identificados, mas o desafio está no reconhecimento daqueles que surgem aleatoriamente, como pequenas variações dos modelos originais que acabam criando novas versões. Entendese como um novo modelo de planilha aquele que possui pelo menos uma célula de dado em uma posição diferente daquela nos modelos já conhecidos.. 8. Sítio da Jakarta POI na Internet disponível em http://jakarta.apache.org/poi/. 31.

Referências

Documentos relacionados

Não fez Com duas soluções uma sofrendo redução e a outra oxidação, em um circuito fechado com fio condutor metálico e uma ponte salina é possível produzir uma pilha química

em efeitos superiores, contudo, considerando-se a realização do experimento apenas no Rio Grande do Sul e as particularidades de cada região produtiva, a extrapolação dos

Os maiores coeficientes da razão área/perímetro são das edificações Kanimbambo (12,75) e Barão do Rio Branco (10,22) ou seja possuem uma maior área por unidade de

O valor da reputação dos pseudônimos é igual a 0,8 devido aos fal- sos positivos do mecanismo auxiliar, que acabam por fazer com que a reputação mesmo dos usuários que enviam

- Se o estagiário, ou alguém com contacto direto, tiver sintomas sugestivos de infeção respiratória (febre, tosse, expetoração e/ou falta de ar) NÃO DEVE frequentar

Feitiço do Segredo: deposita um segredo numa pessoa de confiança, essa pessoa fica deposita um segredo numa pessoa de confiança, essa pessoa fica sendo o "Fiel do sendo o

Discussion The present results show that, like other conditions that change brain excitability, early environmental heat exposure also enhanced CSD propagation in adult rats.. The

Atualmente os currículos em ensino de ciências sinalizam que os conteúdos difundidos em sala de aula devem proporcionar ao educando o desenvolvimento de competências e habilidades