• Nenhum resultado encontrado

ASSOCIAÇÃO PROBABILÍSTICA DOS ATENDIMENTOS DO PACIENTE NAS BASES DE DADOS DO SISTEMA ÚNICO DE SAÚDE

N/A
N/A
Protected

Academic year: 2021

Share "ASSOCIAÇÃO PROBABILÍSTICA DOS ATENDIMENTOS DO PACIENTE NAS BASES DE DADOS DO SISTEMA ÚNICO DE SAÚDE"

Copied!
6
0
0

Texto

(1)

1

ASSOCIAÇÃO PROBABILÍSTICA DOS ATENDIMENTOS DO

PACIENTE NAS BASES DE DADOS DO SISTEMA ÚNICO DE SAÚDE

Fábio Antero Pires1, Marco Antônio Gutierrez1

1

Serviço de Informática do Instituto do Coração do HCMFUSP, São Paulo, Brasil Resumo: Os pacientes atendidos pelo Sistema Único de Saúde não possuem um identificador único, isto

impossibilita a comparação de populações e a realização de estudos epidemiológicos com foco em seguimento do paciente. Dentro deste contexto, este trabalho teve como objetivo criar um banco de dados para pesquisas epidemiológicas, com foco no paciente, através da associação de registros de internações, atendimentos ambulatoriais de alta complexidade e declarações de óbitos, contidos nos bancos de dados do Sistema Único de Saúde. O método de associação de registros proposto apresentou uma acurácia de 99,34%, uma sensibilidade de 99,68% e uma especificidade de 97,94%.

Palavras-chave: Informática em Saúde Pública, Mineração de Dados, Sistema Único de Saúde, Estudos

epidemiológicos.

Abstract: The patients treated in the Brazilian public health system do not have a unique identifier, which makes

it impossible to compare populations and develop epidemiological studies focusing on patient treatment. In this context, this study created a database for epidemiological research, focusing on the patient, through the record linkage between records of inpatient, records of outpatient and records of death, based on the database of Brazilian public health system. The method of record linkage proposed showed an accuracy of 99.34%, a sensitivity of 99.68% and a specificity of 97.94%.

Keywords: Medical Record Linkage, Data mining, Public Health Informatics, Health Care Quality, Access, and

Evaluation

Introdução

Desde a criação do Sistema Único de Saúde (SUS)¹, o Ministério da Saúde, através do Departamento de Informática do SUS (DATASUS)², armazena milhões de informações sobre internações, assim como exames realizados e medicações utilizadas na assistência terapêutica. Entretanto, como os pacientes atendidos pelo SUS não possuem um identificador único, não é possível acompanhar o seguimento do tratamento dispensado a cada paciente e, desta forma, não é possível a realização de comparação entre populações e a realização de estudos epidemiológicos com foco no seguimento do paciente. A ciência da computação vem estudando métodos que possibilitam associar registros, com base nas características destes registros, de um ou mais bancos de dados a um indivíduo. Estes métodos são conhecidos como relacionamento de registros (Record Linkage). Apesar de aparentemente ser um tema novo, o termo e o conceito vêm sendo estudado e debatido a varias décadas. Newcombe e Kennedy aparecem como um dos pioneiros em 1962, seguido por Fellegi e Sunter com a publicação “A Theory for Record Linkage” 3,4

. O relacionamento de registros entre bancos de dados pode ser classificado em determinístico e probabilístico. No relacionamento determinístico os registros são relacionados, tendo como base um determinado identificador ou conjunto de identificadores. Como exemplos podemos citar o CPF (cadastro nacional de pessoa física) e a CNH (carteira nacional de habilitação). Na ausência desses identificadores, a alternativa é o uso do relacionamento probabilístico, o qual utiliza combinações de atributos para classificar o relacionamento como improvável, duvidoso ou provável. Essa classificação é baseada na semelhança dos atributos utilizados para comparação. Dentro deste contexto, este trabalho teve como objetivo criar um banco de dados para pesquisas epidemiológicas, com foco no paciente, através da associação de registros de internações, atendimentos de alta complexidade e eventualmente o óbito, baseado nos bancos de dados do Sistema de

(2)

2

Informações Hospitalares (SIH/SUS), do Sistema de Informações Ambulatoriais (SIA/SUS) e do Sistema de Informação sobre Mortalidade (SIM) do estado de São Paulo, cedidos pela Secretaria do Estado da Saúde.

Métodos

Neste trabalho foram utilizadas duas fontes de dados, a primeira disponibilizada pela Secretaria Estadual da Saúde de São Paulo (SES/SP) a qual denominamos “BD-SES/SP” e a segunda disponibilizada pelo Hospital das Clínicas da Faculdade de Medicina da Universidade de São Paulo (HCFMUSP) a qual denominamos “BD-HCFMUSP”. Para que fosse possível disponibilizar a comparação de populações, foi fundamental ter o seguimento dos pacientes baseados nos episódios de assistências dispensadas aos mesmos e isto somente seria possível tendo o banco de dados com os atendimentos identificados, ou seja, estar contido no banco de dados os atributos que possibilitem a identificação do paciente. O BD-SES/SP continha atendimentos da AIH/SIH-SUS (2000 à 2005), APAC/SIA-SUS (2000 à 2007) e SIM (2006 à 2007). O BD-HCFMUSP teve como objetivo identificar pacientes atendidos no hospital no período 2000 à 2007 e que estavam presentes no BD-SES/SP. O relacionamento entre os dois bancos de dados permitiu a criação de um banco de dados denominado “BD-Controle”, o qual foi utilizado para avaliar o algoritmo de relacionamento de registros (Record Linkage). O relacionamento entre os bancos de dados SES/SP e BD-HCFMUSP foi realizado através das variáveis <número da AIH> e <número da APAC>, identificadores unívocos para os sistemas de internação e atendimento de alta complexidade, respectivamente. As variáveis de identificação do paciente disponíveis no BD-SES/SP e utilizadas pelo algoritmo de relacionamento de registros foram: <Nome do Paciente>, <Data de Nascimento>, <Nome da Mãe>, <Sexo>, <CPF do Paciente>, <Município de Residência>, <Logradouro de Residência>, <CEP da Residência>, <Número da APAC>, <Número da AIH> e <Data de Óbito>. O sucesso de relacionamento de registro depende diretamente da qualidade do preenchimento das variáveis envolvidas. A inspeção manual dos registros era impossível devido ao enorme volume de registros. Desta forma, métodos objetivando encontrar dados incompletos, ausentes ou com erros de preenchimento, foram desenvolvidos e aplicados no BD-SES/SP. A análise do resultado auxiliou no desenvolvimento do método de padronização de variáveis que comtemplou: 1) desmembramento da variável <logradouro> em <nome do logradouro>, <número do logradouro> e <complemento do logradouro>; 2) substituição dos numerais no nome do logradouro por correspondente grafia em extenso, por exemplo, “25” foi transformado para “vinte e cinco”; 3) criação de dicionários de abreviações e nomes inválidos; 4) fonetização8, 9 das variáveis <nome do paciente>, <nome da mãe>, <nome do logradouro> a qual teve objetivo solucionar problemas de erros de grafias e abreviações. A técnica de blocagem10 utilizou três etapas sequenciais e complementares. A primeira etapa foi realizada pelo código fonético do nome abreviado do paciente. A segunda etapa foi iniciada ao final da primeira e utilizou o código fonético do primeiro e último nome do paciente mais a data de nascimento do paciente. A última etapa de blocagem foi iniciada ao final da segunda e utilizou código fonético do primeiro nome do paciente mais a data de nascimento do paciente. O processo de comparação proposto foi baseado em uma hierarquia, partindo de uma concordância perfeita até a discordância total e utilizou as varáveis padronizadas de identificação do pacientes considerando os pesos de concordância total, concordância parcial e discordância descritos na Tabela 1. Ao final, os pesos atribuídos para cada variável foram somados e o resultado comparado com os limites mínimos estabelecidos na Tabela 1. O processo de relacionamento de registros foi aplicado nos dois bancos de dados, BD-Controle e BD-SES/SP. A aplicação do método no BD-Controle teve como objetivo avaliar o método proposto em um banco de dados controlado, ou seja, onde era conhecido

(3)

3

qual paciente recebeu o tratamento. A avaliação foi realizada através do teste de sensibilidade e especificidade¹¹.

Tabela 1 – Dicionário de pesos (concordância, concordância parcial e

discordância), por variável, utilizados para o relacionamento de registros.

O conjunto de métodos propostos foram desenvolvidos utilizando os recursos PL/SQL e linguagem JAVA, disponíveis no banco de dados Oracle Database 10g release 10.2.0.4.0 – 64 bits5 e baseia-se nos processos de padronização, blocagem e relacionamento de registros6,7

Resultados

Com o objetivo de avaliar o comportamento do algoritmo de associação de registro, foi desenvolvido um algoritmo denominado “perturbador”. O algoritmo “perturbador” seleciona aleatoriamente, através da função de randomização DBMS_RANDON da Oracle Corporation¹², um registro e executa vinte e oito (28) comparações, sendo a primeira uma cópia fiel do registro original. Nas demais vinte e sete (27) comparações, são inseridas “perturbações” na cópia do registro original antes da realização da comparação. Há três tipos de perturbações realizadas pelo algoritmo: 1) Abreviações das variáveis <nome do paciente>, <nome da mãe> e <logradouro>; 2) Supressão das variáveis <CPF> e <nome da mãe>; 3) Mesclar o conteúdo das variáveis do registro original com variáveis de um segundo registro selecionado aleatoriamente através da função citada anteriormente. Através do algoritmo “perturbador”, foram selecionados mil (1000) registros os quais foram perturbados conforme os tipos de perturbações descritas anteriormente.

O total de registros carregado no BD-Controle foi de 707.960 (2,1% do BD-SES/SP), a aplicação do método de associação de registros no banco de dados BD-Controle apresentou

(4)

4

uma acúracia de 99,34%, uma sensibilidade de 99,68% e uma especificidade de 97,94%. Do total de pares associados, 99,51% dos pares foram classificados corretamente como concordantes (valor preditivo positivo), a proporção de falso-positivos foi 0,49% enquanto a proporção de falso negativo foi de 1,36%. O total de registros carregados no BD-SES/SP foi de 33.799.231. Tendo como base as variáveis de identificação do paciente, foram realizadas analises de comparação entre o BD-Controle e o BD-SES/SP, ou seja, se o BD-Controle for uma representação do BD-SES/SP, podemos esperar acúracia semelhante no método de associação de registros aplicado no BD-SES/SP. Os resultados das análises demonstram semelhanças consideráveis, na distribuição por sexo, distribuição dos dez prenomes mais frequentes e distribuição dos dez sobrenomes mais frequentes nos bancos de dados (BD-SES-SP e BD-Controle) e por último a distribuição por faixa de ano de nascimento. As diferenças variaram de 0,59% a 1,99%. A semelhança das curvas da Figura 1, resultante do algoritmo “perturbador”, demonstra que o comportamento do algoritmo de associação de registro foi similar em todos os registros. As pequenas variações existentes entre as curvas são resultados das perturbações geradas aleatoriamente pelo algoritmo “perturbador”, ou seja, se cada registro fosse perturbado com o mesmo conteúdo, todas as curvas seriam exatamente iguais e não semelhantes. A linha vermelha na horizontal representa o limite mínimo para associação do par.

Figura 1 - Resultado das perturbações geradas em mil (1000) registros Discussão

A utilização de banco de dados, denominados secundários ou administrativos, para análises epidemiológicas, avaliação da qualidade e quantidade dos serviços de saúde e auxílio da vigilância epidemiológica, vem despertando a atenção de pesquisadores no contexto da Saúde Pública. Por outro lado, para alguns pesquisadores, o fato desses dados serem considerados uma fonte "secundária", implica que eles sempre serão vistos com desconfiança, ou seja, se os dados não foram gerados com a finalidade específica para a qual eles são usados, a sua validade será sempre suspeita. O argumento de desconfiança em dados secundários não deve ser o fator decisório em sua utilização como fonte de pesquisa. Deve-se considerar que resultados obtidos através de pesquisas em dados secundários podem e, em algumas propostas

(5)

5

devem, sofrer um processo de ratificação detalhada do achado, seja através de dados primários ou através de estruturação de novos inquéritos clínicos / epidemiológicos na população de interesse. Também deve ser considerada, a possibilidade da estimulação de novos desenhos clínicos visando ratificar ou afastar hipóteses reveladas através das pesquisas realizadas em dados secundários e que aguçarem a sensibilidade do pesquisador. A realização de análises exploratórias com o objetivo de conhecer as limitações e os potenciais dessas bases de dados é uma tarefa fundamental. O sucesso no uso dessas bases de dados para aplicações na Saúde Pública, incluindo rastreabilidade e vigilância, depende fortemente do conhecimento e contexto de aplicação. A sensibilidade alcançada pelo algoritmo proposto foi de 99,68% e a especificidade de 97,94%. Considerando as duplicidades encontradas nos falso-positivos, a especificidade recalculada seria de 99,37%. Silveira e Artmann¹² em um estudo de revisão sistemática para avaliar a acurácia dos métodos de relacionamento probabilístico, encontraram sensibilidades que variaram de 74% à 98% e especificidade que variaram de 99% à 100%.

Conclusão

A construção do banco de dados BD-Controle visando verificar a eficácia do método de associação de registros e a aplicação do método neste banco de dados controlado foi fundamental para avaliar o método de forma automática em um banco de dados de grandes proporções. A técnica probabilística de relacionamento de registros mostrou-se eficiente quando aplicado nos bancos de dados do Sistema Único de Saúde. A criação de um ambiente que possibilite análise do seguimento do paciente e a comparação de populações aliado a ferramentas analíticas de pesquisas e mineração de dados podem contribuir para uma melhor gestão do Sistema Único de Saúde e estudos epidemiológicos.

Agradecimentos

Os autores agradecem o Conselho Nacional de Pesquisa e Desenvolvimento (Processo CNPq 551473/2007-0, a Fundação de Amparo à Pesquisa do Estado de São Paulo (Processo FAPESP 2006/61279-9), a Fundação Zerbini, o Grupo de Informática em Saúde da Secretaria Estadual da Saúde de São Paulo, o Grupo de Tecnologia da Informação do Hospital das Clínicas da Faculdade de Medicina da Universidade de São Paulo (HCFMUSP) e o Instituto Nacional de Ciência e Tecnologia – Medicina Assistida por Computador (INCT-MACC) pelo apoio para a realização deste trabalho.

Referências

[1] Sistema Único de Saúde Lei 8.080/90. Disponível em

http://conselho.saude.gov.br/legislacao/lei8080_190990.htm. Acesso em 16 jun. 2012. [2] Departamento de Informática do SUS. Disponível em

http://www2.datasus.gov.br/DATASUS/index.php?area=04. Acesso em 17 jun. 2012. [3] Newcombe HB, Kennedy JM. Record linkage: making maximum use of the discriminating power of identifying information. Communications of the ACM. 1962 Nov:563-6. DOI= http://doi.acm.org/10.1145/368996.369026

[4] Fellegi IP, Sunter AB. A Theory for Record Linkage. Journal of the American Statistical Association. 1969 Dec; 64(328): 1183-210. http://www.jstor.org/stable/2286061

(6)

6 [5] Oracle Database 10g. Disponível em

http://www.oracle.com/technetwork/database/database10g/overview/ds-general-oracle-database10gr2-ee--133153.pdf. Acesso em 30 mai. 2012.

[6] Sousa MH, Cecatti JG, Hardy E, Serruya SJ. Relacionamento probabilístico de registros: uma aplicação na área de morbidade materna grave (near miss) e mortalidade materna. Cad. Saúde Pública, Rio de Janeiro. 2008 Mar; 24(3):653-62.

[7] Queiroz OV, Junior AAG, Machado CJ, Andrade ELG, Junior WM, Acúrcio FA, Filho WS, Cherchiglia ML. A construção da Base Nacional de Dados em Terapia Renal Substitutiva (TRS) centrada no indivíduo: relacionamento dos registros de óbitos pelo subsistema de Autorização de Procedimentos de Alta Complexidade (APAC/SIA/SUS) e pelo Sistema de Informação sobre Mortalidade (SIM) – Brasil, 2000-2004. Epidemiol. Serv. Saúde. 2009 Abr-Jun; 18(2):107-20.

[8] Pires F A. Ambiente para extração de informação epidemiológica a partir da mineração de dez anos de dados do Sistema Público de Saúde [tese]. São Paulo: Universidade de São Paulo - Faculdade de Medicina; 2011.

[9] InCor, Serviço de Informática do Instituto do Coração HCFMUSP. Algoritmo de fonetização. Disponível em http://www.incor.usp.br/spdweb/ccssis/fonetica/. Acesso em 30 mai. 2012.

[10] Coeli, C.M.; Camargo JR, K.R.; Avaliação de diferentes estratégias de blocagem no relacionamento probabilístico de registros. Revista Brasileira de Epidemiologia, São Paulo, v. 5, n. 2, 2002. Disponível em http://www.scielo.br/scielo.php?script=sci_arttext&pid=S1415-790X2002000200006&lng=en&nrm=iso. Acesso em 08 Jun. 2012.

[11] Menezes, Ana M.B.; Santos, Iná da S. Curso de epidemiologia básica para pneumologistas. 4ª parte - Epidemiologia clínica. J. Pneumologia, São Paulo, v. 25, n. 6, Dec. 1999. Disponível em http://www.scielo.br/scielo.php?script=sci_arttext&pid=S0102-35861999000600005&lng=en&nrm=iso. Acesso em 17 Jun. 2012.

[12] Oracle Corporation. Oracle Database PL/SQL Packages and Types Reference 10g Release 2 (10.2). Disponível em http://download.oracle.com/docs/cd/B19306_01/appdev. 102/b14258/d_random.htm. Acesso em 12 Jun 2012.

[13] SILVEIRA, D.P.; ARTMANN, E. Acurácia em métodos de relacionamento probabilístico de bases de dados em saúde: revisão sistemática. Rev Saúde Pública. 2009; 43(5):875-82.

Contato

Fábio Antero Pires

Diretor da Unidade de Sistemas Instituto do Coração HCFMUSP

Av. Dr. Eneas de Carvalho Aguiar, 44 – 2º andar bloco I 05403-000 São Paulo – SP

Referências

Documentos relacionados

4 RESULTADOS E DISCUSSÃO 4.1 Caracterização da cobertura florestal e da biodiversidade vegetal no entorno dos cultivos de tomate na região de Apiaí-SP a Módulos

Este presente artigo é o resultado de um estudo de caso que buscou apresentar o surgimento da atividade turística dentro da favela de Paraisópolis, uma

Membro_Faculdade (Matrícula: Inteiro, Nome: string[50], Carga: Inteiro, IniContrato: data, Curso: string[30], professor: booleano, aluno: booleano). Membro

Mestrado em Administração e Gestão Pública, começo por fazer uma breve apresentação histórica do surgimento de estruturas da Administração Central com competências em matéria

Os resultados permitiram concluir que a cultivar Conquista apresentou a maior produtividade de grãos, no conjunto dos onze ambientes avaliados; entre as linhagens

Estes resultados apontam para melhor capacidade de estabelecimento inicial do siratro, apresentando maior velocidade de emergência e percentual de cobertura do solo até os 60

Entendendo, então, como posto acima, propõe-se, com este trabalho, primeiramente estudar a Lei de Busca e Apreensão para dá-la a conhecer da melhor forma, fazendo o mesmo com o

A variação do pH da fase móvel, utilizando uma coluna C8 e o fluxo de 1,2 mL/min, permitiu o ajuste do tempo de retenção do lupeol em aproximadamente 6,2 minutos contribuindo para