• Nenhum resultado encontrado

Doutora em Demografia. Professora Associada do Departamento de Medicina Preventiva e Social da Faculdade de Medicina da UFMG. 5

N/A
N/A
Protected

Academic year: 2021

Share "Doutora em Demografia. Professora Associada do Departamento de Medicina Preventiva e Social da Faculdade de Medicina da UFMG. 5"

Copied!
11
0
0

Texto

(1)

Resumo

O relacionamento probabilístico de registros tem sido utilizado para integrar dados dos Sistemas de Informação do Sistema Único de Saúde (SUS). Contudo, ainda são necessários mais estudos dedicados à estimativa de parâmetros para o rela-cionamento e a validação de seus resultados. Neste trabalho, foram relacionados os registros de dois grandes sistemas de informações do SUS: o Sistema de Informações Hospitalares (SIH) e as Autorizações de Procedimentos de Alta Com-plexidade (Apac) do Sistema de Informações Ambulatoriais (SIA-SUS), na modalidade Terapia Renal Substitutiva (TRS). Foram relacionados 39.448.139 registros do SIH com 645.338 da Apac/SIA-SUS. No processo foram utilizadas três técnicas para estimar os parâmetros do relacionamento, dentre elas o algoritmo EM. Para validar os resultados e definir o ponto de corte, construiu-se uma curva precision-recall (PR), utilizando-se, como padrão ouro a revisão manual por dois revisores independentes. A sensibilidade, a especificidade, o valor preditivo positivo e o valor preditivo negativo para o ponto de corte selecionado foram, respectivamente, de 0,957; 0,999; 0,962; 0,999. A concordância entre os dois revisores foi excelente (Kappa=0,956). Ao final, foram identificadas 418.336 internações referentes a 104.109 indivíduos.

Palavras-chave: Registro médico coordenado, sistemas de informação, terapia de substituição renal

Relacionamento de registros de grandes bases

de dados: estimativa de parâmetros e validação

dos resultados, aplicados ao relacionamento dos

registros das autorizações de procedimentos

ambulatoriais de alta complexidade com os

registros de sistema de informações hospitalares

Record linkage of large data sources: parameter estimation and

results validation, applied to the linkage of high complexity procedures

authorizations with the hospital information system

Odilon Vanni de Queiroz

1

, Augusto Afonso Guerra Júnior

2

, Carla Jorge Machado

3

,

Eli Iola Gurgel Andrade

4

, Wagner Meira Júnior

5

, Francisco de Assis Acurcio

6

,

Walter dos Santos Filho

7

, Mariângela Leal Cherchiglia

8

1 Mestre em Saúde Pública pela Universidade Federal de Minas Gerais (UFMG). 2 Doutorando em Saúde Pública pela UFMG.

3 PhD pela Universidade Johns Hopkins. End. Avenida Augusto de Lima, 1.376, sala 908, Barro Preto, Belo Horizonte (MG) – CEP: 30190-003 – E-mail: cjmachado@terra.com.br

4 Doutora em Demografia. Professora Associada do Departamento de Medicina Preventiva e Social da Faculdade de Medicina da UFMG. 5 Doutor em Ciências da Computação. Professor Associado do Departamento de Ciência da Computação do Instituto de Ciências Exatas da UFMG. 6 Doutor em Farmacoeconomia. Departamento de Farmácia Social da Faculdade de Farmácia da UFMG.

7 Mestre em Ciência da Computação pela UFMG.

(2)

Introdução

O Sistema Único de Saúde (SUS) possui grandes sistemas de informação que compreendem diversas ações e eventos de saúde em todo o país. Esses sistemas podem ser classificados como sistemas de informações assistenciais ou sistemas de informações epidemiológicas. Entre os primeiros pode ser citado o Sistema de Informações Hospitalares (SIH) e o Siste-ma de InforSiste-mações Ambulatoriais (SIA). Entre os segundos, o Sistema de Informação sobre Mortalidade (SIM), o Sistema de Informações sobre Nascidos Vivos (Sinasc) e o Sistema de Informação de Agravos de Notificação (Sinan). Esses sistemas, contudo, são desarticulados e possuem diferentes gestores, o que provoca uma visão fragmentada das informações de saúde e limita a sua utilidade (Mendes et al., 2000; Carvalho, 1997). O relacionamento de registros é um procedimento que permite encontrar registros de um mesmo indivíduo em ba-ses de dados diferentes (Camargo Jr. e Coeli, 2000; Herzog et

al., 2007). Representa um importante recurso para integrar

os dados desses sistemas, dando a eles aplicabilidades mais amplas do que aquelas para as quais foram criados, tais como o acompanhamento temporal de eventos (por exemplo, nascimento vivo e óbito) e o acompanhamento clínico dos pacientes (Pinheiro et al., 2006).

Existem duas estratégias clássicas de relacionamento de registros: o determinístico e o probabilístico. O relaciona-mento determinístico considera equivalentes registros que forem iguais em uma determinada chave. É indicado para situações em que exista uma chave unívoca entre os registros, como CPF. Quando tal chave não existe, a tarefa se torna mais complexa, sendo necessário utilizar combinações de campos como nome e data de nascimento, para considerar os registros como equivalentes. Já o relacionamento probabilístico classi-fica pares de registros em prováveis, improváveis e duvidosos. Essa técnica é mais indicada para situações em que não exista um identificador unívoco, pois leva em consideração a possi-bilidade de ocorrência de erros de preenchimento ou grafia, além da ocorrência de homônimos (Scheuren, 1997).

Os primeiros estudos acerca de relacionamento de re-gistros no Brasil começaram a surgir a partir da metade da

década de 1990 (Machado, 2004). Camargo Jr. e Coeli (2000) desenvolveram um software gratuito para relacionamento probabilístico de registros denominado Reclink, que passou a ser bastante utilizado no Brasil e impulsionou o desenvolvi-mento de trabalhos na área. Silva et al. (2006), realizaram uma revisão das publicações sobre relacionamento de registros em saúde até 2005 e verificaram a expansão dos estudos nessa área. Encontraram 71 publicações referentes a 40 estudos, dos quais 28 foram classificados como epidemiológicos. Predo-minaram o desenho de coorte, o uso de arquivos do SIM e do Sinasc, algoritmos determinísticos e o tema mortalidade infantil, especialmente a neonatal. Embora exista um aumen-to expressivo na utilização das técnicas de relacionamenaumen-to de registros no Brasil, ainda são raros estudos que utilizam o relacionamento de dados ambulatoriais e hospitalares (Silva et

al., 2006; Magalhães et al., 2006).

No âmbito do SUS, as informações referentes a proce-dimentos ambulatoriais são administradas pelo SIA-SUS, implantado nacionalmente em 1993. Em 1996, foi im-plantado o subsistema Apac/SIA-SUS, inicialmente para o registro dos atendimentos e procedimentos de terapia renal substitutiva (TRS) e, posteriormente, para o registro dos atendimentos de Oncologia (quimioterapia e radio-terapia) e registro de fornecimento de medicamentos. As Apac registram procedimentos de alto custo, ou procedi-mentos vinculados a programas considerados estratégicos. Diferentemente dos procedimentos ambulatoriais de baixa complexidade, nas Apac são registrados dados individuali-zados por paciente (Brasil, 2006a).

Quanto aos procedimentos realizados em ambiente hospi-talar, o SIH/SUS gerencia as autorizações de internações hos-pitalares realizadas no âmbito do SUS. Sua fonte de dados são as Autorizações de Internações Hospitalares (AIH). Uma AIH é emitida pelo órgão regulador após o recebimento de um lau-do de sua solicitação, que deve ser preenchilau-do por médicos, cirurgiões-dentistas ou enfermeiros-obstetras. Após a alta do paciente, a AIH é preenchida pelo hospital, contendo dados de identificação do paciente, do estabelecimento de saúde, além de dados clínicos e contábeis sobre procedimentos realizados, Abstract

Record linkage has been used to integrate data from Information System of Single Health System (SUS, acronym in Portuguese). However, studies dedicated to parameter estimation and validation of the results are still necessary. The present study described the record linkage of two Brazilian health information systems, concerning patients under renal replacement therapy: the hospital information system (SHI – Sistema de Informações Hospitalares) and the outpatient information system (SIA – Sistema de Informações Ambulatoriais) of SUS Overall, 39,448,139 records from SIH were linked to 645,338 records from Apac/SIA/SUS. In the process, three techniques were used to estimate the linkage parameters, including the EM algorithm. To validate the results and define the cut-off, a precision-recall curve was plotted, using as gold-standard the manual review by two independent examiners. Sensibility, specificity, positive predictive value and negative predictive value where, respectively, 0.957; 0.999; 0.962; 0.999. The agreement rate between the two reviewers was considered excellent (Kappa=0.956). As a result 418,336 hospitalizations of 104,109 patients were identified.

(3)

diagnóstico de base e estado do paciente na alta (Camargo e Coeli, 2000;Brasil, 2006b).

Apesar da iniciativa representada pela implantação do Cartão Nacional de Saúde, ainda não há um identificador uní-voco que permita integrar todos os sistemas de informação do SUS, o que faz da técnica de relacionamento probabilístico de registros uma importante ferramenta para esse fim (Co-eli e Camargo, 2002). Um dos aspectos mais importantes e complexos dessa técnica é a estimação de parâmetros (Junger, 2006). Algumas técnicas já foram propostas para estimar esses parâmetros, mas a sua utilização ainda é pouco explorada no Brasil (Herzog, 2007; Junger, 2006; Conn e Bishop, 2005).

O presente estudo faz parte do projeto de pesquisa “Ava-liação econômico-epidemiológica das terapias renais substi-tutivas no Brasil” (Projeto TRS), desenvolvido pelo Grupo de Pesquisa em Economia da Saúde (GPES), vinculado ao De-partamento de Medicina Preventiva e Social da Faculdade de Medicina da Universidade Federal de Minas Gerais (UFMG). Com o objetivo de realizar uma avaliação do estado e dos resultados das modalidades de TRS no Brasil, o projeto TRS construiu, por meio de relacionamento de registros, uma base nacional de dados em TRS, a partir dos dados do subsistema Apac/SIA-SUS (Cherchiglia et al., 2007). Posteriormente, es-ses dados foram relacionados com o SIM, do período de 2000 a 2004 (Queiroz et al., 2009).

Este trabalho dá continuidade à construção dessa base ao adicionar dados de procedimentos realizados em ambiente hospitalar. Assim, este estudo específico teve como objetivo relacionar, pela técnica probabilística, os registros do SIH/ SUS com registros das Apac, na modalidade de terapia renal substitutiva (TRS), para todo o território nacional de 2000 a 2003. Além disso, este trabalho também visou estimar os parâmetros para tal relacionamento e validar seus resultados.

Método

A base de dados identificada das Apac do sistema SIA/ SUS, no período de 1º de novembro de 1999 a 31 de junho de 2005, bem como o banco de dados completo do SIH, referen-tes ao período 2000 a 2003, foram disponibilizados em abril de 2005 pelo DATASUS, por intermédio do Departamento de Economia da Saúde (DES) do Ministério da Saúde, conforme termo de compromisso e responsabilidade firmado entre o DES e o GPES/UFMG. O estudo foi aprovado pelo Comitê de Ética da UFMG, por meio do parecer ETIC nº 397/ 2004.

Os dados foram importados para o software gerenciador de banco de dados MySQL (versão 5.0), utilizado para o trata-mento dos dados e o relacionatrata-mento dos registros, por meio

de uma rotina em linguagem SQL. Algumas funcionalidades foram implementadas em linguagem de programação C.

Operacionalmente, o processo de relacionamento de re-gistros consiste na padronização, blocagem e pareamento de registros, as quais são descritas (Camargo e Coeli, 2000).

Padronização e limpeza dos dados

Herzog et al. (2007) dividem essa etapa inicial de tratamen-to dos dados, também chamada de limpeza, em padronização e divisão dos identificadores em termos (parsing). O objetivo é aumentar a probabilidade de valores equivalentes serem identificados como tal pelo relacionamento. A padronização consiste em codificar os campos dos arquivos de dados em formato comum entre as bases relacionadas, além de verificar a consistência e integridade dos dados. Já a divisão em termos consiste em dividir as variáveis em partes que podem ser comparadas mais facilmente por um computador, como, por exemplo, dividir endereços em logradouro, número e comple-mento, ou dividir nomes em prenome e sobrenome.

Foram utilizadas as seguintes variáveis comuns às duas bases de dados: (1) CPF, (2) nome completo, (3) sexo, (4) data de nascimento, (5) código do Instituto Brasileiro de Geografia e Estatística (IBGE) do município de residência e (6) logra-douro de residência. Havia também informações de CEP e de município do estabelecimento de saúde, mas, por possuírem informações redundantes, ou estarem fortemente associados com o código IBGE do município de residência, não foram utilizadas.

As variáveis nome, sexo, data de nascimento e código IBGE do município de residência passaram pelo processo de padronização descrito por Queiroz et al. (2009) para o rela-cionamento dos registros entre a base nacional de dados em TRS e o SIM. O nome do indivíduo foi dividido em nome, nome do meio e sobrenome.

A variável CPF foi convertida para nulo nas seguintes situ-ações: quando não tivesse 11 dígitos; quando o dígito verifica-dor fosse incorreto; quando fosse composto de 11 repetições do mesmo número (00000000000, 11111111111...99999999999). Teoricamente, o CPF seria um identificador unívoco entre as duas bases, de modo que poderia ser utilizado em um rela-cionamento pelo método determinístico. Porém, observou-se que, por ser de preenchimento opcional no SIH, somente 10% dos registros estavam preenchidos corretamente. Além disso, em muitas Apac, o campo estava preenchido com os valores “00000000000” e “00000000196”.

As letras da variável logradouro foram convertidas para maiúsculo, e acentos e caracteres de pontuação foram remo-vidos. As palavras “RUA”, “AVENIDA” e “RODOVIA” foram

(4)

abreviadas para “R”, “AV” e “ROD”, respectivamente, para que ficassem compatíveis com valores já abreviados.

Conforme descrito em Cherchiglia et al. (2007), foram identificados 176.773 pacientes em TRS nos registros das Apac, os quais possuíam um total de 5.647.891 registros. Esses 5.647.891 registros possuíam 645.338 combinações diferentes de campos para as variáveis utilizadas neste estudo. Foi gera-do um arquivo com essas 645.338 conformações, o qual foi utilizado no relacionamento de registros. Caso alguma das conformações de um paciente fosse relacionada a uma AIH, essa AIH seria identificada como uma internação desse pa-ciente. Quanto aos dados do SIH, eram 47.851.514 registros; destes, 8.403.375 registros referentes a partos foram excluídos por não serem de interesse para o projeto de pesquisa, restan-do 39.448.139 registros.

Blocagem

A blocagem consiste na indexação dos arquivos a serem relacionados segundo uma chave formada por um campo ou pela combinação de mais de um campo. Apenas registros que concordam nessa chave são comparados. O objetivo é reduzir o custo computacional de se comparar todos os pares do pro-duto cartesiano das duas bases, restringindo a comparação aos pares com maior probabilidade de serem verdadeiros (Coeli & Camargo Jr., 2002).

Devido ao tamanho das duas bases de dados, as chaves de blocagem tiveram de ser bastante restritas. Foram compara-dos os pares que atendessem a algum compara-dos seguintes critérios: (1) concordassem em primeiro nome, sobrenome e municí-pio de residência; ou (2) concordassem em primeiro nome, sobrenome e data de nascimento; ou (3) concordassem em CPF; ou (4) concordassem em data de nascimento, municí-pio de residência e sexo. Pares que atendessem a mais de um critério, foram comparados somente uma vez. A utilização de quatro critérios diferentes objetivou reduzir a probabilidade de um par verdadeiro não ser encontrado devido a um erro de preenchimento das variáveis de blocagem.

Pareamento de registros

O relacionamento automático de registros, pela técni-ca probabilístitécni-ca, foi inicialmente descrito no trabalho de Newcombe et al. (1959). Posteriormente, Fellegi e Sunter (1969) formalizaram matematicamente a técnica. O modelo de Fellegi e Sunter (1969) define que os pares pertencentes ao produto cartesiano de duas bases de dados AxB são perten-centes a dois conjuntos de pares distintos: o conjunto M, que representa os pares formados por uma mesma entidade, e o conjunto U, que representa os pares formados por entidades diferentes.

M = (a,b) A B | a = b{ }

U = (a,b) A B | a b{ }

Os pares de registros são comparados quanto a cada uma de suas variáveis identificadoras. Para cada uma dessas variá-veis é definido um peso para a concordância ou discordância. Esse peso é calculado baseado em quatro probabilidades con-dicionais: (1) a probabilidade condicional de concordância na variável, dado que o par de registros pertence à mesma enti-dade (mi=Prob[ (a,b) concordam na variável i | (a,b) Є M] );

(2) a probabilidade condicional de concordância na variável, dado que o par de registros não pertence à mesma entidade (ui=Prob[ (a,b) concordam na variável i | (a,b) Є U] ); (3) a

probabilidade condicional de discordância na variável, dado que o par de registros pertence à mesma entidade (1- mi); (4) a probabilidade condicional de discordância na variável, dado que o par de registros não pertence à mesma entidade (1- ui).

Utiliza-se o logaritmo na base dois da razão de verossimi-lhança, log2(mi / ui), como o peso, em caso de concordância, e log2[(1- mi)/(1- ui)], em caso de discordância. O logaritmo

na base dois é utilizado para que os pesos de concordância/ discordância possam ser somados, gerando assim um escore para cada par comparado. Portanto, define-se como peso

(wi) o valor atribuído à concordância/discordância em cada

variável de cada par. Define-se como escore o somatório dos pesos em cada par, sendo n o número de variáveis utilizadas no relacionamento.

nto. escore = wi

i=1 n

Uma vez computado o escore de cada par, definem-se dois pontos de corte: um valor abaixo do qual os pares são considerados falsos e um valor acima do qual os pares são considerados verdadeiros. Os pares entre esses dois valores são considerados duvidosos.

Essa forma de cálculo dos pesos de concordância/discor-dância foi utilizada para as variáveis: CPF, sexo, data de nasci-mento e logradouro. Para as outras variáveis foram utilizadas algumas modificações da técnica que serão descritas adiante.

Foi observado que o município de residência tinha uma variação considerável para o mesmo indivíduo, possivelmen-te pelo fato de os pacienpossivelmen-tes se mudarem do inpossivelmen-terior para as capitais em busca de tratamento. No entanto, a variabilidade na Unidade da Federação (UF) de residência era bem menor.

(5)

Por esse motivo o código IBGE do município foi decomposto em código da UF e código do município, sendo que o código da UF é composto pelos dois primeiros dígitos do código do município. Foram estimados valores de mi e ui para cada um dos componentes, conforme descrito na seção “estimativa dos valores mi e ui”.

Não seria correto, contudo, aplicar os pesos de concor-dância/discordância para cada uma das duas variáveis inde-pendentemente, devido à forte correlação entre elas: quando o município de residência concordar, é certo que a UF de residência também concordará; e quando a UF de residência discordar, é certo que o município de residência também discordará. Por esse motivo, os pesos de concordância/dis-cordância para essas variáveis foram computados da seguinte forma: (1) quando município e UF concordam, atribui-se o peso de concordância para o município; (2) quando municí-pio discorda e UF concorda, atribui-se o peso de concordân-cia para a UF de residênconcordân-cia somado ao peso de discordânconcordân-cia para o município de residência; e (3) quando município e UF discordam, atribui-se o peso de discordância para a variável UF de residência.

Pesos baseados em frequência

Tradicionalmente, em relacionamento de registros, atri-buem-se pesos de concordância/discordância por variável, conforme já descrito. No entanto, Newcombe et al. (1959) já haviam observado que valores mais raros em uma mes-ma variável têm mes-maior poder de discriminação do que os mais frequentes. Por exemplo, se dois registros concordam no primeiro nome, essa concordância tem um peso maior para determinar que se trata de um mesmo indivíduo, no caso de um nome raro, como “Odilon”. Por outro lado, um nome comum, como “João”, deve ter um peso de concordân-cia menor. Com base nessa observação, conclui-se que, em situações em que os valores em determinada variável têm distribuição de frequências muito desigual, o peso de con-cordância definido por variável pode ser superestimado para os valores frequentes, ou subestimados para os raros. Nesses casos, é possível atribuir pesos baseados em frequência, da

seguinte forma, onde p(x) é a probabilidade de a variável i assumir o valor x:

A Tabela 1 representa os coeficientes de variação das fre-quências dos valores, para cada variável, após a padronização. Devido à distribuição de frequências muito desigual para as variáveis nome, sobrenome, nome do meio e município de residência, utilizou-se o peso de concordância baseado em frequências para essas variáveis.

Cabe ressaltar que as tabelas de frequência utilizadas fo-ram geradas da própria base de dados. Para identificadores comparados de forma exata, as tabelas foram obtidas da base TRS, uma vez que seriam consultadas apenas em situações de concordância exata (valores idênticos nas duas bases). Para os identificadores comparados de forma aproximada – como será visto a seguir – havia a possibilidade de valores serem considerados equivalentes, mas não idênticos. Nesse caso, os dois valores poderiam ter frequências distintas. Para esses campos, foi gerada uma tabela de frequência para cada uma das duas bases. Quando ocorresse equivalência exata dos va-lores comparados, adotava-se o escore calculado pela tabela de frequência na base TRS. Quando esses valores não fossem idênticos, mas semelhantes o suficiente para serem considera-dos equivalentes, atribuía-se o peso de concordância do valor mais frequente em sua base de origem. Ou seja, em caso de valores não idênticos, com a finalidade de escolher qual seria selecionado na tabela de frequência, optou-se por aquele que incorreria em menor peso de concordância. Esta foi baseada na lógica de que o valor menos frequente pudesse ser um erro de grafia do mais frequente e não deveria ter seu peso de con-cordância sobrestimado.

Algoritmos de comparação de variáveis

Ao longo dos anos, foram desenvolvidas várias técnicas para comparação de variáveis de diversos tipos. Essas técnicas procuram introduzir um grau de tolerância a erros de grafia

Variável Maior frequência (%) Menor frequência (%) Coeficiente de variação

Sobrenome 11,99 0,000 28,44 Primeiro nome 8,77 0,000 18,76 Nome do meio 2,21 0,000 15,52 Município de residência 13,67 0,000 11,24 Logradouro 0,2 0,000 3,82 UF de residência 32,46 0,11 1,75 Data de nascimento 0,43 0,000 1,24

Fonte: Apac/SIA-SUS e SIH 2000 a 2003. Bases nacionais – autorizações de procedimentos ambulatoriais de alta complexidade do Sistema de Informações Ambulatoriais do Sistema Único de Saúde e Sistema de Informações Hospitalares (Apac-SIA-SUS e SIH) 2000 a 2003.

(6)

comuns, identificando valores equivalentes, mas que, devido a erros de grafia, não são idênticos. Por exemplo, foi obser-vado que, em uma das bases, o nome “Conceição” foi fre-quentemente grafado como “Conceião”. Uma boa técnica de comparação seria capaz de identificar essas sentenças como semelhantes, o que não aconteceria com a comparação exata.

Neste trabalho, foi utilizado o algoritmo de comparação aproximada de Jaro-Winkler para comparação das variáveis: nome, nome do meio e sobrenome. Esse algoritmo retorna um valor entre zero e um, de acordo com a similaridade das cadeias de caracteres comparadas.O algoritmo de Jaro-Wink-ler tem demonstrado bons resultados para nomes na língua inglesa (Winkler, 1999; Grannis et al., 2004).

Para comparação do logradouro, esse algoritmo foi con-siderado inadequado, por atribuir maior peso ao início das sentenças. Como essa variável, na maioria das vezes, inicia-se com palavras como “rua” ou “avenida”, pode haver uma se-melhança bastante elevada pela simples concordância dessas palavras. Por exemplo, “Rua A” e “Rua B” são claramente di-ferentes, mas apresentam semelhança de 0,92 pelo algoritmo de Jaro-Winkler. Para diminuir esse efeito, as palavras “RUA”, “AVENIDA” e “RODOVIA” foram abreviadas conforme des-crito em “Padronização e limpeza dos dados”. Além disso, utilizou-se o algoritmo de Levenshtein, ou distância de edição, para comparação dessa variável. Esse algoritmo conta o menor número de exclusões, inserções ou troca de caracteres para tornar uma sentença igual à outra, dando a mesma importân-cia para o início e o final das sentenças (Grannis et al., 2004; Levenshtein, 1966). Para que o algoritmo de Levenshtein tam-bém retornasse um valor entre 0 e 1, utilizou-se o número de inserções, deleções e trocas, dividido pelo tamanho da maior das duas sentenças comparadas. Os valores foram considera-dos equivalentes quando o valor computado pelo algoritmo fosse superior a 0,90 para nome; 0,88 para sobrenome; 0,85 para nome do meio; e 0,74 para logradouro.

Estimativa dos valores mi e ui

Estimar os valores mi e ui não é tarefa simples. Como não se sabe de antemão quais são os pares pertencentes a M e a

U, os valores de mi e ui não podem ser medidos diretamente. Fellegi e Sunter (1969) e Jaro (1989) apresentaram métodos para estimativa desses valores. Segundo Camargo Jr. e Coeli (2000), ainda é possível uma alternativa mais simples de em-pregar valores previamente conhecidos pelo pesquisador.

Jaro (1989) observou que os valores de ui podem ser estima-dos como a probabilidade de concordância de cada identifica-dor i em uma amostra aleatória de pares, retirada do conjunto resultante do produto AxB, já que a proporção dos pares de AxB que pertencem a M é geralmente muito pequena. Para esse fim foi retirada uma amostra aleatória de 500 mil AIH e 1.636 Apac. Neste caso, não foi utilizado qualquer mecanismo de blocagem na comparação e os valores missing foram desconsiderados no processo. As probabilidades de concordância medidas para as diversas variáveis encontram-se na Tabela 2.

Para estimar os valores de mi, foram geradas duas amos-tras de pares verdadeiros, por meio de relacionamento deter-minístico. Na primeira, foram considerados verdadeiros os pares que concordassem em CPF e data de nascimento; na se-gunda, os pares que concordassem em nome, nome do meio, sobrenome, município de residência e logradouro. A primeira amostra foi utilizada para estimar os valores mi, para nome, nome do meio, sobrenome, UF e município de residência e logradouro; a segunda, para estimar mi paraCPF e data de nascimento (Tabela 2).

A utilização dessa estratégia está baseada em um pressu-posto relativamente forte de que há independência estatística entre a concordância das variáveis utilizadas no relaciona-mento determinístico e as variáveis para as quais foi estimado o valor de mi. Para garantir maior segurança quanto aos valo-res estimados, também foi utilizado o algoritmo EM descrito por Jaro (1989).

Variável Determinístico 1 * Determinístico 2 ** EM 1*** EM 2 **** Concordância ao acaso***** EM 1Parâmetro m Parâmetro u EM 2

Nome 0,98 0,98 0,98 0,013 0,020 0,021 Sobrenome 0,95 0,935 0,943 0,030 0,037 0,034 Nome do meio 0,92 0,934 0,936 0,004 0,009 0,010 Sexo 0,967 0,967 0,976 0,97 0,487 0,497 0,496 Data de nascimento 0,839 0,842 0,86 0,000 0,000 0,000 Município de residência 0,771 0,74 0,784 0,009 0,009 0,014 UF de residência 0,957 0,102 Logradouro 0,13 0,139 0,137 0,000 0,000 0,000 CPF 0,87 0,854 1,88E-7 0

Fonte: Apac/SIA-SUS e SIH 2000 a 2003. Bases nacionais – Autorizações de Procedimentos Ambulatoriais de Alta Complexidade do Sistema de Informações Ambulatoriais do Sistema Único de Saúde e Sistema de Informações Hospitalares (Apac-SIA-SUS e SIH) 2000 a 2003.

* Calculado da amostra gerada pelo pareamento determinístico por CPF e data de nascimento; ** calculado da amostra gerada pelo pareamento determinístico por nome, sobrenome, nome do meio, município de residência e logradouro; *** algoritmo EM em uma amostra sem CPF; **** algoritmo EM em uma amostra com CPF. ***** calculado da amostra aleatória gerada de 500.000 AIH e 1.636 Apac, sem mecanismo de blocagem e desconsiderando valores missing.

(7)

O algoritmo EM trata o problema de estimar os valo-res de mi e ui como um problema de dados incompletos. Os dados observados são representados por vetores γ, que representam os padrões de concordância de cada par (α,b) AxB, onde γi=1 se a variável i concordar, e γi=0 se dis-cordar. Nesse modelo, não há tratamento de concordâncias parciais, ou valores missing, de forma que as únicas opções são: concordância (1) e discordância (0). Define-se que os pares pertencentes a M ∪ U ocorrem em função de uma distribuição de probabilidades, com um conjunto de parâ-metros desconhecidos Φ=(m,u,p), onde m é o vetor com as probabilidades mi de cada variável, u é o vetor com as proba-bilidades ui de cada variável e p é a proporção dos pares de

AxB que pertencem a M. Tem-se x como um vetor de dados

completos igual a 〈γ, g〉 onde γ representa os dados observa-dos, conforme já descrito, enquanto g representa os dados ausentes, sendo que gi pode ser (1,0) se o par pertence a M, ou (0,1) se pertence a U. O procedimento consiste em en-contrar o conjunto de parâmetros Φ que maximiza a função de verossimilhança f(x | Φ). Para isso, executam-se repetidas iterações de dois passos. No primeiro, estima-se o vetor de dados desconhecidos g a partir de valores hipotéticos de Φ. No segundo, reestimam-se os parâmetros desconhecidos Φ, utilizando-se os dados de g estimados no passo anterior. Os dois passos são repetidos até que seja atendido um critério de convergência.

Como o algoritmo EM não trata valores missing ou nulos, foi gerada uma amostra aleatória de um milhão de registros do SIH e 11.541 registros das Apac, com todas as variáveis preenchidas. Como o CPF estava preenchido no SIH apenas em 10% dos casos, foi utilizada uma amostra contendo CPF e outra não, para verificar se a restrição de ter o CPF preenchido poderia enviesar a amostra.

O algoritmo foi implementado em linguagem de pro-gramação C da forma proposta por Jaro (1989). O critério de convergência foi repetir os passos até que a diferença na log-verossimilhança de f(x | Φ), entre as duas últimas iterações, fosse inferior a 10-9. Os parâmetros m

i e ui

ini-ciais e os encontrados após execução do algoritmo estão na Tabela 2.

Execução em paralelo

Devido ao grande número de registros a serem relaciona-dos, foi adotada uma estratégia de paralelização do processo de blocagem e comparação dos pares. O banco de dados da SIH foi dividido em três partições de tamanho muito seme-lhante: duas contendo 13.149.380 registros e uma contendo 13.149.379. Cada uma delas foi comparada com o banco de dados completo da Apac-TRS, aplicando-se os critérios de

blocagem já descritos. Posteriormente, os pares gerados em cada comparação foram consolidados em um único resulta-do, da forma representada na Figura 1. As bases poderiam ser divididas em quantas partições fossem necessárias desde que fossem comparadas todas as possíveis combinações entre as duas bases.

Definição do ponto de corte

O passo final no processo de relacionamento de registros é a definição de um ponto de corte para o escore do relacionamen-to. Esse ponto de corte é talvez o parâmetro mais importante no processo de relacionamento probabilístico. Pares com escore acima do ponto de corte seriam considerados verdadeiros.

Fellegi e Sunter (1969) sugeriram a adoção de dois pontos de corte: um abaixo do qual os pares seriam considerados falsos e outro acima do qual os pares seriam considerados verdadeiros. Pares com escore entre os dois pontos de corte seriam considerados pares duvidosos. Por meio de um gráfico com a distribuição de frequências dos escores seria possível observar a mistura de uma distribuição de pares falsos (com escores baixos) e uma distribuição de pares verdadeiros (com escores altos), formando uma curva bimodal. Pares entre as duas distribuições seriam duvidosos. A região de pares duvi-dosos é chamada de “zona cinzenta” (Tromp et al., 2006).

APAC . TRS SIH SIH 1/3 SIH 2/3 SIH 3/3 APAC - TRS X SIH 3/3 APAC - TRS X SIH APAC - TRS X SIH 2/3 APAC - TRS X SIH 1/3

Bases nacionais – Autorizações de Procedimentos Ambulatoriais de Alta Complexidade do Sistema de Informações Ambulatoriais do Sistema Único de Saúde e Sistema de Informações Hospitalares (Apac-SIA-SUS e SIH) 2000 a 2003.

Apac: Autorização de Procedimentos de Alta Complexidade; TRS: terapia renal substitutiva; SIH: Sistema de Informação Hospitalar.

(8)

Infelizmente, somente a análise desse gráfico dificilmente permite a identificação precisa dos melhores valores para os pontos de corte. Além disso, deixa “mal resolvida” a classi-ficação dos pares presentes na “zona cinzenta”. O ideal seria selecionar um ponto de corte ótimo do ponto de vista de minimizar a ocorrência de falsos negativos e falsos positivos.

Do ponto de vista epidemiológico, comparando-se os pares classificados com falsos ou verdadeiros com um pa-drão ouro, é possível avaliar a acurácia do relacionamento de registros em termos de sensibilidade, especificidade, valor preditivo positivo (VPP) e valor preditivo negativo (VPN). Aumentando o ponto de corte, diminui-se o nú-mero de falsos positivos e aumenta-se o núnú-mero de falsos negativos. Por conseguinte, a sensibilidade diminui e a especificidade aumenta. Ao diminuir o ponto de corte, ocorre o oposto.

No estudo de técnicas de recuperação de informação, frequentemente se utiliza o termo “precisão” (precision) no lugar de VPP e o termo “recall” no lugar de sensibilidade. Assim, para definir um ponto de corte com melhor relação entre falsos positivos e falsos negativos, Davis e Goadrich (2006) sugerem a utilização de curvas PR (precision-recall

curves) para situações em que a distribuição entre as classes é

muito desproporcional, como é o caso do relacionamento de registros. A curva PR é um gráfico que representa no eixo Y o VPP e no eixo X a sensibilidade. Gordon e Kochen (1987) descrevem uma relação de compromisso (trade-off) entre as duas grandezas: VPP à custa da sensibilidade e vice-versa. Elevando-se o ponto de corte, aumenta-se a proporção de verdadeiros positivos entre os pares relacionados (VPP). Por outro lado, diminui-se a proporção de pares verdadeiros que são relacionados (sensibilidade). Apresenta uma concavida-de próxima à coorconcavida-denada (1,1) que representa o classificador ideal, em que VPP e sensibilidade são 100%.

No relacionamento de registros entre os sistemas Apac-TRS e SIH, selecionou-se uma região da distribuição de frequências dos escores, considerada zona cinzenta, da qual foi retirada uma amostra aleatória de 1.000 pares, os quais foram classificados manualmente como falsos ou verdadeiros, por dois revisores independentes. Em caso de discordância entre os dois revisores, um terceiro exa-minador, também independente, definiu a classificação definitiva. Uma vez classificada, à amostra de 1.000 pares da zona cinzenta foi incluída uma amostra de pares da região referente a pares falsos e outra da região referente a pares verdadeiros. Os pares dessas duas últimas amostras foram automaticamente classificados como falsos e ver-dadeiros (respectivamente), sem validação manual. Essas três amostras representaram a mesma proporção da base

real. A partir dessa amostra, foi obtida a curva PR para o relacionamento. Neste trabalho a curva PR foi construída após todos os passos de blocagem.

Resultados

Os valores ui calculados por meio da probabilidade de concordância ao acaso, os valores mi estimados pelos dois rela-cionamentos determinísticos e os valores de mi e ui estimados pelo algoritmo EM encontram-se na Tabela 2. Os resultados indicam diferenças muito pequenas nos valores encontrados pelas diferentes estratégias. Com relação aos parâmetros de entrada para o algoritmo EM, foi utilizado o valor de mi igual a 0,90 para todas as variáveis, exceto sexo e logradouro, para as quais esses valores foram 0,95 e 0,50, respectivamente. Quanto aos valores de ui foram os mesmos estimados com base nos cálculos pela probabilidade de concordância ao acaso (Tabela 2). Os valores de entrada e saída de p foram res-pectivamente 10-9 e 9x10-8. O número de pares encontrados no

relacionamento determinístico por CPF e data de nascimento foi de 497.205, enquanto no relacionamento por nome, nome do meio, sobrenome, município de residência e logradouro foram relacionados 45.015 pares.

As pequenas diferenças nos valores de mi e ui estimados pelas diferentes técnicas dificilmente afetariam de forma sig-nificativa o resultado do relacionamento. Foram selecionados, para o relacionamento definitivo, os valores de ui estimados por meio da concordância ao acaso e os de mi calculados por

meio do relacionamento determinístico. A escolha dessas técnicas fundamentou-se no fato de terem usado processos de amostragem menos restritos, já que não foi necessário selecionar pares sem quaisquer valores ausentes.

O tempo de execução da blocagem e comparação dos pares foi de 6 horas e 47 minutos, sendo comparados 101.257.652 pares. A Figura 2 apresenta a distribuição de frequências dos pares quanto ao escore. Os pares com es-core entre 30 e 56 foram considerados como pertencentes à zona cinzenta. Pares com escores inferiores a 30 foram automaticamente considerados falsos e os que tiveram es-cores superiores a 56 foram automaticamente considerados verdadeiros.

A partir da curva PR (Figura 3), observa-se que o ponto de corte mais próximo do classificador ideal (1,1) foi 39,7, com VPP 0,962 e sensibilidade 0,957. Assim, foi selecionado o ponto de corte 39,7. Pares com escore acima desse valor foram considerados verdadeiros. Ao final, foram encontradas 418.336 internações referentes a 104.109 indivíduos. A sensi-bilidade, especificidade, VPP e VPN foram, respectivamente, 0,957; 0,999; 0,962; 0,999.

(9)

Discussão

Embora o SIH seja muito utilizado pelos diversos níveis de gestão dos serviços de saúde, pouco se tem trabalhado na sua integração com outros bancos de dados, em especial com o subsistema Apac/SAI (Silva et al., 2006; Magalhães et al., 2006; Teixeira et al., 2006; Drumond et al., 2006). O

relaciona-mento dos registros dessas duas bases possibilitou que diversas variáveis de interesse enriquecessem a Base Nacional em TRS. Podem-se gerar indicadores epidemiológicos tais como mor-talidade hospitalar, taxa de hospitalização, principais causas de internações, tempo médio de permanência e utilização de UTI. Ressalta-se que o SIH ainda contém informações sobre procedimentos relativos a transplantes renais, o que permite resgatar a data precisa do transplante renal e a mortalidade durante sua realização.

Uma importante tarefa no relacionamento probabilístico de registros é estimar os parâmetros e validar os resultados. Este trabalho contribui nesse sentido, ao aplicar técnicas para estimação e validação de parâmetros no relacionamento dos registros de dois sistemas de informação do SUS.

Foram testadas três técnicas para estimar os valores de mi e ui. A técnica de estimar o valor de ui pela probabilidade de concordância ao acaso já foi utilizada em outros estudos e, inclusive, implementada no software Automatch®, tendo se

mostrado de fácil aplicação e bons resultados (Herzog et al., 2007; Jaro, 1989; Blakely et al., 2000). A técnica de utilizar o relacionamento determinístico para selecionar uma amostra de pares verdadeiros se mostrou de fácil aplicação, mas faz uma forte pressuposição quanto à independência entre a con-cordância dos identificadores utilizados no relacionamento determinístico e aqueles para os quais foram estimados os

parâmetros. Por esse motivo, neste trabalho, os resultados obtidos por essa técnica foram contrastados com os obtidos pelo algoritmo EM. Embora esse último também faça uma pressuposição semelhante, não é utilizada uma chave especí-fica para identiespecí-ficar os pares verdadeiros, o que o torna menos rígido.

O algoritmo EM foi apontado em vários trabalhos como uma alternativa válida para estimar os parâmetros mi e ui, tendo sido implementado em várias ferramentas de relacio-namento de registros, como o Automatch®, o LinkPlus® e a

terceira versão do Reclink (Herzog et al., 2007; Junger, 2006; Conn & Bishop, 2005; Jaro, 1989). Nos testes realizados nesse estudo com o algoritmo EM, este se mostrou razoavelmente imune a variações nos valores de entrada de mi e ui. Contudo,

Bases nacionais – Apac-SIA-SUS e SIH 2000 a 2003. Eixo x: escore; eixo y: logaritmo da frequência.

Figura 2 - Distribuição de frequências dos pares gerados no relacionamento entre autorizações de procedimentos ambulatoriais de alta

complexidade de terapia renal substitutiva e Sistemas de Informações Hospitalares (Apac-TRS e SIH), segundo o escore.

Bases nacionais – Apac-SIA-SUS e SIH 2000 a 2003.

Figura 3 - Curva PR do relacionamento entre Autorizações de

Procedimentos Ambulatoriais de Alta Complexidade de terapia renal substitutiva e Sistema de Informações Hospitalares (Apac-TRS e SIH).

(10)

mostrou-se suscetível a variações do valor de p. Pelo fato de este ser geralmente muito pequeno, a determinação de valores de entrada razoáveis não é tão intuitiva quanto é para valores de mi e ui. Valores como 10-7 e 10-9 podem parecer próximos,

mas o primeiro é 100 vezes o valor do segundo.

Outra limitação apresentada pelo algoritmo EM imple-mentado no presente estudo foi o fato de classificar os pares de identificadores somente como concordantes ou discordantes, não tendo sido implementada forma de tratamento aos valores

missing ou de lidar com concordância parcial. Devido a essa

limitação, foi necessário selecionar uma amostra de registros que não apresentasse qualquer valor missing e assumir que a ocorrência desse valor em uma variável não interferiria na pro-babilidade de concordância/discordância das outras variáveis. Bauman Jr. (2006) apresenta uma extensão do algoritmo EM com o objetivo de superar tais limitações, permitindo outras formas de classificação, além de concorda (1) e discorda (0), o que representa uma possibilidade para estudos futuros. Junger (2006) apontou uma alternativa no caso da concordância, mos-trando que tal limitação pode ser resolvida por meio de uma matriz de concordância baseada no critério de comparação de campos (algoritmos e limiares de concordância).

As técnicas utilizadas para estimar os valores mi e ui che-garam a resultados bastante parecidos. No entanto, nenhuma das técnicas de estimação de parâmetros testadas se mostrou imune a falhas, sendo recomendável a comparação de proce-dimentos distintos e a com parâmetros utilizados na literatura. Cabe ainda ressaltar que o esquema amostral proposto neste trabalho de fato não reproduz todo o espaço de resultados possíveis de links que seriam formados sem o emprego das variáveis de blocagem, o que é outra limitação deste estudo.

Quanto à definição do ponto de corte e à validação do relacionamento probabilístico, a utilização da curva PR se

mostrou uma excelente alternativa. Por meio dela, foi pos-sível selecionar um ponto de corte com elevados valores de sensibilidade, especificidade, valor preditivo positivo e valor preditivo negativo. Ressalte-se, contudo, que a proposta amostral para o estudo de validade apresenta alguns proble-mas. Em primeiro lugar, dado que um link não formado em qualquer das estratégias não é considerado pelo padrão ouro, a sensibilidade pode estar sobrestimada; em segundo lugar, por terem sido considerados links fora da área cinzenta como erroneamente verdadeiros ou falsos, o que ocorreu devido à ausência de revisão manual, também pode ter ocorrido indução a erros (sobrestimação da sensibilidade e da especifi-cidade). Com efeito, algum nível de erro mesmo nessas faixas é esperado, especialmente para escores com valores próximos aos dos valores limiares.

Outro problema frequente em relacionamento de re-gistros é o custo computacional de se relacionar grandes bases de dados. Nesse sentido, a divisão das bases de dados permitiu um alto desempenho. Ao dividir as bases, deve-se tomar o cuidado de realizar o relacionamento de todas as possíveis combinações entre elas, para garantir a integridade do resultado final. Com a divisão do SIH em três partições, foi possível o relacionamento de quase 40 milhões de registros do SIH com mais de meio milhão da Apac/SIA-SUS em menos de 7 horas.

O presente estudo relacionou probabilisticamente os regis-tros dos sistemas Apac/SIA-SUS e SIH, em âmbito nacional, entre 2000 e 2003. Seus resultados permitirão uma avaliação mais apurada das modalidades de TRS no país. Além disso, apresentou métodos eficientes para estimar os parâmetros no relacionamento probabilístico e validar seus resultados. Finalmente, apresentou um método simples para paralelizar o processamento do relacionamento.

Bauman JR, J. G. Computation of weights for probabilistic record linkage using

the EM algorithm [Master of Science]. Brigham Young University, 2006.

Bittencourt, S. A.; Camacho, L. A. B.; Leal, M. C. O Sistema de Informação Hospitalar e sua aplicação na saúde coletiva. Cadernos Saúde Pública, v. 22, n. 1, p. 19-30, 2006.

Blakely, T.; Woodward, A.; Salmomd, C. Anonymous linkage of New Zealand mortality and Census data. Australian and New Zealand Journal of

Public Health, v. 24, n. 1, p. 92-95, 2000.

Brasil. Ministério da Saúde. Secretaria de Atenção à Saúde (SAS). Sistema de Informações Ambulatoriais do SUS (SIA/SUS). Manual de Orientações

Técnicas. Brasília; 2006a.

______. Ministério da Saúde. Secretaria de Atenção à Saúde (SAS). Sistema de Informação Hospitalar. Manual de Orientações Técnicas. Brasília, 2006b.

Referências

Camargo Jr, K. R.; Coeli, C. M. Reclink: aplicativo para o relacionamento de bases de dados, implementando o método probabilistic record linkage.

Cadernos de Saúde Pública, v. 16, n. 2, p. 439-447, 2000.

Carvalho, D. M. Grandes sistemas nacionais de informação em saúde: revisão e discussão da situação atual. Informe Epidemiológico do SUS, v. 5, n. 4, p. 7-46, 1997.

Cherchiglia, M. L. et al. A construção da base de dados nacional em Terapia Renal Substitutiva (TRS) centrada no indivíduo: aplicação do método de linkage determinístico-probabilístico. Revista Brasileira de Estudos de

População, v. 24, n. 1, p. 163-167, 2007.

Coeli, C. M.; Camargo Jr, K. R. Avaliação de diferentes estratégias de blocagem no relacionamento probabilístico de registros. Revista Brasileira de

(11)

Conn, L.; Bishop, G. R. Exploring methods for creating a longitudinal census

dataset. Australian Bureau of Statistics; 2005.

Davis, J.; Goadrich, M. The relationship between Precision-Recall and ROC curves. In: ICML ‘06: Proceedings of the 23rd international conference on

Machine learning. New York, NY, USA: ACM; 2006. p. 233-240.

Drumond, E. F.; França, E. B.; Machado, C. J. SIH-SUS e SINASC: utilização do método probabilístico para relacionamento de dados. Cadernos

de Saúde Coletiva, v. 14, n. 2, p. 251-264, 2006.

Fellegi, I. .; Sunter, A. A theory for record linkage. Journal of the American

Statistical Association, v. 64, n. 328, p. 1183-1210, 1969.

Grannis, S. J.; Overhage, J. M.; McDonald, C. Real world performance of approximate string comparators for use in patient matching. Studies in Health

Technology and Informatics, v. 107(Pt 1), p. 43-47, 2004.

Herzog, T. N.; Sheuren, F. J.; Winkler, W. E. Data Quality and Record

Linkage Techiniques. Springer; 2007.

Jaro, M. A. Advances in Record-Linkage Methodology as Applied to Matching the 1985 Census of Tampa, Florida. Journal of the American

Statistical Association, v. 84, n. 406, p. 414-420, 1989.

Junger, W. L. Estimação de parâmetros em relacionamento probabilístico de bancos de dados: uma aplicação do algoritmo EM para o reclink. Cadernos de

Saúde Coletiva, v. 14, p. 225-232, 2006.

Levenshtein, V. I. Binary Codes Capable of Correcting Deletions, Insertions and Reversals. Soviet Physics Doklady, v. 10, p. 707, 1966.

Machado, C. J. A literature review of record linkage procedures focusing on infant health outcomes. Cadernos de Saúde Pública, v. 20, n. 2, p. 362-371, 2004. Magalhães, V. C. L.; Costa, M. C. E.; Pinheiro, R. S. Perfil do atendimento no SUS às mulheres com câncer de mama atendidas na cidade do Rio de Janeiro: relacionando os sistemas de informações SIH e APAC-SIA. Cadernos

Saúde Coletiva, v. 14, n. 2, p. 375-398, 2006.

Mendes, A. C. G. et al. Avaliação do Sistema de Informações Hospitalares (SIH-SUS) como fonte complementar na vigilância e monitoramento de doenças de notificação compulsória. Informe Epidemiológico do SUS, v. 9, n. 2, p. 67-86, 2000.

Michael Gordon, MK. Recall-precision trade-off: A derivation. Journal of

the American Society for Information Science, v. 40, n. 3, p. 145-151, 1987.

Queiroz, O. V. et al. A construção da Base Nacional em Terapia Renal Substitutiva (TRS) centrada no indivíduo: relacionamento entre registros de óbitos pelo subsistema de Autorização de Procedimentos de Alta Complexidade (Apac/SAI/SUS) e pelo Sistema de Informações sobre Mortalidade (SIM) –Brasil, 2000-2004. Epidemiologia e Serviços de Saúde, v. 18, n. 2, p. 107-120, 2009.

Scheuren, F. Linking health records: human rights concerns. In: Proceedings

of an international workshop and exposition: Record Linkage Techniques;

1997.

Silva, J. P. L. et al. Revisão sistemática sobre encadeamento ou linkage de bases de dados secundários para uso em pesquisa em saúde no Brasil.

Cadernos Saúde Coletiva, v. 14, n. 2, p. 197-224, 2006.

Teixeira, C. L. S. et al. Método de relacionamento de bancos de dados do Sistema de Informações sobre Mortalidade (SIM) e das autorizações de internação hospitalar (BDAIH) no Sistema Único de Saúde (SUS), na investigação de óbitos de causa mal-definida no Estado do Rio de Janeiro, Brasil, 1998. Epidemiologia e Serviços de Saúde, v. 15, n. 1, p. 47-57, 2006. Tromp, M. et al. Record linkage: making the most out of errors in linking variables. AMIA Annual Symposium Proceedings Archive, v. 2006, p. 779-783, 2006.

Winkler, W. E. The State of Record Linkage and Current Research Problems; 1999.

Recebido em: 30/4/2009 Aprovado em: 22/12/2009

Referências

Documentos relacionados

Os resultados deste trabalho mostram que o tempo médio de jejum realizado é superior ao prescrito, sendo aqueles que realizam a operação no período da tarde foram submetidos a

c) ter revelado comportamento exemplar, não tendo sofrido nenhuma punição disciplinar; e, d) ter cumprido o curso no prazo mínimo de integralização. 2o O controle da média

ajuizou AÇÃO CAUTELAR contra GLACIR GOMES, também qualificado nos autos, relatando que realizou reunião na sede da Secretaria de Saúde em 30 janeiro de 2014, tendo convidado

No código abaixo, foi atribuída a string “power” à variável do tipo string my_probe, que será usada como sonda para busca na string atribuída à variável my_string.. O

Apontamos nesta parte algumas diretrizes gerais que podem ser aplicadas a qualquer tipologia de mercado ao ar livre, não se constituindo, logo, em soluções, mas sim em indicações

Neste panorama, o principal objetivo desse estudo é entender a importância da competitividade de destinos turísticos pontuando quais políticas tem sido adotadas

Crisóstomo (2001) apresenta elementos que devem ser considerados em relação a esta decisão. Ao adquirir soluções externas, usualmente, a equipe da empresa ainda tem um árduo

Ainda nos Estados Unidos, Robinson e colaboradores (2012) reportaram melhoras nas habilidades de locomoção e controle de objeto após um programa de intervenção baseado no clima de