Inovações no sistema de pareamento de domicílios e pessoas para a Pesquisa de Avaliação da Cobertura da Coleta do Censo 2010

(1)

Inovações no sistema de pareamento de domicílios e pessoas para a

Pesquisa de Avaliação da Cobertura da Coleta do Censo 2010

1

Andréa Diniz da Silva 2,3, Álvaro de Moraes Frota 2, 3, Flavia Pinto da Silva 2, 3 Otavio Sant’Ana Martins Romeo 2, 3

e Thiago Silva Soares 2, 3

Palavras-chave: Pesquisa de Avaliação; Censo; Pareamento; Record Linkage

Resumo

Em um país de dimensões continentais como o Brasil, com relativa complexidade na disposição dos domicílios nos logradouros e, sobretudo, com reais dificuldades de acesso a determinadas localidades, a realização de um Censo está sujeita a diferentes tipos de erros que podem resultar em falha de cobertura da coleta. Considerando a necessidade de se medir a qualidade da cobertura da operação censitária, a Pesquisa de Avaliação da Cobertura da Coleta - PA é parte integrante do Censo brasileiro desde 1970. A Pesquisa é realizada por amostragem e compreende uma segunda coleta em setores probabilisticamente selecionados em cada uma das unidades da Federação. As informações provenientes de ambas as coletas são confrontadas e utilizadas na estimação das taxas de cobertura da coleta do Censo. Até o ano de 2000, o confronto das informações coletadas pelo Censo com aquelas coletadas na PA era feito comparando-se os questionários de ambas as coletas. O desenvolvimento de métodos computacionais para a realização do pareamento possibilita o uso de técnicas de Record Linkage no confronto das informações provenientes do Censo e da PA. A automatização do sistema de pareamento gera ganho de qualidade em relação ao pareamento não-automático pois permite o estabelecimento de critérios objetivos e padronizados, além de não estar sujeita à perda de qualidade inerente aos processos baseados em ações repetitivas. Este trabalho apresenta o sistema de pareamento automático da PA 2010 e seus aspectos metodológicos, os quais se fundamentam nos autores mais relevantes na bibliografia como: Jaro, Winkler, Fellegi e Sunter, Gill etc. Além disso, serão apresentados os softwares que estão sendo testados para a implementação das diferentes etapas do processo de pareamento.

1_{Trabalho apresentado no XVII Encontro Nacional de Estudos Populacionais, realizado em Caxambu- MG –}

Brasil, de 20 a 24 de setembro de 2010.

2

Fundação Instituto Brasileiro de Geografia e Estatística - IBGE.

3_{O IBGE está isento de qualquer responsabilidade pelas opiniões, informações, dados e conceitos emitidos}

(2)

Inovações no sistema de pareamento de domicílios e pessoas para a

Pesquisa de Avaliação da Cobertura da Coleta do Censo 2010



Andréa Diniz da Silva ,, Álvaro de Moraes Frota 2, 3, Flavia Pinto da Silva 2, 3 Otavio Sant’Ana Martins Romeo 2, 3

e Thiago Silva Soares 2, 3

1. Introdução

O Instituto Brasileiro de Geografia e Estatística possui como missão institucional retratar o Brasil com informações necessárias ao conhecimento da sua realidade e ao exercício da cidadania. Assim, é importante que tais informações tenham alto grau de confiabilidade.

Em um país de dimensões continentais como o Brasil, com relativa complexidade na disposição dos domicílios nos logradouros e, sobretudo, com reais dificuldades de acesso a determinadas localidades, a realização de um Censo está sujeita a diferentes tipos de erros que podem resultar em falha de cobertura da coleta.

A Pesquisa de Avaliação da Cobertura do Censo (PA) existe nesse contexto, objetivando estimar as taxas de cobertura da coleta do Censo. A Pesquisa é realizada por amostragem e compreende uma segunda coleta em setores probabilisticamente selecionados em cada uma das unidades da Federação. Os dados da PA, no entanto, não fornecem por si mesmos as taxas de cobertura, sendo necessário, para a sua estimação, confrontar tais dados com os do Censo, confronto esse que é denominado pareamento.

O objetivo deste trabalho é apresentar as inovações no sistema de pareamento que serão implementadas na PA de 2010. Para melhor compreensão serão apresentados alguns aspectos da estrutura da PA e as etapas do pareamento. A seguir serão mostrados alguns aspectos da teoria estatística do pareamento e os softwares utilizados no teste realizado no Censo Experimental de Rio Claro-SP. Por fim, algumas considerações serão apresentadas.

_{Trabalho apresentado no XVII Encontro Nacional de Estudos Populacionais, realizado em Caxambu- MG –}

Brasil, de 20 a 24 de setembro de 2010.



Fundação Instituto Brasileiro de Geografia e Estatística - IBGE

_{O IBGE está isento de qualquer responsabilidade pelas opiniões, informações, dados e conceitos emitidos}

(3)

2. O Sistema de Pareamento da PA 2010

A Pesquisa de Avaliação da Cobertura da Coleta do Censo - PA consiste na realização de uma segunda coleta de dados em setores selecionados por amostragem em todas as unidades da Federação, com o objetivo de prover informações para a estimação das taxas de cobertura do Censo.

A PA 2010 foi planejada para fornecer estimativas para as quatro taxas:  Taxa de omissão de domicílios4;

 Taxa de omissão de pessoas;

 Taxa de inclusão indevida de domicílios; e  Taxa de inclusão indevida de pessoas.

Para a estimação das taxas é necessário confrontar os dados coletados pelo Censo com os coletados pela PA e quantificar os registros que estão presentes nas duas coletas, quantos estão presentes somente no Censo e quantos constam apenas da PA.

Até o ano de 20005 a coleta dos dados era feita com o preenchimento de questionário em papel pelo recenseador e o confronto feito de forma descentralizada, nos Estados, pela comparação dos questionários de ambas as coletas. Na PA 2000 o pareamento levou 3 meses e ocupou grande quantidade de pessoal nos Estados6.

Na PA 2010 o processo de confronto das informações será automatizado, visando à melhoria da qualidade dos resultados e ainda tendo como consequência a economia de tempo e trabalho. Além disso, a PA usará os mesmos instrumentos inovadores planejados para o Censo, como o computador de mão, o que facilitará o registro e transmissão dos dados e garantirá um mesmo formato dos dados coletados em ambas as pesquisas, aspecto importante para a qualidade dos resultados quando aplicados métodos computacionais para a comparação dos dados do Censo com os da PA.

Etapas do Processo de Comparação – Formação de Pares

O processo de comparação tem como objetivo principal permitir a identificação e quantificação dos domicílios e pessoas presentes em ambas as pesquisas, daquelas contadas somente no Censo e daquelas somente na PA. Este trabalho é feito através da formação de pares, portanto pareamento. As unidades presentes em apenas uma das duas coletas serão unidades “não pareadas” ou “sem par”.

4_{A Pesquisa não tem como foco os domicílios improvisados ou coletivos, mas os particulares permanentes}

ocupados. Segundo definição do IBGE, domicílio particular permanente ocupado é aquele que na data da visita do entrevistador da PA estava ocupado por moradores e foi realizada a entrevista.

5

Em 2000 foi realizada a 4a Pesquisa de Avaliação da Cobertura da Coleta do Censo . As anteriores foram realizadas nos Censo de 1970, 1980 e 1991.

(4)

O sistema de pareamento da PA 2010 é composto de cinco etapas, mostradas no quadro abaixo:

Esquema 1

As cinco etapas do processo de pareamento

Fonte: IBGE, Pesquisa de Avaliação da Cobertura da Coleta do Censo 2010: Grandes Etapas do Sistema de Pareamento de Domicílios e Pessoas

A primeira etapa do processo de pareamento, chamada de padronização, consiste em limpar e padronizar os dados visando minimizar as falhas de pareamento, do tipo formação de falsos -negativo7, causadas por erro de grafia, de digitação ou de codificação. O trabalho realizado nesta etapa prepara os dados para a aplicação de funções de comparação com mais eficiência. A padronização também ajuda a diminuir o esforço necessário nas etapas de pareamento, pois evita a necessidade de implementação de várias etapas de comparação como, por exemplo, testar a formação de par entre Helena e Helena e também entre Helena e Elena.

A padronização será aplicada especialmente aos campos alfabéticos, dos quais serão suprimidos os caracteres especiais, removidos espaços brancos em excesso e tratadas as abreviaturas como Jr. e Ma. Além destes procedimentos gerais, serão aplicados os seguintes procedimentos específicos:

1 Primeira letra de cada nome: suprimir H; substituir: WA por VA, KA por CA, Y por I,

7_{O conceito de falso negativo será visto em maiores detalhes no capítulo 3 deste trabalho.}

Etapa 1 - Padronização

Tratamento preliminar dos dados coletados no Censo e na PA

Etapa 2 - Deduplicação

Identificação dos domicílios e pessoas duplicados no Censo ou na PA

Etapa 3 – Pareamento Probabilístico

Pareamento de domicílios e pessoas com uso de métodos probabilísticos

Etapa 4 – Pareamento Assistido

Pareamento de domicílios e pessoas feito de maneira assistida

Etapa 5 – Reconciliação

Verificação em campo das divergências de informação entre Censo e PA

(5)

CE por SE, CI por SI, GE por JE, GI por JI, PH por F, 2 Última letra de cada nome: suprimir H; substituir: N por M 3 Letras dobradas: Suprimir uma delas à exceção de RR e SS.

4 – Corpo da palavra: substituir: KA por CA, KE por QUE, KI por QUI, KO por CO, KU por CU, Y por I, PH por F

Para preparar os dados para a aplicação das funções de comparação, serão imputados códigos de banco válido, separadas as diferentes partes dos nomes dos moradores (primeiro, último e do meio) e concatenadas as diferentes partes do número identificador do endereço do domicílio para tornar esta variável mais completa.

Essa etapa já representa uma inovação com relação às PAs anteriores, nas quais não havia a padronização dos dados e o pareamento dos dados tinha que ser feito com os dados exatamente como eles vieram do campo, sendo necessária a avaliação de cada caso para decidir se as unidades comparadas formavam ou não um par.

A segunda etapa, ou deduplicação, objetiva identificar os registros duplicados tanto na PA quanto no Censo. A quantificação dos duplicados é utilizada tanto para estimar as taxas de inclusão indevida quanto para melhorar a qualidade do pareamento já que registros duplicados causam a formação de mais de um par para o mesmo registro e a escolha do registro a ser considerado pode ser melhor controlado se feita em etapa anterior à do pareamento. Para identificar os registros duplicados, os domicílios e pessoas serão comparados dentro de um espaço de comparação e o seu grau de similaridade será avaliada8.

O pareamento probabilístico consiste em usar uma teoria de classificação e calcular probabilidades de que os registros se refiram à mesma entidade. Um limite de corte é estabelecido no modelo e todos os pares com probabilidades maiores que tal limite são considerados verdadeiros. No Capítulo 3 será detalhada a teoria de Fellegi e Sunter, a qual será usada para o pareamento probabilístico. Os registros não pareados nessa etapa irão para a etapa seguinte.

A quarta etapa, pareamento assistido, tem por objetivo encontrar, por inspeção visual, pares existentes, mas não identificados na etapa probabilística. É portanto um último esforço para obtenção de pares antes da quinta e última etapa, reconciliação, na qual as divergências não solucionadas serão verificadas em campo.

O sistema de pareamento composto por essas cinco etapas representa uma grande inovação em relação ao que foi realizado nas PAs anteriores, pois permitirá melhorar a qualidade do pareamento utilizando as teorias estatísticas existentes e também tornar todo o processo mais ágil, com o auxílio de recursos computacionais. Os capítulos três e quatro serão dedicados a apresentar tais assuntos.

8_{A técnica utilizada para a criação do espaço de comparação assim como o método utilizado para o cálculo e a}

(6)

Variáveis de controle, blocagem e comparação

A definição do conjunto das variáveis a serem investigadas na Pesquisa de Avaliação procurou atender a três funções distintas: controle, blocagem e comparação. As variáveis de controle são aquelas que ajudam a controlar a população alvo do estudo, já que as datas de referência do Censo e da PA não são as mesmas; as variáveis de blocagem são utilizadas para reduzir o espaço de comparação e melhorar a eficiência do processo; e as variáveis de comparação são aquelas utilizadas para comparar o conjunto de unidades enumeradas no Censo com as enumeradas na PA, ou seja, são as que possibilitam saber quantas e quais unidades foram incluídas em ambas as coletas.

O controle da população alvo do estudo é fundamental para que seja possível classificar as unidades coletadas em: inclusão devida e inclusão indevida, e aquelas NÃO coletadas em: exclusão devida e omissão. Para possibilitar esta classificação, foi definido um conjunto de variáveis, para domicílio e para pessoa, que permitisse identificar a data de ocupação do domicílio e ainda a data de mudança PARA e DO domicílio de cada um dos moradores ou ex-moradores.

As variáveis de controle da ocupação do domicílio ajudam a verificar se o domicílio investigado na PA já estava ocupado na data de referência do Censo e, portanto, deveria ter sido incluído na coleta, e também se houve “saída” de algum morador no período entre o Censo e a PA, portanto foi enumerado no Censo e não na PA. As principais perguntas para a captação destas informações são as seguintes:

1. Quando o domicílio foi ocupado por pelo menos um dos atuais moradores? 2. Alguém que morava neste domicílio em “31 de julho de 2010” faleceu ou

mudou-se após esta data?

Esta última pergunta, somada à identificação dos moradores que morreram ou mudaram do domicílio, ajudam a identificar os outmovers .

Para permitir a identificação das pessoas que mudaram para o domicílio, portanto dos inmovers, são feitas as seguintes perguntas a cada um dos atuais moradores do domicílio:

1. Residia neste domicílio em 31 de julho de 2010? 2. Em que mês e ano passou a residir neste domicílio?

(somente para quem respondeu não na pergunta anterior)

Na definição da variável de blocagem foi levado em consideração tanto o aspecto qualidade quanto a capacidade de possibilitar a delimitação geográfica das comparações feitas. Conjugando as duas qualidades, a variável Setor Censitário9 foi escolhida.

Sendo a informação do setor censitário inserida durante o processo de instalação do aplicativo de coleta, a variável não apresenta dados faltantes. Considerando ainda que cada setor censitário está associado a somente um recenseador o controle desta variável é grande assim como é mínima a chance de ocorrer erro na entrada desta informação.

9

Setor Censitário é a unidade de controle cadastral formada por área contínua, integralmente contida em área urbana ou rural, cuja dimensão, número de domicílios e de estabelecimentos permitem ao Recenseador cumprir suas atividades em um prazo determinado, respeitando o cronograma de atividades.

(7)

As variáveis de comparação foram escolhidas levando-se em consideração a sua disponibilidade e o seu poder de discriminação. Considerando que a amostra da PA é independente da amostra do Censo, o conjunto de variáveis comparáveis está restrito às variáveis do conjunto Universo do Censo.

Tendo em vista que a Pesquisa de Avaliação deve conter um número reduzido de perguntas para evitar recusas e perda de qualidade dos dados em razão do cansaço do informante, já que este terá sido entrevistado por ocasião do Censo, o questionário da PA inclui um conjunto de quesitos que permite obter as a seguintes variáveis.

Domicílio 1. Tipo do logradouro 2. Título do logradouro 3. Nome do logradouro 4. Número 5. Modificador do número 6. Complemento(s) 7. Ponto de referência 8. Nome do responsável

9. Nome do cônjuge (quando houver) 10. Total de homens

11. Total de mulheres

Pessoas

1. Nome (primeiro, último e demais) 2. Idade (em anos)

3. Cor ou raça

4. Alfabetização (Sabe ler e escrever?)

5. Relação de parentesco/convivência com o responsável pelo domicílio 6. Logradouro onde reside (tipo, título e nome)

(8)

Os quadros 1 e 2 ilustram exemplos dessas variáveis:

Quadro 1

Exemplo de variáveis de Domicílio

Endereço: Avenida Presidente Vargas, 1367 B, apartamento

202, próximo a Central do Brasil

Variáveis Valores

TIPO DE LOGRADOURO Avenida TITULO DO LOGRADOURO Presidente NOME DO LOGRRADOURO Vargas

NUMERO 1367 MODIFICADOR B COMPLEMENTO apartamento 202 PONTO DE REFERÊNCIA próximo a Central do Brasil

NOME DO RESPONSÁVEL José Machado

NOME DO CÔNJUGE Maria Machado

TOTAL DE HOMENS 1

TOTAL DE MULHERES 2

Quadro 2

Exemplo de variáveis de Pessoas Pessoa:

Maria Mendes Machado, 51 anos, parda, sabe ler escrever, cônjuge do responsável

Variáveis Valores

PRIMEIRO NOME Maria

ÚLTIMO NOME Machado

DEMAIS NOMES Mendes

IDADE 51

COR OU RAÇA 2 (parda)

ALFABETIZAÇÃO 1 (sabe ler e escrever)

PARENTESCO Cônjuge

Na fase assistida, poderão ser utilizadas também as informações dos demais membros do domicílio.

(9)

3. Pareamento Probabilístico

Para o processo de integração e comparação de bases de dados foram desenvolvidas algumas teorias estatísticas, contudo a melhor referência teórica é o trabalho de Fellegi e Sunter10. Considerando ser o trabalho dos autores a base do modelo desenvolvido para a Pesquisa de Avaliação 2010, apresenta-se neste capítulo, os diferentes aspectos da teoria, da técnica de redução de espaço de comparação e das funções de comparação, desenvolvidas posteriormente por outros autores, que compõem o processo de pareamento da Pesquisa.

Num processo de pareamento, dois registros são considerados um par verdadeiro quando eles se referem à mesma unidade física, neste caso um domicílio ou uma pessoa. De forma análoga, os registros são considerados falsos pares quando eles não se referem à mesma unidade. Além disso, usamos o conceito de registros pareados quando, por algum processo, é determinado que dois registros se referem à mesma unidade e registros não

pareados quando, pelo mesmo processo, é determinado que os dois registros não se referem

à mesma unidade.

Um sistema de pareamento é considerado correto quando pareia os verdadeiros pares e não pareia os falsos pares. Se ocorre o pareamento de um par falso, produziu-se um falso positivo e quando não ocorre o pareamento de um verdadeiro par, produziu-se um falso negativo. Esses conceitos estão resumidos no Quadro 3.

Quadro 3

Conceitos do Sistema de Pareamento

Verdadeiro Par Falso Par

Pareado Pareamento Correto Falso Positivo

Não Pareado Falso Negativo Pareamento Correto

Fonte: STATISTICS NEW ZELAND (2006)

A teoria de Fellegi e Sunter tem por regra minimizar a ocorrência de falsos positivo e falsos negativo11. No processo de pareamento de dois registros, cada variável é comparada e uma nota é atribuída a esta comparação. Estas notas refletem o quão similar os registros são a partir dessa comparação. O cálculo de tais notas é realizado em função de dois parâmetros, M e U de cada variável.

O primeiro parâmetro é a probabilidade condicional M de dois registros serem pareados dado que eles são um verdadeiro par, ou seja, a probabilidade de ocorrer um Verdadeiro Positivo no processo de pareamento:

M = P (dois registros são pareados / os dois registros são um par).

Por exemplo, a variável gênero é de fácil coleta e seus valores são consistentes em coletas distintas. Dessa forma, pode-se encontrar uma probabilidade M elevada para essa variável, por exemplo, da ordem de 0,98. Já as variáveis constantes do endereço não são de fácil coleta e podem ocorrer inconsistências entre duas coletas distintas, de forma que sua

10_{WINKLER (1995)} 11

FELLEGI E SUNTER (1969) – “In other words, for fixed levels of error, the rule minimizes the probability of failing to make positive dispositions.” Estas positive dispositions são a decisão de parear e a decisão de não parear.

(10)

probabilidade M deve ser menor, por exemplo da ordem de 0,7012. Há diferentes maneiras de se calcular essa probabilidade13.

O segundo parâmetro é a probabilidade condicional U de dois registros concordarem dado que eles são um falso par, isto é, a probabilidade de ocorrer um Falso Positivo no processo de pareamento:

U = P (dois registros são pareados / os dois registros não são um par). O valor de U pode ser dado pelo inverso do número de categorias.

De fato, quanto mais comum for o valor da variável, mais provável será que dois registros distintos contenham esse mesmo valor. Por exemplo, a variável gênero possui dois valores diferentes, masculino e feminino, portanto o U deverá ser próximo de 0,5. Da mesma forma, a variável mês de nascimento deverá ter o U próximo de 0,08 pois há 12 meses diferentes.

Com base nas probabilidades M e U calculam-se os pesos de concordância e de discordância de cada variável14. Tais pesos serão utilizados para compor as notas a serem atribuídas na comparação de cada variável no processo de comparação de cada par de registros. Peso de concordância = _     u m 2 log Peso de discordância = _       u m 1 1 log₂

A aplicação de log na base 2 faz com que cada variável obtenha peso positivo caso seus valores concordem nos dois registros que estão sendo comparados e peso negativo quando seus valores discordarem. As Tabelas 1 e 2 ilustram o cálculo da nota obtida por um par de registro em um exemplo, a comparação do registro de Helena Maria, 62 anos, feminino, Rua Pereira Nunes, 114 com o registro de Madalena Romeo, 34 anos, feminino, Rua da Matriz, 299.

Tabela 1

Parâmetros M e U das variáveis15

Variável M U Peso de Concordância Peso de Discordância Nome 0,95 0,01 6,57 -4,31 Idade 0,90 0,01 6,49 -3,31 Gênero 0,95 0,50 0,93 -3,32 Endereço 0,70 0,01 6,13 -1,72

12_{STATISTICS NEW ZELAND (2006).} 13

A idéia de imputar valores altos para M em variáveis com alto grau de confiabilidade e diminuir seu valor em variáveis com grau de confiabilidade menor e mudanças de valores mais frequentes, como endereço, está descrita em STATISTICS NEW ZELAND (2006).

14_{STATISTICS NEW ZELAND (2006).}

15_{Valores obtidos segundo critérios apresentados em}_{Data Integration Manual.}_{STATISTICS NEW}

(11)

Tabela 2

Cálculo da nota do par de registro

Variável Há concordância? Nota da variável Nome Não -4,31 Idade Não -3,31 Gênero Sim 0,92 Endereço Não -1,72

Soma das notas do par de registros = -8,42

Comparando-se os dois registros, verifica-se que apenas a variável gênero é concordante e portanto apenas ela recebe nota igual ao seu peso de concordância. Todas as demais recebem nota igual aos respectivos pesos de discordância. Assim, a nota total dessa comparação, ou a soma das notas, vale -8,42.

Uma vez calculadas a notas de todos os pares de registros, é necessário definir valores de corte inferior e superior de forma a possibilitar a criação de uma regra de decisão do

pareamento probabilístico. Os pares com notas acima do limite de corte superior serão

considerados pares e aqueles com notas menores que o valor do limite de corte inferior não o serão. Já os pares cujas notas se situam entre os dois limites de corte, ou seja, os que possuem notas menores que o limite de corte superior e maiores que o inferior, esses são classificados como pares possíveis e poderão ou não ser pareados nas etapas posteriores ao pareamento probabilístico.

A escolha desses limites de corte é da mais alta importância para o sucesso do pareamento probabilístico. Um elevado limite de corte superior diminui a ocorrência de falsos positivo, mas pode acarretar a ocorrência de muitos falsos negativos. Um baixo limite de corte superior, por sua vez, minimiza a ocorrência de falsos negativos mas aumenta a probabilidade de falsos positivos. Há portanto um trade-off entre falsos positivos e falsos negativos. Assim, os registros pareados com nota em torno da nota de corte superior, deverão ser verificados para se certificar de que não se trata de falsos positivo ou negativo. A partir dessas informações, o pareamento poderá ser refeito, se for o caso, com um limite de corte superior mais alto ou mais baixo.

De forma semelhante, um baixo limite de corte inferior poderá fazer com que muitos verdadeiros negativo sejam classificados como pares possíveis, sobrecarregando a etapa seguinte ao processo probabilístico, enquanto que um alto limite de corte inferior classificará como não pareados vários pares que poderiam vir a sê-los nessa etapa posterior. Aqui também o ajuste da nota de corte só pode ser feito através de cuidadosa verificação.

(12)

3.1. Blocagem

Outro aspecto importante na teoria do pareamento, abordado no trabalho de Fellegi e Sunter, é o da redução do espaço de comparação. Processos de pareamento que envolvem um elevado número de registros para serem comparados gera um problema de agilidade mesmo para máquinas com alto poder de processamento. Se um projeto de pareamento 1:1 pretende comparar uma base com mil registros com outra base também com mil registros, há um milhão de comparações possíveis.

Para agilizar o pareamento sem perder a eficiência e consistência de seu resultado, foram desenvolvidas técnicas de redução do espaço de comparação. As principais são: blocagem convencional e corte da vizinhança, contudo há na literatura outros métodos de redução do espaço de comparação. BAXTER (2003) compara tais métodos com “bigram indexing” e “canopy clustering with Term Frequency/Inverse Document Frequency” e CHRISTEN (2003) apresenta outras técnicas como: “Q-gram Index”, “String map Index”, “Suffix array Index” e “BigMatch index”, contudo estas técnicas são mais complexas que a blocagem convencional e o corte da vizinhança e não há na literatura resultados da sua aplicação.

A blocagem convencional, como o nome sugere, consiste em reduzir o espaço de comparação agrupando os registros em blocos, assim só serão comparados os registros dentro do bloco. Os registros do bloco possuem em comum uma chave de blocagem. Esta chave pode ser formada por uma única variável, comum a todos os registros que serão comparados, ou por uma combinação de variáveis.

Em um confronto de 1.000 registros com outros 1.000 registros há um total de um milhão de comparações (1.000 x 1.000) mas se ambas as bases de dados fossem divididas em cinco blocos, por exemplo, com 200 registros em cada, ficando as comparações restritas a cada bloco, o número delas irá se reduzir para 200 mil (5 x 200 x 200).

Uma das características mais importantes para a escolha da variável de blocagem é a sua completude. Variáveis com elevado número de missing faz com que seja necessário criar mais de um estágio de blocagem, pois os registros com missing na variável de blocagem via de regra não compõem um grupo e terão que ser comparados com os demais registros para a formação de par.

Além da qualidade da variável, outros critérios devem ser considerados na escolha da variável de blocagem. No caso da PA 2010, utiliza-se o critério geográfico para o pareamento de domicílios já que os registros a serem comparados são referenciados pelo seu endereço. Não se deseja fazer par de um domicílio situado à Rua Clarice Lispector, bairro Ayrton Senna, São Mateus, Espírito Santo, com aquele situado à Rua Clarice Lispector, bairro Torrões, Recife, Pernambuco.

(13)

3.2. Aperfeiçoamentos à teoria de Fellegi e Sunter

Alguns aperfeiçoamentos no processo de pareamento de Fellegi e Sunter foram propostos por Jaro e Winkler16, os quais foram elaborados durante a aplicação dessa teoria em processos de pareamento realizados em Censos e PAs nos Estados Unidos.

JARO (1989) propôs pela primeira vez o uso do algoritmo EM 17 para o processo de pareamento probabilístico do Censo e PA de 1985 em Tampa, Flórida. O uso deste algoritmo possibilitou estimar os parâmetros de Fellegi e Sunter acima descritos para cada par de registros, tornando possível o desenvolvimento de softwares para a realização de pareamento de dados.

Outro aperfeiçoamento proposto por Jaro foi o uso de uma medida de comparação entre as variáveis dos registros, tomadas enquanto duas strings, calculado pela fórmula18:

onde:

s é o número de caracteres da variável na string 1; t é o número de caracteres da variável na string 2;

s’ e t’ são os números de caracteres iguais e na mesma posição das duas strings; e Ts’,t’ é o número de transposições necessárias para a string 1 ficar igual a 2.

Winkler aplicou a teoria de Fellegi e Sunter no pareamento nos dados do Censo e PA estadunidense de 1990 nas cidades de Saint Louis, Columbia e Washington e propôs uma medida de comparação que é uma extensão daquela proposta por Jaro19:

onde:

P´ é o número de caracteres comuns entre os quatro primeiros caracteres de ambas as strings,

variando, dessa maneira, entre 0 e 4.

As medidas de Jaro e Winkler objetivam parear registros cujos valores das variáveis não estão escritos de forma absolutamente igual. Como erros de grafia são comuns na composição de bases de dados, se os registros pertencem ao mesmo indivíduo ou unidade o par deve ser formado mesmo que haja divergências de grafia entre eles. Um exemplo de um par de registros iguais com erros de grafia é o seguinte:

16_{Mathew Jaro foi funcionário da Divisão de Pesquisas Estatísticas do US Bureau of the Census, sua medida de}

comparação está escrita nos artigos JARO (1984), JARO (1989) E JARO (1995). Willian Winkler também foi funcionário do US Bureau of the Census e trabalhou em cima dos estudos de Jaro, seus principais trabalhos são: WINKLER (1994), WINKLER (1995) e WINKLER e THIBAUDEAU (1991).

17 O algoritmo EM é um método para calcular estimadores de máxima verossimilhança em modelos estatísticos quando esses apresentam dados incompletos. Mais detalhes em DEMPSTER (1977).

18_{JARO (1995) e COHEN (2003).} 19_{WINKLER (1999) e COHEN (2003).}

(14)

Quadro 4

Exemplo de par de registros iguais com erros de grafia Variáveis Valor no Censo Valor na PA

Primeiro Nome Otávio Octávio

Último Nome Romeo Romeo

Sexo 1-Masculino 1-Masculino Mês de nascimento Junho Junho Ano de nascimento 1983 1983

A única diferença entre os registros está na variável “Primeiro Nome” com o registro do Censo apontando “Otávio” e o registro da PA apontando “Octávio”. Aplicando-se as fórmulas acima descritas, a comparação entre esses dois registros gera um coeficiente de Jaro igual a 0,952 e de Winkler igual a 0,957. Neste caso, para parear os registros, ainda que com pequenos erros de grafia, basta utilizar um coeficiente de Jaro ou Winkler superior a 0,95 como critério de aceitação para a variável “Primeiro Nome”.

4. Implementação do Processo de Pareamento

A implementação de um processo de pareamento com duas bases de dados relativamente grandes requer o auxílio de métodos computacionais e de ferramentas que possam implementá-los. No âmbito do projeto da PA 2010 foram estudados diferentes software, dentre os quais dois se destacaram pela transparência de seus métodos e eficiência de seus resultados: o Febrl – Freely Extensible Biomedical Record Linkage e o Relais –

Record Linkage at Istat.

4.1. FEBRL – Freely Extensible Biomedical Record Linkage

FEBRL é um software livre que tem por objetivo limpar, padronizar, deduplicar e parear bases de dados. Utiliza a linguagem de programação Python e possui seu código fonte aberto para possibilitar a alteração e inclusão de métodos de pareamento e medidas de similaridade por usuários. O Software possui interface gráfica (GUI), o que faz com que o seu uso seja facilitado.

Desenvolvido em 2002 pela Universidade Nacional da Austrália e pelo Departamento de Saúde de New South Wales, Sydney, Austrália, o FEBRL pretende também comparar métodos de pareamentos distintos e ser uma ferramenta de fácil acesso aos usuários. Até junho de 2008 foram feitos 9.840 downloads do software20.

O software apresenta uma tela inicial onde o usuário seleciona se quer limpar, padronizar, deduplicar ou parear bases de dados e depois carrega a(s) base(s) de dados. Após isso, novas abas são abertas para a escolha dos métodos e definição dos parâmetros conforme o caso.

Na deduplicação e pareamento, após inseridas as bases de dados é possível escolher um método para redução do espaço de comparação. Além da técnica de blocagem, há outras seis opções. São várias as opções de medidas de comparação. O FEBRL implementa ao todo

(15)

26 funções distintas21 com o usuário podendo ajustar os coeficientes de corte, os pesos de concordância e discordância e até peso para o caso do registro estar em branco. Dentre os métodos de classificação há o probabilístico de Fellegi e Sunter e outros seis, bem como os limites de cortes para identificação dos registros duplicados ou dos pares.

Após tais definições, o programa processa os dados e apresenta os resultados em arquivos de texto (formato .txt). O software atribui uma identificação para cada registro da base de dados de acordo com a ordem em que ele se encontra, quando não se define uma variável como identificador; por exemplo o registro que o programa chama de __rec_id_a__-1 é o primeiro registro da base A e ele faz par com o centésimo da lista da base B. Assim o programa apresenta o registro abaixo, onde mid001 é o primeiro par formado e 2.6667 é a “nota” do par composta pela soma dos pesos de concordância com os pesos de discordância, para um exemplo feito.

Quadro 5

Visualização de um pareamento no FEBRL

__rec_id_a__-1,__rec_id_b__-100,2.6667,mid001 Fonte: Software FEBRL.

Como os arquivos de saída não permitem visualizar as informações da unidade a qual pertence o registro 1 da primeira base de dados nem do registro 100 da outra base de dados, é necessário algum processamento adicional para organizar os arquivos de saída de modo que seja possível analisar ou mesmo utilizá-lo em uma fase de pareamento assistido, conforme planejado na PA 2010.

4.2. RELAIS – Record Linkage at Istat

RELAIS é um software livre que utiliza duas linguagens de programação: Java, linguagem orientada a objetos e R, linguagem funcional para cálculo de técnicas associadas ao processo de pareamento dos dados. Além disso RELAIS possui uma arquitetura baseada no sistema gerenciador de banco de dados MySql (Structure Query Language) permitindo o uso de diferentes bases de dados.

O programa tem por objetivo somente parear dados oriundos de duas bases distintas. Ao contrário do FEBRL ele não efetua padronização, limpeza nem deduplicação de registros.

Desenvolvido pelo Istituto nazionale di statistica, o Instituto Nacional de Estatísticas Italiano, a versão 1.0 do RELAIS foi utilizada na Pesquisa de Avaliação do Censo italiano de 2001. Também foi apresentado em seminários e eventos no Eurostat e no Federal Comitee on Statistical Methodology, institutos europeu e americano respectivamente, bem como utilizado pelo Instituto Nacional de Estatística espanhol para integrar duas bases de dados distintas: o exame de condições de vida e o registro populacional central22.

O programa possui interface gráfica onde são carregadas as bases de dados e em seguida são disponibilizadas para o usuário opções como redução do espaço de comparação, escolha de métodos de pareamento e medidas de comparação. Os métodos de pareamento

21_{FEBRL contém as medidas de Jaro e Winkler apresentadas no capítulo 3 e outras 24 medidas de comparação.} 22_{CIBELLA (2009).}

(16)

implementados pelo software são três: determinístico, determinístico com regra e probabilístico usando Fellegi e Sunter. Há sete métodos de comparação implementados, incluindo Jaro e Winkler.

Os resultados são apresentados em tabelas no próprio programa e podem ser salvas em arquivo de texto (formato .txt). A visualização é simples e pode ser observada todas as variáveis dos registros pareados. Além disso é possível gerar arquivos contendo somente os registros não pareados, para serem tratados na etapa seguinte de pareamento assistido. No Quadro 6 vê-se um registro pareado no RELAIS.

Quadro 6

Visualização de um pareamento no RELAIS

DS;KEY_DS;PRIM_NOME;ULT_NOME;LOGR_TIPO;LOGR_NOME;NUMERO A;1;MARIA;FRANCISCHINI;AVENIDA;VINTE E DOIS;746

B;34;MARIA;FRANCISCHINI;AVENIDA;VINTE E DOIS;746 Fonte: Software RELAIS.

DS é abreviação de data set, mostrando que o primeiro registro é da base de dados incluída inicialmente (o Censo) e o segundo é da outra base de dados (a PA). O KEY_DS funciona como o rec_id do FEBRL, a diferença é que não apenas ele é mostrado no resultado mas há a visualização do registro completo com todas as suas variáveis.

No pareamento probabilístico, o RELAIS estima os parâmetros M e U utilizando o algoritmo EM. Tal estimação apresentou pontos positivos e negativos. Se por um lado não há necessidade de intervenção do usuário, ou seja, não é preciso calcular o M e o U nem os pesos de concordância e discordância, por outro, para conjunto de dados pequenos ou com pouca diversidade, o método de estimação dos parâmetros (EM) falha23. Esse problema com o algoritmo EM é mencionado em WINKLER e THIBAUDEAU (1991).

Nos testes realizados, o RELAIS também apresentou falhas no momento da formação dos pares utilizando a solução “ótima” apontada pelo programa com o uso da linguagem R. Em blocos muito grandes, com muitos pares a serem comparados, a memória máxima permitida pelo R foi excedida e a formação de pares falhou. SCANNAPIECO (2008) cita apenas que experimentos mostraram que o RELAIS permite efetuar pareamento com alguns milhares de registros.

23

O manual do programa aponta que a estimação não é confiável quando pelo menos uma das variáveis de comparação possui M = 0 ou U = 1. Nesse caso, o RELAIS para de calcular e envia uma mensagem de erro ao usuário. SCANNAPIECO (2008).

(17)

5. Considerações Finais

O uso de métodos computacionais para a realização do pareamento de domicílios e pessoas dos registros do Censo com os da PA é uma das inovações mais importantes da Pesquisa de Avaliação do Censo 2010 e é também um grande desafio. Tais mudanças pressupõem muito investimento no estudo de metodologias, cuja essência está nos métodos de pareamento, também conhecido como record linkage e matching, e também na busca de ferramentas que possam implementar os métodos pertinentes ao processo de pareamento.

Foram estudadas várias possibilidades para a composição de um sistema de pareamento que minimizasse os esforços e o tempo gasto e, ao mesmo tempo, maximizasse a precisão na classificação final das unidades comparadas em “incluída no Censo e na PA” ou “incluída em somente uma” das duas coletas. Assim, foi feito algum investimento no estudo de métodos de comparação e classificação, componentes essenciais do pareamento probabilístico, de métodos de pareamento determinístico e de pareamento assistido. Para a melhora do desempenho dos processos de pareamento, foram ainda estudadas técnicas de blocagem, de deduplicação e de padronização dos dados.

A literatura é farta na discussão do pareamento com uso de método probabilístico, contudo a teoria desenvolvida por Ivan Fellegi e Alan Sunter24 é considerada a melhor referência quando se trata de pareamento através do uso de métodos computacionais25. Além de reconhecimento acadêmico, a teoria de Fellegi-Sunter tem sido utilizada no pareamento de registros provenientes do Censo com os da Pesquisa de Avaliação em países como Estados Unidos26 e Austrália27. Outros usos, como a integração de dados provenientes de censos com outras pesquisas domiciliares e registros administrativos, têm sido feitos pelo Statistics New Zealand28, entre outros.

Outro investimento feito no âmbito do projeto foi o estudo de ferramentas que pudessem implementar os métodos que compõem o sistema de pareamento da PA 2010. Nos tempos atuais é possível encontrar algumas dezenas de ferramentas, dentre as quais estão o RecLink, o Data Quality (SAS), o Quality Stage (IBM), o Link Plus, desenvolvido pelo Center for Disease Control and Prevention (CDC) dos EUA, o Freely Extensible Biomedical Record Linkage (FEBRL) desenvolvido pela Australian National University e o Record Linkage at Istat (RELAIS). Dentre as ferramentas estudadas, duas se destacaram pela transparência de seus métodos e eficiência de seus resultados: o FEBRL e o RELAIS.

O FEBRL é mais completo, pois implementa vários métodos de comparação, de redução do espaço de comparação e de pareamento. O desafio para a utilização desse software é a obtenção de uma forma de visualização mais completa dos resultados, a definição dos parâmetros U e M, e consequente definição dos pesos de concordância e discordância, e dos limites de corte para um pareamento eficiente.

O RELAIS apresenta os resultados num formato mais acessível que o FEBRL, podendo ser facilmente salvo em formato de texto e rapidamente tem-se outra base de dados

24_{FELLEGI, I. e SUTER, A., A theory for record linkage.} 25_{WINKLER, W.E., Matching and Record Linkage, pag.3 .}

26_{WINKLER, W.E e THIBAUDEAU, Y., An Application of the Fellegi-Sunter Model of Record Linkage to the}

1990 U.S.Decennial Census e MULE, Vincent Thomas Jr, Person Duplication in Census 2000.

27_{BISHOP, G. e KHOO, J., Methodology of Evaluating the Quality of Probabilistic Linking.} 28_{Statistics New Zealanda, Data Integration Manual, 2006.}

(18)

formada com os pares ou com o resíduo. Além disso, o cálculo dos pesos de concordância e discordância é feito pelo próprio software, o qual calcula os parâmetros U e M pelo método EM. O desafio nesse software é encontrar um tamanho de bloco suficientemente grande e diverso para permitir a estimação dos parâmetros com qualidades cujo tamanho não extrapole a memória máxima permitida pelo R.

Procurou-se abordar os assuntos mais relevantes para a introdução de novas metodologias no sistema de pareamento de domicílios e pessoas da Pesquisa de Avaliação 2010 e os avanços já feitos. Contudo, este é um projeto ainda em andamento, para que seja implementado a partir outubro de 2010, portanto os diferentes aspectos apresentados ainda podem ser melhorados.

6. Bibliografia

BAXTER R. , CHRISTEN, P. , CHURCHES, T. A Comparison of Fast Blocking Methods for Record Linkage. Disponível em: http://datamining.anu.edu.au/publications/2003/kdd03-6pages.pdf. Último acesso em: 18/12/2009. Canberra, 2003.

CHRISTEN, P. FEBRL – An Open Source Data Cleaning, Deduplication and Record Linkage System with a Graphical User Interface. Disponível em: http://unstats.un.org/unsd/demographic/meetings/wshops/Ethiopia_14_Sept_09/Manuals/Pete r.christen-febrl-demo.pdf . Último acesso em: 08/03/2010. Canberra, 2008.

CIBELLA, N. Sharing Solutions for Record Linkage: the Relais Software and the Italian and

Spanish Experiences. Disponível em:

http://epp.eurostat.ec.europa.eu/portal/page/portal/research_methodology/documents/S7P2_S HARING_SOLUTIONS_FOR_RECORD_LINKAGE_CIBELLA_TUOTO_.pdf. Úlimo acesso em: 18/12/2009. Bruxellas, 2009.

COHEN, W. A Comparison of String Distance Metrics for Name-Matching Tasks. Disponível em: http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.15.178&rep=rep1&type=pdf. Último acesso em: 05/03/2010. Pittsburg, 2003.

DEMPSTER, A. , LAIRD, N. , RUBIN, B. Maximum Likelihood from Incomplete Data via EM Algorithm. Journal of Royal Statistical Society. Serie B 39, pps. 1 – 38. Londres, 1977. FELLEGI, I. & SUNTER, A. A Theory for Record Linkage. Journal of the American Statistical Association, Vol. 64, pp. 1183-1210. Alexandria, 1969.

GILL, L. Methods for Automatic Record Matching and Linkage and their use in National Statistics. National Statistics Methodological Series nº 25. Londres, 2001.

IBGE, Pesquisa de Avaliação da Cobertura da Coleta do Censo 2010: Grandes Etapas do Sistema de Pareamento de Domicílios e Pessoas. Rio de Janeiro, 2010.

JARO, M. Record Linkage Research and the Calibration of Record Linkage Algorithms. Statistical Research Division Report Series. Washington, 1984.

(19)

JARO, M. Advances in Record Linkage Methodology as Applied to Matching the 1985 Census of Tampa, Florida. Journal of the American Statistical Association, Vol. 84, pp. 414-420. Alexandria, 1989.

JARO, M. Probabilistic Linkage of Large Public Health Data Files. Statistics in Medicine, Vol. 14, pp. 491-498, 1995.

OLIVEIRA, L. et al. Censo demográfico 2000: pesquisa de avaliação da cobertura da coleta: apresentação de resultados. Textos para Discussão nº 9, Diretoria de Pesquisas, IBGE. Rio de Janeiro, 2003.

SCANNAPIECO, M. Relais user’s guide 2.0. Disponível em: http://www.istat.it/strumenti/ metodi/software/MTSFload/ALTRIload/RELAISload/manual_relais_2_0.pdf. Último acesso em: 21/12/2009. Roma, 2008.

STATISTICS NEW ZEALAND. Data Integration Manual. Wellington, 2006.

TUOTO, T. RELAIS: Don’t Get Lost in a Record Linkage Project. Disponível em: http://www.fcsm.gov/07papers/Tuoto.VI-C.pdf. Último acesso em: 21/12/2009. Arlington, 2007.

WINKLER, W. e THIBAUDEAU, Y. An Application of the Fellegi-Sunter Model of Record Linkage to the 1990 U.S. Decennial Census. Disponível em: http://www.census.gov/srd/papers/pdf/rr91-9.pdf . Washington,1991.

WINKLER, W. Matching and Record Linkage. Business Survey Statistics, pp. 355-384. Washington, 1995.

WINKLER, W. The state of record linkage and current research problems. Disponível em: http://www.census.gov/srd/papers/pdf/rr99-04.pdf . Washington, 1999.