• Nenhum resultado encontrado

Avaliação da substituição do software DIA pelo CANCEIS no processo de crítica e imputação das variáveis de fecundidade PNAD

N/A
N/A
Protected

Academic year: 2021

Share "Avaliação da substituição do software DIA pelo CANCEIS no processo de crítica e imputação das variáveis de fecundidade PNAD"

Copied!
18
0
0

Texto

(1)

Avaliação da substituição do software DIA pelo CANCEIS no processo de

crítica e imputação das variáveis de fecundidade PNAD

1

Bruno Freitas Cortez2,3

Palavras-chave: Imputação; Fecundidade; CANCEIS; DIA.

Resumo

As variáveis do bloco de fecundidade da Pesquisa Nacional por Amostra de Domicílios (PNAD), não eram alvo de processos de imputação probabilística até o ano de 2006. Para efeito de tabulação de resultados, somente eram consideradas as mulheres que possuíam respostas válidas em todos os quesitos. Caso houvesse pelo menos um quesito sem declaração, o registro não seria considerado. Em 2007 foi utilizado o sistema DIA -

Detección e Imputación Automática de errores para datos cualitativos - desenvolvido pelo

Instituto Nacional de Estadística da Espanha para crítica e imputação de dados. Na PNAD de 2008 utilizou-se o CANadian Census Edit and Imputation System - CANCEIS, software que possui as mesmas finalidades do DIA, porém com diferenças metodológicas.

Um estudo prévio (Cortez et al. 2010) da PNAD 2008 mostrou que o processo de não-resposta da fecundidade é diferencial em relação a outras variáveis. Desta forma, foi mensurado o impacto da introdução de um sistema de crítica e imputação, o software CANCEIS, na pesquisa. Entretanto, ainda havia um impacto não avaliado, que diz respeito à mudança metodológica ocorrida entre as PNADs 2007 e 2008. Ou seja, ao se comparar os dados publicados nos últimos anos, poderia a análise ser influenciada pela mudança metodológica do sistema de crítica e imputação? Optou-se por tratar apenas do tema de fecundidade, pois foi avaliado (Cortez e Dantas 2011) que a taxa de imputação para os demais temas é muito reduzida, aliada a não existência da exclusão de registros diante da inconsistência de um dos quesitos. Assim, este insuficiente volume de dados impossibilita análises mais aprofundadas das distribuições resultantes dos distintos softwares.

Este trabalho descreve as diferenças metodológicas entre o DIA e CANCEIS, bem como analisa os bancos de dados das PNADs 2007 e 2008, os quais foram criticados e imputados por ambos os softwares nestes dois anos de transição dos sistemas. A comparação entre os resultados dos bancos publicados (DIA-2007 e CANCEIS-2008), com os bancos de controle (CANCEIS-2007 e DIA-2008), mostra que embora existam diferenças no número de variáveis e nos valores imputados pelos softwares, a opção pela não adoção de um sistema de crítica e, consequentemente, a exclusão dos registros inconsistentes, teria um impacto ainda maior na distribuição publicada. Com relação aos dois sistemas, verificou-se que as distribuições resultantes foram, de forma geral, similares. Diferenças pontuais ocorreram quando o volume de imputação foi grande, em um cenário de não-resposta diferencial, para uma variável quantitativa.

1

Trabalho apresentado no XVIII Encontro Nacional de Estudos Populacionais, ABEP, realizado em Águas de Lindóia/SP – Brasil, de 19 a 23 de novembro de 2012

2

IBGE/DPE/Coordenação de Métodos e Qualidade (COMEQ) 3

O IBGE está isento de qualquer responsabilidade pelas opiniões, informações, dados e conceitos emitidos neste artigo, que são de exclusiva responsabilidade dos autores.

(2)

2

Avaliação da substituição do software DIA pelo CANCEIS no processo de

crítica e imputação das variáveis de fecundidade PNAD

Bruno Freitas Cortez

1. Introdução

A PNAD - Pesquisa Nacional por Amostra de Domicílios - tem como finalidade a produção de informações básicas para o estudo do desenvolvimento socioeconômico do país. O tema fecundidade, especificamente, tem sido investigado pela PNAD, para mulheres de 10 anos ou mais de idade, desde 1992. Através de suas informações é possível construir importantes indicadores da fecundidade feminina.

Até o ano de 2006, se um dos quesitos deste tema não fosse respondido, era atribuído um código de “sem declaração”. Para efeito de tabulação de resultados, somente eram consideradas as mulheres que possuíam respostas válidas em todos os quesitos. Caso houvesse pelo menos um quesito sem declaração, o registro não seria considerado.

Em 2007 foi utlizado na PNAD o sistema DIA - Detección e Imputación Automática

de errores para datos cualitativos - que é um sistema desenvolvido pelo Instituto Nacional de

Estadística - INE da Espanha para crítica e imputação de dados. Na PNAD de 2008 utilizou-se o CANadian Census Edit and Imputation System - CANCEIS, software que possui as mesmas finalidades do DIA, porém com diferenças metodológicas. Com a utilização dos softwares de crítica e imputação de dados, a partir da PNAD de 2007, nenhum quesito da parte de fecundidade permaneceu sem declaração.

Um estudo prévio (Cortez et al. 2010), com base nos dados da PNAD 2008, mostrou que o processo de não-resposta da fecundidade é diferencial em relação a outras variáveis (como idade e anos de estudo da mulher). Desta forma, foi possível mensurar o impacto da introdução de um sistema de crítica e imputação na pesquisa. Isto é, mudanças de padrões observadas nas tabulações pós 2006, não eram exclusivamente devido a um diferencial de resposta das mulheres, e sim a introdução de um grupo de mulheres que previamente eram excluídas destas tabulações.

Por outro lado, ainda havia um impacto não avaliado, que diz respeito à mudança metodológica ocorrida entre as PNADs 2007 e 2008. A questão implícita é: ao se comparar os dados publicados nos últimos anos, até que ponto a análise pode estar sendo influenciada pela simples adoção de um sistema de crítica e imputação em detrimento de outro? Este será o escopo deste estudo.

Optou-se por tratar apenas do tema de fecundidade, pois já foi avaliado anteriormente (Cortez e Dantas 2011) que a taxa de imputação para os demais temas é muito reduzida, bem como não existe a peculiaridade de exclusão de registros quando um de seus quesitos deixa de ser respondido. Assim sendo, este reduzido volume de dados impossibilitaria quaisquer análises mais aprofundadas das distribuições resultantes dos distintos métodos de imputação.

(3)

3

2. O processo de crítica e imputação

Os softwares DIA e CANCEIS foram desenhados para crítica e imputação de dados. De um modo geral, a etapa de crítica visa identificar tanto variáveis não respondidas pelo entrevistado (recusas) como também variáveis às quais este nos informa um valor inconsistente, em relação a um conjunto de regras definido previamente. Então, na etapa posterior, de imputação, estes valores identificados são alterados de forma que não haja mais variáveis não respondidas e que todas as inconsistências sejam corrigidas.

Entretanto os métodos de imputação destes dois programas não são iguais. Esta seção apresenta uma descrição resumida do funcionamento de ambos, ressaltando suas características distintas.

2.1 Descrição do CANCEIS

O CANCEIS foi desenvolvido pelo Instituto de Estatística do Canadá (STATSCAN) para a etapa de crítica e imputação do censo demográfico canadense de 2001. A imputação de dados faltantes ou inconsistentes é realizada por meio de um registro doador que tenha semelhança com o registro que será imputado, em função de um critério de distância para determinadas variáveis de similaridade previamente escolhidas. A definição de registro depende do banco de dados em questão. No caso dos quesitos de fecundidade da PNAD, o registro é uma pessoa, mais especificamente uma mulher com 10 anos ou mais de idade.

O procedimento inicia-se com a definição das regras de crítica ou inconsistência em forma de Tabelas Lógicas de Decisão (DLTs). Os registros que satisfazem todas as regras de crítica são separados em um grupo e serão os possíveis “doadores” de informações. Em contrapartida, registros que violam pelo menos uma regra são separados em outro grupo e serão os que necessitam de imputação para corrigir as inconsistências verificadas. Os objetivos da metodologia, explicados de uma forma mais detalhada, são os seguintes:

• Utilizar um único registro doador para a imputação de todas as informações inconsistentes de um receptor.

• O registro imputado deve ser o mais parecido possível com o doador, a fim de obter um registro plausível que contenha a combinação das respostas imputadas e não imputadas.

• Preservar ao máximo as informações coletadas, imputando o menor número possível de variáveis.

• Em menor grau de prioridade considera-se também a distância física entre os registros no arquivo. A ideia é que registros mais próximos devem pertencer a áreas geográficas igualmente mais próximas, onde a realidade é mais semelhante.

A seleção do doador é efetuada varrendo-se o conjunto dos registros que não violaram nenhuma das regras de crítica, a partir da posição do registro falho no arquivo, até um limite determinado pelo usuário. O sistema, então, seleciona os registros com menor distância (dadas as variáveis de similaridade) em relação ao que será imputado, respeitando um limite máximo informado previamente. Finalmente se dá a seleção, que é feita de forma aleatória.

Outra característica importante deste software é que como todas as DLTs são lidas previamente, há a garantia que qualquer imputação realizada não irá gerar nova

(4)

4

inconsistência. Antes de um registro ser considerado como possível doador de informações, é verificada sua hipotética imputação juntamente com todas as demais regras contidas no plano de crítica.

2.2 Descrição do DIA e sua comparação com o CANCEIS

A partir de 1980, o Instituto Nacional de Estatística da Espanha, desenvolveu o DIA como um sistema automático de crítica e imputação baseado na metodologia de Fellegi e Holt (1976). De forma análoga ao CANCEIS, este método leva em conta um conjunto de regras crítica previamente definidas para detecção de inconsistências. A fase seguinte, de imputação, segue alguns princípios básicos, são eles:

• Os dados de cada registro devem satisfazer todas as regras de crítica, alterando o mínimo possível de variáveis.

• Não é necessária especificar as regras de imputação, elas são derivadas automaticamente das regras de crítica4

• No momento da imputação é desejável manter, sempre que possível, as frequências marginais e conjuntas das variáveis, tal como elas aparecem nos registros sem erros.

.

O DIA, então, utiliza a metodologia de Fellegi e Holt (F&H) para a imputação probabilística, com a adição da possibilidade de correções determinísticas para o tratamento de erros sistemáticos, os quais não tem solução satisfatória utilizando-se puramente F&H. É importante ressaltar que este software foi planejado para o tratamento de dados provenientes de variáveis categóricas ou qualitativas. Muitas variáveis presentes na PNAD são quantitativas, inclusive algumas presentes no bloco de fecundidade como, por exemplo, número de filhos que moram do domicílio. Esta foi uma das razões de sua substituição pelo CANCEIS, que trata ambos os tipos de variáveis.

Outra diferença básica entre os softwares é que enquanto a imputação do CANCEIS é realizada através de um registro doador, no DIA a mesma é feita através da escolha de um código válido. Para cada variável é informado ao sistema quais códigos são aceitos, e de acordo com as regras de críticas é escolhido algum que corrija o caso sem gerar novas inconsistências. Para evitar que um mesmo código seja escolhido sempre, o que pode introduzir um viés nas estimativas, as frequências marginais são controladas como já mencionado.

Desta forma é possível, por exemplo, que um determinado código que não apareceu como resposta na população seja imputado pelo DIA, desde que corrija as inconsistências e seja em número pequeno para não alterar significativamente as distribuições marginais. Algo que seria impossível no CANCEIS, visto que não existiria registro doador com este código.

Especificamente, em relação ao controle destas frequências, deve se ter em mente que para casos de não-resposta diferencial, a relação entre as algumas variáveis dos respondentes e não-respondentes é distinta. Sendo assim, não se espera que estas duas subpopulações tenham necessariamente distribuições semelhantes nestas variáveis. Contudo, como é

4

O mesmo vale para o CANCEIS. Este princípio é explicitado na metodologia de F&H justamente por seu caráter inovativo. Técnicas usuais na época como, por exemplo, Cold Deck ou Hot Deck, demandavam que as regras de imputação fossem definidas previamente.

(5)

5

esperado que o volume de imputações seja pequeno, em relação ao número de respostas válidas, o impacto das correções geralmente acaba sendo reduzido na distribuição final, havendo controle das marginais ou não.

Por outro lado, ao se utilizar o critério de registro doador com base em variáveis de similaridade, espera-se que o processo de imputação consiga discriminar subgrupos semelhantes em uma população. Desta forma o problema de não-resposta diferencial estaria sendo levado em conta, uma vez que o doador teria características similares ao registro onde ocorreu o erro. Analogamente, os casos de inconsistências aleatórias (não diferenciais) seriam corrigidos sem a necessidade de controle da distribuição marginal das variáveis envolvidas.

3. Aplicação dos processos no bloco de fecundidade

O banco de dados da PNAD para os anos de 2007 e 2008 contém vinte variáveis relativas ao bloco de fecundidade. Até o ano de 2006, registros com pelo menos uma variável deste bloco com valor ignorado eram excluídos da sua tabulação. Atualmente, são apenas excluídos os registros nos quais as mulheres declararam formalmente “não saber” responder algum dos oito quesitos de fecundidade, onde era possível esta opção de resposta. São elas: número de filhos (ou de filhas) que não moram no mesmo domicílio da mãe; número de filhos (ou de filhas) nascidos vivos que já morreram; sexo do último filho nascido vivo; se o último filho nascido vivo ainda estava vivo; e número de filhos (ou de filhas) nascidos mortos. Esses registros não serão objetos do processo de imputação.

Desta forma, registros que anteriormente seriam excluídos da tabulação da PNAD, são reintegrados na mesma, trazendo consigo tanto informações efetivamente respondidas pelas mulheres entrevistadas, quanto informações imputadas pelos sistemas de crítica e imputação. Assim, é possível analisar a distribuição destes novos registros e o impacto que eles possuem na distribuição total, a qual é divulgada na publicação.

Outra análise que será feita é relativa aos valores imputados por cada software. Ao se tomar a decisão de substituição dos sistemas entre 2007 e 2008, optou-se que nestes dois anos a PNAD seria imputada por ambos, para fins de comparação futura. Logo, serão também analisadas as diferenças entre os dados publicados, com os oriundos do banco de controle daquele ano5.

Por fim, deve ser ressaltado que foram criadas variáveis indicadoras que identificam se a resposta era proveniente ou não de imputação. Logo, o usuário sempre pode substituir estes valores utilizando seu próprio método de imputação ou, no limite, excluir todos esses registros do mesmo modo que a PNAD fazia até 2006.

3.1 Informações existentes recuperadas e informações imputadas

Conforme mencionado anteriormente, existem vinte variáveis relativas ao bloco de fecundidade, no banco de dados da PNAD. Entretanto há que se ter em conta que uma mulher

5

A PNAD 2007 foi imputada pelo DIA com exceção do módulo “Educação de Jovens e Adultos”. Este foi o primeiro teste no CANCEIS na pesquisa, onde os bons resultados obtidos e sua fácil implementação no processo de produção foram alguns dos fatores que acarretaram na escolha da sua utilização para a totalidade da PNAD 2008.

(6)

6

não necessariamente responderá a todas as perguntas. Por exemplo, se a informante declara que não teve filhos, não irá responder o sexo do último filho nascido vivo, e assim por diante. Portanto, um registro com uma variável imputada que, graças ao sistema de crítica e imputação, foi incorporado ao banco de dados teria, potencialmente, outras dezenove variáveis com informações efetivamente declaradas.

Então é possível mensurar tanto o número de registros que serão incorporados às tabulações, bem como o número de variáveis já existentes e o montante imputado em cada um destes registros.

Tabela 1

Número de mulheres de 15 anos ou mais de idade, nas PNAD 2007 e 2008, por condição de aproveitamento ou exclusão do registro devido ao processo de crítica e imputação.

Condição do registro PNAD 2007 PNAD 2008

Excluído pelo sistema anterior 1.414.323 3.304.674

Aproveitado pelo software 123.236 2.538.596

Excluído da tabulação 1.291.087 766.078

Fonte: PNAD 2007 e 2008

Os dados da Tabela 1 se referem às PNADs publicadas, ressaltando que no ano de 2007 foi utilizado o software DIA e, no ano seguinte, o CANCEIS. A diferença entre os números observados é atribuída, quase que exclusivamente, ao conjunto de regras de crítica programadas, que eram em menor número no primeiro ano de utilização de um software específico para crítica e imputação.

Desta forma, com um conjunto de regras de crítica mais completo em 2008, foi possível um maior refinamento na detecção de inconsistências, bem como uma grande parcela de registros que seriam excluídos das tabulações puderam ser incorporados nas mesmas. Ou seja, o impacto da introdução destes sistemas, nos resultados tabulados, será observado somente neste segundo ano. Ao se fazer, então, uma análise nas variáveis de fecundidade da pesquisa ao longo dos anos, deve se levar em conta esta mudança metodológica com maior atenção a partir de 2008.

De acordo com estes resultados, fica evidente que uma comparação entre o banco de dados publicado e o de controle do ano de 2007, praticamente não apresentaria quaisquer diferenças. Assim, a análise entre os valores imputados pelos softwares DIA e CANCEIS será concentrada nos bancos de dados relativos ao ano de 2008.

Estes novos registros incorporados no banco de dados trazem consigo tanto informações imputadas, quanto previamente existentes. Logo, será primeiramente calculada a proporção de imputação para cada uma das vinte variáveis. As variáveis são tratadas tanto no questionário, quanto no banco de dados por uma sigla, uma vez que é um código muito mais curto do que a descrição completa da variável. Igualmente, a partir deste ponto, estas siglas serão frequentemente mencionadas, então a listagem completa das mesmas, com suas respectivas descrições, está disposta na Tabela 10 do anexo.

(7)

7

Tabela 2

Total de mulheres de 15 anos ou mais de idade, provenientes dos registros aproveitados e com informações imputadas pelo sistema de crítica e imputação, por banco de dado

estudado, segundo as variáveis do bloco de fecundidade.

Variável

Registros ponderados (mulheres)

Total Publicado (CANCEIS) 1 Controle (DIA) Aproveitados pelo sistema Com informação imputada Aproveitados pelo sistema Com informação imputada V1101 73.695.002 2.538.596 79.741 2.418.204 78.666 V1141 51.846.783 2.458.257 150.770 2.339.168 60.645 V1142 51.846.783 2.458.257 131.062 2.339.168 56.716 V1151 51.846.783 2.458.257 24.312 2.339.168 58.779 V1152 51.846.783 2.458.257 29.465 2.339.168 49.206 V1161 51.846.783 2.458.257 10.198 2.339.168 173.041 V1162 51.846.783 2.458.257 29.465 2.339.168 160.606 V1107 51.846.783 2.458.257 74.200 2.339.168 310.812 V1181 51.846.783 2.458.257 814.274 2.339.168 663.142 V1182 51.846.783 2.458.257 1.373.650 2.339.168 1.134.283 V1109 51.846.783 2.458.257 590.290 2.339.168 249.644 V1110 73.695.002 2.538.596 82.208 2.418.204 82.486 V1111 2.554.606 133.089 1.231 112.957 2.753 V1112 2.554.606 133.089 1.480 112.708 2.752 Fonte: PNAD 2008

1 Os dados sobre o tema de fecundidade, na PNAD, se referem ao conjunto das mulheres com quinze anos ou mais de idade.

Observa-se que somente as variáveis V1101 e V1110 (se a mulher teve algum filho nascido vivo ou filho nascido morto, respectivamente) são respondidas por todas as informantes do bloco. As demais dependem de respostas prévias, daí decorrem os diferenciais nos totais populacionais. Outro aspecto que deve ser ressaltado é que com exceção da V1182 (ano de nascimento do último filho nascido vivo), grande parte da nova informação já estava presente nos registros, não sendo proveniente de imputação.

Em relação ao diferencial por software, verifica-se que o CANCEIS consegue reintegrar um número ligeiramente maior de registros (aproveitados pelo sistema) para todas as variáveis. Porém, se este número é similar ao observado para o DIA, a distribuição do número de imputações por variável é bem distinta. Isso significa que os softwares possuem estratégias diferentes para as correções de inconsistência.

Por outro lado, a taxa de imputação no bloco de fecundidade para ambos os sistemas é similar, pois no geral apenas 11,3% dos dados provenientes dos registros aproveitados pelo CANCEIS são imputados, contra 10,8% pelo DIA. Esta pequena diferença era esperada, uma vez que o DIA visa exclusivamente minimizar o número de alterações a serem realizadas, enquanto o CANCEIS, adicionalmente, leva em conta o critério de proximidade entre o registro doador e o receptor. Contudo, se forem considerados todos os registros contidos na publicação do bloco esta taxa seria de apenas 0,5% para ambos os softwares. Por fim, a análise do número de imputações por variável, também pode ser feito tomando como base de comparação o registro, como mostra a Tabela 3.

(8)

8

Tabela 3

Número de mulheres de 15 anos ou mais de idade, por número de imputações nos registros incorporados pelos sistemas.

Nº de imputações

Publicado (CANCEIS) Controle (DIA)

Registros Percentual Registros Percentual

Uma 1.737.613 68,4 1.816.075 75,1 Duas 777.222 30,6 576.655 23,8 Três 16.129 0,6 11.239 0,5 Quatro 6.753 0,3 6.527 0,3 Cinco ou mais 879 0,0 7.708 0,3 Total 2.538.596 100,0 2.418.204 100,0 Fonte: PNAD 2008

De acordo com a tabela, observa-se que em aproximadamente 99% dos registros provenientes dos sistemas de crítica e imputação, só foram imputadas no máximo duas variáveis. Contudo, apesar do número médio de imputações por registro pelo DIA ser ligeiramente menor (1,28 contra 1,33 do banco criticado pelo CANCEIS), verifica-se que o software em determinados registros teve que fazer mais alterações. Enquanto o número máximo observado de imputações no CANCEIS foi igual a cinco, o DIA chegou a imputar em alguns casos onze variáveis num só registro. Ainda assim, de uma forma geral, conclui-se que os softwares foram capazes de corrigir as inconsistências encontradas, alterando um pequeno volume da informação original dos arquivos.

3.2 Valores imputados nas variáveis de fecundidade.

Na seção anterior analisou-se o volume de dados que foram incorporados às tabulações pelos sistemas de crítica e imputação, bem como foi feita a distinção entre as novas informações provenientes de imputação e das questões efetivamente respondidas. A seguir verifica-se, para cada variável, se as distribuições dos dados oriundos dos sistemas DIA e CANCEIS são distintas entre si e em relação à distribuição dos dados que estão contidos nos registros sem nenhum tipo de inconsistência.

Deve ser destacado que distintos padrões de informantes, com relação à consistência das respostas no registro, foram detectadas em estudo anterior (Cortez et al. 2010). De um modo geral mulheres com mais idade e menor escolaridade tendem a apresentar uma proporção maior respostas inconsistentes ou faltantes. Este grupo tende a apresentar características um pouco diferentes da média populacional com relação às variáveis de fecundidade. Sendo assim, a simples exclusão destes registros poderia causar distorções nos resultados.

O objetivo principal agora é confirmar se ambos os softwares, em que pese suas diferenças metodológicas, produzem resultados similares, o que é desejável. Para os casos onde ocorra alguma divergência devem ser investigados os motivos da mesma, de forma a embasar decisões futuras da escolha de um determinado sistema. As tabelas dispostas a seguir fornecem um panorama geral destas questões

(9)

9

Tabela 4

Distribuição percentual das mulheres de 15 anos ou mais de idade, provenientes de registros sem erros de consistência, dos aproveitados pelos sistemas e total por

banco de dados estudado, para as variáveis V1101 e V1110.

Variável e categorias

Condição de aproveitamento do registro Sem erro de consistência (A) Aproveitados pelo CANCEIS (B) Publicado (A+B) Aproveitados pelo DIA (C) Controle (A+C) V1101 Sim 69,4% 96,8% 70,4% 96,7% 70,4% Não 30,6% 3,2% 29,6% 3,3% 29,6% Total de mulheres 71.156.406 2.538.596 73.695.002 2.418.204 73.574.610 V1110 Sim 3,4% 5,2% 3,5% 4,7% 3,5% Não 96,6% 94,8% 96,5% 95,3% 96,5% Total de mulheres 71.156.406 2.538.596 73.695.002 2.418.204 73.574.610 Fonte: PNAD 2008

A Tabela 4 contém as distribuições referentes às variáveis V1101 e V1110 (“teve filho nascido” e “teve filho nascido morto”, respectivamente), as quais são respondidas por todas as mulheres contidas no bloco de fecundidade. Observa-se que uma porcentagem consideravelmente menor das mulheres nos registros sem erros de consistência declararam que tiveram filhos nascidos vivos (69,4%), em relação aos oriundos de ambos os softwares que, por sua vez, eram praticamente idênticos (96,8% e 96,7%).

Com relação a porcentagem de mulheres que declararam já terem tido filhos nascidos mortos, o comportamento das distribuições é semelhante. O valor observado entre os registros consistentes é menor (3,4%) em relação aos que vieram de um dos sistemas, os quais apresentam valores próximos (5,2% e 4,7%).

Como já mencionado, era sabido previamente que mulheres com respostas consistentes têm, em média, menos idade e mais anos de estudos que as demais. Isto explica as menores porcentagens de filhos nascidos vivos ou mortos, pois se espera que uma mulher mais nova tenha um menor número médio de gestações passadas, em relação a uma mulher com mais idade, bem como a elevação da instrução e menores taxas de fecundidade são variáveis comumente relacionadas.

Ao se cruzar estes dados com as informações da Tabela 2, observa-se que as novas informações agregadas pelos sistemas estudados são em sua grande maioria provenientes de respostas efetivamente declaradas pelas informantes. Pouco mais de 3% destes novos dados eram, de fato, imputados. Assim, embora o método de imputação seja de grande relevância na escolha do software, ressalta-se ainda maior importância de adoção de um sistema de crítica que possa recuperar registros que seriam excluídos por inconsistência.

Estas afirmações são exemplificadas pelos dados da Tabela 4, pois as distribuições dos dados publicados e do arquivo de controle, após a execução do CANCEIS e DIA respectivamente, são as mesmas. Neste caso, é possível dizer que a mudança do método de

(10)

10

imputação não traria consequências na análise dos resultados tabulados da PNAD. Como já foi dito, o DIA foi desenvolvido fundamentalmente para o tratamento de variáveis categóricas, o que é o caso de ambas as variáveis. Então, é preciso também verificar se existe diferença no comportamento dos softwares, ao se tratar variáveis quantitativas, como mostra a tabela abaixo.

Tabela 5

Distribuição percentual das mulheres de 15 anos ou mais de idade, provenientes de registros sem erros de consistência, dos aproveitados pelos sistemas e total por

banco de dados estudado, para as variáveis V1141 e V1142.

Variável e categorias

Condição de aproveitamento do registro Sem erro de consistência (A) Aproveitados pelo CANCEIS (B) Publicado (A+B) Aproveitados pelo DIA (C) Controle (A+C) V1141 Zero 44,0% 53,7% 44,5% 57,6% 44,6% Um 38,5% 31,5% 38,1% 28,9% 38,0% Dois 13,4% 11,3% 13,3% 10,3% 13,3% Três ou + 4,1% 3,5% 4,1% 3,2% 4,1% Total de mulheres 49.388.526 2.458.257 51.846.783 2.339.168 51.727.694 Média da variável 0,790 0,658 0,784 0,600 0,781 V1142 Zero 46,5% 56,4% 46,9% 59,3% 47,1% Um 38,5% 32,4% 38,2% 30,3% 38,1% Dois 11,7% 8,5% 11,6% 7,9% 11,5% Três ou + 3,3% 2,7% 3,3% 2,5% 3,3% Total de mulheres 49.388.526 2.458.257 51.846.783 2.339.168 51.727.694 Média da variável 0,729 0,585 0,722 0,545 0,719 Fonte: PNAD 2008

As variáveis contidas na Tabela 5, número de filhos (V1141) e filhas (V1142) residentes no domicílio são respondidas pelas mulheres que declararam ter tido filhos nascidos vivos na V1101. Verifica-se que os valores de ambas variáveis para o grupo sem erro de consistência é maior. A possível explicação é que este grupo com mulheres, em média mais jovens, possuem filhos igualmente com média de idade mais baixa, fazendo que uma maior proporção dos mesmos ainda resida no domicílio da mãe.

Em relação aos registros aproveitados pelos sistemas observa-se que, em média, os valores provenientes do DIA são ligeiramente menores do que os do CANCEIS. Entretanto, a diferença no resultado final dos bancos de dados é praticamente nula, o que mostra coerência entre os dois softwares. Ainda assim, dado que se constatou alguma diferença nos valores, poderia ser levantada a hipótese que o DIA seria mais sensível com relação à captação das diferentes populações (com e sem erro de consistência). Desta forma, o software teria trazido os novos registros com valores médios ainda mais baixos. Então, para melhor analisar esta questão foram examinadas as variáveis V1151 e V1152, que correspondem ao número de filhos e filhas residentes em outro local.

(11)

11

Tabela 6

Distribuição percentual das mulheres de 15 anos ou mais de idade, provenientes de registros sem erros de consistência, dos aproveitados pelos sistemas e total por

banco de dados estudado, para as variáveis V1151 e V1152.

Variável e categorias

Condição de aproveitamento do registro Sem erro de consistência (A) Aproveitados pelo CANCEIS (B) Publicado (A+B) Aproveitados pelo DIA (C) Controle (A+C) V1151 Zero 65,6% 54,7% 65,1% 56,4% 65,2% Um 18,1% 19,6% 18,2% 19,7% 18,2% Dois 8,8% 11,6% 8,9% 11,3% 8,9% Três ou + 7,5% 14,1% 7,8% 12,6% 7,7% Total de mulheres 49.388.526 2.458.257 51.846.783 2.339.168 51.727.694 Média da variável 0,644 0,986 0,660 0,917 0,657 V1152 Zero 63,7% 53,2% 63,2% 55,4% 63,3% Um 18,5% 18,6% 18,5% 19,0% 18,5% Dois 9,2% 12,4% 9,4% 12,0% 9,4% Três ou + 8,6% 15,7% 8,9% 13,6% 8,8% Total de mulheres 49.388.526 2.458.257 51.846.783 2.339.168 51.727.694 Média da variável 0,702 1,085 0,720 0,977 0,715 Fonte: PNAD 2008

A soma das variáveis contidas nas Tabelas 5 e 6 resulta no número de filhos tidos, que ainda estão vivos (sobreviventes). Como esperado, neste caso os valores de ambas variáveis para o grupo sem erro de consistência é menor. O motivo é o mesmo explicitado anteriormente, ou seja, o grupo de mulheres, em média, mais jovens possui uma menor proporção de filhos residentes fora do domicílio, pois se espera que os mesmos sejam também, em média, mais novos.

Observa-se também neste caso, que adiferença no resultado final dos bancos de dados é praticamente nula. Contudo os valores provenientes do DIA continuam sendo ligeiramente menores do que os do CANCEIS. Ou seja, para as quatro variáveis que totalizam os filhos sobreviventes, o DIA imputou, de uma forma geral, valores um pouco mais baixos. Não se trata, então, do caso de uma maior sensibilidade no que diz respeito à captação de diferenças nos subgrupos populacionais, pois se assim fosse, seriam esperados valores mais elevados em relação ao CANCEIS.

Ainda assim, constata-se que o número médio dos filhos sobreviventes (soma das médias das V1141, V1142, V1151 e V1152) aumentou após a inclusão dos registros provenientes dos sistemas de crítica em imputação. Este valor que era de 2,865 filhos entre as informantes que não apresentaram erros de consistência, subiu para 2,886 no banco de dados tabulado e era de 2,872 no banco de controle. Este aumento na soma geral é coerente com a entrada, em maior proporção, de mulheres mais velhas e com menos anos de estudo. Por fim, vale ressaltar que estes números médios são altos por se tratar de um recorte populacional, onde só são pesquisadas mulheres que declararam já ter tido filho nascido vivo.

(12)

12

Tabela 7

Distribuição percentual das mulheres de 15 anos ou mais de idade, provenientes de registros sem erros de consistência, dos aproveitados pelos sistemas e total por

banco de dados estudado, para as variáveis V1161 e V1162.

Variável e categorias

Condição de aproveitamento do registro Sem erro de consistência (A) Aproveitados pelo CANCEIS (B) Publicado (A+B) Aproveitados pelo DIA (C) Controle (A+C) V1161 Zero 88,1% 77,5% 87,6% 72,7% 87,2% Um 8,3% 12,0% 8,5% 16,2% 8,7% Dois 2,2% 5,6% 2,3% 5,9% 2,4% Três ou + 1,4% 4,9% 1,6% 5,2% 1,7% Total de mulheres 49.388.526 2.458.257 51.846.783 2.339.168 51.727.694 Média da variável 0,185 0,436 0,197 0,499 0,201 V1162 Zero 91,0% 83,2% 90,6% 78,4% 90,3% Um 6,4% 9,5% 6,6% 13,5% 6,8% Dois 1,6% 3,6% 1,7% 4,2% 1,7% Três ou + 1,0% 3,7% 1,1% 3,9% 1,2% Total de mulheres 49.388.526 2.458.257 51.846.783 2.339.168 51.727.694 Média da variável 0,136 0,321 0,144 0,375 0,148 Fonte: PNAD 2008

O conjunto de mulheres que respondem o número de filhos (V1161) e filhas (V1162) nascidos vivos que já morreram, é o mesmo em relação às respondentes das quatro variáveis das Tabelas 5 e 6. A soma destas seis variáveis fornece o total de filhos tidos nascidos vivos. Verifica-se então, com base na Tabela 7, que o valor das duas variáveis, é maior entre o conjunto de mulheres oriundas dos registros incorporados pelos sistemas de crítica e imputação. Aqui se aplica o mesmo raciocínio já explicitado, ou seja, mulheres em média mais velhas possuem maior probabilidade de ter filhos que já morreram.

Embora neste caso também se constate que a diferença no resultado final dos bancos de dados é muito pequena, desta vez os valores provenientes do DIA foram, em média, mais altos em relação aos oriundos do CANCEIS. Isto não quer dizer que haja uma tendência de um software imputar sistematicamente mais filhos que ainda estão vivos, enquanto o outro imputar filhos que já morreram. Para tal afirmação seriam necessários estudos adicionais, contudo desfaz a ideia que o DIA imputa sistematicamente valores menores em variáveis quantitativas, em comparação ao CANCEIS.

Ainda existem outras duas variáveis quantitativas no bloco de fecundidade que correspondem ao número de filhos (V1111) e filhas (V1112) nascidos mortos. Esta informação é apenas respondida por quem declarou a categoria “sim” na V1110, ou seja, pouco mais de 3% das mulheres de 15 anos ou mais, como mostrou a Tabela 4. Assim, o número de registros inconsistentes deste já reduzido subgrupo é muito pequeno, o que

(13)

13

dificulta uma comparação entre as distribuições das informações provenientes dos dois softwares. Apenas cabe ressaltar que, em média, os valores destas duas variáveis são menores para os registros sem erros de consistência, o que já era esperado, pelo diferencial etário já comentado dos grupos. A Tabela 11 do anexo contém estes dados.

A maior diferença observada nos resultados obtidos pelos softwares se dá, porém, em duas variáveis categóricas. São elas: o sexo do último filho nascido vivo (V1107) e se este último filho ainda estava vivo (V1109), como mostra a tabela abaixo.

Tabela 8

Distribuição percentual das mulheres de 15 anos ou mais de idade, provenientes de registros sem erros de consistência, dos aproveitados pelos sistemas e total por

banco de dados estudado, para as variáveis V1107 e V1109.

Variável e categorias

Condição de aproveitamento do registro Sem erro de consistência (A) Aproveitados pelo CANCEIS (B) Publicado (A+B) Aproveitados pelo DIA (C) Controle (A+C) V1107 Masculino 51,3% 51,4% 51,3% 47,5% 51,1% Feminino 48,7% 48,6% 48,7% 43,3% 48,5% Não sabe -- -- -- 9,2% 0,4% Total de mulheres 49.388.526 2.458.257 51.846.783 2.339.168 51.727.694 V1109 Sim 97,2% 89,7% 96,8% 72,3% 96,0% Não 2,8% 10,3% 3,2% 26,4% 3,9% Não sabe -- -- -- 1,3% 0,1% Total de mulheres 49.388.526 2.458.257 51.846.783 2.339.168 51.727.694 Fonte: PNAD 2008

Ao se analisar as distribuições dispostas na Tabela 8, referentes ao sexo do último filho nascido vivo, verifica-se que os valores provenientes dos registros sem erro de consistência e do CANCEIS são praticamente iguais. Esse comportamento é esperado, uma vez que não é intuitivo supor que no grupo de informantes onde são verificadas inconsistências nas respostas, predominasse alguma categoria da V1107.

Entretanto a distribuição dos registros aproveitados pelo DIA é distinta com, inclusive, o surgimento de uma terceira alternativa de resposta. De fato, a categoria “não sabe” é uma opção válida para o informante e por isso foi colocada no software. O problema, como já foi mencionado anteriormente, é que quando uma mulher declara formalmente não saber algum dos itens perguntados, a mesma é excluída das tabulações. Assim, caso se opte por manter essa categoria dentre as alternativas de imputação, é necessário excluir posteriormente o registro, diminuindo o número de informações aproveitadas pelo sistema. O mesmo não ocorre no CANCEIS, pois o software utiliza registro doador (válido) para atribuição de valor.

Com relação a V1109 observa-se que a porcentagem de mulheres com o último filho tido já falecido, em registros sem inconsistência é expressivamente menor, em relação aos

(14)

14

provenientes dos sistemas de críticas. Entretanto os valores nos distintos softwares são discrepantes: 26,4% no DIA contra 10,3% no CANCEIS. Adicionalmente aqui também há o problema de uma pequena parte das mulheres (1,3%) terem recebido o código “não sei” pelo DIA, tendo que ser posteriormente excluídas das tabulações. Outra opção nestes casos é de não permitir que a categoria “não sabe” seja imputável pelo DIA. Desta forma mais informações poderiam ser aproveitadas e também possibilitaria uma comparação mais precisa com os resultados do CANCEIS.

Ainda na comparação entre valores imputados e aproveitados, a Tabela 2 mostrou que a V1182 (ano de nascimento do último filho nascido vivo) foi a variável com maior volume de imputação. Esta variável, junto com a V1181, é utilizada para determinar se o nascimento ocorreu num período inferior a doze meses da data de referência da pesquisa. Esse dado é usado para o cálculo das taxas específicas de fecundidade e, por conseguinte, da taxa de fecundidade total.

Tabela 9

Distribuição percentual das mulheres de 15 anos ou mais de idade, provenientes de registros sem erros de consistência, dos aproveitados pelos sistemas e total por

banco de dados estudado, para as variáveis V1182.

Variável e categorias

Condição de aproveitamento do registro Sem erro de consistência (A) Aproveitados pelo CANCEIS (B) Publicado (A+B) Aproveitados pelo DIA (C) Controle (A+C) V1182 2004 ou anterior 82,6% 91,0% 82,9% 83,9% 82,7% 2005 4,2% 2,5% 4,2% 4,1% 4,2% 2006 4,5% 3,0% 4,4% 5,0% 4,5% 2007 5,0% 2,1% 4,8% 4,1% 4,9% 2008 3,8% 1,4% 3,7% 2,9% 3,7% Total de mulheres 49.388.526 2.458.257 51.846.783 2.339.168 51.727.694 Fonte: PNAD 2008

Observa-se, com base na Tabela 9, que não ocorreu grande alteração na distribuição da variável final (publicada e de controle), bem como as mulheres provenientes de registros sem erros de consistência apresentam, em média, anos de nascimentos mais recentes. Além da questão deste grupo de mulheres ser em média mais jovens, não existe a opção de declarar não saber ou não se lembrar da data de nascimento do filho, então é razoável supor que a não-resposta possa se tratar de nascimentos ocorridos há mais tempo.

Entretanto a distribuição dos registros provenientes do DIA se assemelha mais com a distribuição dos sem erro de consistência do que em relação aos aproveitados pelo CANCEIS. Justamente nesta variável onde há o maior peso de imputação, se constata a tendência explicitada na metodologia do DIA de tentar manter as frequências marginais próximas às dos registros sem erros. Assim, caso uma pesquisa opte por utilizar este software deve ser feito um estudo mais aprofundado desta característica, uma vez que pode não ser o método mais indicado para tratar a não-resposta diferencial, numa situação de grande volume de dados imputados.

(15)

15

4. Considerações Finais

De um modo geral, ao se comparar as três distribuições analisadas - dados sem erro de consistência, dados publicados e de controle - constatou-se que as maiores diferenças eram observadas no primeiro grupo em relação aos outros dois, os quais eram semelhantes entre si. Desta forma, embora existam diferenças no número de variáveis e nos valores imputados pelos softwares, a simples opção por não imputar (e consequentemente excluir os registros inconsistentes) teria um impacto ainda maior na distribuição publicada.

Esta circunstância advém do fato que o processo de não-resposta e geração de inconsistência tem relação com variáveis (como idade e anos de estudo) que são igualmente relacionadas com grande parte dos quesitos de fecundidade. Neste caso, a adoção de um software que possa corrigir este viés, trazendo de volta informações que seriam perdidas, acaba tendo uma relevância maior do que os valores imputados em si. Destaca-se assim a importância das variáveis indicadoras de imputação que tanto dá liberdade ao usuário utilizar outro método que por ventura prefira, como também possibilita a comparação de diferentes métodos.

No que diz respeito a mudança metodológica, é possível dizer que apesar da implantação dos sistemas de crítica e imputação terem sido introduzidos na PNAD 2007, seu impacto nos dados do bloco de fecundidade deste ano foram muito pequenos. Ao se estudar a série histórica publicada deve-se ter atenção especial para os dados a partir de 2008. Neste caso, possíveis alterações no comportamento das variáveis podem ser explicadas em parte pela entrada de um grupo de mulheres que eram previamente excluídas das tabulações.

Com relação aos dois softwares, verificou-se que as distribuições resultantes foram, de uma forma geral, similares. Diferenças pontuais ocorreram quando o volume de imputação foi grande, em um cenário de não-resposta diferencial para uma variável quantitativa. Dado que a metodologia do DIA explicita que o sistema foi idealizado para dados qualitativos, bem como que há a intenção, sempre que possível, de manter as frequências das variáveis tais como elas aparecem nos registros sem erros, este resultado não é de todo surpreendente.

Diante deste cenário e levando em conta as vantagens operacionais e de suporte existentes no CANCEIS, mostrou-se positiva a iniciativa de adoção do software a partir do ano de 2008. Isto não elimina a possibilidade de estudos da sua metodologia com o intuito de refinar o processo de imputação, bem como estudos temáticos para possíveis revisões futuras nas regras de crítica. Igualmente, estudos que detalhem o mecanismo de não-resposta das variáveis de interesse são importantes para a tomada de decisão dos parâmetros a serem adotados pelo software, seja ele qual for, para a etapa de crítica e imputação de dados.

(16)

16

Referências bibliográficas

• CANCEIS Development Team. CANCEIS Version 4.5 User’s Guide. Social Survey Methods Division, Statistics Canada, 2007.

• CORTEZ, B.F.; MOREIRA, G.M.; FERNANDES, M.V.M. Descrição e avaliação

do processo de imputação nos quesitos de fecundidade da PNAD 2008. Caxambu:

XVII Encontro Nacional de Estudos Populacionais, 2010.

• CORTEZ, B.F.; DANTAS, T.M. Descrição e avaliação do novo processo de crítica

e imputação da PNAD. Juiz de Fora: III Escola de Amostragem e Metodologia da

Pesquisa, 2011.

• FELLEGI I.P.; HOLT, D. A Systematic Approach to Automatic Edit and

Imputation. Journal of the American Statistical Association, vol.71, 17-35, 1976.

• IBGE. Pesquisa Nacional por Amostra de Domicílios 2007. Rio de Janeiro: IBGE,

2008.

• IBGE. Pesquisa Nacional por Amostra de Domicílios 2008. Rio de Janeiro: IBGE,

2009.

• OLIVEIRA, L.C.S.; INDÁ, L.B.; LIMA, R.L.A.; BIANCHINI, Z.M. Uso do sistema

DIA para a detecção e correção automática de erros nos dados do questionário básico do Censo Demográfico de 1991. Rio de Janeiro: Revista Brasileira de

Estatística, vol.58, 19-52., 1997.

• RUBIO, E.G.; VILLAIN I. DIA system: software for the automatic editing of

qualitative data. Proceedings of the US Census Bureau 6th Annual Research Conference, 1990.

• SILVA, A.N. Principais Aspectos Relacionados com o Sistema CANCEIS –

Canadian Census Edit and Imputation System. Rio de Janeiro: IBGE,

(17)

17

ANEXO

Tabela 10

Variáveis do bloco de fecundidade e suas respectivas descrições.

Variável Descrição

V1101 Teve filho nascido vivo

V1141 Número de filhos homens que moram no domicílio

V1142 Número de filhos mulheres que moram no domicílio

V1151 Número de filhos homens que moram em outro domicílio

V1152 Número de filhos mulheres que moram em outro domicílio

V1153 Ignora o número de filhos homens que moram no domicílio

V1154 Ignora o número de filhos mulheres que moram no domicílio

V1161 Número de filhos homens que morreram

V1162 Número de filhos mulheres que morreram

V1163 Ignora o número de filhos homens que morreram

V1164 Ignora o número de filhos mulheres que morreram

V1107 Sexo do último filho nascido vivo

V1181 Mês de nascimento do último filho nascido vivo

V1182 Ano de nascimento do último filho nascido vivo

V1109 O último filho nascido vivo ainda está vivo

V1110 Teve filho nascido morto desde que nascido após 7 meses de gestação

V1111 Número de filhos homens nascidos mortos

V1112 Número de filhos mulheres nascidos mortos

V1113 Ignora o número de filhos homens nascidos mortos

V1114 Ignora o número de filhos mulheres nascidos mortos

(18)

18

Tabela 11

Distribuição percentual das mulheres de 15 anos ou mais de idade, provenientes de registros sem erros de consistência, dos aproveitados pelos sistemas e total por

banco de dados estudado, para as variáveis V1111 e V1112.

Variável e categorias

Condição de aproveitamento do registro Sem erro de consistência (A) Aproveitados pelo CANCEIS (B) Publicado (A+B) Aproveitados pelo DIA (C) Controle (A+C) V1111 Zero 34,3% 23,7% 33,7% 24,5% 33,7% Um 55,3% 57,0% 55,4% 58,0% 55,4% Dois 8,0% 13,1% 8,2% 11,9% 8,2% Três ou + 2,6% 6,2% 2,7% 5,6% 2,7% Total de mulheres 2.421.517 133.089 2.554.606 112.957 2.534.474 Média da variável 0,803 1,057 0,816 1,028 0,814 V1112 Zero 56,6% 60,9% 56,9% 58,4% 56,8% Um 37,4% 36,0% 37,3% 38,6% 37,3% Dois 4,6% 1,5% 4,4% 1,4% 4,4% Três ou + 1,4% 1,6% 1,4% 1,6% 1,4% Total de mulheres 2.421.517 133.089 2.554.606 112.708 2.534.225 Média da variável 0,517 0,465 0,515 0,407 0,514 Fonte: PNAD 2008

Referências

Documentos relacionados

Com a investigação propusemo-nos conhecer o alcance real da tipologia dos conflitos, onde ocorrem com maior frequência, como é que os alunos resolvem esses conflitos, a

Contudo, não é possível imaginar que essas formas de pensar e agir, tanto a orientada à Sustentabilidade quanto a tradicional cartesiana, se fomentariam nos indivíduos

A Lei nº 2/2007 de 15 de janeiro, na alínea c) do Artigo 10º e Artigo 15º consagram que constitui receita do Município o produto da cobrança das taxas

Esta realidade exige uma abordagem baseada mais numa engenharia de segu- rança do que na regulamentação prescritiva existente para estes CUA [7], pelo que as medidas de segurança

Se você vai para o mundo da fantasia e não está consciente de que está lá, você está se alienando da realidade (fugindo da realidade), você não está no aqui e

A presente investigação teve como objetivo geral o estudo dos fatores de risco e de proteção internos e externos utilizados perante a violência social, nomeadamente o bullying

Elaborou-se então, com o software Microsoft Excel, uma folha de cálculo em que partindo dos dados da matriz dos tempos de deslocação e dos dados relativos ao ano de

palavras-chave Canal Rádio, Multipercurso, Desvanecimento, Modelos de Propagação, Sistemas MIMO, Capacidade, Algoritmo SAGE, Clustering, Resposta Impulsiva, Parâmetros