• Nenhum resultado encontrado

Descrição e avaliação do processo de imputação nos quesitos de fecundidade da PNAD 2008

N/A
N/A
Protected

Academic year: 2021

Share "Descrição e avaliação do processo de imputação nos quesitos de fecundidade da PNAD 2008"

Copied!
17
0
0

Texto

(1)

Descrição e avaliação do processo de imputação nos quesitos de

fecundidade da PNAD 2008.

Bruno Freitas Cortez,3 Guilherme Guimarães Moreira1,3 Marcus Vinicius Morais Fernandes,3

Palavras-chave: Imputação; Não resposta; Fecundidade; CANCEIS.

Resumo

A partir de 2008, o Instituto Brasileiro de Geografia e Estatística (IBGE) passou a utilizar o software CANCEIS (CANadian Census Edit and Imputation System) na etapa de crítica e imputação da Pesquisa Nacional por Amostra de Domicílios (PNAD). Além de ter sido o primeiro ano de imputação da pesquisa e, por conseguinte dos quesitos de fecundidade, por este software, até o ano de 2006 este bloco não era alvo de nenhum processo de imputação.

Desta forma, até 2006, registros com pelo menos uma variável do bloco de fecundidade com valor ignorado eram excluídos das tabelas do referido tema, na publicação da PNAD. Entretanto, a simples exclusão dos ignorados pode causar distorções na avaliação de uma variável caso o processo de não resposta seja diferencial em relação a outras variáveis, como por exemplo: a idade, a escolaridade, etc. Logo, um procedimento de imputação que leve em conta estas questões é recomendável para reduzir estas situações potencialmente indesejáveis.

Assim, o objetivo deste trabalho é descrever e avaliar o impacto da utilização do procedimento de crítica e imputação, na PNAD 2008, para as variáveis de interesse que são utilizadas nos cálculos das estatísticas de fecundidade.

Trabalho apresentado no XVII Encontro Nacional de Estudos Populacionais, realizado em Caxambu- MG – Brasil, de 20 a 24 de setembro de 2010.

IBGE/DPE/Coordenação de Métodos e Qualidade (COMEQ) IBGE/DPE/Coordenação de Trabalho e Rendimento (COREN)

3

O IBGE está isento de qualquer responsabilidade pelas opiniões, informações, dados e conceitos emitidos neste artigo, que são de exclusiva responsabilidade dos autores.

(2)

Descrição e avaliação do processo de imputação nos quesitos de

fecundidade da PNAD 2008.

Bruno Freitas Cortez,3 Guilherme Guimarães Moreira1,3 Marcus Vinicius Morais Fernandes,3

1. Introdução

A PNAD - Pesquisa Nacional por Amostra de Domicílios - tem como finalidade a produção de informações básicas para o estudo do desenvolvimento socioeconômico do País. Trata-se de um sistema de pesquisas por amostra de domicílios que investiga diversas características socioeconômicas, tais como as características gerais da população, de educação, trabalho, rendimento, habitação, migração, fecundidade, entre outros.

O tema Fecundidade tem sido investigado pela PNAD, para mulheres de 10 anos ou mais de idade, desde 1992. Através de suas informações pode-se construir importantes indicadores da fecundidade feminina. Os quesitos contidos no questionário buscam captar as mulheres que não tiveram filhos, mulheres que tiveram filhos (vivos ou mortos), quantidade de filhos tidos.

Até o ano de 2006, quando um dos quesitos não fosse respondido, este receberia um código “9”, ou seja, sem declaração. Para efeito de tabulação de resultados, somente eram consideradas as mulheres que possuíam respostas válidas em todos os quesitos. Caso houvesse pelo menos um quesito sem declaração, o registro seria descartado da tabulação.

Em 2007 foi utlizado na PNAD o sistema DIA - Detección e Imputación Automática

de errores para datos cualitativos - que é um sistema desenvolvido pelo Instituto Nacional de Estadística - INE da Espanha para crítica e imputação de dados. Na PNAD de 2008

utilizou-se o CANadian Census Edit and Imputation System - CANCEIS, software que possui as mesmas finalidades do DIA, porém com diferenças metodológicas. Com a utilização dos softwares de crítica e imputação de dados, a partir da PNAD de 2007, nenhum quesito da parte de fecundidade permaneceu sem declaração.

Desta forma o processo de crítica e imputação fez com que registros que, pelo método antigo (empregado até 2006), seriam excluídos da tabulação da PNAD, fossem reintegrados na mesma. Estes novos registros trazem consigo tanto informações respondidas pelas mulheres entrevistadas, quanto informações imputadas pelos softwares responsáveis por esta etapa. Caso este grupo de mulheres, que seria excluído das tabulações, possua determinadas características distintas em relação ao grupo em que as respostas não violaram as regras de

Trabalho apresentado no XVII Encontro Nacional de Estudos Populacionais, realizado em Caxambu- MG – Brasil, de 20 a 24 de setembro de 2010.

IBGE/DPE/Coordenação de Métodos e Qualidade (COMEQ) IBGE/DPE/Coordenação de Trabalho e Rendimento (COREN)

3

O IBGE está isento de qualquer responsabilidade pelas opiniões, informações, dados e conceitos emitidos neste artigo, que são de exclusiva responsabilidade dos autores.

(3)

crítica, é possível supor que a simples exclusão dos registros com alguma inconsistência possa causar distorções nas análises.

Mais especificamente, a Coordenação de Métodos e Qualidade do IBGE foi responsável por implementar o CANCEIS no sistema de crítica e imputação da PNAD 2008. Assim, o objetivo deste trabalho é avaliar e descrever este processo nos quesitos de fecundidade da referida pesquisa.

2. O processo de crítica e imputação

O processo de imputação estatística é o procedimento pelo qual se atribuem valores a uma ou mais variáveis de um registro de um banco de dados, segundo determinadas regras de crítica. Logo, podemos dividí-lo em duas etapas: crítica e imputação.

A etapa de crítica visa identificar tanto variáveis não respondidas pelo entrevistado (recusas) como também variáveis às quais este nos informa um valor inconsistente, seja em relação aos apresentados pelos demais entrevistados, seja em relação às demais variáveis por ele respondidas.

Em suma, o processo de imputação estatística é uma das técnicas apropriadas para se resolver de maneira adequada o problema da não-resposta. A “não-resposta” é um dos problemas mais comuns a que uma pesquisa está sujeita, ela está sempre presente, em maior ou menor grau, seja por dificuldade de estabelecer contato com o informante, ou por dificuldade ou recusa de o entrevistado em oferecer as informações solicitadas.

Tais dificuldades são mais percebidas em pesquisas repetidas mensalmente, como é o caso da Pesquisa Mensal de Emprego. Porém mesmo em pesquisas anuais, como é o caso da PNAD, onde a probabilidade de o informante ser entrevistado mais de uma vez em um período de dez anos ser mínima, verifica-se certa dificuldade em se obter algumas informações, principalmente com relação a algumas variáveis às quais a pessoa entrevistada considera como informação confidencial ou de alguma forma sensível como, por exemplo, o rendimento, o qual é um dos quesitos mais vulneráveis à não-resposta, mesmo quando o restante da pesquisa é realizado com sucesso. Esse comportamento também é observado em pesquisas censitárias e por amostragem, tanto no Brasil como internacionalmente.

Muitas pessoas se perguntam porque utilizar a imputação ao invés de apenas excluir registros que apresentem uma variável não respondida, do banco de dados. Não é apropriado tomar esta decisão por dois motivos: primeiro porque se perdem informações precisas dadas pelo informante na maior parte do questionário e segundo porque ao se decidir trabalhar apenas com os “registros completos” (aqueles que não foram apontados na etapa de crítica) na verdade se está realizando implicitamente uma imputação pela média. Este tipo de imputação implícita para uma determinada variável pode não ser adequada, pois se está supondo que a relação entre as variáveis dos respondentes e dos não-respondentes é a mesma.

Para evitar esta distorção causada pela imputação da média (seja ela implícita ou não) existem algumas técnicas de imputação às quais preservam a relação entre as variáveis do banco de dados. Podemos citar algumas delas: modelagem estatística, hot deck, vizinho (ou registro) mais próximo, etc.

(4)

2.1 Descrição do CANCEIS

O CANCEIS foi desenvolvido pelo Instituto de Estatística do Canadá (STATSCAN) para a etapa de crítica e imputação do censo demográfico canadense de 2001. Utiliza-se na imputação de dados faltantes ou inconsistentes, pelo CANCEIS, valores de um doador que tenha semelhança com o registro que será imputado, em função de um critério de distância lógica entre os registros. O objetivo principal é utilizar um único doador para cada receptor e, secundariamente, que impute o menor número possível de variáveis. A definição de registro depende do banco de dados em questão, podendo ser um domicílio, um estabelecimento, uma pessoa, etc. No caso dos quesitos de fecundidade da PNAD, um registro é uma pessoa, mais especificamente uma mulher com 10 anos ou mais de idade.

O procedimento inicia-se com a definição das regras de crítica ou inconsistência em forma de Tabelas Lógicas de Decisão (DLTs). Os registros que satisfazem todas as regras de crítica são separados em um grupo e serão os possíveis “doadores” de informações. Em contrapartida, registros que violam pelo menos uma regra são separados em outro grupo e serão os que necessitam de imputação para corrigir as inconsistências verificadas. Os objetivos da metodologia, explicados de uma forma mais detalhada, são os seguintes:

 Utilizar um único registro doador para a imputação de todas as informações inconsistentes de um receptor.

 O registro imputado deve ser o mais parecido possível com o doador, a fim de obter um registro plausível que contenha a combinação das respostas imputadas e não imputadas.

 Preservar ao máximo as informações coletadas, ou seja, para um dado conjunto de doadores e outro conjunto de receptores, imputar o menor número possível de variáveis.

 Em menor grau de prioridade considera-se também a distância física entre os registros no arquivo. A idéia é que registros mais próximos devem pertencer a áreas geográficas igualmente mais próximas, onde a realidade é mais semelhante.

A busca do doador é efetuada varrendo-se o conjunto dos registros “bons” (que não violaram nenhuma das regras de crítica), a partir da posição do registro falho no arquivo, até um limite máximo parametrizado pelo usuário. O sistema não toma como doador exatamente o registro com menor distância lógica (entre variáveis) em relação ao que será imputado, mas sim, toma um conjunto de possíveis candidatos que tenham uma distância considerada aceitável, e seleciona aleatoriamente o doador. O tamanho deste conjunto e o valor desta distância são parametrizáveis. Esta busca é feita em estágios, ou seja, se os candidatos à doação encontrados no primeiro estágio não forem satisfatórios, passa-se para um segundo estágio e este processo prossegue até que a diminuição do valor da distância lógica (igualmente parametrizável) não justifique a busca em um novo estágio.

A distância entre o registro que falhou e cada registro que passou pelas regras de crítica é usada para identificar as ações de imputação com mínima modificação. A fórmula de distância de uma ação de imputação (Dfpa) é uma função ponderada da distância entre o registro receptor e o final (Dfa) e a distância entre o registro final e o doador (Dap). A primeira (Dfa) pode ser considerada como uma medida de quantas variáveis serão imputadas, enquanto que a segunda (Dap) pode ser vista como uma medida de plausibilidade. A fórmula é:

(5)

Dfpa = α Dfa + (1 – α) Dap (0,5 < < 1,0)

Neste caso é o parâmetro de ponderação das duas distâncias. Quanto maior for este parâmetro mais importância se dá ao critério de imputar o menor número de variáveis, isto é, o registro após a imputação se parecerá mais com o registro que falhou. As letras “f”, “p” e “a” denotam, respectivamente, failed, plausibility e action.

Deve ser ressaltado que o sistema garante que qualquer imputação realizada não irá gerar uma nova inconsistência em outra regra de crítica. Em outras palavras, antes de um registro ser considerado como possível candidato a doador de informações, é verificada sua hipotética imputação juntamente com todas as demais regras contidas no arquivo das DLTs. Além disso, o CANCEIS possui algumas outras características importantes, tais como um módulo de verificação de incompatibilidade entre regras de crítica, um módulo para imputações determinísticas, regras de edição para eliminar doadores indesejáveis (registros possíveis, mas não plausíveis), e uma variedade de relatórios de saída para monitorar o processo.

2.2 O CANCEIS no IBGE

O software NIM, protótipo do CANCEIS, foi usado com bons resultados para a imputação das estruturas de família e domicílio nos arquivos da amostra do Censo Demográfico de 2000. Ele foi escolhido especificamente por sua característica de tratamento de variáveis entre registros (pessoas dentro de um mesmo domicílio), fundamental no processo de determinação das estruturas das famílias e domicílios.

O CANCEIS propriamente dito foi utilizado pela primeira vez, pelo IBGE, na imputação de algumas variáveis categóricas do Censo Agropecuário de 2006, em oito temas distintos: dados gerais, lavoura permanente, lavoura temporária, floricultura, silvicultura, produtos da silvicultura, extração vegetal e indústria rural. A segunda aplicação foi no módulo de “Educação de Jovens e Adultos” da PNAD 2007, onde os bons resultados obtidos e sua fácil implementação no processo de produção da pesquisa acarretaram na escolha da utilização deste software para a crítica e imputação da totalidade da PNAD 2008. Também já foi iniciado o projeto de crítica e imputação para os dados do Censo Demográfico 2010 usando o CANCEIS, bem como estão em curso testes de implementação deste software em outras pesquisas da instituição como, por exemplo, a Pesquisa de Orçamentos Familiares (POF).

3. Aplicação do CANCEIS no bloco de fecundidade

O banco de dados da PNAD 2008 contém vinte variáveis relativas ao bloco de fecundidade. Até o ano de 2006, registros com pelo menos uma variável deste bloco com valor ignorado eram excluídos da sua tabulação. Atualmente, são apenas excluídos os registros nos quais as mulheres declararam formalmente que “não sabiam” responder algum dos oito quesitos de fecundidade, onde era possível esta opção de resposta. São elas: número de filhos (ou de filhas) que não moram no mesmo domicílio da mãe; número de filhos (ou de filhas) nascidos vivos que já morreram; sexo do último filho nascido vivo; se o último filho

(6)

nascido vivo ainda estava vivo; e número de filhos (ou de filhas) nascidos mortos. Esses registros não serão objetos do processo de imputação.

Desta forma, registros que anteriormente seriam excluídos da tabulação da PNAD, são reintegrados na mesma, trazendo consigo tanto informações efetivamente respondidas pelas mulheres entrevistadas, quanto informações imputadas pelo CANCEIS. Assim, para as variáveis deste bloco, será analisada a distribuição destes novos registros e o impacto que eles possuem na distribuição total, a qual é divulgada na publicação. Deve ser ressaltado que foram criadas variáveis indicadoras que identificam se a resposta era proveniente ou não de imputação. Logo, o usuário pode substituir estes valores utilizando seu próprio método de imputação ou, no limite, excluir todos esses registros do mesmo modo que a PNAD fazia até 2006.

3.1 Informações aproveitadas x informações imputadas.

Conforme mencionado anteriormente, existem vinte variáveis relativas ao bloco de fecundidade, no banco de dados da PNAD. Entretanto há que se ter em conta que uma mulher não necessariamente responderá a todas as perguntas. Por exemplo, se a informante declara que não teve filhos, não irá responder o sexo do último filho nascido vivo, e assim por diante. Portanto, um registro com uma variável imputada que, graças ao sistema de crítica e imputação, foi incorporado ao banco de dados teria, potencialmente, outras dezenove variáveis com informações efetivamente declaradas.

Diante deste cenário surgem algumas questões como, por exemplo, quantos registros que seriam excluídos da tabulação foram efetivamente aproveitados, e dentro deles quantas variáveis foram imputadas e quantas tinham informações pré-existentes. Estas informações estão contidas nas Tabelas 1 e 2.

Tabela 1 – Número de mulheres de 15 anos ou mais de idade, na PNAD 2008, por condição de aproveitamento ou exclusão do registro devido ao processo de crítica e imputação.

Condição do registro Nº de registros Total ponderado

Excluído pelo sistema anterior 6.757 3.304.674

Aproveitado pelo novo sistema 5.194 2.538.596

Excluído da tabulação 2008 1.563 766.078

Fonte: PNAD 2008

De acordo com a Tabela 1, observa-se que se fosse mantido o sistema antigo, ou seja, a exclusão de registros na tabulação com pelo menos uma variável de fecundidade ignorada, mais de três milhões de mulheres seriam suprimidas dos resultados. Por outro lado, com o novo critério de exclusão (a informante ter declarado formalmente que não sabe responder alguma das oito variáveis especificadas anteriormente), este número se reduziu a menos de oitocentos mil. Isto significa que o novo sistema trouxe consigo novos registros, totalizando mais de dois milhões e meio de mulheres, que seriam excluídas das tabulações do tema.

Este quantitativo de mulheres traz consigo novas informações, as quais podem ser imputadas ou já existentes. Assim, é possível calcular a proporção de imputação para cada uma das vinte variáveis, tendo em conta que o montante de respondentes das mesmas pode ser distinto, uma vez que as mulheres não necessariamente responderão a todas as perguntas do

(7)

bloco. As variáveis são tratadas tanto no questionário, quanto no banco de dados por uma sigla, uma vez que é um código muito mais curto do que a descrição completa da variável. Igualmente, a partir deste ponto, estas siglas serão freqüentemente mencionadas, então a listagem completa das mesmas, com suas respectivas descrições, está disposta na Tabela 14 do anexo.

Tabela 2 – Total de mulheres de 15 anos ou mais de idade, contidas na publicação da PNAD 2008, das provenientes dos registros aproveitados e das com informações imputadas pelo novo

sistema, por variável do bloco de fecundidade.

Variável Mulheres % mulheres aproveitadas pelo sistema em relação ao total % mulheres imputadas em relação às aproveitadas Total1 Aproveitados pelo novo sistema Com informação imputada V1101 73.695.002 2.538.596 79.741 3,4 3,1 V1141 51.846.783 2.458.257 150.770 4,7 6,1 V1142 51.846.783 2.458.257 131.062 4,7 5,3 V1151 51.846.783 2.458.257 24.312 4,7 1,0 V1152 51.846.783 2.458.257 29.465 4,7 1,2 V1161 51.846.783 2.458.257 10.198 4,7 0,4 V1162 51.846.783 2.458.257 29.465 4,7 1,2 V1107 51.846.783 2.458.257 74.200 4,7 3,0 V1181 51.846.783 2.458.257 814.274 4,7 33,1 V1182 51.846.783 2.458.257 1.373.650 4,7 55,9 V1109 51.846.783 2.458.257 590.290 4,7 24,0 V1110 73.695.002 2.538.596 82.208 3,4 3,2 V1111 2.554.606 133.089 1.231 5,2 0,9 V1112 2.554.606 133.089 1.480 5,2 1,1 Fonte: PNAD 2008

1 Os dados publicados sobre o tema de fecundidade, na PNAD, se referem ao conjunto das mulheres com quinze anos ou mais de

idade.

Somente as variáveis V1101 e V1110 (se a mulher teve algum filho nascido vivo ou filho nascido morto, respectivamente) são respondidas por todos as informantes. Desta forma o número mulheres incorporadas com o novo sistema é o mesmo observado na Tabela 1, o que significa 3,4% do montante total. Nas demais variáveis, as quais somente são respondidas dependendo da informação dada em algum outro item, o total de informantes que seriam “perdidos” caso fosse mantido o sistema antigo chegaria a 5,2%, como mostra a Tabela 2.

Contudo, já foi mencionado que nem todas as novas informações agregadas são provenientes de imputação. De fato, verifica-se que, com exceção da V1182 (ano de nascimento do último filho nascido vivo), a maior parte desta informação já estava presente nos registros. Mais especificamente, se observa que a taxa de informação imputada em relação ao total de informação nova aproveitada pelo sistema, não chega a 7% na maioria das variáveis.

As variáveis V1153, V1154, V1163, V1164, V1113 e V1114 constam no bloco de fecundidade, porém não serão analisadas neste trabalho. Elas servem apenas como variáveis identificadoras da condição da mulher não saber a quantidade de filhos ou filhas vivos que moram do domicílio, em outro local, ou nascidos mortos. Mulheres que afirmaram não saber

(8)

alguma destas informações não são contabilizadas nas tabulações, logo, no banco de dados, só teremos um único valor para estas variáveis (correspondente à categoria “não ignora”).

A Tabela 2 fornece uma visão do quantitativo de imputações por variável. Entretanto, também é interessante saber a distribuição do número de variáveis imputadas dentro de um registro. Em outras palavras, se em algum registro aproveitado pelo CANCEIS, as informações contidas no mesmo são provenientes quase que, exclusivamente, de imputações.

Tabela 3 – Número de mulheres de 15 anos ou mais de idade, por número de imputações nos registros incorporados pelo CANCEIS.

Nº de imputações Registros (mulheres) Percentual Uma 1.737.613 68,4 Duas 777.222 30,6 Três 16.129 0,6 Quatro 6.753 0,3 Cinco 879 0,0 Total 2.538.596 100,0 Fonte: PNAD 2008

Observa-se, conforme os dados dispostos na Tabela 3, que em 99% dos registros provenientes do sistema de crítica e imputação, só foram imputadas no máximo duas variáveis. Tomando por base esta mesma tabela, verifica-se que a média de variáveis imputadas, por registro, é de aproximadamente 1,3. Logo, conclui-se que o software foi capaz de corrigir as inconsistências encontradas, alterando o mínimo possível da informação original do arquivo.

3.2 Análise da distribuição das variáveis de fecundidade.

Na seção 3.1 analisou-se o volume de dados que foram incorporados às tabulações com o novo sistema de crítica e imputação. O próximo passo é verificar, para cada variável, se a distribuição desses dados é muito distinta em relação aos que estão contidos nos registros sem nenhum tipo de inconsistência. Caso esta hipótese se mostre verdadeira, é possível supor que a simples exclusão dos mesmos poderia acarretar algum tipo de distorção na análise da variável em questão. As tabelas dispostas a seguir ajudam a elucidar estas questões.

Tabela 4 – Distribuição percentual das mulheres de 15 anos ou mais de idade, provenientes de registros sem erros de consistência, dos aproveitados pelo sistema (CANCEIS) e total dos

publicados na PNAD 2008, para as variáveis V1101 e V1110.

Categorias

Condição de aproveitamento do registro na V1101 (Teve filho nascido vivo)

Condição de aproveitamento do registro na V1110 (Teve filho nascido morto) Sem erro de consistência Aproveitados pelo CANCEIS Publicado na PNAD 2008 Sem erro de consistência Aproveitados pelo CANCEIS Publicado na PNAD 2008 Sim 69,4% 96,8% 70,4% 3,4% 5,2% 3,5% Não 30,6% 3,2% 29,6% 96,6% 94,8% 96,5% Total de mulheres 71.156.406 2.538.596 73.695.002 71.156.406 2.538.596 73.695.002 Fonte: PNAD 2008

(9)

A Tabela 4 contém as distribuições referentes às variáveis V1101 e V1110, as quais são respondidas por todas as mulheres contidas no bloco de fecundidade. Observa-se que enquanto 69,4% das mulheres nos registros sem erros de consistência declararam que tiveram filhos nascidos vivos, nos registros que seriam excluídos das tabulações esse valor era de 96,8%. Assim, verifica-se que as distribuições destes dois grupos são distintas, e a inclusão das novas informações alterou o valor resultante de cada categoria em um ponto percentual absoluto (69,4% e 30,6% para 70,4% e 29,6% respectivamente).

Por outro lado, embora a porcentagem de mulheres que declarou ter tido filhos nascidos mortos ser maior nos registros aproveitados pelo sistema CANCEIS (5,2% contra 3,4%), a inclusão dos mesmos praticamente não alterou a distribuição final da variável (3,5%). Observa-se ainda, de acordo com a Tabela 2, que a porcentagem de informações novas provenientes de imputação para ambas as variáveis é de aproximadamente 3%, ou seja, quase a totalidade dos dados que seriam excluídos possuía respostas válidas no banco.

Tabela 5 – Distribuição percentual das mulheres de 15 anos ou mais de idade, provenientes de registros sem erros de consistência, dos aproveitados pelo sistema (CANCEIS) e total dos

publicados na PNAD 2008, para as variáveis V1141 e V1142.

Categorias

Condição de aproveitamento do registro na V1141 (Nº filhos residentes no

domicílio)

Condição de aproveitamento do registro na V1142 (Nº filhas residentes no domicílio) Sem erro de consistência Aproveitados pelo CANCEIS Publicado na PNAD 2008 Sem erro de consistência Aproveitados pelo CANCEIS Publicado na PNAD 2008 Zero 44,0% 53,7% 44,5% 46,4% 56,4% 46,9% Um 38,5% 31,5% 38,1% 38,5% 32,4% 38,2% Dois 13,4% 11,3% 13,3% 11,7% 8,5% 11,6% Três 3,1% 2,7% 3,1% 2,5% 2,2% 2,5% Quatro ou + 1,0% 0,8% 1,0% 0,8% 0,6% 0,7% Total de mulheres 49.388.526 2.458.257 51.846.783 49.388.526 2.458.257 51.846.783 Média da variável 0,790 0,658 0,784 0,729 0,585 0,722 Fonte: PNAD 2008

Tabela 6 – Distribuição percentual das mulheres de 15 anos ou mais de idade, provenientes de registros sem erros de consistência, dos aproveitados pelo sistema (CANCEIS) e total dos

publicados na PNAD 2008, para as variáveis V1151 e V1152.

Categorias

Condição de aproveitamento do registro na V1151 (Nº filhos residentes em outro

local)

Condição de aproveitamento do registro na V1152 (Nº filhas residentes em outro

local) Sem erro de consistência Aproveitados pelo CANCEIS Publicado na PNAD 2008 Sem erro de consistência Aproveitados pelo CANCEIS Publicado na PNAD 2008 Zero 65,6% 54,7% 65,1% 63,7% 53,2% 63,2% Um 18,1% 19,6% 18,2% 18,5% 18,6% 18,5% Dois 8,8% 11,6% 8,9% 9,2% 12,4% 9,4% Três 4,1% 6,8% 4,2% 4,3% 6,7% 4,5% Quatro ou + 3,4% 7,3% 3,6% 4,2% 9,0% 4,4% Total de mulheres 49.388.526 2.458.257 51.846.783 49.388.526 2.458.257 51.846.783 Média da variável 0,644 0,986 0,660 0,702 1,085 0,720 Fonte: PNAD 2008

(10)

As variáveis contidas nas Tabelas 5 e 6 são respondidas pelas mulheres que declararam ter tido filhos nascidos vivos na V1101. Ao se somar estas quatro variáveis, obtém-se o número de filhos tidos, que ainda estão vivos (sobreviventes). De acordo com as referidas tabelas, percebe-se que entre as mulheres provenientes dos registros que possuíam algum tipo de inconsistência, o número de filhos, para ambos os sexos, residentes no domicílio é menor, enquanto este comportamento é inverso em relação ao número de filhos que residem em outro local.

Mais especificamente tem-se que a média das variáveis relativas a filhos residentes no domicílio diminuiu pouco menos de 1% (0,790 e 0,729 para 0,784 e 0,722 respectivamente), com a inclusão destes novos registros, enquanto que a média para os filhos residentes em outros locais aumentou em aproximadamente 2,5% (0,644 e 0,660 para 0,702 e 0,720 respectivamente). Assim, a média do número de filhos sobreviventes, na população pesquisada, também aumenta.

Tabela 7 – Distribuição percentual das mulheres de 15 anos ou mais de idade, provenientes de registros sem erros de consistência, dos aproveitados pelo sistema (CANCEIS) e total dos

publicados na PNAD 2008, para as variáveis V1161 e V1162.

Categorias

Condição de aproveitamento do registro na V1161 (Nº filhos nascidos vivos que

já morreram)

Condição de aproveitamento do registro na V1162 (Nº filhas nascidas vivas que

já morreram) Sem erro de consistência Aproveitados pelo CANCEIS Publicado na PNAD 2008 Sem erro de consistência Aproveitados pelo CANCEIS Publicado na PNAD 2008 Zero 88,1% 77,5% 87,6% 91,0% 83,2% 90,6% Um 8,3% 12,0% 8,5% 6,4% 9,5% 6,6% Dois 2,2% 5,6% 2,4% 1,6% 3,6% 1,7% Três 0,8% 2,4% 0,9% 0,5% 1,7% 0,6% Quatro ou + 0,6% 2,5% 0,7% 0,5% 2,0% 0,5% Total de mulheres 49.388.526 2.458.257 51.846.783 49.388.526 2.458.257 51.846.783 Média da variável 0,185 0,436 0,197 0,136 0,321 0,144 Fonte: PNAD 2008

O conjunto de mulheres que respondem as V1161 e V1162 é o mesmo em relação às respondentes das quatro variáveis das Tabelas 5 e 6. A soma destas seis variáveis fornece o total de filhos tidos nascidos vivos.

Verifica-se, tomando por base a Tabela 7, que o número de filhos nascidos vivos que já morreram, para ambos os sexos, é maior entre o conjunto de mulheres oriundas dos registros incorporados pelo sistema de crítica e imputação. A inclusão dos mesmos nas tabulações fez a média destas variáveis aumentar em, aproximadamente, 6% (de 0,185 e 0,136 para 0,197 e 0,144 aproximadamente). Desta forma, e levando em conta os resultados anteriores, conclui-se que a média do número de filhos tidos nascidos vivos também aumentou.

Ressalta-se ainda que a porcentagem de imputação nos registros que vieram do CANCEIS, para estas variáveis, é muito baixa: 0,4% para a V1161 e 1,2% para a V1162, como mostra a Tabela 2. Logo, a diferença observada nas distribuições é quase que exclusivamente devida a informações efetivamente declaradas pelas informantes.

(11)

Tabela 8 – Distribuição percentual das mulheres de 15 anos ou mais de idade, provenientes de registros sem erros de consistência, dos aproveitados pelo sistema (CANCEIS) e total dos

publicados na PNAD 2008, para a variável V1107.

Categorias

Condição de aproveitamento do registro na V1107 (Sexo do último filho nascido)

Sem erro de consistência Aproveitados pelo CANCEIS Publicado na PNAD 2008 Masculino 51,3% 51,4% 51,3% Feminino 48,7% 48,6% 48,7% Total de mulheres 49.388.526 2.458.257 51.846.783 Fonte: PNAD 2008

Ao se analisar as distribuições dispostas na Tabela 8, referentes ao sexo do último filho nascido vivo, fica evidente que as porcentagens se mantém praticamente inalteradas nos dois universos estudados e, por conseguinte, na distribuição final, a qual foi publicada na PNAD 2008. Esse comportamento era esperado, uma vez que não é intuitivo supor que a informante deixaria de responder o quesito V1107, ou teria uma maior tendência de apresentar respostas inconsistentes no bloco de fecundidade, em função do sexo do último filho.

Analogamente, esse resultado mostra que em variáveis onde a não resposta é aleatória, simplesmente descartar os registros inválidos, tal como era o procedimento do método antigo, não seria problemático ou, pelo menos, não tão diferente do que um sistema de crítica e imputação faria, em termos de resultados das estimativas. Contudo, como já se observou na análise das outras variáveis, em muitas vezes esse não é o caso.

Tabela 9 – Distribuição percentual das mulheres de 15 anos ou mais de idade, provenientes de registros sem erros de consistência, dos aproveitados pelo sistema (CANCEIS) e total dos

publicados na PNAD 2008, para a variável V1109.

Categorias

Condição de aproveitamento do registro na V1109 (Último filho nascido vivo ainda estava vivo) Sem erro de consistência Aproveitados pelo CANCEIS Publicado na PNAD 2008 Sim 97,2% 89,7% 96,8% Não 2,8% 10,3% 3,2% Total de mulheres 49.388.526 2.458.257 51.846.783 Fonte: PNAD 2008

Dado que a mulher declarou que teve algum filho nascido vivo, ela deve responder se o último filho nascido vivo ainda estava vivo, logo o conjunto de respondentes é o mesmo das Tabelas 5 a 8. De acordo com a Tabela 9, observa-se que a porcentagem de mulheres com o último filho tido já falecido, em registros que apresentaram alguma inconsistência, era quase quatro vezes maior em relação às provenientes de registros sem nenhum tipo de erro (10,3% contra 2,8%). Logo, apesar do aumento de 0,4% (de 2,8% para 3,2%) na distribuição final parecer pequeno em termos absolutos, ele representa um incremento de aproximadamente 15% em termos relativos.

Deve também ser destacado que embora a V1109 apresente uma das maiores porcentagens de imputação dentre os registros inconsistentes - 24% de informações imputadas

(12)

contra 76% de informações válidas já existentes - existe, nesta variável, a categoria de resposta “não sabe”. Assim, se a pessoa declarasse não saber responder, a informação seria considerada válida e o software não faria qualquer tipo de imputação.

Tabela 10 – Distribuição percentual das mulheres de 15 anos ou mais de idade, provenientes de registros sem erros de consistência, dos aproveitados pelo sistema (CANCEIS) e total dos

publicados na PNAD 2008, para as variáveis V1111 e V1112.

Categorias

Condição de aproveitamento do registro na V1111 (Nº filhos nascidos mortos)

Condição de aproveitamento do registro na V1112 (Nº filhas nascidas mortas) Sem erro de consistência Aproveitados pelo CANCEIS Publicado na PNAD 2008 Sem erro de consistência Aproveitados pelo CANCEIS Publicado na PNAD 2008 Zero 34,3% 23,7% 33,7% 56,6% 60,9% 56,9% Um 55,3% 57,0% 55,3% 37,4% 36,0% 37,3% Dois 8,0% 13,1% 8,2% 4,6% 1,5% 4,4% Três 1,7% 4,1% 1,8% 0,8% 1,0% 0,8% Quatro ou + 0,9% 2,1% 0,9% 0,6% 0,6% 0,6% Total de mulheres 2.421.517 133.089 2.554.606 2.421.517 133.089 2.554.606 Média da variável 0,803 1,057 0,816 0,517 0,465 0,515 Fonte: PNAD 2008

Uma vez que a informante declarou na V1110 que teve algum filho nascido morto, ela deve informar o número de filhos e/ou filhas que tiveram esta condição. Logo, o conjunto de respondentes das V1111 e V1112 é o menor em relação a todas as outras variáveis deste bloco. Dentre as mulheres provenientes de registros que possuíam algum tipo de inconsistência, a porcentagem de informações imputadas também é uma das menores (0,93% e 1,11% respectivamente), como mostra a Tabela 2.

Observa-se, com base na Tabela 10, que de uma forma geral, o número de filhos nascidos mortos é maior para o sexo masculino. Da mesma forma, o comportamento dos dados provenientes dos registros aproveitados pelo CANCEIS é distinto por sexo. O número médio de filhos nascidos mortos é maior nesses registros em relação aos que não possuem nenhuma inconsistência (1,057 contra 0,803), em contrapartida o número médio de filhas é menor (0,465 contra 0,517).

Tabela 11 – Distribuição percentual das mulheres de 15 anos ou mais de idade, provenientes de registros sem erros de consistência, dos aproveitados pelo sistema (CANCEIS) e total dos

publicados na PNAD 2008, para a variável V1182.

Categorias

Condição de aproveitamento do registro na V1182 (Ano de nascimento do último filho nascido vivo)

Sem erro de consistência Aproveitados pelo CANCEIS Publicado na PNAD 2008 2004 ou anterior 82,6% 91,0% 83,0% 2005 4,2% 2,5% 4,2% 2006 4,5% 3,0% 4,4% 2007 5,0% 2,1% 4,8% 2008 3,8% 1,4% 3,7% Total de mulheres 49.388.526 2.458.257 51.846.783 Fonte: PNAD 2008

(13)

O mês (V1181) e o ano (V1182) de nascimento do último filho nascido vivo são utilizados para determinar se o mesmo ocorreu num período inferior a doze meses da data de referência da pesquisa. Esse dado é usado para o cálculo das taxas específicas de fecundidade e, por conseguinte, da taxa de fecundidade total.

Observa-se, com base na Tabela 11, que embora não tenha ocorrido grande alteração na distribuição da variável final (publicada na PNAD), as mulheres provenientes de registros sem erros inconsistência apresentam, em média, anos de nascimentos mais recentes. Deve ser levado em conta que as V1181 e V1182 foram as que registraram maiores proporções de imputação, como mostra a Tabela 2. Nestas variáveis não existe a opção da mulher dizer que não sabe ou não se lembra da data de nascimento do filho, então pode ser razoável supor que se trata de nascimentos ocorridos há mais tempo, logo esta diferença nas distribuições já era esperada.

3.3 Análise das distribuições com relação a outras variáveis.

Foi possível verificar que a distribuição das variáveis do bloco de fecundidade nos registros que seriam excluídos da tabulação pelo antigo sistema de crítica é, em muitos casos, distinta em relação à observada nos demais registros. Entretanto, é sabido que outras variáveis como anos de estudo ou idade da mulher, possuem também grande influência nas informações deste tema. Logo, é possível supor que esta diferença observada nas distribuições não se comporte de forma uniforme entre grupos de mulheres em diferentes faixas etárias ou grupos de anos de estudo.

Esta hipótese será estudada, porém as análises contidas nesta seção não pretendem ser exaustivas. Deve-se levar em conta que ao se analisar um subconjunto relativamente pequeno da amostra da PNAD (os registros com algum tipo de inconsistência), e subdividí-lo em grupos menores referentes a categorias de outras variáveis, as informações em cada um deles começam a ficar rarefeitas. A idéia é verificar, de uma forma geral, se realmente o processo de não resposta ou inconsistência possa ser considerado diferencial em relação a outras variáveis.

Escolheu-se como variável de estudo a V1101 (se a mulher teve filho nascido vivo), uma vez que a mesma é respondida por todas as informantes do bloco. Logo, há um volume de informação maior, bem como a distribuição desta variável era distinta entre as mulheres provenientes de registros com e sem erros de inconsistência. Neste quesito existem apenas duas respostas possíveis e mutuamente excludentes: “sim” ou “não”. Assim, para fins de análise, será descrita a porcentagem, de mulheres que declararam não ter tido filhos nascidos vivos, e o seu valor complementar (o que falta para chegar a 100%) corresponde às respondentes da outra categoria.

Deve ser ressaltado que parte das informações dispostas a seguir, já estavam contidas na Tabela 4. Em outras palavras, enquanto antes se verificou somente a distribuição de respostas da V1101 para o total das mulheres, o que se pretende averiguar neste momento é o comportamento da mesma segundo subgrupos populacionais.

(14)

Tabela 12 – Distribuição percentual de mulheres que declararam que não tiveram filhos nascidos vivos, por condição do registro, segundo grupos idade.

Grupos de idade

Condição de aproveitamento do registro Sem erro de consistência Aproveitados pelo CANCEIS Publicado na PNAD 2008 Variação relativa (%) Total 30,6 3,2 29,6 -3,1 15 a 19 anos 88,9 31,4 88,6 -0,3 20 a 24 anos 61,5 5,9 60,8 -1,2 25 a 29 anos 38,4 7,4 37,9 -1,5 30 a 34 anos 22,2 3,0 21,6 -2,4 35 a 39 anos 15,0 2,9 14,6 -2,4 40 a 44 anos 12,2 2,7 11,9 -2,6 45 a 49 anos 11,4 3,1 11,1 -2,6 50 a 54 anos 10,7 2,6 10,4 -3,1 55 a 59 anos 11,0 2,3 10,5 -4,1 60 a 64 anos 10,8 3,2 10,4 -3,6 65 a 69 anos 11,2 1,2 10,5 -6,0 70 anos ou + 12,5 1,4 11,3 -9,6 Fonte: PNAD 2008

De acordo com a Tabela 12, observa-se que o valor do total é o mesmo já verificado na Tabela 4, ou seja, enquanto quase um terço das mulheres entre os registros sem inconsistências declararam não ter tido filhos nascidos vivos, essa porcentagem era quase nula (3,2%) nos registros incorporados graças ao sistema de crítica e imputação. Isto fez que, em termos relativos, a proporção de mulheres sem filhos tenha diminuído em 3,1% (de 30,6 para 29,6%) com a entrada destes registros.

No entanto, percebe-se que a queda desta porcentagem não é uniforme quando a analisamos em função do grupo de idade da mulher. Enquanto no primeiro grupo etário, de 15 a 19 anos, o valor diminui em apenas 0,3% (88,9 para 88,6%), conforme se avança nestes grupos a magnitude da queda tem uma tendência crescente até atingir 9,6% na última categoria (12,5 para 11,3%). Isto significa que a simples exclusão de registros inconsistentes não só elevaria a proporção de mulheres sem filhos, como também que esta diferença possui relação com os grupos etários das informantes.

Tabela 13 – Distribuição percentual de mulheres que declararam que não tiveram filhos nascidos vivos, por condição do registro, segundo grupos de anos de estudo.

Grupos de anos de estudo

Condição de aproveitamento do registro Sem erro de consistência Aproveitados pelo CANCEIS Publicado na PNAD 2008 Variação relativa (%) Total 30,6 3,2 29,6 -3,1 Menos de um 13,6 7,5 13,0 -4,2 Um a três 10,8 0,5 10,3 -4,2 Quatro a sete 18,8 1,6 18,3 -2,9 Oito a onze 40,1 1,6 39,2 -2,3 Doze ou mais 46,8 1,5 45,9 -2,0 Fonte: PNAD 2008

A Tabela 13 replica a avaliação feita anteriormente, porém agora tomando por base a variável “anos de estudo”. Mais uma vez observa-se que a queda global (3,1%) não se deu de

(15)

forma uniforme, tal que a mesma ocorreu com maior intensidade (4,2%) no grupo de menor instrução (de 13,6 para 13,0%) e menor intensidade conforme aumentava a instrução nas categorias.

Outros quesitos do bloco de fecundidade podem ter comportamentos distintos para estas duas variáveis, bem como o processo de não resposta pode ser também diferencial em relação a outros aspectos como, por exemplo, a Grande Região (norte, nordeste, sudeste, sul ou centro oeste) de residência. Como já foi mencionado anteriormente, não há intenção do estudo ser exaustivo neste item, e sim de apontar que há evidências que indiquem relação do processo de não resposta com outras variáveis. O analista deve ter esta idéia em mente ao optar entre excluir os registros inconsistentes ou adotar um processo de crítica e imputação.

4. Considerações Finais

A primeira avaliação do CANCEIS em relação à sua utilização na PNAD foi positiva. O software é de fácil implementação e consegue processar um grande volume de dados em pouco tempo, o que é essencial em termos de produção. Tomando como exemplo o bloco de fecundidade, todos os registros do país foram avaliados e imputados, quando necessário, em um prazo inferior a dez minutos. Além disso, verificou-se que nenhum registro inconsistente ficou sem correção, bem como as alterações produzidas pelo sistema não geraram novas falhas em outras regras, o que o CANCEIS de fato garantia em sua metodologia.

Um segundo ponto a ser avaliado, o qual é o intuito deste trabalho, diz respeito a que valores foram agregados ao banco de dados, pelo sistema. Neste ponto duas questões devem ser esclarecidas. Uma delas é que estas novas informações não são exclusivamente provenientes de imputação, na verdade observou-se que o maior volume agregado era de respostas válidas que seriam excluídas por alguma outra inconsistência verificada no registro. A outra é que simplesmente ignorar registros com algum erro ou não resposta também significa imputar, uma vez que se está considerando, de forma implícita, que os mesmos teriam distribuição semelhante aos registros sem nenhum tipo de inconsistência.

O que se percebeu pelas tabelas apresentadas é que, na maioria dos casos, a distribuição das variáveis do bloco de fecundidade para os registros que seriam excluídos é distinta em relação aos demais (sem erros de consistência). Verificou-se também a existência de evidências indicando que a magnitude desta diferença não é uniforme em relação a outras variáveis que normalmente são relacionadas com os quesitos de fecundidade, como a idade e os anos de estudo da mulher.

Em trabalhos futuros se avaliará o impacto do sistema de crítica e imputação em outros blocos temáticos da PNAD 2008. Da mesma forma, a partir deste estudo que analisou exclusivamente as variáveis contidas na PNAD, a intenção será medir os mesmos impactos nos indicadores de fecundidade que são calculados com base nestes dados.

(16)

Referências bibliográficas

CANCEIS Development Team. CANCEIS Version 4.5 User’s Guide. Social Survey Methods Division, Statistics Canada, 2007.

IBGE. Pesquisa Nacional por Amostra de Domicílios 2008. Rio de Janeiro: IBGE, 2009.

IBGE. Imputação de valores faltantes referentes às variáveis de rendimento do trabalho. Rio de Janeiro: IBGE, 2007.

SANTOS, A.R.; PESSOA, D.G.C. e MOREIRA, G.G. Imputação de Rendimentos no Questionário da Amostra do Censo Demográfico 2000. Rio de Janeiro: IBGE, 2004.

SILVA, A.N. Principais Aspectos Relacionados com o Sistema CANCEIS – Canadian Census Edit and Imputation System. Rio de Janeiro: IBGE, Coordenação de Métodos e Qualidade - COMEQ, 2004 (documento interno).

SILVA, A.N. Avaliação do Uso do CANCEIS na etapa de crítica e imputação dos dados da POF 2008-2009. Rio de Janeiro: IBGE, Coordenação de Métodos e Qualidade - COMEQ, 2008 (documento interno).

(17)

ANEXO

Tabela 14–Variáveis do bloco de fecundidade e suas respectivas descrições.

Variável Descrição

V1101 Teve filho nascido vivo

V1141 Número de filhos homens que moram no domicílio

V1142 Número de filhos mulheres que moram no domicílio

V1151 Número de filhos homens que moram em outro domicílio

V1152 Número de filhos mulheres que moram em outro domicílio

V1153 Ignora o número de filhos homens que moram no domicílio

V1154 Ignora o número de filhos mulheres que moram no domicílio

V1161 Número de filhos homens que morreram

V1162 Número de filhos mulheres que morreram

V1163 Ignora o número de filhos homens que morreram

V1164 Ignora o número de filhos mulheres que morreram

V1107 Sexo do último filho nascido vivo

V1181 Mês de nascimento do último filho nascido vivo V1182 Ano de nascimento do último filho nascido vivo V1109 O último filho nascido vivo ainda está vivo

V1110 Teve filho nascido morto desde que nascido após 7 meses de gestação

V1111 Número de filhos homens nascidos mortos

V1112 Número de filhos mulheres nascidos mortos

V1113 Ignora o número de filhos homens nascidos mortos V1114 Ignora o número de filhos mulheres nascidos mortos

Referências

Documentos relacionados

(W +H) φ with the F redholm index of the Wiener-Hopf minus Hankel operator (W −H) φ based on the winding number of a pie ewise almost periodi fun tion ( onstru ted from the. initial

que sa oU serva a dita complicação nos últimos anos 4 devido a que actualmente sa operam muito mais ulceras am actividade qua anteriormente. Urrutia diz que e por- que se eomeQa

To test the hypothesis of the model and reach the objectives of this study, which are (1) determining the antecedents of Satisfaction, both Economic and Non-Economic, in

Os instrutores tiveram oportunidade de interagir com os vídeos, e a apreciação que recolhemos foi sobretudo sobre a percepção da utilidade que estes atribuem aos vídeos, bem como

Este trabalho tem como objetivo contribuir para o estudo de espécies de Myrtaceae, com dados de anatomia e desenvolvimento floral, para fins taxonômicos, filogenéticos e

Entre as ações que mais cresceram no Supremo na última década estão as de direito do consumidor (FALCÃO et al., 2014, p. A Oi é a primeira das 20 empresas privadas com mais

Todavia, as consequências da judicia- lização não se limitam ao sistema público de saúde e à sociedade brasileira, mas atinge também o próprio Judiciário. As demandas