• Nenhum resultado encontrado

As Implicações do Uso de Calibração no Procedimento de Expansão da Amostra do Censo Demográfico 2000

N/A
N/A
Protected

Academic year: 2021

Share "As Implicações do Uso de Calibração no Procedimento de Expansão da Amostra do Censo Demográfico 2000"

Copied!
16
0
0

Texto

(1)

As Implicações do Uso de Calibração no Procedimento de

Expansão da Amostra do Censo Demográfico 2000

∗∗

Antonio José Ribeiro Dias♣♣ Sonia Albieri♦♦ Palavras-chave: censo; amostra; estimação; calibração.

Resumo

Além da investigação censitária, o Censo 2000 fez uso de amostragem para a investigação de um grande conjunto de variáveis.

Uma das vantagens de se fazer uma pesquisa por amostragem simultaneamente à operação censitária é a possibilidade de usar os resultados conhecidos pela investigação a 100%, para ajustar o processo de estimação da pesquisa realizada por amostragem. Essa vantagem reside principalmente na precisão dessas estimativas. Outra vantagem é a de obter consistência dos resultados estimados com os apurados na investigação censitária.

Calibração é o nome que se dá ao processo pelo qual os fatores de expansão para a amostra são determinados de forma a buscar a consistência das estimativas com os totais conhecidos. Ou seja, a incorporação do conhecimento de resultados obtidos de forma censitária no processo de expansão da amostra é feita através da utilização de calibração como método de estimação.

O cálculo dos pesos calibrados, em cada área de ponderação, foi baseado no método dos Mínimos Quadrados Generalizados, com a imposição de limites nos pesos finais, para evitar pesos muito pequenos ou muito grandes. Além disso, o ajuste de um modelo de regressão com o uso de um grande número de variáveis explicativas pode não ser bem sucedido. Por isso são necessárias definições de contorno para diminuir a ambição do modelo de ajuste. Algumas vezes isso significa abrir mão da calibração perfeita.

Essas definições, associadas à das áreas de ponderação, são fundamentais para a compreensão do significado da calibração nas estimativas obtidas a partir da amostra do Censo 2000 e das diferenças encontradas entre essas estimativas e os valores censitários, em diferentes níveis geográficos de análise.

Este trabalho pretende abordar alguns aspectos técnicos, teóricos e práticos, da metodologia usada para expansão da amostra e suas conseqüências para os analistas usuários dos dados do Censo Demográfico 2000.

"Trabalho apresentado no XIV Encontro Nacional de Estudos Populacionais, ABEP, realizado em Caxambu- MG – Brasil, de 20- 24 de Setembro de 2004".

IBGE, Diretoria de Pesquisas, Coordenação de Métodos e Qualidade. E-mail: vermelho@ibge.gov.br. IBGE, Diretoria de Pesquisas, Coordenação de Métodos e Qualidade. E-mail: salbieri@ibge.gov.br.

(2)

As Implicações do Uso de Calibração no Procedimento de

Expansão da Amostra do Censo Demográfico 2000

∗∗

Antonio José Ribeiro Dias♣♣ Sonia Albieri♦♦

1.

Introdução

Além da investigação censitária, que abrange todas as pessoas e todos os domicílios do país, o Censo Demográfico 2000 fez uso de amostragem para a investigação de um grande conjunto de variáveis que permitem uma melhor compreensão das características socioeconômicas da população em níveis geográficos mais detalhados que o das pesquisas domiciliares contínuas. Para tanto utilizou um processo de seleção de amostra de domicílios, com frações de 10% ou de 20%, de acordo com o tamanho do município. A medida de tamanho adotada foi a população projetada para o ano 2000, de acordo com projeções realizadas pelo próprio IBGE.

Uma das vantagens de se fazer uma pesquisa por amostragem ao mesmo tempo em que se realiza a operação censitária é a possibilidade de usar os resultados conhecidos para o universo, pessoas e domicílios investigados a 100%, para ajustar o processo de estimação da pesquisa realizada por amostragem. Essa é uma vantagem que se verifica principalmente na precisão das estimativas provenientes da amostra. Ou seja, as estimativas para os erros amostrais das estimativas provenientes da amostra são menores do que aquelas que seriam obtidos sem a incorporação dessa informação censitária. Outra vantagem é a de obter consistência dos resultados estimados com os resultados apurados na investigação censitária.

Calibração é o nome que se dá ao processo pelo qual os fatores de expansão (ou pesos) para os dados amostrais são determinados de forma a buscar a consistência das estimativas a partir da amostra com os totais conhecidos da população para as características investigadas a 100%. Ou seja, a incorporação do conhecimento de resultados obtidos de forma censitária no processo de expansão da amostra é feita através da utilização de calibração como método de estimação.

O método utilizado para obtenção dos pesos foi um processo de calibração em relação a um conjunto de variáveis investigadas pelo Questionário Básico do Censo 2000. A calibração buscou ajustar os pesos iniciais, definidos pelo inverso da fração amostral de domicílios, de maneira que, dentro de uma determinada área geográfica, denominada área de ponderação, ao se aplicar os pesos calibrados às variáveis auxiliares, fossem obtidos os totais já conhecidos para todas as unidades da população que constituem o universo da pesquisa.

O cálculo dos pesos calibrados foi baseado no método dos Mínimos Quadrados Generalizados - MQG, porém com a imposição de limites nos pesos finais, para evitar pesos muito pequenos ou muito grandes. Além disso, o ajuste de um modelo de regressão com o uso de um grande número de variáveis explicativas pode não ser bem sucedido. Por isso são necessárias

"Trabalho apresentado no XIV Encontro Nacional de Estudos Populacionais, ABEP, realizado em Caxambu- MG – Brasil, de 20- 24 de Setembro de 2004".

IBGE, Diretoria de Pesquisas, Coordenação de Métodos e Qualidade. E-mail: vermelho@ibge.gov.br.

(3)

definições de contorno para diminuir a ambição do modelo de ajuste e algumas vezes isso significa abrir mão da calibração perfeita.

Essas definições, associadas à estrutura das áreas de ponderação definidas especialmente para a aplicação dos procedimentos de calibração das estimativas, são fundamentais para a compreensão do significado da calibração nas estimativas obtidas a partir do Questionário da Amostra do Censo 2000 e das diferenças encontradas entre essas estimativas provenientes da amostra e as correspondentes conhecidas pela investigação censitária, em diferentes níveis geográficos de análise.

Este trabalho está estruturado de forma que, além desta introdução, apresenta uma descrição do método na seção 2, a aplicação e suas especificidades na seção 3, alguns comentários sobre os resultados da aplicação do método na seção 4 e as conclusões e recomendações na seção 5.

2.

Descrição do Método de Expansão da Amostra

1

Antes de iniciar a descrição do método utilizado na expansão da amostra, é importante apresentar o problema que se tenta resolver: definir fatores de expansão tais que ao serem usados para estimar quantidades a partir dos dados da amostra sejam obtidos valores estimados "iguais" aos conhecidos pela investigação censitária, para as variáveis do questionário básico. O que ocorre é que não se pode garantir essa igualdade (ou calibração perfeita) para todas as variáveis auxiliares utilizadas no processo de expansão cujos totais populacionais são conhecidos. Então, o problema a ser resolvido torna-se ligeiramente modificado, ou seja, passa a ser: selecionar o "melhor" conjunto de variáveis auxiliares para as quais pretende-se garantir calibração e definir o significado de "melhor" torna-se parte importante e crucial da solução.

2.1. Ponderação das unidades da amostra

Para expansão dos dados coletados pelos questionários da amostra do Censo Demográfico de 2000 foram calculados pesos para cada um dos domicílios pesquisados, sendo tais pesos atribuídos ao próprio domicílio e a cada um de seus moradores.

O método utilizado para obtenção dos pesos foi um processo de calibração em relação a um conjunto de variáveis auxiliares (restrições) para as quais se conhecem os totais populacionais, já que tais variáveis auxiliares foram levantadas pelo questionário básico. A calibração buscou ajustar os pesos iniciais (inverso da fração amostral de domicílios) de maneira que, dentro de uma determinada área geográfica, denominada área de ponderação, ao se aplicar os pesos calibrados às variáveis auxiliares fossem obtidos os totais já conhecidos para todas as unidades da população que constituem o universo da pesquisa. Desse modo, espera-se melhorar a precisão das estimativas para aquelas características pesquisadas somente pela amostra, além de conseguir estimativas que coincidam com os valores pesquisados para toda a população para as variáveis usadas como auxiliares na calibração.

Os limites nos pesos finais utilizados na aplicação do método de calibração foram 1, de maneira que um domicílio representasse pelo menos o próprio, e 25 ou 50, de acordo com a fração amostral correspondente à área de ponderação em questão. Sem a utilização desses limites o método MQG pode gerar pesos negativos ou muito grandes, o que não teria sentido prático.

1

As seções 2 e 3 estão baseadas em Metodologia do Censo Demográfico 2000, capítulo 12, seção 12.5.3, cuja equipe de redação contou com a participação efetiva dos autores.

(4)

A metodologia para utilização do método MQG baseou-se em proposta de Bankier(1990) e, para sua implementação, um sistema em linguagem SAS foi desenvolvido por técnicos do IBGE.

O produto final da aplicação dessa metodologia é um peso ajustado para cada unidade domiciliar da amostra, ou seja, cada um dos questionários da amostra, que é repetido nos registros de cada pessoa moradora na unidade domiciliar.

2.2. Definição das áreas de ponderação

Define-se área de ponderação como sendo uma unidade geográfica formada por um agrupamento mutuamente exclusivo de setores censitários, para a aplicação dos procedimentos de calibração das estimativas com as informações conhecidas para a população como um todo. As áreas de ponderação têm conjuntos mutuamente exclusivos de setores censitários, e o conjunto formado por todas as áreas de ponderação forma uma partição exaustiva dos setores censitários.

Foram definidas, para todo o Brasil, 9 336 áreas de ponderação e, tal como nos Censos anteriores, a metodologia de expansão da amostra foi aplicada separadamente em cada uma delas.

Os tamanhos dessas áreas, em termos de número de domicílios e de população, não podem ser muito reduzidos, sob pena de perda de precisão de suas estimativas. As áreas de ponderação foram definidas considerando essa condição e buscando respeitar os níveis geográficos mais detalhados da base operacional, como forma de atender a demandas por informações em níveis geográficos menores que os municípios.

Os livros técnicos de amostragem definem procedimentos para a determinação de tamanhos de amostra considerando os requisitos de precisão estabelecidos para uma pesquisa. Para tanto, define-se a margem de erro aceitável para o estimador amostral, supondo que a amostra seria selecionada sob Amostragem Aleatória Simples (AAS). Considerando o objetivo de estimar uma média com um erro máximo relativo dado a um nível de confiança especificado, tem-se uma equação que relaciona o tamanho total da amostra desejada com os requisitos de precisão especificados.

A definição do tamanho das áreas de ponderação para o cálculo dos pesos de expansão da amostra do Censo demográfico 2000 foi feita considerando questões técnicas estreitamente relacionadas com as acima descritas. O tamanho mínimo definido para uma área de ponderação foi estabelecido em 400 domicílios particulares ocupados na amostra, por ser um valor aproximado ao encontrado nos cálculos de tamanho de amostra aleatória simples, quando se considera a intenção de estimar uma proporção (pequena) de 5%, com uma precisão relativa máxima fixada não muito exigente (40%) em uma população considerada grande, para os efeitos de aproximação nas fórmulas, e considerando um nível de confiança estabelecido em 95%, para a construção de intervalos de confiança.

A decisão de fixar o tamanho da amostra e não o tamanho da população da área de ponderação foi tomada com base no fato que a precisão de estimativas provenientes de pesquisas por amostragem está diretamente relacionada com o tamanho absoluto da amostra e não com a fração amostral (relação entre tamanho de amostra e tamanho da população). Assim, nos municípios onde foi decidido que seriam definidas áreas de ponderação em nível geográfico mais desagregado que o próprio município, foi considerada essa restrição de tamanho, com o objetivo de preservar a precisão de estimativas. Nos municípios onde foi considerada apenas uma área, o próprio município, a restrição de tamanho não pode ser aplicada, pois o tamanho da amostra foi uma decorrência da fração amostral definida antes da realização do censo. Nos municípios pequenos em que, em função da definição da fração amostral, o tamanho da amostra de domicílios resultou em valores menores que 400 unidades, é possível que um número

(5)

significativo de estimativas tenha baixa precisão, medida em termos de erro amostral. Albieri (2003) apresenta mais considerações sobre essa definição e suas implicações.

Para o Censo 2000, foram usados métodos e sistemas automáticos de formação de áreas de ponderação que conjugam critérios tais como tamanho (para permitir estimativas com qualidade estatística em áreas pequenas), contigüidade (no sentido de serem constituídas por conjuntos de setores limítrofes com sentido geográfico) e homogeneidade em relação a um conjunto de características populacionais e de infra-estrutura conhecidas.

As áreas de ponderação foram criadas considerando os seguintes critérios :

• o maior nível geográfico utilizado é o município; isto significa que uma área de ponderação é composta por setores censitários dentro de um único município, podendo ser o próprio município;

• o menor tamanho de uma área de ponderação não municipal é de 400 domicílios particulares ocupados na amostra;

• em alguns municípios, as áreas de ponderação foram definidas considerando suas divisões administrativas, sempre respeitando o critério de tamanho mínimo; alguns municípios tiveram apenas 2 áreas definidas: uma considerando todos os setores do distrito-sede e outra considerando todos os setores dos demais distritos; em outros municípios, cujos distritos possuem tamanho que feriam o critério de tamanho mínimo, também foram definidas duas áreas: uma constituída por todos os seus setores urbanos e outra por todos os seus setores rurais, mesmo que isso significasse setores não contíguos;

• para um conjunto de municípios grandes em termos de população, foi feita uma consulta aos órgãos de planejamento municipal para que as áreas de ponderação fossem definidas em conjunto. Nesses municípios, também foram considerados os critérios de tamanho mínimo e de contiguidade do conjunto de setores para a definição das áreas de ponderação; e

• os municípios que não se enquadraram nas 4 situações acima tiveram suas áreas de ponderação definidas automaticamente, usando uma metodologia de agregação de setores, implementada por meio de um sistema computacional especialmente desenvolvido, que faz uso de informações georreferenciadas; essa metodologia considera os critérios de tamanho mínimo, vizinhança entre os setores e a homogeneidade dos setores em relação a um conjunto de características conhecidas para o universo no nível dos setores. Entre as 15 variáveis utilizadas constavam, por exemplo: rendimento médio dos responsáveis pelos domicílios no setor, número médio de pessoas por domicílio particular permanente, proporção de domicílios particulares permanentes ligados à rede geral de água, média de anos de estudo dos responsáveis por domicílios. Uma descrição detalhada do procedimento pode ser encontrada em Silva, Matzenbacher e Cortez (2002).

Ao todo, 484 municípios tiveram mais de uma área de ponderação. Os demais 5 023 municípios tiveram apenas uma área de ponderação.

A tabela 1 no anexo apresenta o número de municípios total e por tipo de área que contém, por Unidade da Federação.

3.

Definições Específicas ao Uso de Calibração no Censo 20002

3.1. Definição das variáveis auxiliares para calibração

2

(6)

A escolha das variáveis auxiliares cujos valores são utilizados como restrições no processo de calibração do qual decorrem os pesos é um aspecto importante do método aplicado. A forma ou prioridade de tratamento dessas variáveis, sobretudo quando não existe uma solução que atenda simultaneamente a todas as restrições, é outro ponto sensível do método.

As variáveis auxiliares constituem um subconjunto das variáveis comuns à amostra e ao universo e são referentes a características de domicílios ou de pessoas, apesar do ajustamento ser realizado de maneira a fornecer pesos para cada uma das unidades domiciliares. Por unidades domiciliares pesquisadas, entende-se os domicílios particulares ocupados e as famílias e pessoas sós moradoras em domicílio coletivo.

A metodologia de ajuste de um modelo linear generalizado multivariado envolve cálculos com matrizes, inclusive inversão. Por essa razão, as restrições definidas, que por sua vez dão origem a uma dessas matrizes, devem satisfazer algumas condições essenciais, sendo a principal delas a de não serem linearmente dependentes (redundantes). Além disso, é também considerado o conceito de restrições quase linearmente dependentes (e, portanto, quase redundantes), que afetam a estabilidade da solução do modelo.

Outras duas condições impostas para a aplicação dessa metodologia referem-se à sua significância estatística. O tamanho da restrição, medido como o número de domicílios aos quais a restrição se aplica em uma dada área de ponderação, não deve ser muito pequeno sob pena de tornar instável o processo de estimação. Quando uma restrição não atinge um número mínimo de unidades domiciliares, fixado em função da fração de amostragem, essa restrição é considerada rara.

Além disso, uma restrição definida pode causar a obtenção de um peso muito grande ou muito pequeno, quando comparado com o peso médio esperado (5 ou 10) em função da fração amostral adotada na área de ponderação ou até um peso negativo, constituindo-se em restrição geradora de peso extremo.

Dessa forma, o programa de ajuste do modelo incorpora procedimentos de eliminação de restrições que se enquadrem nas condições acima, observando a ordem que segue: restrições raras, restrições redundantes, restrições quase redundantes e restrições responsáveis por pesos extremos.

Convém ressaltar que a eliminação de restrições pode implicar diretamente no fato de não se ter a garantia da calibração desejada para as variáveis eliminadas para a presente área de ponderação.

As restrições inicialmente definidas para a aplicação da metodologia MQG, para cada uma das áreas de ponderação, encontram-se no quadro 1 no anexo. Elas constituem o conjunto denominado conjunto 1 de restrições para calibração.

3.2. Análise da qualidade da calibração durante a execução do processo de ajuste

As restrições, acima apresentadas, foram agrupadas em dez conjuntos alternativos que foram utilizados em ordem de prioridade. Esse procedimento foi adotado para garantir que alguma calibração fosse feita, mesmo que em um conjunto menor de características. O primeiro conjunto foi formado por todas as restrições, como listadas, e os demais formados pela agregação de faixas etárias, agregação de faixas de moradores por domicílio ou mesmo a retirada de grupos de restrições.

No cálculo dos pesos calibrados, para cada área de ponderação, foi utilizado inicialmente o conjunto de restrições número 1. Quando não se obteve uma solução satisfatória, a área foi processada novamente, utilizando o conjunto 2 e assim sucessivamente até o conjunto 10, caso anteriormente não tenha sido atingida a qualidade de ajuste adequada. A composição de cada um dos conjuntos alternativos de restrições está apresentada no quadro 1 no anexo.

A análise da qualidade do ajuste (calibração) era feita automaticamente pelo sistema através das diferenças entre os valores populacionais conhecidos para as restrições e os valores

(7)

estimados utilizando-se os pesos calculados. Para cada grupo de restrições foram definidos limites específicos tolerados para essas diferenças.

Para as áreas de ponderação onde não ocorreu o ajuste para nenhum dos dez conjuntos de restrições, o sistema automaticamente escolheu o conjunto que proporcionou o melhor ajuste, no sentido de minimizar a soma dos quadrados das diferenças entre o valor conhecido das restrições e o valor estimado para essas mesmas restrições. Essa estatística foi calculada com base nas variáveis do conjunto 1 de restrições, para todos os dez conjuntos avaliados

Deve-se ressaltar que para algumas áreas de ponderação onde houve um desequilíbrio forte entre a fração amostral de domicílios e a fração amostral de pessoas, ou seja, em áreas onde os números médios de pessoas por domicílio no universo e na amostra diferiram muito, pode ter ocorrido falta de ajuste na variável total de pessoas. Portanto, é possível a ocorrência, para alguns municípios, de divergência entre o valor do número de pessoas calculado através da expansão da amostra e o valor verificado na investigação do universo dos domicílios, que são os números oficiais do censo.

Do total de 9 336 áreas de ponderação definidas para o Brasil, cerca de 91% teve solução para o conjunto 1 de restrições.

No final do processo foi garantido que pelo menos a restrição Número Total de Domicílios fosse respeitada para todas as áreas de ponderação. Nesse contexto, número total de domicílios iguala o número total de questionários e engloba os domicílios particulares ocupados mais as famílias e pessoas sós moradoras em domicílios coletivos.

Vale comentar como foram definidos os conjuntos inicial e alternativos de variáveis auxiliares, bem como os critérios usados para a definição da ordenação desses conjuntos.

O conjunto inicial foi definido com base nas variáveis disponíveis, que são todas as variáveis investigadas no questionário básico do Censo 2000. De fato a definição teve como base o conjunto de variáveis usado no mesmo processo para o Censo de 1991. Naquela ocasião, uma análise de correlação entre as variáveis do questionário básico e aquelas variáveis investigadas por meio do questionário da amostra forneceu uma primeira seleção. Uma indicação de especialistas das áreas temáticas abordadas no censo apontou algumas prioridades, entre elas destaca-se a importância atribuída às variáveis sexo e idade e situação do domicílio, como forma de controlar a pirâmide etária da população e sua caracterização em área urbana e rural, separadamente. As variáveis de tamanho de domicílio foram consideradas com o objetivo de reduzir possíveis vícios de não resposta ou de seleção das unidades para comporem a amostra.

Para o Censo 2000, a definição do conjunto inicial e, por extensão, dos conjuntos alternativos 2 a 10, beneficiou-se ainda de uma avaliação do processo de expansão da amostra do Censo de 1991, no sentido da efetiva utilização das variáveis e resultados obtidos.

Sobre a questão das prioridades: a decisão de usar a variável Número Total de Domicílios como variável de calibração única, no caso em que todas as 10 alternativas não funcionassem, foi tomada considerando que a unidade de amostragem do censo é a unidade domiciliar. Assim, temos que a estimativa do número de unidades domiciliares (no sentido aqui utilizado, que engloba as famílias e pessoas sós moradoras em domicílios coletivos) proveniente da amostra coincide com o valor investigado de forma censitária. Porém, o mesmo não ocorre com a estimativa da população. Esse fato já foi apontado pelos especialistas em população e demografia como algo indesejável. A sugestão de mudar essa decisão, passando a considerar a variável População Total como a principal variável de calibração, ao invés do número total de domicílios, é algo que deve ser considerado com bastante atenção em futuros levantamentos.

3.3. Avaliação da qualidade da calibração ao final do processo de ajuste

Em seu documento intitulado Calibration estimation: when and why, how much and how (Estimação com calibração: quando e por quê, quanto e como), Silva 2004 apresenta um

(8)

conjunto de critérios para avaliar se a utilização de um método de calibração foi bem sucedida ou se ocorreram dificuldades que demandem revisão dos resultados. Além disso, como parte de uma revisão da literatura sobre métodos de calibração, o autor aponta cinco propriedades interessantes dos estimadores de calibração, que são apresentadas a seguir.

coerência - uma vez que a estimativa produzida é "igual" ao valor conhecido anteriormente

conhecido;

simplicidade - uma vez que resulta na definição de um peso a ser associado a cada registro ou

unidade da pesquisa, que é usado diretamente para a obtenção dos diversos tipos de estimativas, sejam elas médias, totais, razões ou outro tipo;

flexibilidade - uma vez que permite a utilização de variáveis auxiliares dos tipos contínuo,

discreto ou ambos os tipos ao mesmo tempo;

integração - no sentido que alguns estimadores usuais são casos especiais, por exemplo os

estimadores de razão, de regressão e de pós-estratificação;

proteção contra vício de não resposta - estimação de regressão e de pós-estratificação são

largamente usados para reduzir vícios de não resposta em pesquisas por amostragem, sendo que os estimadores de regressão são não viciados sob a condição de que o mecanismo de não resposta seja não informativo ou ignorável.

Os critérios de avaliação definidos em Silva (2004) são apresentados na forma de 7 medidas de qualidade, com destaque para os valores desejáveis das mesmas num procedimento de calibração bem sucedido.

A apresentação com detalhes sobre essas medidas foge ao escopo deste trabalho. Importante é registrar que é possível calcular todas as medidas de avaliação propostas na aplicação específica do procedimento de calibração usado no Censo 2000 e que os resultados obtidos a partir de um exercício realizado com uma amostra de 250 áreas de ponderação pode ser encontrado em Pessoa (2003).

4.

Resultados

Os resultados apresentados a seguir mostram como foi de fato realizada a calibração, ou seja, como as variáveis auxiliares foram utilizadas no processo de ajuste ao longo das 9 336 áreas de ponderação. Os dados da tabela 1 mostram o percentual de utilização de cada um dos conjuntos de variáveis auxiliares, no total Brasil e em cada unidade da federação. A tabela 2 apresenta o resultado da utilização de cada variável auxiliar ao longo das áreas de ponderação, independentemente do conjunto de restrições usado, para o Brasil como um todo.

Como pode ser visto na tabela 1, a grande maioria, cerca de 91%, das áreas de ponderação, teve os pesos (fatores de expansão associados a cada unidade amostral: domicílio, família ou pessoa) determinados considerando todas as variáveis auxiliares definidas no conjunto 1 (o maior deles). Outros 3,5% foram ajustados considerando o conjunto 2, que, conforme pode ser visto no Quadro A1 em anexo, é o conjunto inicial porém com as faixas de idade das pessoas do sexo masculino agregadas em intervalos decenais ao invés de qüinqüenais. Os demais conjuntos de variáveis auxiliares foram pouco utilizados, sendo interessante destacar que outros 3,3% não puderam ser ajustados com nenhum dos conjuntos: nesses casos, a opção foi por ajustar com apenas uma variável e a variável escolhida foi Número Total de Domicílios. Esses percentuais variam por unidade da federação, destaque para o estado de Tocantins, que teve 66,4% de suas áreas ajustadas com o conjunto 1 de restrições, 15,8% das áreas ajustadas apenas na variável total de unidades domiciliares, além de 6,2% e 5,5% de áreas ajustadas com os conjuntos 2 e 3, que consideram as faixas de idade agregadas, para as pessoas do sexo masculino ou total, respectivamente. Analisando por região, verifica-se que a região Nordeste foi a que

(9)

apresentou um maior número de áreas ajustadas com o conjunto 9, conjunto que não leva em consideração a distribuição das pessoas por faixas de idade.

A tabela 2 mostra alguns resultados que merecem explicação: as variáveis denominadas RP27 - número de pessoas do sexo masculino de 60 anos e mais, RP30 - número de mulheres na situação rural e RD8 - número de unidades domiciliares com 8 ou mais pessoas tiveram baixíssimo percentual de utilização, que era um resultado esperado. Isso porque em geral cada uma delas é a menor (em números absolutos) dentre um conjunto de variáveis que somadas igualam ao valor de outra. a variável. A soma de RD4 a RD8 (número de domicílios particulares ocupados por faixa de tamanho em número de moradores) reproduz a RD2 - número total de domicílios particulares ocupados. A variável RP2 - número de pessoas do sexo masculino é a soma de RP16 a RP26 (número de pessoas do sexo masculino por faixas de idade) e a RP30 - número de mulheres na situação urbana é obtida por diferença entre as variáveis de população por sexo e situação do domicílio. Então, quando consideradas em conjunto elas são linearmente dependentes e o programa está preparado para detectar e eliminar a menor entre um grupo de variáveis linearmente dependentes.

Outros resultados que merecem uma avaliação são os percentuais de utilização das variáveis RP28 - número de pessoas na situação urbana, RP29 - número de mulheres na situação urbana e RD3 - número de domicílios particulares ocupados urbanos. Todas as três variáveis referem-se a características urbanas. Isto pode ser explicado pelos critérios de formação das áreas de ponderação, que levou a que um grande número delas fosse constituída somente por setores urbanos ou somente por setores rurais: um dos critérios de formação de áreas de ponderação foi a homogeneidade em relação a um conjunto de características, além da contiguidade geográfica dos setores que a comporiam; e outro critério foi exatamente separar o município em duas áreas, uma urbana e outra rural. Nessas áreas, os totais de pessoas ou de domicílios na situação urbana são iguais aos totais gerais correspondentes da área de ponderação, ou seja, são variáveis linearmente dependentes e, portanto, eliminadas do processo de ajuste.

Vale destacar ainda que os percentuais de utilização das variáveis foram em geral acima de 80%, ao longo das áreas de ponderação, indicando que a seleção de variáveis para esse processo de calibração foi satisfatória. Outros critérios de avaliação do processo possíveis já foram apontados no item 3.3 com os trabalhos de Silva (2004) e Pessoa (2003).

(10)

Tabela 1

Distribuição percentual de áreas de ponderação por conjunto de restrições (variáveis auxiliares) efetivamente usado na calibração em cada Unidades da Federação

1 2 3 4 5 6 7 8 9 10 Brasil 90,5 3,5 0,5 0,4 0,2 0,1 0,8 0,2 0,4 3,3 Rondônia 85,5 0,0 1,6 0,0 0,0 0,0 0,0 0,0 1,6 11,3 Acre 82,4 2,9 0,0 0,0 0,0 0,0 0,0 0,0 5,9 8,8 Amazonas 84,6 1,0 1,9 0,0 0,0 0,0 1,9 0,0 1,9 8,7 Roraima 78,3 4,3 4,3 0,0 0,0 0,0 0,0 0,0 8,7 4,3 Pará 92,7 1,4 0,5 0,0 0,0 0,0 0,0 0,0 0,5 5,0 Amapá 82,8 0,0 6,9 0,0 3,4 0,0 0,0 0,0 3,4 3,4 Tocantins 66,4 6,2 5,5 0,7 0,7 0,0 0,0 0,0 4,8 15,8 Maranhão 92,1 1,4 0,0 0,0 0,0 0,4 1,4 0,0 0,0 4,6 Piauí 86,5 9,3 0,0 0,4 0,0 0,4 1,2 0,0 0,0 2,3 Ceará 96,8 0,0 0,0 0,3 0,0 0,0 1,3 0,0 0,0 1,6

Rio Grande do Norte 88,3 5,4 0,5 0,5 0,0 0,0 1,0 1,0 1,0 2,4

Paraíba 86,3 5,1 0,4 1,8 0,7 0,4 1,8 0,7 0,4 2,5 Pernambuco 88,1 2,1 0,0 0,6 0,0 0,0 1,8 0,0 0,0 7,5 Alagoas 86,2 1,5 0,0 0,8 0,0 0,8 2,3 0,0 0,0 8,5 Sergipe 96,2 1,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 2,9 Bahia 89,4 2,0 0,0 0,3 0,0 0,3 1,2 0,2 0,2 6,4 Minas Gerais 84,3 5,4 0,6 0,6 0,3 0,1 1,4 0,4 0,6 6,2 Espírito Santo 95,1 0,0 0,7 0,0 0,0 0,0 1,4 0,0 0,0 2,8 Rio de Janeiro 97,4 0,9 0,0 0,2 0,2 0,0 0,3 0,0 0,2 0,9 Sâo Paulo 95,6 2,3 0,2 0,3 0,2 0,1 0,2 0,2 0,1 0,9 Paraná 92,2 3,8 0,2 0,5 0,0 0,0 0,7 0,0 0,0 2,7 Santa Catarina 86,1 6,6 0,8 1,0 0,0 0,3 0,5 1,3 0,5 3,0

Rio Grande do Sul 88,6 7,5 0,8 0,4 0,6 0,4 0,8 0,3 0,4 0,1

Mato Grosso do Sul 98,3 0,0 0,9 0,0 0,0 0,0 0,0 0,0 0,0 0,9

Mato Grosso 89,0 5,5 0,6 0,0 0,6 0,0 1,2 0,0 1,2 1,8

Goiás 88,2 5,6 0,6 0,9 0,6 0,0 0,6 0,3 0,3 2,9

Distrito Federal 99,1 0,0 0,9 0,0 0,0 0,0 0,0 0,0 0,0 0,0

Conjuntos de Restrições Unidades da Federação

(11)

Tabela 2

Percentual de áreas de ponderação que utilizaram cada uma das restrições (variáveis auxiliares) no Brasil Variáveis Auxiliares Percentual de utilização Variáveis Auxiliares Percentual de utilização TOT_PESS 97,2 RP20 89,5 TOT_DOM 100,0 RP21 89,3 RP2 98,0 RP22 88,9 RP3 96,0 RP23 88,3 RP4 95,5 RP24 87,8 RP5 95,5 RP25 87,3 RP6 95,1 RP26 87,2 RP7 95,4 RP27 0,4 RP8 95,4 RP28 53,4 RP9 94,9 RP29 47,7 RP10 94,9 RP31 90,6 RP11 94,7 RP32 78,2 RP12 94,5 RD2 52,3 RP13 94,3 RD3 45,5 RP14 94,1 RD4 89,4 RP16 90,9 RD5 88,2 RP17 90,0 RD6 84,6 RP18 89,8 RD7 80,3 RP19 89,2 RD8 0,0

5.

Conclusões

As discussões apresentadas apontam para a conclusão de que os procedimentos de calibração usados no processo de expansão da amostra do Censo Demográfico 2000 foram bastante satisfatórios no que se refere à seleção do conjunto de variáveis auxiliares inicial e à formação dos conjuntos alternativos. A ordenação dos conjuntos alternativos mostrou que, nos casos em que o conjunto inicial não proporcionou ajuste satisfatório, bastou trabalhar com faixas de idade agregadas em intervalos decenais ao invés de intervalos qüinqüenais para conseguir atingir o nível satisfatório estipulado. Este fato corrobora uma das constatações apontadas em Silva (2004) sobre o número ótimo de variáveis de calibração, a de que aumentar o número de variáveis auxiliares melhora o processo até um determinado ponto a partir do qual qualquer novo acréscimo tende a piorá-lo. E o ponto ótimo não é fácil de ser encontrado.

Outra questão que poder ser estudada é a definição dos critérios para considerar que o ajuste foi ou não satisfató rio, a ponto de implicar em novo ajuste com novo conjunto de variáveis auxiliares. Os critérios usados, que envolveram a definição de percentuais máximos de variáveis com vícios relativos não superiores a valores também estipulados podem ser considerados arbitrários, o que não significa que necessariamente sejam maus critérios.

Em relação à decisão de usar a variável Número Total de Domicílios como variável de calibração única, no caso em que todas as 10 alternativas não funcionassem, já foi apontada na seção 3.3 a necessidade de uma reabrir a discussão, uma vez que a unidade de amostragem do censo é a unidade domiciliar e não as pessoas, mas por isso mesmo talvez a variável única e

(12)

prioritária a ser calibrada deva ser a população residente, objeto maior de investigação de um censo demográfico.

Outras avaliações, como as apontados no item 3.3 com os trabalhos de Silva (2004) e Pessoa (2003), ainda estão por realizar, tanto no que se refere ao processo de obtenção dos pesos e suas características específicas, definição das áreas de ponderação e das variáveis auxiliares no processo de calibração, como no que se refere aos erros amostrais associados às estimativas em diversos níveis temáticos e geográficos, que carecem de uma avaliação mais detalhada. Vale lembrar que a divulgação dos resultados provenientes da amostra do Censo Demográfico 2000 contempla essa questão, pois fornece aos usuários as informações necessárias para que se obtenha uma aproximação da variância, erro padrão e coeficiente de variação amostral de cada estimativa que pode ser obtida ou no conjunto de tabelas de divulgação ou a partir do arquivo de microdados disponibilizado.

6.

Bibliografia

ALBIERI, S. Nota técnica sobre a definição do tamanho das áreas de ponderação do censo

demográfico 2000. Rio de Janeiro: IBGE, Diretoria de Pesquisas, Departamento de Metodologia.

2003. 7p.

BANKIER, M.D. Two step generalized least squares estimation. Ottawa: Statistics Canada, 1990. 66p.

CENSO DEMOGRÁFICO 2000. Famílias e domicílios. Resultados da amostra. Rio de Janeiro: IBGE, 2003.

COCHRAN, W.G. Sampling Techniques (3rd edition), John Wiley & Sons, New York, 1977. DIAS, A.J.R. Aspectos de amostragem do censo demográfico de 2000. Rio de Janeiro: IBGE, Diretoria de Pesquisas, Coordenação de Métodos e Qualidade. 2002. 17 p.

METODOLOGIA do censo demográfico 2000. Rio de Janeiro: IBGE, 2003. 574p. (Relatórios Metodológicos n. 25).

PESSOA, D.G.C. Avaliação do método utilizado para a expansão da amostra do Censo Demográfico 2000. Rio de Janeiro: IBGE, Diretoria de Pesquisas, Coordenação de Métodos e Qualidade. 2003. 16p.

SÄRNDAL, C.E., Swensson, B. e Wretman, J. Model Assisted Survey Sampling, Springer-verlag New York, Inc., New York, 1992.

SILVA, P.L.N.; Bianchini, Z.M. e Albieri, S. Uma proposta de metodologia para a expansão da

amostra do censo demográfico de 1991. Rio de Janeiro: IBGE, 1992. 106p.(Textos para

Discussão, n.62).

SILVA, P.L.N. Calibration estimation: when and why, how much and how. Rio de Janeiro: IBGE, 2004. 35p.(Textos para Discussão, Diretoria de Pesquisas, n.15).

SILVA, A.N.; Matzenbacher, L.A. e Cortez, B.F. Processamento das áreas de expansão e

disseminação da amostra no censo demográfico 2000. Rio de Janeiro: IBGE, Diretoria de Pesquisas, Coordenação de Métodos e Qualidade, 2002. 28 p.

(13)

Tabela A1

Número de municípios total e por tipo de área que contém, por Unidade da Federação

Município Usuário Distrito

Distrito-sede + Ag.Distritos Urbana + Rural Subdistritos +Ag.subdistr itos Municípios feitos no skater Total 5507 5023 69 9 79 128 1 199 Rondônia 52 46 1 1 0 4 0 0 Acre 22 19 0 0 0 2 0 1 Amazonas 62 57 1 0 0 4 0 0 Roraima 15 14 1 0 0 0 0 0 Pará 143 126 3 0 3 10 0 1 Amapá 16 15 1 0 0 0 0 0 Tocantins 139 137 1 0 0 0 0 1 Maranhão 217 201 3 1 0 12 0 0 Piauí 221 217 1 0 0 2 0 1 Ceará 184 147 3 0 25 8 0 1

Rio Grande do Norte 166 159 2 0 1 3 0 1

Paraíba 223 216 2 0 0 2 0 3 Pernambuco 185 155 5 0 6 13 0 6 Alagoas 101 94 1 0 0 6 0 0 Sergipe 75 69 1 0 0 4 0 1 Bahia 415 375 5 1 8 21 0 5 Minas Gerais 853 806 1 2 9 6 0 29 Espírito Santo 77 61 3 0 7 4 0 2 Rio de Janeiro 91 54 8 0 11 2 1 16 São Paulo 645 553 10 2 3 7 0 70 Paraná 399 370 3 0 2 6 0 18 Santa Catarina 293 275 3 2 1 4 0 8

Rio Grande do Sul 467 432 3 0 3 5 0 24

Mato Grande do Sul 77 72 1 0 0 2 0 2

Mato Grosso 126 122 2 0 0 1 0 1

Goiás 242 231 3 0 0 0 0 8

Distrito Federal 1 0 1 0 0 0 0 0

Tipo de área que o município contém Número de

municípios existentes Nome da Unidade da

(14)

14

Quadro A1

Composição dos 10 conjuntos alternativos de variáveis auxiliares (restrições) usados no processo de calibração (continua)

Nomes das variáveis auxiliares (ou restrições) 1 2 3 4 5 6 7 8 9 10

Variáveis de Pessoas

Total de pessoas da unidade domiciliar TOT_

PESS TOT_ PESS TOT_ PESS TOT_ PESS TOT_ PESS TOT_ PESS TOT_ PESS TOT_ PESS TOT_ PESS TOT_ PESS

Total de pessoas do sexo masculino RP2 RP2 RP2 RP2 RP2 RP2 RP2 RP2 RP2

Número de pessoas de 0 a 4 anos RP3 RP3 RP3 RP3 -

Número de pessoas de 5 a 9 anos RP4 RP4 RP4 RP4 -

Número de pessoas de 10 a 14 anos RP5 RP5 RP5 RP5 -

Número de pessoas de 15 a 19 anos RP6 RP6 RP6 RP6 -

Número de pessoas de 20 a 24 anos RP7 RP7 RP7 RP7 -

Número de pessoas de 25 a 29 anos RP8 RP8 RP8 RP8 -

Número de pessoas de 30 a 34 anos RP9 RP9 RP9 RP9 -

Número de pessoas de 35 a 39 anos RP10 RP10 RP10 RP10 -

Número de pessoas de 40 a 44 anos RP11 RP11 RP11 RP11 -

Número de pessoas de 45 a 49 anos RP12 RP12 RP12 RP12 -

Número de pessoas de 50 a 59 anos RP13 RP13 RP13 FAP6 RP13 FAP6 FAP6 FAP6 -

Número de pessoas de 60 a 69 anos RP14 RP14 RP14 RP14 -

Número de pessoas de 70 e mais anos RP15 RP15 RP15 RP15 -

Número de pessoas do sexo masculino de 0 a 4 anos RP16 RP16 RP16 RP16 -

Número de pessoas do sexo masculino de 5 a 9 anos RP17 RP17 RP17 RP17 -

Número de pessoas do sexo masculino de 10 a 14 anos RP18 RP18 RP18 RP18 -

Número de pessoas do sexo masculino de 15 a 19 anos RP19 RP19 RP19 RP19 -

Número de pessoas do sexo masculino de 20 a 24 anos RP20 RP20 RP20 RP20 -

Número de pessoas do sexo masculino de 25 a 29 anos RP21 RP21 RP21 RP21 -

-Número do conjunto de restrições

FAP1 FAP2 FAP3 FAP1 FAP3 FAP2 FAP4 FAP5 FAP1 FAP1 FAP3 FAP3 FAP2 FAP2

FAP4 FAP4 FAP4

FAP5 FAP5 FAP5

FAP7 FAP7 FAP7 FAH1 FAH1 FAH2 FAH2 FAH3 FAH3 FAP7 FAH1 FAH2 FAH3 FAH3 FAH2 FAH1

(15)

15

Quadro A1

Composição dos 10 conjuntos alternativos de variáveis auxiliares (restrições) usados no processo de calibração (conclusão)

Nomes das variáveis auxiliares (ou restrições) 1 2 3 4 5 6 7 8 9 10

Variáveis de Pessoas

Número de pessoas do sexo masculino de 30 a 34 anos RP22 RP22 RP22 RP22 -

Número de pessoas do sexo masculino de 35 a 39 anos RP23 RP23 RP23 RP23 -

Número de pessoas do sexo masculino de 40 a 44 anos RP24 RP24 RP24 RP24 -

Número de pessoas do sexo masculino de 45 a 49 anos RP25 RP25 RP25 RP25 -

Número de pessoas do sexo masculino de 50 a 59 anos RP26 FAH6 RP26 RP26 FAH6 RP26 FAH6 FAH6 -

Número de pessoas do sexo masculino de 60 anos ou mais RP27 FAH7 RP27 RP27 FAH7 RP27 FAH7 FAH7 -

Número de pessoas na situação urbana RP28 RP28 RP28 RP28 RP28 RP28 RP28 RP28 RP28

Número de mulheres na situação urbana RP29 RP29 RP29 RP29 RP29 RP29 RP29 RP29 RP29

Número de mulheres na situação rural RP30 RP30 RP30 RP30 RP30 RP30 RP30 RP30 RP30

Número de homens responsáveis por domicílio RP31 RP31 RP31 RP31 RP31 RP31 RP31 RP31 RP31

Número de pessoas residentes em domicílios particulares

ocupados RP32 RP32 RP32 RP32 RP32 RP32 RP32 RP32 RP32

-Variáveis de Domicílios

Total de unidades domiciliares TOT_

DOM TOT_ DOM TOT_ DOM TOT_ DOM TOT_ DOM TOT_ DOM TOT_ DOM TOT_ DOM TOT_ DOM TOT_ DOM

Total de domicílios particulares ocupados RD2 RD2 RD2 RD2 RD2 RD2 RD2 RD2 RD2

Total de domicílios particulares ocupados urbanos RD3 RD3 RD3 RD3 RD3 RD3 RD3 RD3 RD3

Total de domicílios particulares ocupados com 1 ou 2 moradores RD4 RD4 RD4 RD4 -

Total de domicílios particulares ocupados com 3 moradores RD5 RD5 RD5 RD5 -

Total de domicílios particulares ocupados com 4 moradores RD6 RD6 RD6 RD6 -

Total de domicílios particulares ocupados com 5 moradores RD7 RD7 RD7 RD7 -

Total de domicílios particulares ocupados com 6 ou mais

moradores RD8 RD8 FAD3 RD8 FAD3 FAD3 RD8 FAD3 -

-FAD2 FAD2 FAH5 FAH5 FAD1 FAD1 FAD2 FAD2 FAD1 FAD1 FAH4 FAH5 FAH5 FAH4 FAH4 FAH4

(16)

Referências

Documentos relacionados

volver competências indispensáveis ao exercício profissional da Medicina, nomeadamente, colheita da história clínica e exame físico detalhado, identificação dos

F REQUÊNCIAS PRÓPRIAS E MODOS DE VIBRAÇÃO ( MÉTODO ANALÍTICO ) ... O RIENTAÇÃO PELAS EQUAÇÕES DE PROPAGAÇÃO DE VIBRAÇÕES ... P REVISÃO DOS VALORES MÁXIMOS DE PPV ...

Ressalta-se que mesmo que haja uma padronização (determinada por lei) e unidades com estrutura física ideal (física, material e humana), com base nos resultados da

Neste capítulo foram descritas: a composição e a abrangência da Rede Estadual de Ensino do Estado do Rio de Janeiro; o Programa Estadual de Educação e em especial as

nesse contexto, principalmente em relação às escolas estaduais selecionadas na pesquisa quanto ao uso dos recursos tecnológicos como instrumento de ensino e

Este questionário tem o objetivo de conhecer sua opinião sobre o processo de codificação no preenchimento do RP1. Nossa intenção é conhecer a sua visão sobre as dificuldades e

The focus of this thesis was to determine the best standard conditions to perform a laboratory-scale dynamic test able to achieve satisfactory results of the

​ — these walls are solidly put together”; and here, through the mere frenzy of bravado, I rapped heavily with a cane which I held in my hand, upon that very portion of