• Nenhum resultado encontrado

XXXVII SBPO - XXXVII Simpósio Brasileiro de Pesquisa Operacional:

N/A
N/A
Protected

Academic year: 2022

Share "XXXVII SBPO - XXXVII Simpósio Brasileiro de Pesquisa Operacional:"

Copied!
153
0
0

Texto

(1)

XXXVII SBPO -

XXXVII Simpósio Brasileiro de Pesquisa Operacional:

27-30/setembro/2005, Gramado/RS

MINICURSO

UMA INTRODUÇÃO À TEORIA DA AMOSTRAGEM COM

APLICAÇÕES EM PESQUISAS ELEITORAIS

Gutemberg Hespanha Brasil Antonio Fernando Pêgo e Silva

Departamento de Estatística -UFES/ES

“CADA ELEIÇÃO É UMA ELEIÇÃO”.

“CADA ELEIÇÃO TEM UMA HISTÓRIA DIFERENTE DAS OUTRAS”.

Motes Consagrados nas Eleições

(2)

XXXVII SBPO - XXXVII Simpósio Brasileiro de Pesquisa Operacional:

27-30/setembro/2005, Gramado/RS

UMA INTRODUÇÃO À TEORIA DA AMOSTRAGEM COMAPLICAÇÕES EM PESQUISAS ELEITORAIS

Gutemberg Hespanha Brasil Antonio Fernando Pêgo e Silva Departamento de Estatística (UFES/ES)

RESUMO

O mini-curso está organizado em duas partes. A primeira descreve o básico da teoria estatística da amostragem, com todas as deduções e exemplos: conceitos básicos e definições, por que e como coletar amostras, a amostragem probabilística, a amostragem aleatória simples e a amostragem aleatória estratificada e outros tipos de desenho amostral usados em pesquisas de opinião. Expõe-se também um desenho diferente dos tradicionais, que supõem que o voto esteja relacionado fortemente a características da população tais como distribuições etárias, de renda e sexo. A “metodologia bayesiana” procura selecionar aqueles locais que sejam mais representativos do comportamento político da população. Identificam-se os locais (municípios, áreas, bairros e/ou agregações de bairros, etc) mais representativos da população votante, no sentido de que o comportamento do voto assumido pelos eleitores destes locais, seja o mais similar possível ao comportamento da população de toda a área considerada, adotando-se como critério uma medida de divergência, e construindo-se uma "hierarquia de similitudes", para selecionar os locais "mais representativos" da área em estudo. A segunda parte apresenta como a teoria se aplica em pesquisas eleitorais. Simplificadamente, uma pesquisa eleitoral nada mais é do que uma tentativa de avaliar, através de um procedimento amostral, as intenções de voto do eleitorado em uma dado momento do processo de decisão de voto do eleitor, até a sua cristalização, isto é, até a sua decisão definitiva. Uma pesquisa pode ser considerada como uma fotografia instantânea da realidade; a teoria da amostragem é a técnica estatística desenvolvida para tratar apropriadamente do problema da seleção das amostras. Assim, descrevem-se: as metodologias das pesquisas eleitorais, erros em pesquisas eleitorais, e alguns exemplos de pesquisas eleitorais realizadas nos níveis municipal e estadual.

PALAVRAS CHAVES: Amostragem. Pesquisa de Opinião. Metodologias Clássica e Bayesiana. Previsão Eleitoral. Campanhas Políticas. Medidas de Informação.

(3)

INTRODUÇÃO GERAL 4

PARTE 1 INTRODUÇÃO À TEORIA DA AMOSTRAGEM 5

1. Introdução à Teoria da Amostragem “Clássica” 5

1.1 Introdução 5

1.2. Conceitos Básicos e Definições 6

1.3. Por que Coletar Amostras? 9

1.4. Como Devemos Amostrar? 11

1.5. Amostragem Probabilística 13

1.5.1. Amostragem Aleatória Simples 16

1.5.2. Amostragem Aleatória Estratificada 40

2. Metodologia “Bayesiana” para Pesquisas Eleitorais 73

2.1. Introdução 73

2.2. Procedimento para Seleção de Locais 73

2.3. Análise Bayesiana do Modelo 77

PARTE 2 – APLICAÇÕES EM PESQUISAS ELEITORAIS 87

3. Metodologias das Pesquisas Eleitorais 88

3.1. O que Significa uma Pesquisa de Opinião Pública Eleitoral? 88 3.2. Pesquisas de Opinião Pública (opinion pools) 88

3.3. Desenho da Amostra 89

3.4. Desenho Amostral: Metodologia “Clássica” 90

3.5. Desenho Amostral: Metodologia “Bayesiana” 91

3.6. Questionários e Planejamento de Pesquisas Eleitorais 91

4. Erros em Pesquisas Eleitorais 93

4.1. Introdução e Exemplos 93

4.2. Questões Influentes nos Levantamentos Estatísticos Amostrais 95

4.3. Erros em Pesquisas por Amostragem 95

4.4. Aprendendo com os Erros em Pesquisas Eleitorais 97 4.5. Comentários: Indecisos e Pesquisas Eleitorais 108 5. Pesquisas eleitorais: Metodologias Clássica e Bayesiana 109 5.1. Estudos de Caso no Estado do Espírito Santo 109 5.2. Metodologia Bayesiana: Eleições de 1990 - Governo e Senado do ES 115 5.3. Monitoramento de Eleições Municipais no Município de Guarapari/ES- 124 1992 – Metodologias “Clássica e Bayesiana”

5.4. Eleições Municipais no Município da Serra/ES, 1996, Metodologias 130 “Clássica e Bayesiana”

5.5. Pesquisa Eleitoral no Espírito Santo, setembro/2001 138 5.6. Análise dos Resultados da Eleição 2002, Governo ES, via Metodologia

Bayesiana

142

6. Comentários e Discussão 147

7. Referências 150

(4)

INTRODUÇÃO GERAL

Para o senso comum, o uso da terminologia “pesquisas estatísticas” está frequentemente associado a pesquisas de opinião pública utilizando métodos estatísticos. Mais especificamente, refere-se ao uso de amostras selecionadas objetivando a realização de inferências sobre alguma população. Em períodos eleitorais essa associação é mais evidente. É o que tentamos apresentar neste trabalho.

Simplificadamente, uma pesquisa eleitoral nada mais é do que uma tentativa de avaliar, através de um procedimento amostral, as intenções de voto do eleitorado em uma dado momento do processo de decisão de voto do eleitor, até a sua cristalização, isto é, até a sua decisão definitiva.

Desse modo, uma pesquisa retrata apenas a realidade instantânea, relativa ao momento da pesquisa. Deve, em princípio, ser utilizada com cautela como uma previsão do resultado final da eleição, pois o processo de cristalização do voto até o dia das eleições está sempre sujeito a perturbações de todo tipo, seja pelo próprio movimento sócio-econômico, seja pelas agressões entre os diversos candidatos participantes.

Outro ponto importante é que as pesquisas não são apenas úteis para indicar "quem está na frente", as informações geradas por uma boa pesquisa podem servir para direcionar todas as estratégias do candidato na campanha.

Como vimos, uma pesquisa pode ser considerada como uma fotografia instantânea da realidade; a teoria da amostragem é a técnica estatística desenvolvida para tratar apropriadamente do problema da seleção das amostras. A teoria da amostragem e a história das sondagens de opinião em diversos países do mundo demonstram que, através de um procedimento amostral bem planejado, e bem executado, é realmente possível fazer inferências bastante precisas a respeito de um universo com muitos eleitores a partir de apenas algumas entrevistas.

A economia de tempo e recursos é o que viabiliza a utilização das pesquisas eleitorais que, se bem conduzidas tecnicamente, podem levar a resultados sem prejuízos excessivos em termos de nitidez.

Organização

O mini-curso está organizado em duas partes. A primeira descreve o básico da teoria estatística da amostragem: conceitos básicos e definições, por que e como coletar amostras, a amostragem probabilística, a amostragem aleatória simples e por fim a amostragem aleatória estratificada; enfim o ferramental fundamental da amostragem “clássica”. Além disso, descreve sucintamente uma outra metodologia de amostragem que usa argumentos bayesianos. A segunda apresenta como a teoria se aplica a pesquisas eleitorais: as metodologias das pesquisas eleitorais, os erros em pesquisas eleitorais, e algumas pesquisas eleitorais no Estado do Espírito Santo. Na seção final alguns comentários sintéticos são feitos à guisa de conclusão.

(5)

1. INTRODUÇÃO À TEORIA DA AMOSTRAGEM “CLÁSSICA”

1.1. INTRODUÇÃO

A amostragem científica vem sendo utilizada com sucesso desde meados do século XX. Algumas obras importantes geraram luz sobre novos conceitos e problemas surgidos gerando uma sólida teoria. Algumas delas são: Hansen, Hurwitz and Madow (1953), Deming (1960), Kish (1965), Moser and Kalton (1971), Raj (1972), Cochran (1977).

Um livro bastante acessível é Barnett (1991), “Sample Survey: Principles and Methods”, que apresenta além da teoria estatística um capítulo sobre como executar um levantamento amostral. Bolfarine e Bussab (1994) é uma referência em língua portuguesa (recentemente publicado como livro).

Na parte 1 deste trabalho, procuramos apresentar alguns dos principais conceitos utilizados na teoria da amostragem, os princípios básicos, e várias demonstrações detalhadas, usualmente não encontradas em livros texto. O capítulo 1, especificamente, trata da amostragem mais frequentemente aplicada pelas empresas e institutos de pesquisa de opinião. No capítulo 2 apresentamos uma abordagem alternativa que vem sendo aplicada em pesquisas eleitorais.

(6)

1.2. CONCEITOS BÁSICOS E DEFINIÇÕES

Sampling Suvey: Levantamento por Amostragem População Alvo (“Target Population”)

É a população finita total sobre a qual desejamos informações. Exemplo: todos os jovens de 16 anos do ES.

População em Estudo

É o conjunto finito básico de indivíduos que pretendemos estudar. Exemplo: todos os jovens de 16 anos cujo endereço pertence às áreas urbanas dos municípios do ES, ou de qualquer outro estado brasileiro, onde se esteja fazendo o levantamento por amostragem. A população em estudo pode ser mais reduzida ou mais fácil de acessar, população esta, cujas propriedades esperamos poder explicar (ou extrapolar) para a população alvo.

Característica Populacional

É o aspecto da população que desejamos medir. Por exemplo, a proporção de jovens de 16 anos de idade que exercerá o seu direito de voto nas próximas eleições.

Esta característica expressa alguma agregação da população em relação a como esta varia de um indivíduo para outro. Cada indivíduo contribui com sua parcela (um número de descrição qualitativa) para alguma medida de interesse (intenção de votar nas eleições, etc.). Como isso pode variar de indivíduo para indivíduo, nós usamos o termo variável de interesse.

A característica populacional, também conhecida como parâmetro populacional, geralmente será um total, uma média ou uma proporção desta variável (medida) sobre a população.

Unidades Amostrais

As unidades amostrais, em grande parte dos levantamentos, são representadas pelos próprios indivíduos, nestes casos são geralmente chamadas de unidades elementares. Em algumas situações, mesmo que nosso interesse se recaia sobre os indivíduos, não podemos selecionar estes indivíduos de uma forma tão trivial (talvez não haja uma lista a qual recorrermos). Nesses casos, as unidades amostrais podem ser as famílias, em outros as escolas, os locais de trabalho, etc. dependendo do tipo de levantamento.

No caso dos jovens de 16 anos de idade, poderíamos acessá-los, principalmente nas escolas, mas não exclusivamente, incluindo-se os locais de trabalho, as suas residências, etc.

(7)

diferentes. A escolha deve ser feita no início do levantamento, já que pode afetar a operacionalização dos métodos amostrais. Alguns são mais adequados a determinados tipos de seleção que outros.

Por exemplo, suponha que desejemos conduzir um levantamento sobre os gastos familiares em alguma cidade. Embora os “indivíduos” em nossa população em estudo sejam “famílias”, algumas definições convencionais de família devem ser adotadas. Do mesmo modo, não há nenhum meio trivial ou fácil de acessarmos tais unidades familiares naturalmente. “As famílias não estão disponíveis nas ruas para serem entrevistadas”. Logo, o endereço vem a ser a unidade amostral, mesmo que a população de endereços não seja de interesse principal.

Quadro ou Grade ou Moldura Amostral (desenho ou Plano)

Assim, a fonte de nossa amostra é o conjunto das unidades amostrais. Esta é chamada de grade amostral ou moldura de amostragem, que é simplesmente a fonte ou lista de onde será selecionada a amostra.

Algumas vezes as unidades amostrais podem ser os indivíduos membros da população (em) estudo. Muitas vezes não o será e o quadro amostral é a subdivisão mais grosseira da população estudada, com cada unidade amostral contendo um conjunto distinto de membros da população.

Lista

Para se usar o quadro amostral como matéria prima da qual retiraremos nossa amostra, devemos estar aptos a identificar as unidades amostrais.

Realmente, o quadro ou moldura amostral é escolhido tendo isto em mente. Uma lista de melhor qualidade, contendo todas as unidades amostrais, pode existir, tal como, a lista de endereços da cidade, ou a dos alunos matriculados em uma Universidade, onde queremos estudar os hábitos de leitura, uso de computadores, etc.

De posse de tal lista é particularmente fácil escolher a amostra. Mas se nenhuma lista adequada é acessível para consulta, devemos pelo menos obter ou montar uma lista conceitual. Por exemplo: em um estudo de hábitos de leitura e uso de computador pelos alunos de uma região, podemos não possuir a lista de toso os estudantes, no entanto podemos ter acesso a uma lista de escolas e posteriormente das séries/cursos que funcionam em cada escola. Esta lista pode ser suficiente para gerar a informação que queremos obter e conseguir acessar os estudantes para o nosso levantamento.

Tais distinções são importantes para implementação de levantamentos por amostragem.

Alguns problemas que necessitam de algum refinamento dizem respeito à:

(i) Escolha de unidades amostrais onde haja várias alternativas existem;

(ii) Discrepância entre o ideal de uma população alvo e a realidade de uma grade amostral acessível;

(iii) Listagens incompletas ou impossíveis de serem obtidas;

(8)

(iv) Implementação de levantamentos por amostragem, sua organização e administração envolve um complexo conjunto de problemas de planejamento, custeio e treinamento.

Posteriormente discutiremos os seguintes problemas:

(a) Se existem diferentes tipos de indivíduos, nossa amostra deveria refletir essas diferenças de alguma maneira balanceada, já que esses indivíduos poderiam possuir problemas de naturezas diferentes. Há situações em que se procura balancear a amostra através de cotas preestabelecidas (tipo uma “maquete” da formação sócio-econômica populacional) e procedimentos de estratificação, respeitando-se os pesos dos estratos populacionais.

(b) Não-respostas nas pesquisas podem contaminar os resultados do levantamento, o que também pode acontecer com o entendimento inadequado, por parte dos respondentes, ao entrevistador ou ao questionário. Nestes casos, um treinamento adequado e conduzido de forma a reduzir as diferenças, na maneira de perguntar e na forma de conduzir a entrevista, entre os entrevistadores, seria útil e poderia reduzir de forma substancial o problema de questões em branco e de respostas sem sentido ou mal entendimento das questões.

A redução dessas dificuldades deve ser buscada em dois níveis:

(a) Procedimento Pragmático:

Esse nível de procedimento é tipicamente não estatístico. Há situações, tais como a escolha das unidades amostrais, administração do levantamento, desenho do próprio questionário, treinamento adequado dos entrevistadores, que requerem experiência em uma série de áreas/assuntos ou situações aplicadas. O conhecimento adequado da área de aplicação do levantamento/pesquisa (medicina, agricultura, área social, etc.) deve ser combinado a estudos ou integração com psicólogos ou especialistas em “design” de questionários ou procedimentos de testes psicológicos, de sociólogos ou outros especialistas no assunto, para avaliar a relevância da base dados disponibilizadas, para a escolha da moldura/grade amostral, e talvez haja necessidade de um especialista em computação para a obtenção de processo automatizado de produção dos dados resultantes. Hoje estamos cada vez mais envolvidos em grupos multidisciplinares, onde a formação da equipe passa, necessariamente, por essa variedade de habilidades.

Na maioria das vezes, devemos depender do bom senso ou da experiência dos organizadores de uma pesquisa, no sentido de que explorem as circunstâncias locais e apreendam a realidade.

Preliminarmente, estudos pilotos podem auxiliar na execução do levantamento principal.

(b) Estatístico:

Em contraste aos referidos problemas práticos, não estatísticos, temos aqueles relativos à Estatística, como representatividade de um levantamento, sua validade, a escolha de procedimentos de amostragem adequados, métodos de estimação de características da população (e as propriedades desses estimadores) e interpretação

(9)

aplicação apropriados das idéias estatísticas. Uma sólida base estatística no desenho de uma pesquisa por amostragem é de extrema importância; dificuldades

“práticas” de implementação podem reduzir sua efetivação e devem, portanto, ser resolvidos tão cedo quanto possível. Por outro lado, um levantamento que não apresenta tais problemas “práticos” também não estará apto a ser completamente executado se sua base estatística é inadequada. Nesse caso, ele se torna sem valor se não respeita as considerações do desenho estatístico, além de tornar impossível interpretar ou medir a precisão dos resultados.

O estudo das teorias e metodologias estatísticas apropriadas é o tema desse curso.

1.3. PORQUÊ COLETAR AMOSTRAS ?

Nosso objetivo é extrapolar resultados acerca de uma população a qual estamos interessados em estudar alguma característica de nosso interesse, população esta constituída de um número finito de indivíduos, em que para cada um deles alguma medida Y é observável. Queremos caracterizar a população por algum parâmetro ou informação de tal medida – talvez sua média, ou valor total, ou proporção.

Então, por quê não observar todos os indivíduos na população e determinar a resposta ‘exata’?

Em alguns casos, onde a população é pequena e fácil de acessar, esta seria uma solução bastante razoável.

Se quisermos determinar a nota média de uma turma de amostragem, “não é concebível” coletar uma amostra dos alunos e tentar fazer uma inferência sobre a nota média de toda a turma, a menos que essas pessoas não possam mais ser acessadas como um todo e seja necessário algum tipo de amostra. Nesse caso, no entanto, é mais razoável uma inspeção completa.

De modo inverso, em populações maiores poderíamos fazer uma inspeção completa, desde que haja importância social e/ou política para justificar esta grande despesa. Isto se dá, por exemplo, no caso dos Censos, os quais procuram entrevistar todas as famílias existentes no país. Mesmo os censos, já começam a incorporar uma parcela de amostragem probabilística, onde são feitos estudos mais específicos.

Mais comumente, faz sentido, por uma série de razões, restringirmos nosso estudo da população a uma amostra de “alguns” de seus membros e usar a informação obtida deste modo para inferir as características da população como um todo.

Quais seriam essas razões?

CUSTOS

Normalmente, haverá um limite de nossos recursos, em termos de dinheiro disponível ou esforço, que poderemos aplicar. Este é o principal obstáculo à uma

(10)

enumeração completa da população. Há também a necessidade de contrabalançar precisão e custos.

Inspeções rápidas e superficiais de um grande número de indivíduos (possivelmente, mesmo toda a população) podem fornecer, em vista das imprecisões de medição, informações menos precisas que aquelas obtidas através de uma inspeção mais cuidadosa de alguma amostra menor, mas criteriosamente escolhida.

Os fatores de custos diferentes são também relevantes.

Em amostragem dos jovens de 16 anos de idade, poderíamos ter uma conduta de entrevistas diretas com aqueles em algum grupo (por exemplo, aqueles estiverem hospitalizados), mas enviar cartas ou questionários através dos Correios para aqueles em outro grupo (por exemplo, aqueles que estiverem temporariamente fora do ES ou área). Os custos unitários de amostragem nesses dois diferentes “estratos”

serão, provavelmente, bem diferentes e o “desenho amostral” que escolhermos empregar deve refletir esta diferença, talvez devêssemos tomar uma amostra relativamente menor daqueles hospitalizados do que daqueles que estão fora de casa, ou podemos amostrar primeiro um grupo por “conglomerado” (todos aqueles em um hospital, em particular) para controlar os custos de contrato e viagens.

UTILIDADE

Em alguns casos nossas unidades amostrais podem ser destruídas no processo de amostragem. Aqui o estudo completo da população é inadequado ou inaplicável (ou mesmo inútil), mesmo se pudermos fazê-lo. Muitas vezes não há ganhos substanciais em conhecermos “tudo” sobre determinada população se ela não vai mais existir para a exploração e explicação do nosso conhecimento. Assim, um fabricante de lâmpadas ou fósforos não irá testar o tempo de vida de cada lâmpada, ou acender todos os fósforos, para demonstrar a qualidade de seu produto. Depois de tais testes não haveria mais nada para vender e ele, muito provavelmente, estaria falido.

ACESSIBILIDADE

Freqüentemente há diferentes facilidades de acesso para diferentes unidades amostrais. Algumas podem até mesmo não ser observáveis como um todo. Outras vezes, podemos ser obrigados a aceitar ou coletar apenas uma única amostra da população. Por exemplo: observações históricas (séries temporais) podem estar incompletas – dados de temperaturas ou chuvas armazenados por um determinado período de interesse, podem ter sido coletados esporadicamente; opiniões sobre alguma questão contemporânea (momento histórico) polêmica podem ter sido recolhidas de forma incompleta e agora não há como reconstituir as circunstâncias da época para um estudo mais completo.

(11)

1.4. COMO DEVEMOS AMOSTRAR?

Esta é, obviamente, a principal questão a ser respondida. Sua resolução exigirá uma formalização mais acentuada do problema de amostragem de populações finitas, e dos objetivos de um levantamento por amostragem.

De forma mais intuitiva, o objetivo geral deve ser o de retirar uma amostra que é uma “representação honesta” da população e que nos leve à estimativa da característica populacional com tanto maior “precisão” ou “exatidão” quanto possamos esperar para o custo ou esforço que estamos dispostos a empreender.

Vários métodos pragmáticos de amostragem ou de apelo intuitivo foram desenvolvidos ao longo dos anos, e são amplamente empregados. Tais métodos “ad hoc” incluem os seguintes.

AMOSTRAGEM POR ACESSIBILIDADE

Com o estímulo principal da conveniência administrativa, uma amostra é escolhida com a única preocupação de facilidade de acesso. “Tomaremos as observações mais fáceis de serem obtidas”. Evidentemente, algumas armadilhas causadas pela falta de representatividade parecem óbvias.

Nos casos de amostragem por fluxo, por exemplo, apesar da grande operacionalidade, dependendo da qualidade do planejamento de amostragem, pode- se facilmente gerar uma amostra com distorções grosseiras em relação à população que se pretende fazer as extrapolações. Basta não observar adequadamente as divisões territoriais de uma cidade, que os problemas provavelmente aparecerão.

Mesmo havendo controle do perfil populacional, as particularidades e problemas regionais devem ser observados e podem ser importantes, dependendo dos objetivos do levantamento. É necessário garantir uma adequada cobertura espacial da região ou cidade em estudo.

Outros casos, dizem respeito a uma má administração do levantamento, não observar características de comportamento das pessoas, como os horários que se encontram disponíveis para entrevistas (horários durante o dia, nos dias de semana, por exemplo, privilegiam mais a estudantes, aposentados e desempregados), pode levar a inevitáveis defeitos ou falhas nos resultados de tais pesquisas, como ferramentas de se entender a população. Em outras situações, mesmo que o problema não seja tão óbvio, os erros podem ser igualmente sérios.

AMOSTRAGEM INTENCIONAL

Na amostragem intencional, o experimentador, reconhecendo que a população pode bem conter diferentes tipos de indivíduos, com diferentes medidas de facilidade de acesso, exerce uma escolha deliberada e subjetiva em retirar aquela que ele julga ser uma amostra “representativa”. Os resultados de tal procedimento de amostragem

“podem” ser muito bons, se a intuição e julgamento do experimentador são válidos, e deve-se até reconhecer que alguns levantamentos podem empregar este princípio em “algum grau”.

A amostragem intencional visa a diminuição “antecipada” de fontes de distorções;

mas haverá sempre o risco de permanecerem distorções devido à julgamentos

(12)

pessoais, de perda de informação sobre certos aspectos ou características importantes (até mesmo cruciais) na estrutura da população.

OBS.: Na verdade, tais conhecimentos do experimentador e procedimentos relacionados, poderiam ser agregados e serem levados em consideração na hora do planejamento de amostragem, cuidados com detalhes que poderiam passar despercebidos, como informações sobre características regionais, mesmo geográficas, aglomerados urbanos que surgiram recentemente, etc, sem que isso signifique em intervir deliberadamente na escolha da amostra.

AMOSTRAGEM POR COTAS OU QUOTAS

Na amostragem por cotas, o que se deseja é obter uma amostra mais “próxima”

possível da população. É como se estivéssemos interessados em “fazer uma maquete” do perfil populacional.

Este perfil está sendo simbolizado em termos das variáveis populacionais de interesse, as quais queremos “controlar” (controlar, no sentido administrativo). Desse modo, pode-se estar interessado em traçar percentuais de sexo, faixa etária, escolaridade, perfil sócio-econômico, etc., de modo que a amostra tenha um perfil o mais “fiel” possível do perfil populacional.

Por exemplo, em uma pesquisa eleitoral no estado do Espírito Santo, pode-se desenhar a amostra por microrregiões ou mesorregiões homogêneas. Essa homogeneidade pode ser definida por proximidade geográfica e características sócio-econômicas.

No entanto, esse controle de cotas, acaba por introduzir um elemento não probabilístico na amostragem, na medida em que, a partir de determinado momento, os entrevistadores poderão estar à procura de um indivíduo com um perfil predeterminado para conclusão da sua “tarefa” do dia.

De todo modo, para dar um exemplo, pode-se utilizar a idéia da pesquisa eleitoral no ES, com o controle de cotas sexo por município.

(13)

Resumo da População dos Municípios da Grande Vitória

Municípios Homens % Mulheres % Total %

Vitória 86.319 22,67 101.706 24,41 188.025 23,58%

Vila Velha 97.327 25,56 109.278 26,23 206.605 25,91%

Serra 85.736 22,51 88.899 21,34 174.635 21,90%

Cariacica 96.290 25,28 101.365 24,33 197.655 24,79%

Viana 15.169 3,98 15.389 3,69 30.558 3,83%

Total 380.841 416.637 797.478 100,00%

% 47,76% 52,24%

Fonte: IBGE – Censo 2000. Hoje a Grande Vitória engloba mais municípios. Com 16 anos ou mais.

Assim, preestabelecemos os percentuais de homens e mulheres que devem fazer parte da amostra, percentuais especificados para cada município. O mesmo poderia ser estabelecido para faixa etária, escolaridade, etc ou todos eles ao mesmo tempo, o que é o caso mais comum.

O uso combinado de amostragem probabilística e controle de cotas é bastante difundido nas pesquisas de opinião e nas pesquisas eleitorais, em toda parte. Suas vantagens e desvantagens já foram bastante discutidas e continuam a ser alvo de estudos por pesquisadores da área.

Por causa da necessidade de um componente aleatório no nosso processo de seleção da amostra, com a intenção de fazermos extrapolações para a população e podermos comparar as “qualidades das estimativas” do ponto de vista probabilístico, é que precisamos definir um novo procedimento, chamado amostragem probabilística.

1.5. A AMOSTRAGEM PROBABILÍSTICA

Suponha que, em nosso objetivo de estudar uma população alvo, resolvemos o modo de escolha das unidades amostrais apropriadas e da grade de amostragem que a inclui.

Suponha que o quadro de amostragem representa a população finita acessível, e que as unidades amostrais são os indivíduos membros de tal população. Mas, nós nos referimos apenas à “população” e seus “membros” ou “indivíduos”.

Nosso interesse se concentra em relação aos valores tomados (ou assumidos) por alguma variável, Y, para os diferentes membros da população, e sobre medidas

(14)

agregadoras (parâmetros) desta variável sobre toda a população. Assim, se há N membros, podemos representá-los por Y1, Y2,..., YN, esses sendo os valores de Y apresentados (tomados ou assumidos) pelos diferentes membros.

Estamos interessados em características populacionais definidas com respeito à Y.

As mais comuns são:

(i) O total populacional,

=

= N

j j

T Y

Y

1

. (ii) A média populacional,

N Y Y

Y N T

N

j

j =

=

=1

1 .

(iii) A proporção, P, de membros da população que pertencem à alguma categoria de classificação para a medida Y.

O objetivo da pesquisa por amostragem será estimar uma ou mais características da população através da informação contida em uma amostra de n

(

nN

)

membros da população.

Suponha que os valores de Y para a amostra são y1 ,y2 ,...,yn, onde cada yi é um dos valores Yj de Y, na população como um todo. Nem todos os Yj’s são necessariamente diferentes; o mesmo acontece com os yi’s.

Desse modo pode-se resumir a terminologia da seguinte forma:

POPULAÇÃO:

N Tamanho Populacional YT Total Populacional Y Média Populacional

P Proporção Populacional R Razão Populacional AMOSTRA:

n Tamanho Amostral yT Total Amostral y Média Amostral p Proporção Amostral r Razão ou Íncice Amostral

PROPRIEDADES DOS ESTIMADORES

Nas descrições das propriedades seguintes, consideramos que temos uma população, a qual possui um parâmetro θ que se deseja estimar. Para tal, lançamos mão de um levantamento por amostragem o qual nos fornecerá as estatísticas necessárias para o processo de estimação do parâmetro de interesse, θ.

(15)

É de interesse dos pesquisadores que os estimadores obtidos, que são as estatísticas obtidas, possuam propriedades “qualitativas” para que possamos considerá-los “bons estimadores”, do ponto de vista estatístico.

Algumas das propriedades mais desejáveis são:

1. Não-tendenciosidade

Se a estatística T =g

(

y1,y2,...,yn

)

(função dos valores amostrais) é um estimador de θ , de modo que E

( )

T =θ , então diz-se que T é não-viesado ou não-tendencioso para θ (ou mesmo, não-viciado).

2. Erro Quadrático Médio e Viés

( )

T =E

(

T θ

)

2

EQM

( )

T =E

[

T E

( ) ( )

T +ET θ

]

2

EQM

[ ( ) ] [ ( ) ] [ ( ) ] [ ( ) ]

{

2 +2. . θ + θ 2

}

=E T ET T ET ET ET

[

( ) ]

2 +2.

{ [

( ) ]

.

[ ( )

−θ

] }

+

[ ( )

−θ

]

2

=ET ET E T ET ET EET

( )

+

[ ( )

θ

]

2

=V T EET

( )

+

[ ( )

θ

]

2

=V T ET .

Então, o erro quadrático médio pode ser representado por:

( )

T V

( )

T B

( )

T

EQM = + 2 .

Onde, B

( )

T =

[

E

( )

Tθ

]

é o viés (ou tendência) de T como estimador de θ.

Se T é um estimador não-viesado (ou não-tendencioso), teremos que E

( )

T =θ,

( )

T =0

B e, portanto, EQM

( )

T =V

( )

T . 3. Eficiência

Se temos dois estimadores, T1 e T2, que são estimadores não-viesados de θ, então se V

( )

T1V

( )

T2 , diz-se que T1 é mais eficiente do que T2. Então, medimos eficiência através da variância dos estimadores, quanto menor for a variância mais eficiente será o estimador, em relação ao seu concorrente.

1.5.1. AMOSTRAGEM ALEATÓRIA SIMPLES

(16)

Suponha que temos uma população representada por Y1,Y2,...,YN.

Coletamos uma amostra aleatória simples (através de sorteio, por exemplo) de n elementos (n<N), dentre os N elementos populacionais.

Assim, teremos y1,y2,...,yn representando a amostra aleatória simples selecionada.

Se os elementos são selecionados com ou sem reposição, então teremos o seguinte.

Com reposição: N N N ... N

1 2 3 n Serão, então,Nn maneiras de escolhermos n indivíduos (elementos) dentre os N existentes.

Sem reposição: N N-1 N-2 ... N-(n-1)

1 2 3 n Serão, então,

(

N !n

)

!

N

− maneiras de escolhermos n indivíduos (elementos) dentre os N existentes.

Teremos ainda o seguinte:

( ) ( ) ( ) ( ) ( ) ( )

!

! 1

.... 1 2 . 1 1 . 1 ,..., 1

, , .

...

. , .

. 2 1 3 1 2 1 2 3 1

1 N

n N n

N N

N y N

y y y y P y

y y P y y P y

P n n = −

= −

Mas como esses mesmos elementos poderiam ter sido escolhidos em quaisquer dessas n posições, que mesmo assim teríamos o mesmo conjunto escolhido, teremos:

( ) ( )

n N

n N C

n N y n

y y y

P 1

!

! ,..., !

, , 2 3

1 − =

= .

Queremos utilizar a estatística y (obtida através da amostra aleatória simples selecionada) para estima Y , a média populacional.

Quais serão as propriedades de y como estimador de Y , onde

=

= n

i

yi

y n

1

1 é a

média da amostra aleatória simples e

=

= N

j

Yj

Y N

1

1 é a média populacional ? 1) E

( )

y =?

Temos que:

( ) ( ) ∑ ∑ ( )

= =

=

=

⎢ ⎤

⎡ =

=

⎟⎟=

⎜⎜ ⎞

= ⎛ n

i N

j

j i j n

i i n

i

i Y P y Y

y n n E

n y E y E

1 1

1 1

1 1

1 .

(17)

Mas,

( ) ( )

N N

n Y N

y P i j

!

!× =

= −

= . Para cada posição i (ou i-ésima escolha) desejamos apenas o elemento j da população para ocupá-la.

Então,

( ) ∑ ∑ ∑

=

= =

=

⎥ =

⎢ ⎤

= ⎡ n

i n

i N

j

j Y Y

n Y N

y n E

1

1 1

1 1

1 .

Portanto, y é estimador não-viesado (ou não-tendencioso) de Y .

2) Var

( )

y =?

( ) ( ) ( )

⎢ ⎤

⎡ +

⎟⎟=

⎜⎜ ⎞

= ⎛

∑ ∑ ∑∑

= <

=

=

n

i n

j i

j i n

i

i n

i

i Var y Cov y y

y n Var n

y Var

1 2 1

1

, 1 2

1 .

Mas, Var

( )

yi =E

( )

yi2E2

( )

yi =E

( )

yi2Y 2 e

( ) ( )

Y N Y

y P Y y

E

N

j j j

i N

j j i

1

1 2 1

2

2

∑ ∑

=

=

=

=

= .

Assim,

( ) ∑

=

= N

j j

i Y Y

y N Var

1

2

1 2

. Portanto,

( ) (

1

)

2

N N S y

Var i = − (1.1)

onde

( )

=

− −

= N

j

j Y

N Y S

1 2 2

1

1 é a variância populacional.

Por outro lado,

(

yi yj

) (

E yiyj

)

E

( )

yi E

( )

yj

Cov , = − . .

(

y ,y

) (

E y y

)

Y2 Cov i j = i j − .

(18)

Mas,

( )

=

∑∑ (

= =

)

=

∑∑ (

= =

) (

=

)

r s

s j s j r i s r

r s

s j r i s r j

iy YY P y Y y Y YY P y Y y Y P y Y

y

E , | .

( ) ∑∑

=

r s

s r j

iy YY N N

y

E 1

1 1

( ) ( ) ∑∑

= −

r s

s r j

i YY

N y N

y

E 1

2 , para r <s e ij.

Além disso,

∑∑ ∑ ∑

=

=

⎟⎟ −

⎜⎜ ⎞

=⎛ N

k k N

k k

r s

s

rY Y Y

Y

1 2 2

1

2 .

Assim, podemos escrever:

( ) ( )

2

1 2 2

1 1

, 1 Y Y Y

N y N

y Cov

N

k k N

k k j

i

⎥⎥

⎢⎢

⎡ ⎟⎟⎠ −

⎜⎜ ⎞

= −

∑ ∑

=

=

.

( ) ( ) ( )

⎥⎥

⎢⎢

⎡ ⎟⎟ − − −

⎜⎜ ⎞

= −

∑ ∑

=

=

2 1

2 2

1

1 1

, 1 Y Y N N Y

N y N

y Cov

N

k k N

k k j

i

( ) ( )

⎥⎥

⎢⎢

⎡ ⎟⎟⎠ − − +

⎜⎜ ⎞

= −

∑ ∑

=

=

2 2

2 1

2 2

1 1

, 1 Y Y N Y NY

N y N

y Cov

N

k k N

k k j

i

( ) ( )

⎢ ⎤

⎡ − − +

= −

=

2 2

2 1

2 2

2

1

, 1 N Y Y N Y NY

N y N

y Cov

N

k k j

i

( ) ( ) ( )

⎢ ⎤

⎡ −

= −

⎥⎦

⎢ ⎤

⎡− +

= −

∑ ∑

=

=

2 1

2 2

1 2

1 1 1

, 1 Y NY

N Y N

N N Y

y N y Cov

N

k k N

k k j

i

( )

2 2

1

2 1

1 1

, 1 S

Y N N N Y

y N y Cov

N

k k j

i

= −

⎥⎦

⎢ ⎤

⎡ ⎟⎟⎠

⎜⎜ ⎞

⎛ −

= −

=

.

( )

i j

N y S

y

Cov i, j = − 2, ≠ (1.2)

onde S2 é a variância populacional.

(19)

( ) ( ) ( )

⎢ ⎤

⎡ +

⎟⎟=

⎜⎜ ⎞

= ⎛

∑ ∑ ∑∑

= <

=

=

n

i n

j i

j i n

i

i n

i

i Var y Cov y y

y n Var n

y Var

1 2 1

1

, 1 2

1 .

( ) ( )

⎢ ⎤

⎡ − + −

=

∑ ∑∑

= <

=

n

i n

j i n

i N

S N

N S y n

Var

1

2

1

2

2 1 2

1 .

( )

⎢ ⎤

⎡ − −

=

∑∑

= <

n

i n

j

N i

S N

nS N

nNS y n

Var

1 2 2

2

2 2 1

1 .

Como

( )

2 1 1

1

= −

∑∑

= <

n

n n

i n

j i

, temos que:

( ) ( )

⎥⎦

⎢ ⎤

⎡ − − −

= 2

. 1 2

1 2 2 2

2

n n N S N

nS N

nNS y n

Var .

( )

⎢ ⎤

⎡ − − +

= N

nS N

S n N

nS N

nNS y n

Var 2

2 2

2

1 2 2 2 2 2

2 .

( )

⎢ ⎤

⎡ −

= N

S n N nNS y n

Var

2 2 2 2

1 .

( )

= ⎢⎣⎡ − ⎥⎦ N

n n

y nS

Var 2 1

2

.

( ) ( )

n f S y

Var

1− 2

= (1.3)

onde N

f = n é a fração amostral ou de amostragem.

Se nN, teremos f →1 e Var

( )

y 0, o que significa dizer que estaremos

“amostrando” toda a população.

Se N→∞, teremos f →0 e

( )

n y S Var

2 , que é a variância da média amostral obtida através da amostragem com reposição ou de população infinita.

(20)

Se escrevermos

=

= n

i

i

i y

w y

1

* . , onde wi é o peso da i-ésima observação e 1

1

=

= n

i

wi , teremos o seguinte:

( ) ∑ ∑ ( ) ∑∑ ( )

= >

=

+

⎟⎟=

⎜⎜ ⎞

= ⎛ n

i i j i

j i j

i i

i n

i

i

i y w Var y w w Cov y y

w Var y

Var

1 2 1

* . . 2 , .

( ) ( ) ∑∑

= > ⎟⎟⎠

⎜⎜ ⎞

⎝ + ⎛ −

= n

i i j i

j i

i N

w S w N S

w N y

Var

1

2 2 2

* 1 2

. .

( ) ( ) ∑∑

= ⎟⎟ >

⎜⎜ ⎞

⎝ + ⎛ −

= − n

i i j i

j i

i w w

N w S

N S y N

Var

1

2 2

2

* 1 2

.

( ) ( )

⎟⎟

⎜⎜ ⎞

⎛ − −

=

∑ ∑∑

= >

n

i i j i

j i

i w w

w N N

y S Var

1 2 2

* 1 2 .

( )

⎟⎟

⎜⎜ ⎞

⎛ − −

=

∑ ∑ ∑∑

= = >

n

i i j i

j i n

i i

i w w w

w N N

y S Var

1 1

2 2 2

* 2 .

( )

⎥⎥

⎢⎢

⎟⎟⎠

⎜⎜ ⎞

−⎛

=

∑ ∑

= =

n

i

n

i i

i w

w N N

y S Var

1

2

1 2 2

* .

( )

⎢ ⎤

⎡ −

=

= n

i

wi

N N y S Var

1 2 2

* 1 .

( )

⎢ ⎤

⎡ −

=

= n

i

i N

w S

y Var

1 2 2

* 1

.

Desse modo, queremos que

= n

i

wi 1

2 seja mínimo, já que as outras quantidades envolvidas na expressão são constantes.

Note que

=

= 1

1

1 n

i i

n w

w . Então queremos minimizar

∑ ∑

=

=

=

⎟⎟ =

⎜⎜ ⎞

⎛ − +

= 1

1

1 2

1 2

1

2 n 1

i

n

i i i

n

i

i w w Q

w .

Logo, 2 2 1 1

( )

1

1

⎟⎠

⎜ ⎞

⎛ − +

∂ =

= n

i i i

i

w w w

Q .

Igualando a expressão anterior a zero, obtemos:

(21)

n i w w

w w

w i w w

w i

i i n

n i

i

i ⎟⎟= ∀ ⇒ = = = = ⇒ = ∀

⎜⎜ ⎞

⎛ −

=

∑ ∑

=

=

1 e

...

1

1 2

1 1

.

Portanto, tomando pesos iguais à n

1, minimizamos a variância do estimador da média populacional Y . Ou seja, nenhum outro tipo de ponderação forneceria uma variância menor.

Como a variância do estimador da média populacional depende da variância populacional S2, pode acontecer de não termos acesso antecipado a essa quantidade, talvez por falta de pesquisas anteriores sobre a população alvo. Nesse caso, podemos estimar a variância populacional através da variância amostral, representada por:

( )

2

1 2

1 1

=

− −

= n

i

i y

n y s

Vamos verificar se esse estimador é não-viesado ou não-tendencioso.

( ) ( ) ( ) ( )

⎢ ⎤

⎡ −

= −

⎥⎦

⎢ ⎤

⎡ ⎟⎟

⎜⎜ ⎞

⎛ −

= −

⎥⎥

⎢⎢

⎡ −

= −

∑ ∑ ∑

=

=

=

2 1

2 2

1 2 2

1 2

1 1 1

1 1

1 E y nE y

y n n n y

E y

n y E s E

n

i i n

i i n

i i

( ) ( )

⎥⎥

⎢⎢

⎡ ⎟⎟⎠−

⎜⎜⎝

= −

∑ ∑

= =

2

1 1

2

2 1

1

1 nE y

Y N s n

E

n

i N

j

j .

Temos que:

( ) (

1

)

2 E

( )

y2

[

E

( )

y

]

2

n f S y

Var = − = −

Então:

( )

2

(

1

)

2

[ ( ) ]

2

(

1

)

2 Y 2

n f S y

n E f S y

E = − + = − + .

Assim,

( ) ( )

⎥⎥

⎢⎢

⎟⎟⎠

⎜⎜ ⎞

⎛ − +

⎟⎟−

⎜⎜ ⎞

= −

∑ ∑

= =

2 2

1 1

2

2 1 1

1

1 Y

n f S N n

n Y s E

n

i N

j

j .

( ) ( )

⎢ ⎤

⎡ − − −

= −

=

2 2

1 2

2 1 1

1

1 nY f S

Y N n n

s E

N

j

j .

( ) ( )

⎥⎥

⎢⎢

⎡ ⎟⎟− −

⎜⎜ ⎞

⎛ −

= −

=

2 2

1 2

2 1 1

1

1 Y Y f S

n N s n

E

N

j

j .

(22)

( ) ( )

⎪⎭

⎪⎬

⎪⎩

⎪⎨

⎧ − −

⎥⎥

⎢⎢

⎟⎟⎠

⎜⎜ ⎞

⎛ −

= −

=

2 2

1 2

2 1 1

1

1 Y NY f S

n N s n

E

N

j

j .

( ) [ ( ) ] ( )

⎭⎬

⎩⎨

⎧ − − −

= − 2 2

2 1 1

1

1 N S f S

N n s n

E .

( )

⎭⎬⎫

⎩⎨

⎧ − − +

= − 2 2 2 2

2

1

1 S

N S n NS

NS n N

n s n

E , já que

N f = n .

( )

2

(

2 2

)

1

1 nS S

s n

E

= − .

( )

2

(

1

)

2

1

1 n S

s n

E

= − .

( )

s2 S2

E = .

Portanto, s2 é estimador não-tendencioso da variância populacional S2.

Se a variável de nosso interesse (aquela que está sendo medida na pesquisa) tem distribuição Normal, teremos então que o estimador, y, da média populacional, Y , também terá distribuição Normal.

Isto é:

( )

⎟⎟

⎜⎜ ⎞

⎛ −

n f S Y N y

2

1 ,

~ .

Então, através da distribuição de probabilidade do estimador, podemos encontrar intervalos de confiança para a média populacional desconhecida.

Pode-se escrever:

( ) ( )

n S f z y n Y

S f z

y − 1− ≤ ≤ + 1−

2 2

α

α (1.4)

.

Quando S2 não for conhecido, o que parece ser a regra em situações práticas, podemos usar em seu lugar o seu estimador, s2. Nesse caso, teremos:

( ) ( )

n s f t y n Y

s f t

y

+

− ≤

− 1 1

2 2

α

α (1.5)

Agora, uma nova questão se apresenta. Qual deve ser o tamanho da amostra a ser selecionada para estimarmos a média populacional?

Referências

Documentos relacionados

O presente artigo apresenta um estudo sobre a utilização de técnicas de planejamento de experimentos (DOE) para auxiliar a sintonia-fina das metaheurísticas algoritmo genético (GA) e

II In: SMILJANIC, Maria Inês; PIMENTA, José; BAINES, Stephen Grant (orgs.) Faces da Indianidade. CAYÓN, Luis Abraham. Penso, logo crio: a teoria Makuna no mundo. Tese de Doutorado

Quando se trata da duração de ocorrência da violência (categoria de referência “faz pouco tempo” e violência verbal), o padrão que envolve apenas a violência física e faz

Al´em dos movimentos MOVE e SWAP j´a implementados como movimentos nos algorit- mos de busca local, agregamos neste trabalho, mais um movimento para a busca local, denominado Cadeia

Também, como extensão dessa análise pode-se vislumbrar uma aplicação mais detalhada deste trabalho, procurando no interior dos estados encontrados no kernel, municípios que

De seguida, vamos adaptar a nossa demonstrac¸ ˜ao da f ´ormula de M ¨untz, partindo de outras transformadas aritm ´eticas diferentes da transformada de M ¨obius, para dedu-

As unidades de participação adotam a forma escritural, são nominativas, inteiras e desmaterializadas. Não existe intenção de solicitar admissão a negociação em

Já o voto vencido, da lavra do Juiz Federal Convocado Júlio Emílio Abranches Mansur, na parte em que divergiu do voto do Relator, deu parcial provimento ao recurso do