• Nenhum resultado encontrado

UMA FORMULAÇÃO DE PROGRAMAÇÃO INTEIRA PARA O PROBLEMA DE ALOCAÇÃO ÓTIMA EM AMOSTRAS ESTRATIFICADAS

N/A
N/A
Protected

Academic year: 2021

Share "UMA FORMULAÇÃO DE PROGRAMAÇÃO INTEIRA PARA O PROBLEMA DE ALOCAÇÃO ÓTIMA EM AMOSTRAS ESTRATIFICADAS"

Copied!
10
0
0

Texto

(1)

UMA FORMULAÇÃO DE PROGRAMAÇÃO INTEIRA PARA

O PROBLEMA DE ALOCAÇÃO ÓTIMA EM AMOSTRAS

ESTRATIFICADAS

José André de M. Brito

IBGE – Instituto Brasileiro de Geografia e Estatística Diretoria de Pesquisas - DPE

Coordenação de Métodos e Qualidade – COMEQ email: britom@ibge.gov.br

RESUMO

Este trabalho relata uma nova proposta metodológica para o problema de alocação ótima em amostras estratificadas, utilizando uma formulação de Programação Inteira (P.I.) (Maculan, 2000 e

Wolsey,1991). No problema de alocação ótima, a partir de uma amostra de tamanho n definida a

priori, deve-se determinar o tamanho das amostras em cada um dos estratos de forma a minimizar a

soma das variâncias dos estimadores em cada estrato. Ao invés de utilizar a conhecida fórmula de Neyman (Cochran, 1977), que retorna tamanhos de amostra não inteiros para cada estrato, é desenvolvida uma formulação alternativa de P.I., que leva em conta que os tamanhos de amostra devem ser inteiros. Resultados computacionais obtidos a partir de um conjunto de dados reais são apresentados e discutidos.

Palavras-chave: Amostragem, Estratificação e Programação Inteira.

ABSTRACT

This work reports a new methodological purpose for the optimal allocation problem in stratified samples, using a new integer programming formulation (Maculan, 2000 and Wolsey, 1991). In the optimal allocation problem, from a predefined sample of size n, we must to determine the sample size in each stratum in such a way to minimize the sum of estimators variances in each stratum. Instead of to utilize the well-known Neyman formula, which returns non-integer sample sizes for each stratum, we have developed a new P.I. formulation that takes in consideration that the sample sizes must be integer. Computational results obtained from a set of real data are presented and discussed.

(2)

1 – INTRODUÇÃO

Nas últimas décadas, tem se observado uma crescente necessidade de produzir instantâneos das realidades estudadas em vários segmentos da população a partir da aplicação de pesquisas tais como: volume de audiência de diferentes programas de televisão e rádio e da leitura de jornais e revistas; conhecimento da reação do público aos novos produtos ou sistemas de embalagens e suas queixas contra antigos produtos; levantamento de características de uma população, etc.

Dentro destas necessidades, o levantamento de informações por amostragem constitui uma ferramenta indispensável em nosso dia a dia. Tal levantamento permite a obtenção de informações a respeito de valores populacionais desconhecidos, por meio da observação de apenas uma parte (amostra) do seu universo de estudo (população).

Os elementos de uma população são as unidades de observação e análise determinadas pelos objetivos do levantamento. Do ponto de vista matemático, a população é definida como um conjunto de elementos que possuem pelo menos uma característica em comum. Na prática, compreende o agregado dos elementos, devendo ser definida em termos de sua localização no espaço e no tempo. De acordo com as características da população em estudo, das restrições de orçamento e do grau de precisão que se deseje obter a partir das informações obtidas a partir da amostra, podemos considerar vários esquemas de amostragem (Cochran, 1977 e Mendenhall, 1990) tais como: Amostragem Aleatória Simples, Amostragem de Conglomerados, Amostragem Sistemática e Amostragem Estratificada.

Em particular, neste trabalho, é proposta uma nova metodologia de resolução para o problema alocação ótima em amostras estratificadas. Esse problema consiste em determinar valores apropriados para os tamanhos das amostras em cada um dos estratos, que irão compor o total de unidades da população a serem investigadas na pesquisa.

Para resolução de tal problema, tradicionalmente, utiliza-se a conhecida fórmula de Neyman (Cochran, 1977), que leva em conta o tamanho e a homogeneidade, em relação às variáveis de interesse, de cada estrato. A partir da aplicação desta fórmula, obtem-se, normalmente tamanhos não inteiros de amostra para cada um dos estratos definidos previamente, em seguida os valores são arredondados.

Como estes tamanhos de amostra estão intrínsecamente associados aos valores das variâncias de cada um dos estratos, tal arredondamento pode provocar um aumento no valor da variância dos estimadores amostrais, ou conseqüentemente, uma perda de precisão nas estimativas calculadas (Cochran, 1977). Com a finalidade de obter a menor variância possível para os estimadores, considerando os tamanhos de amostra inteiros, apresenta-se uma metodologia alternativa para resolução deste problema. Esta metodologia é baseada em uma formulação clássica de programação inteira que utiliza variáveis binárias.

(3)

2 - Conceitos Básicos sobre Amostragem Estratificada

Na amostragem estratificada, uma população de

N

unidades é dividida em

L

subpopulações de L

h

N

N

N

N

1

,

2

,...,

,...,

unidades, respectivamente, chamadas de estratos. Essas subpopulações não se

superpõem e, juntas, abrangem a totalidade da população de tal modo, que:

N

N

N

N

N

1

+

2

+

...

+

h

+

...

+

L

=

Para que se obtenham todos os proveitos da estratificação, os valores

N

h devem ser conhecidos. Depois de definidos os estratos, a partir do conhecimento de uma ou mais características da população, seleciona-se uma amostra em cada um deles, sendo as seleções feitas independentemente nos diferentes estratos. Os tamanhos das amostras dentro dos estratos são denotados por

L

h

n

n

n

n

1

,

2

,...,

,...,

, respectivamente.

A estratificação é uma técnica comumente utilizada. Há muitos motivos (Silva, 2001) para isso e os principais, dentre eles, são os seguintes:

• A estratificação pode produzir um erro de estimação menor do aquele produzido a partir de uma amostra aleatória simples de mesmo tamanho. Esta observação é particularmente verdadeira se os valores das variáveis de interesse dentro de cada estrato são homogêneos.

• Deseja-se que a amostra mantenha a composição da população segundo algumas características básicas.

• Conveniência administrativa ou operacional. Por exemplo, um levantamento para o município do Rio de Janeiro seria gerencialmente facilitado se o trabalho de campo fosse implementado pelas diversas regiões administrativas separadamente.

A teoria da amostragem estratificada diz respeito às propriedades das estimativas e à melhor escolha das grandezas amostrais

n

h, para que se obtenha o máximo de precisão. Na presente exposição, assume-se que os estratos já foram definidos. Os problemas de como determinar o número de estratos e respectivos tamanhos numa população, poderão ser objetos de trabalhos futuros.

De forma a facilitar o entendimento do problema de alocação ótima, apresentamos a seguir a notação básica associada à amostragem estratificada:

N - Número total de unidades da população

N

h - Número total de unidades da população em cada estrato, considerando os

L

estratos n - Número total de unidades na amostra

n

h - Número de unidades na amostra selecionada no h-ésimo estrato

Y

hi - Valor associado à variável de interesse y, para a i-ésima unidade do h-ésimo estrato, na população h N i hi h

N

y

Y

h

=

=

1

(4)

1

)

(

2 1 2

=

= h N i h hi h

N

Y

y

S

h

- Medida da variância da população no h-ésimo estrato.

3 - O Problema de Alocação Ótima

Na amostragem estratificada, após o tamanho, n, da amostra ser definido, há muitas formas de dividir

n dentro de cada estrato em amostras de tamanho n1,n2, ..., nL. Cada divisão pode resultar em diferentes variâncias para os estimadores amostrais a serem utilizados.

Conseqüentemente, o objetivo em usar alocação ótima está associado ao fato de se fornecer uma informação de “boa qualidade” (Cochran, 1977 e Mendenhall, 1990) com custo mínimo.

A escolha do planejamento pode ter em vista tornar mínimo o valor da soma das variâncias dos estimadores de cada um dos estratos, dentro de um determinado limite de custo para a seleção da amostra, ou tornar mínimo o custo para um valor específico, fixado, V da variância do estimador do parâmetro populacional de interesse.

A maioria das pesquisas sofre restrições orçamentárias. Se o custo total for fixado em C unidades monetárias, então é necessário especificar uma função custo que descreva como varia o custo para diferentes tamanhos amostrais e alternativas de alocação.

Levando em conta estas considerações, tem-se que a função custo mais simples tem a seguinte forma:

=

+

=

L h h h o

c

n

c

C

1 (1)

Para um estrato qualquer, o custo é proporcional à grandeza da amostra, mas o custo por unidade

c

h pode variar de um estrato para outro. O termo

c

o representa as despesas gerais de preparação da pesquisa, que independam da estratificação. Esta função custo é adequada quando a principal parcela de custo é a que corresponde à realização da medida de interesse em cada unidade amostral.

Para a função custo da equação (1) temos que a variância será mínima quando

n

h for proporcional a h

h

h

S

c

N

/

(Cochran, 1977).

Suponha que se deseja estimar o total populacional da variável de interesse y. Segundo Cochran (1977), a variância do estimador desse total é dada por:

= ⎟⎟⎠ ⎞ ⎜⎜ ⎝ ⎛ − = L k h h h h AE n N S N Y V 1 2 1 ) ˆ ( (2)

Desta forma, o problema consiste em determinar n1, n2...,nL de maneira a encontrar o valor mínimo para

V

(

Y

ˆ

AE

)

=

V

, considerando a restrição:

(5)

Um caso especial importante surge quando

c

h

=

c

, isto é, quando o custo por unidade é o mesmo para todos os estratos. O custo total se torna

C

=

c

0

+

c

.

n

, e a alocação ótima para um custo fixado, se reduz a alocação ótima para uma grandeza amostral fixada.

Considerando esta alocação, a variância

V ˆ

( )

Y

AE é mínima para um tamanho total da amostra n se:

= = L h h h h h h S N S N n n 1 . (4)

Isto é, os tamanhos de amostra

n

h de cada estrato devem ser proporcionais aos tamanhos

N

h da população e também aos desvios-padrão

S

h da característica

y

em cada estrato h.

Tal alocação dos valores de amostra em cada estrato é chamada de alocação de Neyman (Cochran, 1977).

A fórmula da variância mínima , quando fixados os valores de n,

N

h e

S

h, é dada pela substituição do valor de

n

h obtido a partir da equação (4) , na fórmula apresentada na equação (2). O problema é que os

n

h obtidos não são necessariamente inteiros.

4 – Metodologia Proposta

Pela descrição da seção anterior, utilizando a equação (4), obtemos valores de

n

h (normalmente contínuos) que resolvem o problema abaixo:

Minimizar . .( 1) 1 2 − =

= L h h h h h n N S N V (5) Sujeito a

n

n

L h h

=

=1 (5.1)

Como na prática não se pode selecionar apenas parte de uma unidade da população, arredonda-se os valores das grandezas

n

h considerando a restrição (5.1) e obtendo-se valores inteiros para os mesmos.

Todavia, neste processo de arredondamento, pode-se aumentar o valor V , aumentado o erro da

estimativa.

Deve-se encontrar então o “melhor” valor inteiro para cada

n

h de forma a minimizar o valor da soma das variâncias dos estimadores de cada estrato, considerando a formulação apresentada a seguir:

(6)

Sujeito a

n

n

L h h

=

=1 (6.1)

1

n

h

N

h

,

h

=

1

,...,

L

(6.2)

n

h

∈ Z

+

Tendo em vista que a função objetivo da equação (6) é não-linear e as variáveis

n

h são inteiras, inicialmente não se pode aplicar um dos métodos ortodoxos de programação inteira (Wolsey, 1991 e Maculan, 2001) para resolver esta formulação.

De forma a possibilitar a aplicação de um destes métodos, e conseqüentemente obter a solução ótima do problema (6), ou seja, obter os “melhores” valores inteiros de

n

h que minimizam a variância total, efetuou-se uma transformação (linearização) na formulação acima obtendo-se a seguinte formulação: Minimizar

∑∑

= = L h M i hi hi h

x

d

1 1

.

(7) Sujeito a

∑∑

= =

=

L h M i hi

i

n

x

h 1 1

.

(7.1)

L

h

x

h M i hi

1

,

1

,...,

1

=

=

= (7.2)

x

hi

{

0

,

1

}

,

h

=

1

,...,

L

,

i

=

1,...,

M

h

=

mínimo

((

n

L

+

1

),

N

h

)

Na função objetivo (7) , os valores dos coeficientes

d

hi foram obtidos efetuando o seguinte cálculo:

=[ . 2.( −1)], i N S N dhi h h h (8)

Ou seja, através da variação do parâmetro

i

(em 8) , são gerados todos os possíveis tamanhos de amostra

i

em cada estrato h e conseqüentemente obtem-se todos os custos possíveis associados à escolha de cada tamanho de amostra

i

.

A expressão

i

=

1

,...,

M

h

=

mínimo

((

n

L

+

1

),

N

h

)

garante o cumprimento das restrições (6.2). Nesta formulação,

x

hi é uma variável binária que assume valor 1 se selecionamos o tamanho de amostra

i

no h-ésimo estrato e zero caso contrário.

(7)

A restrição (7.1) garante que a soma dos tamanhos de amostra

n

h definidos em cada estrato será igual ao total de amostra n e a restrição (7.2) garante que será selecionado apenas um tamanho de amostra em cada estrato.

Ao utilizar-se esta formulação, tem-se a garantia de obter os “melhores valores” de

)

,...,

1

(

,

h

L

n

h

=

inteiros, que tornam a variância V mínima.

Nesta formulação o número de variáveis é da ordem de

n.

L

e o número de restrições é igual

L

+

1

.

5- Resultados Computacionais

Nesta seção, apresenta-se um conjunto de resultados computacionais obtidos com a aplicação da formulação de programação inteira proposta na seção 3. Para a implementação desta formulação utilizou-se o pacote de otimização LINGO versão 7.0 (Freitas, 2004). A formulação desenvolvida no LINGO foi testada num computador IBM-PC Pentium III (450 Mhz) com 196 MB de memória.

Para análise da eficiência e robustez desta formulação, foram utilizados os dados das seguintes pesquisas:

• Estabelecimentos agropecuários produtores de café do estado Paraná (Censo Agropecuário, 1998), considerando como variável de estratificação o número efetivo de pés de café. Admitindo-se o número de estratos,

L

, de 3 a 6 e os tamanhos de amostra n variando entre 100 e 1000. • Dados das pessoas responsáveis pelos domicílios nos estados do Acre, Rio Grande do Norte, Rio

de Janeiro e Santa Catarina, considerando como variável de estratificação o rendimento nominal do responsável pelo domicílio (Censo, 2000). Admitindo-se o número de estratos,

L

, igual a 5 e 7 e os tamanhos de amostra n variando entre 1000 e 15000.

Nas tabelas 1 e 3, tem-se, segundo a ordem das colunas: o nome do problema, o número de estratos considerados (

L

) , o tamanho da população em cada estrato (

N

h), os tamanhos de amostra obtidos para cada um dos estratos (

n

h) utilizando o método proposto neste trabalho e o tamanho total da amostra (

n

).

Nas tabelas 2 e 4, temos segundo a ordem das colunas: os valores ótimos das variâncias (

V

I) dos estimadores de total considerando os valores inteiros de

n

h dados pelo método proposto, o valor da

variância (

V

C) considerando os valores de

n

h dados pela alocação de Neyman, a diferença

percentual entre

V

I e

V

C, o número de variáveis binárias da formulação (associadas ao tamanho de amostra e ao número de estratos), o número de restrições da formulação e o tempo de processamento (em segundos) para atingir a solução ótima.

(8)

Tabela 1 – Informações gerais sobre os dados utilizados

(Estabelecimentos Agropecuários Produtores de Café)

Problema L Valores de Nh Valores de nh n

PRODCAF1 3 17086, 3090, 296 32, 29, 39 100 PRODCAF2 3 17086, 3090, 296 96, 86, 118 300 PRODCAF3 3 17086, 3090, 296 160, 143, 197 500 PRODCAF4 4 14136, 5162, 1024, 150 45,46,43,66 200 PRODCAF5 4 14136, 5162, 1024, 150 101, 104, 97, 148 450 PRODCAF6 5 11397, 6553, 1950, 477, 95 16, 20, 19, 17, 28 100 PRODCAF7 5 11397, 6553, 1950, 477, 95 47,59, 57, 52, 85 300 PRODCAF8 6 9511, 6801, 2888, 938, 259, 75 12, 16, 16, 15, 13, 28 100 PRODCAF9 6 9511, 6801, 2888, 938, 259, 75 24, 32, 32, 30, 26, 56 200

Tabela 2 – Informações sobre a formulação

Problema VI VC Diferença % N

o

Variáveis No Restrições Tempo*

PRODCAF1 1,6445E+14 1,6444E+14 0,0080% 300 4 2

PRODCAF2 4,8366E+13 4,8366E+13 0,0001% 896 4 33

PRODCAF3 2,5151E+13 2,5151E+13 0,0002% 1296 4 13

PRODCAF4 3,8858E+13 3,8857E+13 0,0007% 750 5 1

PRODCAF5 1,3274E+13 1,3274E+13 0,0003% 1500 5 2

PRODCAF6 5,3572E+13 5,3556E+13 0,0307% 495 6 1

PRODCAF7 1,4153E+13 1,4153E+13 0,0029% 1295 6 2

PRODCAF8 3,6260E+13 3,6259E+13 0,0035% 575 7 1

PRODCAF9 1,5783E+13 1,5782E+13 0,0040% 1075 7 2

* Tempo de processamento em segundos

Tabela 3 – Informações gerais sobre os dados utilizados

(Pessoas Responsáveis pelos domicílios – Censo 2000)

Problema L Valores de Nh Valores de nh n

CENSO12_1 5 30216, 32881, 10845, 10613, 6009 63, 81, 29, 80, 747 1000 CENSO12_2 5 30216, 32881, 10845, 10613, 6009 127, 163, 58, 159, 1493 2000 CENSO12_3 5 30216, 32881, 10845, 10613, 6009 317, 407, 145, 398, 3733 5000 CENSO33_1 5 944623, 1232431, 653889, 711337, 555453 77, 112, 61, 188, 3562 4000 CENSO33_2 7 944623, 1232431, 653889, 711337, 200067, 143045, 212341 150, 217, 118, 363, 75, 81, 3996 5000 CENSO33_3 7 944623, 1232431, 653889, 711337, 200067, 143045, 212342 300, 430, 232, 736, 150, 159, 7993 10000 CENSO42_1 7 192409, 404189, 244905, 225260, 55210, 36022, 45226 198, 481, 308, 815, 137, 141, 5920 8000 CENSO42_2 7 192409, 404189, 244905, 225260, 55210, 36022, 45226 371, 903, 577, 1528, 256, 265, 10100 15000 CENSO24_1 5 227365, 150088, 46783, 44684, 35808 304, 255, 79, 220, 3142 4000 CENSO24_2 5 227365, 150088, 46783, 44684, 35808 456, 382, 118, 330, 4714 6000

Tabela 4 – Informações sobre a formulação

Problema VI VC Diferença % N

o

Variáveis No Restrições Tempo*

CENSO12_1 8,2358E+11 8,2358E+11 0,0008% 5000 6 8

CENSO12_2 3,6919E+11 3,6919E+11 0,0001% 10000 6 16

CENSO12_3 9,6562E+10 9,6562E+10 0,0001% 25000 6 56

CENSO33_1 3,0844E+15 3,0843E+15 0,0033% 20000 6 84

CENSO33_2 1,0230E+15 1,0230E+15 0,0001% 35000 8 85

CENSO33_3 5,0368E+14 5,0366E+14 0,0029% 70000 8 225

CENSO42_1 3,1060E+13 3,1060E+13 0,0000% 56000 8 172

CENSO42_2 1,5000E+13 1,5000E+13 0,0000% 105000 8 545

CENSO24_1 8,6328E+12 8,6328E+12 0,0001% 20000 6 45

CENSO24_2 5,5404E+12 5,5404E+12 0,0000% 30000 6 75

(9)

• Analisando as tabelas 1 e 3, pode-se observar que a partir da utilização da formulação (7) foi possível resolver um conjunto de problemas com variada dimensão, no que diz respeito ao número de estratos e aos tamanhos de amostra considerados.

• Pode-se também observar (tabelas 2 e 4), que mesmo com um razoável aumento no número de variáveis, foi possível resolver problemas com dimensão elevada, consumindo um tempo computacional pequeno. Em particular, destaca-se os problemas onde foram utilizados dados do Censo 2000. O problema com 70000 variáveis binárias (CENSO33_3) teve tempo de processamento inferior a 4 minutos e outro com 105000 variáveis binárias (CENSO42_2), foi resolvido em tempo de processamento inferior a 8 minutos.

• Ainda considerando as tabelas 2 e 4, pode-se observar que a diferença percentual entre as variâncias

V

I (formulação proposta neste trabalho) e

V

C (Neyman) foi pequena, o que mostra a eficiência do método.

• Com a utilização desta formulação, garantiu-se que o valor de

V

I (associado aos tamanhos de amostra inteiros), obtido em cada um dos problemas, foi o melhor possível. O que em contra-partida, não pode ser garantido com o simples arredondamento dos valores de

n

h obtidos a partir da fórmula de Neyman.

• Com a utilização da formulação de programação inteira, garantimos que os tamanhos de amostra em cada estrato respeitarão às restrições do tipo

1

n

h

N

h

,

h

=

1

,...,

L

. Tal restrição pode não ser garantida com a utilização da fórmula de Neyman (expressão 4). Ou seja, podemos ter

n

h

>

N

h

em algum estrato

h

.

• Posteriormente, implementou-se a formulação proposta neste trabalho utilizando o pacote R (R,2004). De forma análoga ao LINGO, os resultados (tamanhos de amostra inteiros) foram obtidos rapidamente.

Agradecimentos

(10)

Bibliografia

(1) Cochran, Willian G. (1977). Sampling Techniques. Third Edition – Wiley.

(2) Censo Agropecuário 1995-1996 (1998) . Paraná. Rio de Janeiro: IBGE, número 20. (3) Censo Demográfico (2000). Características da População e dos Domicílios - Resultados do Universo IBGE.

(4) Maculan, Nelson e Lucena, Abílio (2001). Otimização Linear e Inteira . COPPE/UFRJ.

(5) Mendenhall, Willian, Ott Lyman e Scheaffer Richard L. (1990). Elementary Survey Sampling. Fourth Edition. PWS-KENT Publishing Company.

(6) R Development Core Team (2004). R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. ISBN 3-900051-07-0, URL

http://www.R-project.org.

(7) Silva, Nilza Nunes da (2001). Amostragem Probabilística: Um Curso Introdutório. Editora da Universidade de São Paulo.

(8) Souza, Marcone Jamilson Freitas (2004). Softwares de Otimização: Manual de Referência. DCC - UFOP.

Referências

Documentos relacionados

Por último, temos o vídeo que está sendo exibido dentro do celular, que é segurado e comentado por alguém, e compartilhado e comentado no perfil de BolsoWoman no Twitter. No

Local de realização da avaliação: Centro de Aperfeiçoamento dos Profissionais da Educação - EAPE , endereço : SGAS 907 - Brasília/DF. Estamos à disposição

De seguida, vamos adaptar a nossa demonstrac¸ ˜ao da f ´ormula de M ¨untz, partindo de outras transformadas aritm ´eticas diferentes da transformada de M ¨obius, para dedu-

Código Descrição Atributo Saldo Anterior D/C Débito Crédito Saldo Final D/C. Este demonstrativo apresenta os dados consolidados da(s)

Para Piaget, a forma de raciocinar e de aprender da criança passa por estágios. Por volta dos dois anos, ela evolui do estágio sensório motor, em que a ação envolve os

O valor da reputação dos pseudônimos é igual a 0,8 devido aos fal- sos positivos do mecanismo auxiliar, que acabam por fazer com que a reputação mesmo dos usuários que enviam

Apesar dos esforços para reduzir os níveis de emissão de poluentes ao longo das últimas décadas na região da cidade de Cubatão, as concentrações dos poluentes

Mas ele é ( verbo ser, no Presente do Indicativo ) apenas um gato e não tinha tido ( verbo ter, no Pretérito Mais-Que-Perfeito Simples do Indicativo ) tempo de aprender (