Estimateur optimal dans l'échantillonnage Indirect utilisant deux bases de sondages

(1)

Estimateur optimal dans l’échantillonnage

Indirect utilisant deux bases de sondages

Septième colloque francophone sur les sondages

5 au 7 Novembre

(2)

Base de Sondage

avec sous-couverture

Bases

multiples

Combiner plusieurs

bases

Réduire l’impact des

erreurs de couverture

Introduction

Base de sondage imparfaite

• Sous-couverture

• Duplication

• Sur-couverture

Problèmes d’ estimation (calcul des poids de sondage)

Erreur de couverture sur les statistiques

(3)

-

Nouvelle classe

d’estimateurs réunissant des estimateurs pour

les bases de sondage multiples et des estimateurs pour le

sondage indirect

Un seul estimateur pour tenir compte des bases multiples

Sondage Indirect

(Lavallée, 1995)

– approche alternative à la théorie classique de

l’échantillonnage pour traiter le problème des bases de données chevauchantes

- Comparer l’estimateur optimal de Deville et Lavallée avec deux

classes d’estimateurs : estimateur “Domain Membership”, et

estimateur “Unit Multiplicity”

(4)

Estimateurs pour bases multiples

2 = = = I I I 1 1 2 2 1 2 3 1 D A A D A A D A A D₁ D₂ D₃ A₁ A₂

BASE DE SONDAGE DOMAINE

2 3 2 2 1 2 1 1

ˆ

)

1 (

ˆ

A D A D A D A D

Y

=

+

l

+

-

l

+

Estimateur

“Dual frame”

du total sur

la

population proposé par Hartley (1974), basé sur

une moyenne pondérée des estimateurs de

total sur les domaines :

0≤ ≤ 1 Paramètre à minimiser

V

[

Y

ˆ

(

l

)]

1 1 ˆA D Y Estimateur du total de D₁ 2 3 A D Yˆ

Estimateur du total de D₂ avec l’échantillon de A₂ Estimateur du total de D₂ 2 2 ˆ A D Y 1 ˆ A

Y Estimateur du total de D avec l’échantillon de A

Le total Y à estimer sur l’union des Q bases de sondage chevauchantes est exprimé

comme une somme sur l’ensemble des 2

Q

-1 domaines disjoints.

(5)

L’échantillon sélectionné dans chaque base est utilisé pour produire un estimateur

du total dans chaque domaine. On les combine ensuite pour obtenir un seul

estimateur pour le total sur la population.

i K A ) (

y

)

(

ˆ

q q

å å å

Î Î

=

K q i i q i

K

w

Y

U

d

Les poids

w

_i(q)

doivent être calculés

Approche “Unit multiplicity”

Approche “Domain Membership”

î

í

ì

Î

=

otherwise

D

i

K

k i

,

0 ,

1 )

(

d

(6)

Approche “Domain Membership”

La partition des domaines est définie sur les bases de sondage – il est toujours possible

d’identifier correctement à quel domaine appartient chaque unité de l’échantillon

Trois types d’estimateurs, dépendant des poids fixés :

(a)

Estimateur Optimal

(, ) q

opt i

w

Présente de bonnes propriétés théoriques - variance minimale (Hartley 1962, 1974; Lund 1968; Fuller et Burmeister 1972) – mais très complexe de façon opérationnelle

(b) Estimateur “Single Based”

(, ) q

SF i

w

Utilise des poids fixés assurant des estimateurs sans biais (Bankier 1986; Kalton et Anderson 1986; Skinner 1991; Skinner, Holmes et Holt 1994), mais qui sont moins efficaces que pour l’estimateur optimal (Lohr and Rao 2000)

(c) Estimateur du Pseudo Maximum de Vraisemblance

(, ) q

PML i

w

Etend l’applicabilité de l’estimateur optimal, en améliorant son eficaicté par rapport à l’estimateur “single based” (Skinner et Rao 1996; Lohr et Rao 2000)

(7)

Approche “Multiplicity Unit”

Estimateurs basés sur le concept d’unité multiple, qui reflète le nombre de base

de sondage auxquelles chaque élément de l’échantillon appartient

(Mecatti 2007)

Casady(1980) and Sirken (2004)

1 -i i 1 ) (

y

ˆ

q

m

w

Y

Q q i q i M s

åå

= Î

=

å

=

q ) A ( i i q

m

d

î

í

ì

Ï

Î

=

q q ) A ( i

A

i

if

0 A

i

if

1

q

d

Q est le nombre de bases,

Mecatti

(2007)

donne des arguments pour appliquer ces estimateurs dans les enquêtes

avec plus de deux bases de sondage.

est le nombre de bases dans lesquelles chaque unité est incluse parmi les bases utilisées pour l’enquête

(8)

1 1 2 3 4 5 6 7 i j k l_{j, ik} UA UB

U

B

contient M

B

éléments, divisés en N

grappes, chacune avec éléments

M

B_i

-

liens entre les unités j

Î U

A

et les éléments k de la i

ème

grappe de U

B

_{pour calculer le}

poids de chaque élément de

l’échantillon

U

A

avec M

A

unités où nous tirons un

échantillon s

_A

avec m

_A

éléments

Sondage Indirect

ik j,

(9)

Sondage Indirect

Utilise les liens entre la population cible U

B

_{et la base de sondage U}

A

pour produire un estimateur d’un paramètre de U

B

_{, quand la base de}

sondage ne correspond pas parfaitement à U

B

Méthode de Partage des Poids

Généralisés (GWSM)

(Lavallée, 1995)

“Méthode de partage des poids” Ernest (1989) “Echantillonnage de réseaux” Thompson (1992)

“Sondage adaptatif de grappes” Thompson and Seber (1996)

Fournit des poids d’

estimation pour les

unités enquêtées de U

B

Moyenne des poids

d’échantillonnage de U

A

(10)

Pour le total sur la population dans le cas d’un Sondage Indirect nous pouvons écrire

le :

j A j A j j A j j A j A j j A j DM

y

x

t

y

z

t

Y

å

Î Î

+

=

2 2 2 1 1 1

(

)

(

)

ˆ

p

l

p

l

(

)

if j D D j if x D j if D j if z j j î í ì Î -Î = î í ì Î Î = 2 3 2 1 1 1 ) ( 1 ) ( l l l l

indicateurs des variables de domaines, (0 ≤ l ≤ 1)

q A j

p

représente la probabilité de _{sélection de l’unité j dans la q}ème

base

Résultats

1,2 q , A j if A j if t q q A j q = î í ì Ï Î = 0 1 ) (q

indicateurs des bases de sondage

Estimateur “Domain Membership”

Estimateur “Unit Multiplicity”

B i

L représente le nombre total number de liens entre l’unité j Î A_q, (q=1,2) et l’élément i de UB

q A j

p

représente la probabilité de sélection de l’unité j de A_q, (q=1,2)

1 ,

,

B s'il y a un lien entre la jème unité de A_q l'unité i de U

0 sinon et ji q L = íìï ïî j U i B i A ji m j A j j U i B i A ji m j A j M

y

L

y

L

Y

B A B A

å

Î = Î =

+

=

2 2 2 1 1 1 , 1 , 1

1

1 ˆ

p

(11)

Estimateur “Dual Frame”

L’estimateur “Dual Frame”

proposé par

Hartley (1974) peut être adapté

dans le contexte du sondage indirect :

j A j A A s j A j j A j A A s j A j H

y

N

ˆ

N

1 y

N

ˆ

N

1 Y

ˆ

j

D

j

C

2 2 2 2 A 2 1 1 1 1 A 1

43

42

1

43

42

1 j

p

j

p

å

Î Î

+

=

ïî

ï

í

ì

=

1 if

~

1

₁

if

₂

0

2 1 A j A j A j A j

q

d

j

ïî

ï

í

ì

=

-=

=

1 if

~

1

0 if

1

1 1 1 2 A j A j A j A j

_q

_d

d

j

1 1 A A Nˆ N 2 2 A A Nˆ

N

Facteurs d’ajustement par post-stratification (ou g-poids) de chaque base de

sondage

q A j

d

q A j

p

variable indiquant la base

représente la probabilité de sélection de l’unité j de UAq _{avec q=1,2.}

j éléments de la base A₂qui appartiennent aussi à la base A₁ j éléments de la base A₁qui appartiennent aussi à la base A₂

1 A j

~

q

1 A j

~

1 -

q

(12)

1

_{( )}

_et

2

_{( )}

A

j

C

=

t

z

l

D

=

t

x

l

B

ji,1

ji,2

j

_B

j

_B

i

i U

L

C

et D

L

Î

=

å

=

å

Estimateurs “Unit Multiplicity”

Estimateurs “Domain Membership”

j A j A A s j A j j A j A A s j A j H

y

N

ˆ

N

1 y

N

ˆ

N

1 Y

ˆ

j

D

j

C

2 2 2 2 A 2 1 1 1 1 A 1

43

42

1

43

42

1 j

p

j

p

å

Î Î

+

=

(13)

Estimateur Optimal de Deville et Lavallée

(2007)

1 ₁ 2 ₂ 1 1 2 2 , , , 1 1 1 1

ˆ

A B _A A B _A N N N N j j

opt B opt opt

ji A _A i ji A _A i j i _j j i _j

t

Y

q

y

q

y

p

= = = =

=

åå

%

+

åå

%

1 ,

1, 2

0

q q j q A A A

si j

s

t

q

si j

s

ì

_Î

ï

=

_í

=

ï

_Ï

î

q A j

p

Probabilité de sélection de l’unité j dans UAq _avec

q=1,2 opt

A ji, _q

~

q

Matrice de liens optimale standardisée

, , 1 1

ˆ

A B _A N N j opt B opt ji AB A i j i _j

t

Y

q

y

p

= =

=

åå

%

(14)

Types de liens dans le Sondage Indirect

Dans le Sondage Indirect, quand nous avons deux bases, voici les différentes

combinaisons de lien qui peuvent se produire :

UA UB A₁ A2 a) UA UB A1 A2 b) UA UB A1 A2 c) UA UB A1 A2 d) UA UB A1 A2 e) UA UB A1 A2 f) UA UB A₁ A₂ g) UA UB A₁ A₂ h)

(15)

Comparer

Estimateur optimal de Deville et Lavallée

Estimateur “Domain Membership”

Estimateur “Unit Multiplicity”

• Dans les cas a) et f) les trois estimateurs sont les mêmes

•Dans tous les cas l’estimateur “

Unit Multiplicity” et l’estimateur de Devillee et

Lavallée

sont les mêmes si les variances des sont égales et si les

covariances sont négligeables

•Dans les cas g) et h)

l’estimateur “

Domain Membership” et l’estimateur de

Deville et Lavallée

ne peuvent être comparés car dans la théorie de Hartley

nous ne pouvons avoir qu’un lien de U

A

_{vers l’élément i de U}

B

q j

A

(16)

Variance de l’estimateur optimal de Deville et Lavallée (2007) dans

le contexte de bases de sondage doubles :

( )

_åå

_å

( )

åå

å

= = = = = =

-+

-=

A A B A A B _N j N j N i i opt A i j A j A j A j A j A jj N j N j N i i opt A ji A j A j A j A j A jj B opt

y

Y

Var

1 ' 1 1 2 2 , ' ' ' ' 1 ' 1 1 2 2 , ' ' ' , 2 2 2 2 2 2 1 1 1 1 1 1

~

)

ˆ

(

q

p

q

p

Echantillonnage de Poisson sampling avec probabilités d’inclusion

égales

Deville and Lavallée (2006)

åå

= = = =

-+

-=

A A A A N j N j j A j A j A j A j A jj N j N j j A j A j A j A j A jj B opt

y

Y

Var

1 ' 1 2 ' ' ' 1 ' 1 2 ' ' ' , 2 2 2 2 2 1 1 1 1 1

)

ˆ

(

p

A j

p

(17)

Echantillonnage de Poisson avec probabilités d’inclusion inégales

p

A_j i N j N i ABopt ji A j A j B opt

y

Y

Var

A B

å

= =

-=

1 1 ,

1 ~

)

ˆ

(

q

p

où

GB gi N j G i g g AG jg opt AB ji

I

G

å

=

-=

1

(

1 )

~

t

p

q

B N g A g A g G i

i

N

G i

,...

2 ,

1 ,

)

1 (

1

=

-=

å

=

p

(18)

1 s'il y a un lien entre la jème unité de A_q, l'unité i de UB 0 sinon et AB ji

I

= í

ìï

ïî

2 1 1 1 ,

)

1 (

1 )

ˆ

(

å

åå

= = =

ú

û

ù

ê

ë

é

-=

A B B N j N i i G i A g A g N g AB ji A j A j B opt

y

I

Y

Var

t

p

' , (1 ) ' A g _A _G A g B

correspond à une unité j deU qui a été préalablement liée à l unité g de U

à son tour liée à l unité i de U

p

(19)

-Etude par Simulations

But:

Comparer les variances des trois estimateurs

Données:

issues de l’ Eurobaromètre 68.2 (2008) relatives au

Portugal

Population:

1000 ménages

Deux bases de sondage – ménages avec un téléphone fixe et un

téléphone mobile

Nombre de simulations

: 100 échantillons (sondage aléatoire

simple)

Taille d’échantillon

: 150

Paramètre d’étude

:

proportion de ménages Portugais avec un

accès internet à domicile

(20)

(21)

En résumé

ØL’estimateur optimal et l’estimateur “Unit Multiplicity” se

comportent mieux en termes de variance que l’estimateur de

Hartley

ØL’estimateur optimal et l’estimateur “Unit Multiplicity” ont le

même comportement

(22)

Non-réponse pour le Sondage Indirect

non-réponse

Echantillon s

A

_{Unités identifiées pour être enquêtées dans U}

B

_{( grappes)}

Non-réponse de grappes

Non-réponse individuelle

Problèmes d’identification des liens –

Impossible de déterminer si

l’unité ik de U

B

est liée à une unité j de U

A

Sirken et Nathan (1988) –Network Sampling

(23)

Xu et Lavallée (2009)

Estimation du nombre total de liens,L

iB

,existant

en utilisant des ajoustements proportionnels

•Corrections proposées par Xu and Lavallée (2009)

pour corriger le problème dans le contexte de bases doubles

(24)

RÉFÉRENCES

Ardilly, P., Le Blanc, P. (2001), Sampling and Weighting a Survey of Homeless Persons: A French Example, Survey Methodology, Vol.7, No. 1, pp. 109-118.

Bankier (1986), Estimators Based on Several Stratified Samples With Applications to Multiple Frame Surveys, Journal of the American Statistical Association, Vol. 81, pp.1074-1079.

Casady and Sirken (1980), A Multiplicity Estimator for Multiple Frame Sampling, Proceedings

of the Survey Reseach Methods Section, American Statistical Association, pp. 601-605.

Deville and Lavallée (2006), Indirect sampling: The Foundations of Generalized Weight Share Method, Survey Methodology, Vol. 32, No.2, pp. 165-176.

European Commission (2008), Eurobarometer 68.2 wave November 2007-January 2008. Brussels: European Commission.

Fuller e Burmeister (1972),Estimators of samples selected from two overlapping frames,

Proceedings of the Social Statistics Section, American Statistical Association, 245-249

Hartley, H.O. (1962), Multiple Frame Surveys, Proceedings of the American Statistical

Association, Social Statistics Section, pp. 99-118

Hartley, H. O. (1974), Multiple Frame Surveys Methodology and Selected Applications.

(25)

RÉFÉRENCES

Kalton e Anderson(1986), Sampling Rare Populations, Journal of the Royal Statistical Society,

Series A, vol. 149, nº 1, pp. 65-82

Lavallée, P.(1995) Cross–sectional weighting of longitudinal surveys of individuals and households using weight share method. Survey Methodology, Vol. 21, No. 1, pp. 25-32.

Lavallée, P. (2007), Indirect Sampling, New York, Springer.

Lohr and Rao (2000), Inference from Dual Frame Surveys, Journal of the American Statistical

Association, Vol. 95, nº 449, pp.271-280.

Mecatti, F. (2007), A single frame multiplicity estimator for multiple frame surveys, Survey

Methodology, Vol. 33, No. 2, pp. 151-157

Skinner (1991), On the Efficiency of Ratio Estimation for Multiple Frame Surveys Journal of the

American Statistical Association, Vol. 86, nº 415, pp.779-784.

Skinner and Rao (1996), Estimation on Dual Frame Surveys With Complex Designs, Journal of

(26)