Estimateur optimal dans l’échantillonnage
Indirect utilisant deux bases de sondages
Septième colloque francophone sur les sondages
5 au 7 Novembre
Base de Sondage
avec sous-couverture
Bases
multiples
Combiner plusieurs
bases
Réduire l’impact des
erreurs de couverture
Introduction
Base de sondage imparfaite
•
Sous-couverture
•
Duplication
•
Sur-couverture
Problèmes d’ estimation (calcul des poids de sondage)
Erreur de couverture sur les statistiques
-
Nouvelle classe
d’estimateurs réunissant des estimateurs pour
les bases de sondage multiples et des estimateurs pour le
sondage indirect
Un seul estimateur pour tenir compte des bases multiples
Sondage Indirect
(Lavallée, 1995)– approche alternative à la théorie classique de
l’échantillonnage pour traiter le problème des bases de données chevauchantes
- Comparer l’estimateur optimal de Deville et Lavallée avec deux
classes d’estimateurs : estimateur “Domain Membership”, et
estimateur “Unit Multiplicity”
Estimateurs pour bases multiples
2 = = = I I I 1 1 2 2 1 2 3 1 D A A D A A D A A D1 D2 D3 A1 A2BASE DE SONDAGE DOMAINE
2 3 2 2 1 2 1 1
ˆ
ˆ
)
1
(
ˆ
ˆ
ˆ
A D A D A D A DY
Y
Y
Y
Y
=
+
l
+
-
l
+
Estimateur
“Dual frame”
du total sur
la
population proposé par Hartley (1974), basé sur
une moyenne pondérée des estimateurs de
total sur les domaines :
0≤ ≤ 1 Paramètre à minimiser
V
[
Y
ˆ
(
l
)]
1 1 ˆA D Y Estimateur du total de D1 2 3 A D YˆEstimateur du total de D2 avec l’échantillon de A2 Estimateur du total de D2 2 2 ˆ A D Y 1 ˆ A
Y Estimateur du total de D avec l’échantillon de A
Le total Y à estimer sur l’union des Q bases de sondage chevauchantes est exprimé
comme une somme sur l’ensemble des 2
Q-1 domaines disjoints.
L’échantillon sélectionné dans chaque base est utilisé pour produire un estimateur
du total dans chaque domaine. On les combine ensuite pour obtenir un seul
estimateur pour le total sur la population.
i K A ) (
y
)
(
ˆ
q qå å å
Î Î=
K q i i q iK
w
Y
U
d
Les poids
w
i(q)doivent être calculés
Approche “Unit multiplicity”
Approche “Domain Membership”
î
í
ì
Î
=
otherwise
D
i
K
k i,
0
,
1
)
(
d
Approche “Domain Membership”
La partition des domaines est définie sur les bases de sondage – il est toujours possible
d’identifier correctement à quel domaine appartient chaque unité de l’échantillon
Trois types d’estimateurs, dépendant des poids fixés :
(a)
Estimateur Optimal
(, ) qopt i
w
Présente de bonnes propriétés théoriques - variance minimale (Hartley 1962, 1974; Lund 1968; Fuller et Burmeister 1972) – mais très complexe de façon opérationnelle
(b) Estimateur “Single Based”
(, ) qSF i
w
Utilise des poids fixés assurant des estimateurs sans biais (Bankier 1986; Kalton et Anderson 1986; Skinner 1991; Skinner, Holmes et Holt 1994), mais qui sont moins efficaces que pour l’estimateur optimal (Lohr and Rao 2000)
(c) Estimateur du Pseudo Maximum de Vraisemblance
(, ) qPML i
w
Etend l’applicabilité de l’estimateur optimal, en améliorant son eficaicté par rapport à l’estimateur “single based” (Skinner et Rao 1996; Lohr et Rao 2000)
Approche “Multiplicity Unit”
Estimateurs basés sur le concept d’unité multiple, qui reflète le nombre de base
de sondage auxquelles chaque élément de l’échantillon appartient
(Mecatti 2007)
Casady(1980) and Sirken (2004)
1 -i i 1 ) (
y
ˆ
qm
w
Y
Q q i q i M såå
= Î=
å
=
q ) A ( i i qm
d
î
í
ì
Ï
Î
=
q q ) A ( iA
i
if
0
A
i
if
1
qd
Q est le nombre de bases,
Mecatti
(2007)donne des arguments pour appliquer ces estimateurs dans les enquêtes
avec plus de deux bases de sondage.
est le nombre de bases dans lesquelles chaque unité est incluse parmi les bases utilisées pour l’enquête
1 1 2 3 4 5 6 7 i j k lj, ik UA UB
U
Bcontient M
Béléments, divisés en N
grappes, chacune avec éléments
M
Bi-
liens entre les unités j
Î U
Aet les éléments k de la i
èmegrappe de U
Bpour calculer le
poids de chaque élément de
l’échantillon
U
Aavec M
Aunités où nous tirons un
échantillon s
Aavec m
Aéléments
Sondage Indirect
ik j,
Sondage Indirect
Utilise les liens entre la population cible U
Bet la base de sondage U
Apour produire un estimateur d’un paramètre de U
B, quand la base de
sondage ne correspond pas parfaitement à U
BMéthode de Partage des Poids
Généralisés (GWSM)
(Lavallée, 1995)
“Méthode de partage des poids” Ernest (1989) “Echantillonnage de réseaux” Thompson (1992)
“Sondage adaptatif de grappes” Thompson and Seber (1996)
Fournit des poids d’
estimation pour les
unités enquêtées de U
BMoyenne des poids
d’échantillonnage de U
APour le total sur la population dans le cas d’un Sondage Indirect nous pouvons écrire
le :
j A j A j j A j j A j A j j A j DMy
x
t
y
z
t
Y
å
å
Î Î+
=
2 2 2 1 1 1(
)
(
)
ˆ
p
l
p
l
(
)
if j D D j if x D j if D j if z j j î í ì Î -Î = î í ì Î Î = 2 3 2 1 1 1 ) ( 1 ) ( l l l lindicateurs des variables de domaines, (0 ≤ l ≤ 1)
q A j
p
représente la probabilité de sélection de l’unité j dans la qèmebase
Résultats
1,2 q , A j if A j if t q q A j q = î í ì Ï Î = 0 1 ) (qindicateurs des bases de sondage
Estimateur “Domain Membership”
Estimateur “Unit Multiplicity”
B i
L représente le nombre total number de liens entre l’unité j Î Aq, (q=1,2) et l’élément i de UB
q A j
p
représente la probabilité de sélection de l’unité j de Aq, (q=1,2)1 ,
,
B s'il y a un lien entre la jème unité de Aq l'unité i de U
0 sinon et ji q L = íìï ïî j U i B i A ji m j A j j U i B i A ji m j A j M
y
L
L
y
L
L
Y
B A B Aå
å
å
å
Î = Î =+
=
2 2 2 1 1 1 , 1 , 11
1
ˆ
p
p
Estimateur “Dual Frame”
L’estimateur “Dual Frame”
proposé par
Hartley (1974) peut être adapté
dans le contexte du sondage indirect :
j A j A A s j A j j A j A A s j A j H
y
N
ˆ
N
1
y
N
ˆ
N
1
Y
ˆ
j
D
j
C
2 2 2 2 A 2 1 1 1 1 A 143
42
1
43
42
1
j
p
j
p
å
å
Î Î+
=
ïî
ï
í
ì
=
=
=
1
if
~
1
1if
20
2 1 A j A j A j A jq
d
d
j
ïî
ï
í
ì
=
-=
=
1
if
~
1
0
if
1
1 1 1 2 A j A j A j A jq
d
d
j
1 1 A A Nˆ N 2 2 A A NˆN
Facteurs d’ajustement par post-stratification (ou g-poids) de chaque base de
sondage
q A jd
q A jp
variable indiquant la base
représente la probabilité de sélection de l’unité j de UAq avec q=1,2.
j éléments de la base A2qui appartiennent aussi à la base A1 j éléments de la base A1 qui appartiennent aussi à la base A2
1 A j
~
q
1 A j~
1
-
q
1
( )
et
2( )
A
A
j
j
j
j
j
j
C
=
t
z
l
D
=
t
x
l
B
B
ji,1
ji,2
j
B
j
B
i
i
i U
i U
L
L
C
et D
L
L
Î
Î
=
å
=
å
Estimateurs “Unit Multiplicity”
Estimateurs “Domain Membership”
j A j A A s j A j j A j A A s j A j H
y
N
ˆ
N
1
y
N
ˆ
N
1
Y
ˆ
j
D
j
C
2 2 2 2 A 2 1 1 1 1 A 143
42
1
43
42
1
j
p
j
p
å
å
Î Î+
=
Estimateur Optimal de Deville et Lavallée
(2007)
1 1 2 2 1 1 2 2 , , , 1 1 1 1ˆ
A B A A B A N N N N j jopt B opt opt
ji A A i ji A A i j i j j i j
t
t
Y
q
y
q
y
p
p
= = = ==
åå
%
+
åå
%
1
,
1, 2
0
q q j q A A Asi j
s
t
q
si j
s
ì
Î
ï
=
í
=
ï
Ï
î
q A jp
Probabilité de sélection de l’unité j dans UAq avecq=1,2 opt
A ji, q
~
q
Matrice de liens optimale standardisée, , 1 1
ˆ
A B A N N j opt B opt ji AB A i j i jt
Y
q
y
p
= ==
åå
%
Types de liens dans le Sondage Indirect
Dans le Sondage Indirect, quand nous avons deux bases, voici les différentes
combinaisons de lien qui peuvent se produire :
UA UB A1 A2 a) UA UB A1 A2 b) UA UB A1 A2 c) UA UB A1 A2 d) UA UB A1 A2 e) UA UB A1 A2 f) UA UB A1 A2 g) UA UB A1 A2 h)
Comparer
Estimateur optimal de Deville et Lavallée
Estimateur “Domain Membership”
Estimateur “Unit Multiplicity”
• Dans les cas a) et f) les trois estimateurs sont les mêmes
•Dans tous les cas l’estimateur “
Unit Multiplicity” et l’estimateur de Devillee et
Lavallée
sont les mêmes si les variances des sont égales et si les
covariances sont négligeables
•Dans les cas g) et h)
l’estimateur “
Domain Membership” et l’estimateur de
Deville et Lavallée
ne peuvent être comparés car dans la théorie de Hartley
nous ne pouvons avoir qu’un lien de U
Avers l’élément i de U
Bq j
A
Variance de l’estimateur optimal de Deville et Lavallée (2007) dans
le contexte de bases de sondage doubles :
( )
åå
å
( )
åå
å
= = = = = =-+
-=
A A B A A B N j N j N i i opt A i j A j A j A j A j A jj N j N j N i i opt A ji A j A j A j A j A jj B opty
y
Y
Var
1 ' 1 1 2 2 , ' ' ' ' 1 ' 1 1 2 2 , ' ' ' , 2 2 2 2 2 2 1 1 1 1 1 1~
~
)
ˆ
(
q
p
p
p
p
p
q
p
p
p
p
p
Echantillonnage de Poisson sampling avec probabilités d’inclusion
égales
Deville and Lavallée (2006)
åå
åå
= = = =-+
-=
A A A A N j N j j A j A j A j A j A jj N j N j j A j A j A j A j A jj B opty
y
Y
Var
1 ' 1 2 ' ' ' 1 ' 1 2 ' ' ' , 2 2 2 2 2 1 1 1 1 1)
ˆ
(
p
p
p
p
p
p
p
p
p
p
A jp
Echantillonnage de Poisson avec probabilités d’inclusion inégales
p
Aj i N j N i ABopt ji A j A j B opty
Y
Var
A Bå
å
= =-=
1 1 ,1
~
)
ˆ
(
q
p
p
où
GB gi N j G i g g AG jg opt AB jiI
I
Gå
=-=
1(
1
)
~
t
p
p
q
B N g A g A g G ii
N
G i,...
2
,
1
,
)
1
(
1=
-=
å
=p
p
1 s'il y a un lien entre la jème unité de Aq, l'unité i de UB 0 sinon et AB ji
I
= í
ìï
ïî
2 1 1 1 ,)
1
(
1
)
ˆ
(
å
åå
= = =ú
ú
û
ù
ê
ê
ë
é
-=
A B B N j N i i G i A g A g N g AB ji A j A j B opty
I
Y
Var
t
p
p
p
p
' , (1 ) ' A g A G A g Bcorrespond à une unité j deU qui a été préalablement liée à l unité g de U
à son tour liée à l unité i de U
p
p
-Etude par Simulations
But:
Comparer les variances des trois estimateurs
Données:
issues de l’ Eurobaromètre 68.2 (2008) relatives au
Portugal
Population:
1000 ménages
Deux bases de sondage – ménages avec un téléphone fixe et un
téléphone mobile
Nombre de simulations
: 100 échantillons (sondage aléatoire
simple)
Taille d’échantillon
: 150
Paramètre d’étude
:
proportion de ménages Portugais avec un
accès internet à domicile
En résumé
ØL’estimateur optimal et l’estimateur “Unit Multiplicity” se
comportent mieux en termes de variance que l’estimateur de
Hartley
ØL’estimateur optimal et l’estimateur “Unit Multiplicity” ont le
même comportement
Non-réponse pour le Sondage Indirect
non-réponse
Echantillon s
AUnités identifiées pour être enquêtées dans U
B( grappes)
Non-réponse de grappes
Non-réponse individuelle
Problèmes d’identification des liens –
Impossible de déterminer si
l’unité ik de U
Best liée à une unité j de U
ASirken et Nathan (1988) –Network Sampling
Xu et Lavallée (2009)
Estimation du nombre total de liens,L
iB,existant
en utilisant des ajoustements proportionnels
•Corrections proposées par Xu and Lavallée (2009)
pour corriger le problème dans le contexte de bases doubles
RÉFÉRENCES
Ardilly, P., Le Blanc, P. (2001), Sampling and Weighting a Survey of Homeless Persons: A French Example, Survey Methodology, Vol.7, No. 1, pp. 109-118.
Bankier (1986), Estimators Based on Several Stratified Samples With Applications to Multiple Frame Surveys, Journal of the American Statistical Association, Vol. 81, pp.1074-1079.
Casady and Sirken (1980), A Multiplicity Estimator for Multiple Frame Sampling, Proceedings
of the Survey Reseach Methods Section, American Statistical Association, pp. 601-605.
Deville and Lavallée (2006), Indirect sampling: The Foundations of Generalized Weight Share Method, Survey Methodology, Vol. 32, No.2, pp. 165-176.
European Commission (2008), Eurobarometer 68.2 wave November 2007-January 2008. Brussels: European Commission.
Fuller e Burmeister (1972),Estimators of samples selected from two overlapping frames,
Proceedings of the Social Statistics Section, American Statistical Association, 245-249
Hartley, H.O. (1962), Multiple Frame Surveys, Proceedings of the American Statistical
Association, Social Statistics Section, pp. 99-118
Hartley, H. O. (1974), Multiple Frame Surveys Methodology and Selected Applications.
RÉFÉRENCES
Kalton e Anderson(1986), Sampling Rare Populations, Journal of the Royal Statistical Society,
Series A, vol. 149, nº 1, pp. 65-82
Lavallée, P.(1995) Cross–sectional weighting of longitudinal surveys of individuals and households using weight share method. Survey Methodology, Vol. 21, No. 1, pp. 25-32.
Lavallée, P. (2007), Indirect Sampling, New York, Springer.
Lohr and Rao (2000), Inference from Dual Frame Surveys, Journal of the American Statistical
Association, Vol. 95, nº 449, pp.271-280.
Mecatti, F. (2007), A single frame multiplicity estimator for multiple frame surveys, Survey
Methodology, Vol. 33, No. 2, pp. 151-157
Skinner (1991), On the Efficiency of Ratio Estimation for Multiple Frame Surveys Journal of the
American Statistical Association, Vol. 86, nº 415, pp.779-784.
Skinner and Rao (1996), Estimation on Dual Frame Surveys With Complex Designs, Journal of