Échantillonnage PPS : définition d'échantillonnage de probabilité proportionnelle à la taille, exemples

Échantillonnage PPS : définition d'échantillonnage de probabilité proportionnelle à la taille, exemples

La procédure d'échantillonnage à probabilité proportionnelle à la taille (PPC) est une variante de l'échantillonnage à plusieurs degrés dans laquelle la probabilité de sélectionner une UPE est proportionnelle à sa taille et un nombre égal d'éléments est échantillonné dans chaque UPE.

Si une UPE a une population deux fois plus importante qu’une autre, elle a deux fois plus de chances d’être sélectionnée.

Si le même nombre de personnes est sélectionné dans chacune des UPE sélectionnées, la probabilité globale de sélection de chaque personne sera la même. L'échantillonnage PPS exact des UPE permet ainsi d'obtenir un contrôle complet sur la taille de l'échantillon.

La méthode de sélection PPS est utile lorsque la taille des PSU varie considérablement.

La différence inhérente entre l'échantillonnage aléatoire simple et l'échantillonnage PPT est que la probabilité de tirer une unité spécifiée à un tirage donné est la même que celle de la première méthode.

En revanche, la probabilité de cette dernière méthode diffère d'un tirage au sort à l'autre. En conséquence, la théorie de l’échantillonnage PPS est plus complexe que le simple échantillonnage aléatoire.

Comment ça marche en pratique ? Nous allons illustrer la méthode (appelée méthode du total cumulé) par un exemple.

Exemple d'échantillonnage PPS

Une population se compose de 10 villages avec un total de 212 ménages. La deuxième colonne du tableau ci-joint indique le nombre de ménages correspondant à chaque village. Un échantillon de 6 villages est à sélectionner par la méthode PPS.

Pour ce faire, suivez les étapes suivantes :

  1. Préparez une colonne de total cumulé avec les ménages dans la colonne 2. Ces totaux apparaissent dans la colonne 3.
  2. Créez une colonne affichant la plage impliquée par les totaux cumulés.
  3. Lisez les nombres aléatoires dans l’annexe. Ces nombres aléatoires sont 173, 95 210, ..,32. (Ignorez tous les nombres aléatoires situés en dehors de la plage 001-212).
  4. Les colonnes correspondant à nos nombres aléatoires sélectionnés seront nos villages échantillonnés.
  5. Le tableau 5.9 montre le sous-échantillonnage des villages sélectionnés avec et sans remplacement.

La procédure a permis de garantir que les probabilités d'inclusion soient proportionnelles à la taille des villages (nombre de ménages) à chaque tirage.

Si la taille des ménages n’est pas connue, d’autres variables auxiliaires, fortement corrélées à la taille du ménage (telles que la taille de la population) pourraient être utilisées à la place comme mesure de la taille.

Tableau : Sélection de l'échantillon PPS

VillageNombre de ménagesTotal cumuléGammeProbabilité de sélection
13535001-03535/212
22863036-06328/212
32083064-08320/212
425108084-10825/212
530138109-13830/212
619157139-15719/212
710167158-16710/212
812179168-17912/212
918197180-19718/212
1015212198-21215/212
Total2121.000
Aléatoire# 1739521011914015232
Village # 84105661
ROS 123456
SWOR* 1
SWR Echantillonnage avec remise, SWOR : Echantillonnage sans remise
23456
Tableau : Résultats de l'échantillonnage PPS

Échantillonnage systématique PPS

Vous connaissez déjà le concept d’échantillonnage PPS. Cette section illustre comment cette méthode peut également être utilisée dans l'échantillonnage systématique.

Nous illustrons cette approche par l’exemple précédent d’échantillonnage sans remise. Pour adapter le problème dans le contexte d'un échantillonnage linéaire systématique, nous sélectionnons 4 villages de sorte que le total de 212 soit divisible par la taille de l'échantillon.

Reportez-vous aux quatre premières colonnes du tableau 5.7. Maintenant, pour sélectionner 4 villages, suivez les étapes détaillées ci-dessous :

  1. Divisez le nombre total de ménages (ici 212) par 4, la taille de l'échantillon. Cela donne l'intervalle d'échantillonnage k=53.
  2. Choisissez un nombre aléatoire entre 1 et 33 inclus. Supposons que ce nombre soit 20. Il se situe dans la plage 001-035. Ceci identifie le village portant le numéro de série 1 comme notre première sélection.
  3. Ajouter k (=53) au nombre 20 choisi à l'étape 2. Cela donne 53+20=73, ce qui se situe entre 64 et 83. Ceci nous amène à sélectionner le village portant le numéro de série 3.
  4. Pour sélectionner la troisième unité, ajoutez 53 à 73, ce qui donne 126, qui se situe entre 109 et 138. Cela nous oblige à sélectionner un village portant le numéro de série 5.
  5. Enfin, ajoutez 53 à 126, ce qui donne un total de 179. Cela sélectionne le village 8.
  6. Ceci termine la procédure de sélection de l’échantillon. Nous avons sélectionné des villages avec les numéros d'ordre : 1,3,5 et 8.

Si cela avait été un cas de n = 6, k aurait été de 35,33, conduisant la procédure de sélection à un échantillonnage circulaire systématique.

Pour accomplir la tâche selon cette procédure, nous arrondissons l'intervalle d'échantillonnage au chiffre immédiatement supérieur, 36. Comme la méthode l'exige, nous choisissons notre nombre aléatoire entre 1 et 212 inclus pour garantir une sélection à probabilité égale.

Il est facile de vérifier que le choix d’un nombre aléatoire compris entre 1 et 32 ne posera aucun problème lors de la sélection de 6 villages. Si vous allez au-delà, vous devez suivre la stratégie d'échantillonnage systématique circulaire pour garantir 6 villages.

Supposons que le nombre aléatoire que vous avez choisi soit 40. Il se situe entre 36 et 63, ce qui nous donne le village 2 comme sélection. Ajoutez maintenant 36 à 40, ce qui donne 76. Cela se situe entre 64 et 83, identifiant le village 3 comme notre deuxième sélection.

Poursuivant le processus, les 4 villages sélectionnés restants sont ceux qui portent les numéros de série 5, 6, 9 et 1. Le tableau ci-joint montre le nombre aléatoire choisi et les villages sélectionnés associés.

Nombre aléatoireGammeVillages sélectionnés
40036-0632
76064-0833
112109-1385
148139-1576
184180-1978
220001-0351
220-212=8, qui se situe dans la première plage, identifiant le premier village.
Sélection des échantillons selon la méthode PPS