Échantillonnage aléatoire simple

Échantillonnage aléatoire simple

L'échantillonnage aléatoire simple est une procédure qui donne à chaque unité d'échantillonnage de la population une probabilité égale et non nulle connue d'être sélectionnée. La sélection d'un échantillon aléatoire simple peut être réalisée à l'aide d'un logiciel informatique, d'un tableau de nombres aléatoires ou d'une calculatrice scientifique.

Dans la plupart des cas, des nombres aléatoires sont utilisés pour sélectionner les échantillons. Une telle procédure de sélection garantit que chaque unité de population a une probabilité égale d'être incluse dans l'échantillon.

Pour tirer un échantillon aléatoire simple d’une population, il faut attribuer à chaque unité de population éligible une probabilité égale de sélection à chaque tirage. Cela garantit le caractère aléatoire de la sélection, rendant l'échantillon indépendant du jugement humain.

En réalité, un échantillon aléatoire simple est tiré unité par unité.

Si une liste (base de sondage) des unités de population est disponible, la sélection aléatoire d'un échantillon peut être facilement réalisée à l'aide de nombres aléatoires.

La procédure suivante en 8 étapes peut être suivie pour tirer un échantillon aléatoire simple de n unités utilisant des nombres aléatoires provenant d’une population de N unités.

  1. Attribuez des numéros de série aux unités de la population de 1 à
  2. Décidez de la table de nombres aléatoires à utiliser.
  3. Choisissez un nombre aléatoire à N chiffres à partir de n'importe quel point de la table de nombres aléatoires.
  4. Si ce nombre aléatoire est inférieur ou égal à N, c'est votre première unité sélectionnée.
  5. Passez au prochain nombre aléatoire ne dépassant pas N, verticalement, horizontalement ou dans toute autre direction systématiquement et choisissez votre deuxième unité.
  6. Si à n'importe quelle étape de votre sélection, le nombre aléatoire choisi dépasse N, jetez-le et choisissez le prochain nombre aléatoire.
  7. Si en outre, un nombre aléatoire est répété, il doit également être rejeté et remplacé par un nouveau nombre aléatoire apparaissant ensuite.
  8. Le processus s’arrête une fois que vous atteignez la taille d’échantillon souhaitée.

Les exemples suivants visent à illustrer comment la sélection des éléments de population peut être effectuée dans la pratique.

Exemple 1: Tirez un échantillon aléatoire simple de taille 5 à partir d'une population comprenant 150 unités en utilisant une méthode d'échantillonnage aléatoire simple.

Ici n=5 et 7V=150. Attribuez les numéros de série 001, 002,….,150 aux 150 unités de la population. Puisque 150 est un nombre à trois chiffres, nous lisons simplement les nombres aléatoires à trois chiffres présentés en annexe.

Supposons que nous commencions par le chiffre le plus à gauche de la première ligne du tableau de nombres aléatoires de l'annexe 1 et que nous poursuivions vers le bas jusqu'à ce que nous obtenions un échantillon de 5 unités.

Les nombres aléatoires étaient les suivants :

277130802108541603497786666440
414945416502413258061608809195
493063609923779381396840474433
642668724210953407582895154121

Notez que nous choisissons uniquement les nombres compris entre 001 et 150. Tout nombre situé en dehors de cette plage est omis car il ne correspond à aucune unité de la population. Le processus s'arrête une fois que nous arrivons à cinq nombres.

Notez que les nombres sélectionnés sont 130, 108, 61, 63 et 121. Ces nombres sont soulignés en gras. Tous ces chiffres sont distincts.

Si un nombre aléatoire apparaît deux fois, la deuxième occurrence est omise et un autre nombre est sélectionné pour le remplacer.

Exemple n°2 : Supposons qu'il existe 77 = 1 000 enregistrements de salaires journaliers des employés de l'industrie pharmaceutique. Tirez un échantillon de 25 enregistrements en utilisant les nombres aléatoires indiqués à l’annexe 1 pour tirer un échantillon de 25 enregistrements.

La première étape consiste à organiser les salaires de 1 000 employés, en attribuant un numéro de 000 à 999. Autrement dit, nous avons 1 000 nombres à trois chiffres où 001 représente le premier enregistrement, 999 le 999.ème enregistrer et 000 le 1000ème.

Nous pouvons utiliser les trois premiers chiffres de la deuxième colonne de nombres aléatoires de l'annexe 1, composée de 10 chiffres aléatoires en supprimant les 7 derniers chiffres de chaque nombre aléatoire. Nous voyons que le premier nombre sélectionné est 853, le deuxième est 540 et le troisième est 985, et ainsi de suite. En descendant plus bas dans la colonne, les nombres aléatoires suivants sont choisis :

853540985903266
373920164998073
495496641417906
906715883744104
467236159118782

Notez que la renumérotation des séries a rendu la tâche de sélection des cas beaucoup plus facile et qu'il n'y a eu aucun rejet dans le processus.

Si les enregistrements de salaires des employés sont effectivement numérotés, nous choisissons simplement les enregistrements avec les numéros correspondants, et ces enregistrements représentent un échantillon aléatoire simple de taille w=25 sur .¥=1000.

Nous illustrons ci-dessous par un exemple une méthode relativement efficace pour tirer un échantillon aléatoire simple qui a moins de taux de rejet.

Exemple n°3 : Reportez-vous à l'exemple n°1. La population parmi laquelle un échantillon de 5 doit être choisi contient 150 unités. Pour sélectionner une unité de 001 à 150, suivez les étapes ci-dessous :

  1. Choisissez un nombre aléatoire dans la table de nombres aléatoires qui vous a été fournie (référez-vous aux nombres aléatoires présentés dans l'exemple 5.3). Ce nombre est 277, ce qui dépasse 150.
  2. Divisez 277 par 150. Le reste est 127. L'unité étiquetée 127 dans la population est votre première unité sélectionnée.
  3. Pour sélectionner la deuxième unité, choisissez le nombre aléatoire suivant. Ce nombre est 130, ce qui est inférieur à 150. Nous choisissons directement ce nombre comme deuxième unité de l'échantillon.
  4. Le nombre aléatoire suivant est 802, ce qui donne un reste de 52 lorsqu'il est divisé par 150. L'unité correspondant à ce nombre est notre troisième unité sélectionnée.
  5. En poursuivant ce processus, nous arrivons aux deux nombres suivants. Ce sont 108 et 91.
  6. Les nombres aléatoires ainsi choisis sont 52, 91, 108, 127 et 130.

La procédure ci-dessus est appelée méthode du reste. Cette procédure présente l'avantage d'avoir moins de taux de rejet dans le processus de sélection.

Détermination de la taille de l'échantillon dans un échantillon aléatoire simple

L'un des problèmes les plus importants lors de la planification d'une enquête par sondage est celui de déterminer la taille de l'échantillon nécessaire pour que les estimations soient suffisamment fiables pour atteindre les objectifs de l'enquête.

La décision est importante pour plusieurs raisons. Un échantillon trop grand implique des coûts, une main d’œuvre, des matériaux et du temps énormes, tandis qu’un échantillon trop petit invalide les résultats. La question est alors : quelle est la taille optimale de l’échantillon ?

Bien qu'il soit difficile d'établir des règles générales concernant la taille de l'échantillon sans connaître la population spécifique, environ 30 cas semblent être le strict minimum pour les études dans lesquelles une analyse statistique des données doit être effectuée (Champion 1970 : 89).

Cependant, de nombreux chercheurs estiment qu'il s'agit d'un minimum de 50 cas, et certains estiment qu'il s'agit d'un minimum de 100 cas (Fisher et al. 1991).

L’une des raisons est que les chercheurs souhaitent souvent étudier séparément plusieurs sous-populations ou contrôler plusieurs variables.

S’il n’y a pas suffisamment de cas dans chaque sous-groupe de la population, il est parfois difficile de répondre aux hypothèses des tests statistiques standards comme le chi carré notamment. De plus, les pourcentages calculés sur la base de moins de 30 cas ont tendance à être peu fiables.

Fisher et coll. (1991) proposent une approche simple dans les cas où l'on envisage d'analyser des données dans un tableau de contingence. Cette approche garantit un nombre minimum de cas en tant que fréquences de cellules dans un tableau croisé de variables.

Suivant cette approche, considérons le problème de l'analyse de l'association entre les connaissances nutritionnelles des mères et leur niveau d'éducation. Afin d’analyser un tel tableau, deux points doivent être gardés à l’esprit lors de la détermination de la taille de l’échantillon :

  • Chaque catégorie de variable indépendante doit contenir au moins un nombre spécifié d'observations ;
  • Le nombre attendu de cas dans chaque cellule doit être d'au moins 5 (pour permettre des tests statistiques, tels que le chi carré).

Dans le présent exemple, l’éducation est la variable indépendante, tandis que les connaissances nutritionnelles sont la variable dépendante. Supposons que la variable « éducation » ait 4 niveaux comme ci-dessous :

Niveau d'éducation% de mères
Aucun60
Primaire20
Secondaire15
Au-dessus du secondaire5
Total100

Notre hypothèse est que les quatre catégories ci-dessus constituent respectivement 60 %, 20 %, 15 % et 5 % de tous les répondants de la population (voir colonne 2 du tableau ci-dessus).

Par conséquent, afin d'avoir un échantillon suffisamment grand pour garantir au moins 30 cas (disons) dans la plus petite catégorie de la variable (ici 5 % des cas) du nombre total de cas, la taille de l'échantillon requise est

détermination de la taille de l'échantillon dans le cadre d'un échantillonnage aléatoire simple

Supposons maintenant que les connaissances nutritionnelles des mères comportent 3 catégories : « aucune connaissance », « connaissances modérées » et « connaissances élevées » qui représentent respectivement 30 %, 20 % et 50 % de toutes les mères.

Niveau de connaissance% de mères
Pas de connaissances30
Connaissance modérée20
Haute connaissance50
Total100

Pour trouver la taille minimale de l'échantillon nécessaire pour garantir une fréquence cellulaire attendue d'au moins 5, nous divisons 5 par le produit de la proportion tombant dans les plus petites catégories des deux variables (à savoir : 5 % pour les valeurs supérieures au secondaire et 20 % pour les valeurs modérées). connaissance):

détermination de la taille de l'échantillon dans le cadre d'un échantillonnage aléatoire simple 2

Étant donné que la taille de l'échantillon requise doit répondre aux deux critères (30 cas dans chaque catégorie de variable et 5 cas dans chaque cellule), la plus grande des deux estimations (600 contre 500) doit être adoptée comme taille d'échantillon finale.

Ce critère conduit à choisir n = 600 comme taille d’échantillon final. Nous pouvons vérifier que la procédure ci-dessus garantit qu'aucune des cellules ne contient moins de 5 cas, et en même temps, la catégorie de variable indépendante contient au moins 30 cas :

Tableau : Tableau croisé de l'éducation et du niveau nutritionnel
Niveau d'éducation
Niveau nutritionnelAucunPrimaireSecondaireAu-dessus du secondaireTotal (%)
Pas de connaissances10836279180
(30%)
Connaissance modérée7224186120
(20%)
Haute connaissance180604515300
(50%)
Total3601209030600
(%)(60%)(20%)(15%)(5%)(100%)

Les valeurs des cellules du tableau ci-dessus sont calculées comme le produit des pourcentages de lignes et de colonnes et de la taille estimée de l'échantillon (n = 600). Par exemple, la première valeur de 108 est calculée comme suit :

108=0.30×0.60×600

De même, la deuxième valeur 60 de la troisième ligne est calculée comme suit :

60=0,50 x 0,20 x 600

Nous présentons maintenant ci-dessous une approche statistiquement plus solide pour déterminer la taille de l’échantillon. Ce faisant, nous considérons deux cas :

  1. Détermination de la taille de l'échantillon (n) dans l'estimation de la proportion de population ;
  2. Détermination de la taille de l'échantillon (n) dans l'estimation de la moyenne de la population.

Taille de l'échantillon lors de l'estimation d'une proportion de population

Dans les enquêtes par sondage, nous sommes fréquemment confrontés au problème d'estimer des proportions ou des pourcentages de population tels que la proportion de personnes qui fument, la proportion d'enfants souffrant de malnutrition, la proportion d'électeurs favorables à un candidat particulier, le pourcentage de clients arrivant dans un supermarché avec un carte de crédit et autres.

Ainsi si p est une telle proportion qui a un attribut donné, alors pour une population suffisamment grande, la formule pour estimer la taille de l'échantillon est où :

  • n0 =taille d'échantillon souhaitée
  • z = écart normal standard généralement fixé à 1,96, ce qui correspond au niveau de confiance de 95 %.
  • p=proportion supposée dans la population cible estimée comme ayant une caractéristique particulière.
  • d = erreur marginale admissible dans l’estimation d’une proportion de population.

Exemple: Une enquête nutritionnelle doit être menée dans un camp de réfugiés. Supposons que 40 % des enfants souffrent de malnutrition. Quelle est la taille d’un échantillon nécessaire pour être sûr à 95 % que la prévalence estimée ne diffère pas de la prévalence réelle de plus de 0,05 ?

En supposant que la population est grande, nous employons la formule (c) ci-dessus. Ici z=1,96,6/=0,05 et /y=0,40. Nous voulons maintenant estimer la véritable proportion de la population à 5 points de pourcentage près. p. C'est à l'intérieur p= 0,40 ± 0,05. Ainsi

Taille de l'échantillon lors de l'estimation d'une proportion de population 1

Si p n'est pas connu ou est difficile à supposer, la procédure la plus sûre sera de le prendre à 0,50, ce qui maximise la variance attendue et indique donc une taille d'échantillon qui est sûre d'être suffisamment grande. Si la proportion est attendue entre deux valeurs, la valeur la plus proche de 50 % est sélectionnée. Par exemple, si p est compris entre 15 % et 30 %, alors 30 % (la plus grande des deux) doit être choisi comme valeur de p pour calculer n.

Un choix courant de d est 0,05. Cette valeur ne semble pas réaliste pour les scénarios où la vraie valeur de p est en dehors de la plage 0,2. <p<0.8 when a small value for or consideration of a relative margin of error r is recommended. The quantity r is computed as portion of the assumed true proportion p. Consideration of this relative rate of allowable error margin would convert the equation to:

Exemple de taille de l'échantillon lors de l'estimation d'une proportion de population - 1

On vérifie ci-dessous que la formule (c) donne une valeur de 139 pour n lorsque cZ=0,5 et p=0,90 :

Échantillonnage aléatoire simple

Avec les mêmes valeurs r (0,05) et p (0,90), (c*) donne :

Exemple de taille de l'échantillon lors de l'estimation d'une proportion de population - 3

Si N est petit, la formule à utiliser prend la forme suivante :

Exemple de taille de l'échantillon lors de l'estimation d'une proportion de population - 4

La formule (d) ci-dessus peut également s'exprimer comme suit :

Exemple de taille de l'échantillon lors de l'estimation d'une proportion de population - 5

En pratique, on calcule d'abord n0. Fin0/N est négligeable, alors n0o est une approximation satisfaisante de n.

En supposant que p est difficile à fixer à l’avance, nous le prenons égal à 0,50. Dans ce cas

Exemple de taille de l'échantillon lors de l'estimation d'une proportion de population - 6

Supposons que jV=2000, et nous considérons cela comme une petite population. Nous réviserions alors notre estimation de n comme suit:

Exemple de taille de l'échantillon lors de l'estimation d'une proportion de population - 7

Yamane (1967) propose une formule plus simplifiée pour calculer n. C'est

Exemple de taille de l'échantillon lors de l'estimation d'une proportion de population - 8

Lorsque (e*) est appliqué au cas ci-dessus ;

Exemple de taille de l'échantillon lors de l'estimation d'une proportion de population - 9

Comme on peut le noter, la taille de l'échantillon utilisant la formule (e) donne lieu à un échantillonnage de moins d'enfants que la formule (c).

Il est en outre facile de vérifier que la formule (c), pour un z et d valeurs, donneront la même taille d’échantillon quelle que soit la taille de la population. Le tableau suivant compare numériquement les deux formules :

Tableau : Comparaison de deux formules de taille d'échantillon pour p=0,5, <£=0,05 et z=1,96
Taille de la populationTaille estimée de l’échantillon lorsque N est largeTaille estimée de l’échantillon lorsque N est petite
5038545
10038580
500385218
1,000385279
5,000385357
10,000385371
50,000385382

Dans les études comparatives, on souhaite généralement démontrer qu’il existe une différence significative entre les deux groupes. Si l'on suppose un nombre égal de cas (1 = 2 = n) dans les deux sous-populations, la formule pour n est très similaire à celui ci-dessus :

Exemple de taille de l'échantillon lors de l'estimation d'une proportion de population - 10

La taille de l'échantillon pour estimer la moyenne de la population

Très souvent, nous souhaitons tirer des conclusions sur la moyenne et la valeur totale de variables telles que le revenu, les dépenses, l'âge ou l'IMC.

La taille de l’échantillon nécessaire pour faire une telle inférence est quelque peu différente de celle discutée pour la proportion. Pour la moyenne, la formule est où <r2 is the population variance.

Taille de l'échantillon pour estimer la moyenne de la population

Exemple: Pour une population de 10 000 femmes, la distribution de l'indice de masse corporelle (IMC) a montré une variance de 15. Quelle taille d'échantillon devrions-nous tirer si nous voulons être sûrs à 95 % que notre estimation de l'IMC moyen dans la population est erronée ? de ± 0,3 ?

taille de l'échantillon pour estimer la moyenne de la population, exemple

Ici 7V= 10 000, un2 =15, <£=0,3. Par conséquent, pour estimer la moyenne, la taille de l’échantillon est obtenue à partir de (g) comme ci-dessous : 

Ainsi, un échantillon de 602 femmes sera nécessaire pour atteindre le degré de confiance souhaité dans l'estimation. Si N étaient grands, n aurait été en vertu de (h);

taille de l'échantillon pour estimer la moyenne de la population, exemple 2