Mesures d'association : définition, méthode

Mesures d'association : définition, méthode

Le choix d'un test statistique pour décrire la force des relations entre les variables dépendra largement du niveau de mesure. Les mesures statistiques de la force de la relation sont appelées soit coefficient d’association, soit coefficient de corrélation.

Le premier terme est généralement utilisé lorsque les variables sont nominalement mesurées et affichées dans un tableau de contingence.

Mesures d'association basées sur le chi carré

Ce dernier terme est généralement utilisé pour les variables mesurées sur au moins une échelle d'intervalle (numérique). Par exemple, si nous calculons phi (discuté ci-dessous) pour deux variables nominalement mesurées (disons, par exemple, le sexe et la couleur des yeux), nous appelons phi une mesure d'association.

D’un autre côté, si nous calculons r (discuté dans un chapitre précédent) pour les variables numériques (par exemple l’âge et l’IMC), nous appelons le coefficient de corrélation ra. Dans les sections suivantes, nous discuterons tour à tour de ces mesures, en commençant par les mesures d’association.

Coefficient Phi

Le coefficient Phi (^) est probablement le coefficient d'association le plus populaire pour les tableaux de contingence 2×2. Ce coefficient est également appelé coefficient quadruple. La formule de calcul^ est

Le coefficient Phi (^) varie de 0 à 1,0 et tente de corriger le chi carré proportionnellement à n, le nombre total de cas.

Le coefficient ne suggère pas si une variable provoque l’autre, ni n’indique la direction de la relation. Comme vous pouvez le constater, le calcul de <j> est simple une fois que nous avons le tableau de contingence.

V de Cramer

Le V de Cramer est une modification de 0 pour les tables plus grandes et a une plage allant jusqu'à 1,0 pour les tables de n'importe quelle dimension. Il est calculé où k est le plus petit nombre de lignes ou de colonnes. Pour une meilleure compréhension de la formule ci-dessus, nous la réécrivons comme

Coefficient de contingence

Le coefficient de contingence a été développé avec des tableaux carrés comportant plus de deux lignes et colonnes, par exemple des tableaux 3×3 ou 4×4. Il est calculé comme :

Mesures d'association : définition, méthode

Le coefficient de contingence C est égal à 0 lorsque les variables sont indépendantes. Sa valeur maximale est toujours inférieure à 1 et est déterminée par le nombre de lignes et de colonnes du tableau. La valeur maximale pour une table carrée (2 × 2 ou 3 × 3) est calculée à l'aide de l'équation ;

Mesures d'association : définition, méthode

k est égal au nombre de lignes ou de colonnes, selon le nombre le plus petit. Pour une table 2×2, la valeur maximale serait atteinte avec k=2 :

Mesures d'association : définition, méthode

Pour une table 3×3, la valeur maximale serait de 0,816.

Un inconvénient du coefficient de contingence, lorsque les variables ne sont ni indépendantes ni parfaitement liées, est la difficulté de le comparer à des tableaux de taille inégale lorsque r n'est pas égal à c.

Les fluctuations de la valeur maximale de C ont conduit à l'utilisation du V de Cramer, qui peut être utilisé avec des tables carrées et non carrées de n'importe quelle dimension. V va de 0 lorsque les variables sont indépendantes à 1 lorsqu'elles sont parfaitement liées.

Comme pour C et V, ϕ ne nécessite que des données au niveau nominal et nous fournit une mesure de la force mais pas de la direction de l'association puisque le signe sera toujours positif.

Le V de Cramer est la plus polyvalente des trois mesures de l'association puisque sa plage est toujours de 0 à 1 et qu'elle peut être utilisée pour un tableau de n'importe quelle dimension.

Exemple de coefficient de contingence

Le tableau ci-joint montre la relation entre le niveau d'éducation des mères et le degré de malnutrition chez 150 enfants de moins de cinq ans dans une ville. Calculez C, V et ϕ pour interpréter les résultats

Degré de malnutritionFaibleModéréHautTotal
Faible5103550
Modéré1530550
Haut30101050
Total505050150
Niveau de scolarité des mères

La valeur X2 a été calculée à 66, ce qui est hautement significatif (p < 0,001). Sur la base de cette valeur, nous calculons d'autres mesures :

Mesures d'association : définition, méthode

Le coefficient de contingence C= 0,55 conduit à conclure qu’il existe une relation modérément forte entre le niveau d’éducation et la malnutrition puisque la valeur maximale de C dans un tableau 3×3 est de 0,816.

L'examen des données du tableau montre également que les personnes interrogées ayant terminé des études supérieures ont tendance à avoir des enfants présentant un faible degré de malnutrition.

Alors que V est compris entre 0 et 1, V = 0,47 indique un relation entre les variables sous enquête. Avec les données ordinales, il existe plusieurs méthodes alternatives pour mesurer l’association.

Entre autres, gamma, lamda, chez Kendal tau, celui de Somer d en sont quelques-unes, qui sont des méthodes moins fréquemment utilisées pour mesurer l'association dans les tableaux de contingence, et par conséquent nous passons à certaines méthodes fréquemment utilisées.

Le test du chi carré indique s’il existe une relation entre deux variables, mais il ne nous indique pas la relation. Ceci est réalisé grâce à l’analyse de corrélation.

Une telle analyse nous montre comment déterminer à la fois la nature et la force de la relation entre deux variables.

Le Rho de Spearman (rs) corrélation est une mesure ordinale populaire et largement utilisée rho corrèle les rangs entre deux variables ordonnées.

Lorsque les deux variables sont mesuré sur une échelle numérique (par exemple, poids, taille), la mesure de l'association la plus couramment utilisée est le coefficient de corrélation produit-moment de la personne (r).

Quelle est la différence entre un coefficient d’association et un coefficient de corrélation ?

Le terme « coefficient d'association » est généralement utilisé lorsque les variables sont nominalement mesurées et affichées dans un tableau de contingence, tandis que « coefficient de corrélation » est utilisé pour les variables mesurées sur au moins une échelle d'intervalle (numérique).

Qu'est-ce que le coefficient Phi et quand est-il utilisé ?

Le coefficient Phi est un coefficient d'association pour les tableaux de contingence 2 × 2, également connu sous le nom de coefficient quadruple. Il varie de 0 à 1,0.

En quoi le V de Cramer diffère-t-il du coefficient Phi ?

Le V de Cramer est une modification de Phi pour les tables plus grandes et peut aller jusqu'à 1,0 pour les tables de n'importe quelle dimension. Il est plus polyvalent que Phi et peut être utilisé pour des tables de toutes tailles.

À quoi sert le coefficient de contingence ?

Le coefficient de contingence a été développé pour les tableaux carrés comportant plus de deux lignes et colonnes, tels que les tableaux 3×3 ou 4×4.

Qu'indique le test du chi carré par rapport à deux variables ?

Le test du Chi carré indique s’il existe une relation entre deux variables, mais il ne précise pas la nature de la relation.

À quoi sert la corrélation rho de Spearman ?

La corrélation rho de Spearman est utilisée pour corréler les rangs entre deux variables ordonnées, en particulier lorsque les deux variables sont mesurées sur une échelle numérique.