Test d'hypothèse : définition, exemples

tests d'hypothèses

Rappelons que les statistiques visent souvent à faire des déductions sur des paramètres de population inconnus sur la base des informations contenues dans des échantillons de données. Ces inférences sont formulées de deux manières ;

  • comme estimations des paramètres respectifs ou
  • comme tests d'hypothèses sur leurs valeurs.

À bien des égards, la procédure formelle de test d’hypothèse est similaire à la méthode scientifique. Le scientifique observe la nature, formule une théorie, puis teste cette théorie par rapport aux observations.

Dans notre contexte de test d'hypothèses, le chercheur émet une hypothèse concernant un ou plusieurs paramètres de population, à savoir qu'ils sont égaux à certaines valeurs spécifiées.

Il échantillonne ensuite la population et compare ses observations avec l'hypothèse. Si les observations ne concordent pas avec l’hypothèse, le chercheur la rejette.

Dans le cas contraire, le chercheur conclut que l'hypothèse est vraie ou que l'échantillon n'a pas réussi à détecter les différences entre la valeur réelle et la valeur hypothétique des paramètres de la population.

Examinez les cas suivants :

  • Un biochimiste souhaitera peut-être déterminer la sensibilité d'un nouveau test pour le diagnostic du cancer ;
  • Un responsable de production affirme que le nombre moyen d'assemblages défectueux (ne répondant pas aux normes de qualité) produits chaque Jour est de 25 ;
  • Un serveur Internet peut avoir besoin de vérifier si les utilisateurs d'ordinateurs du pays passent en moyenne plus de 20 heures à naviguer ;
  • Un chercheur en médecine peut émettre l’hypothèse qu’un nouveau médicament est plus efficace qu’un autre pour combattre une maladie ;
  • Un ingénieur électricien peut soupçonner que les pannes d’électricité dans les zones urbaines sont plus fréquentes dans les zones rurales que dans les zones urbaines.

Les tests d'hypothèses statistiques résolvent les problèmes ci-dessus avec les données obtenues. Nous pouvons maintenant proposer la définition suivante d’une hypothèse statistique.

Signification de l’hypothèse

Une hypothèse statistique est une déclaration ou une hypothèse concernant un ou plusieurs paramètres de population. Notre objectif dans les tests d’hypothèses est de vérifier si l’hypothèse est vraie ou non sur la base d’un échantillon de données.

L’approche conventionnelle du test d’hypothèse ne consiste pas à construire une seule hypothèse mais à formuler deux hypothèses différentes et opposées.

Ces hypothèses doivent être construites de telle sorte que si une hypothèse est rejetée, l’autre est acceptée et vice versa. Ces deux hypothèses dans un test statistique sont normalement appelées hypothèses nulles et alternatives.

L'hypothèse nulle, notée Ho, est l’hypothèse à tester. L'hypothèse alternative, notée par H1 est l’hypothèse qui, dans un certain sens, contredit l’hypothèse nulle.

Exemple 1

Un domaine d'intérêt actuel en matière de recherche est l'agrégation familiale des facteurs de risque cardiovasculaire en général et des taux de lipides en particulier. Supposons que l’on sache que le taux de cholestérol moyen chez les enfants est de 175 mg/dl. Un groupe d'hommes décédés d'une maladie cardiaque au cours de l'année écoulée est identifié et le taux de cholestérol de leur progéniture est mesuré.

Nous voulons vérifier si

  • Le taux de cholestérol moyen de ces enfants est de 175 mg/dl.
  • Le taux de cholestérol moyen de ces enfants est supérieur à 175 mg/dl.

Ce type de question est formulé dans un cadre de test d'hypothèses en spécifiant les hypothèses nulles et alternatives. Dans l’exemple ci-dessus, l’hypothèse nulle est que le taux de cholestérol moyen de ces enfants est de 175 mg/dl.

C'est l'hypothèse que nous souhaitons tester. L'hypothèse alternative est que le taux de cholestérol moyen de ces enfants est supérieur à 175 mg/dl. Les hypothèses sous-jacentes peuvent être formulées comme suit :

Hypothèse nulleH0 : µ = 175
Hypothèse alternativeH1 : µ > 175

Nous supposons également que la distribution sous-jacente est normale dans les deux hypothèses. Ces hypothèses peuvent être écrites en termes plus généraux comme suit :

Hypothèse nulleH0 : µ = µ0
Hypothèse alternativeH1 : µ > µ1

Nous pouvons rencontrer deux types d’erreurs en acceptant ou en rejetant une hypothèse nulle. Nous pouvons rejeter à tort une véritable hypothèse nulle. Cela conduit à une erreur, que nous appelons une erreur de type I.

Le deuxième type d'erreur, appelé erreur de type II, se produit lorsque nous acceptons une hypothèse nulle alors qu’elle est fausse, c’est-à-dire lorsqu’une alternative est vraie.

Lorsqu’aucune erreur n’est commise, nous arrivons à une décision correcte. La bonne décision peut être prise en acceptant une vraie hypothèse nulle ou en rejetant une fausse hypothèse nulle. Quatre résultats possibles avec les types d'erreurs associés que nous commettons dans notre décision sont présentés dans le tableau ci-joint :

DécisionHo est vraiSalut est vrai
Rejeter HoErreur de type I
P (Erreur de type I) = α
Bonne décision
P (Décision correcte) = 1 – ß
Accepter HoBonne décision
P(Bonne décision) = 1-α
Erreur de type II
P (erreur de type II) = ß

La probabilité de commettre une erreur de type I est généralement désignée par a et est communément appelée le niveau de signification d'un test :

α = P (erreur de type I) = P (rejet de H0 quand H0 est vrai )

La probabilité de commettre une erreur de type II est généralement notée ß :

ß = P (erreur de type II) = P (acceptation de H0 quand est H1 vrai )

Le complément de ß, c'est-à-dire 1- ß, est communément appelé le Compromisos. d'un essai.

1- ß = 1 – P = P (rejet de H0 quand H1 est vrai )

Quelles sont les erreurs de type I et de type II pour les données de l'exemple #1 ?

L’erreur de type I sera commise si l’on décide que les descendants d’hommes décédés d’une maladie cardiaque ont un taux de cholestérol moyen supérieur à 170 mg/dl alors que leur taux de cholestérol moyen est de 175 mg/dl.

L'erreur de type II sera commise si l'on décide que la progéniture a un taux de cholestérol normal alors qu'en fait, son taux de cholestérol est supérieur à la moyenne.

Niveau de signification

Le niveau de signification est la probabilité critique dans le choix entre l’hypothèse nulle et l’hypothèse alternative. Le niveau de probabilité est trop faible pour justifier le soutien de l’hypothèse nulle.

Le niveau de signification est habituellement exprimé en pourcentage, par exemple 5% ou 1%. Un niveau de signification, par exemple 5%, est la probabilité de rejeter l'hypothèse nulle si elle est vraie.

Lorsque l'hypothèse en question est acceptée au niveau 5%, le statisticien court le risque qu'à long terme, il prenne la mauvaise décision concernant le 5% du moment.

Statistique de test

Le statistique de test (comme un estimateur) est fonction des observations de l'échantillon sur lesquelles la décision statistique sera basée. Le région de rejet (RR) spécifie les valeurs de la statistique de test pour lesquelles l'hypothèse nulle est rejeté en faveur de l’hypothèse alternative.

Si, pour un échantillon particulier, la valeur calculée de la statistique de test tombe dans RR, nous rejetons l'hypothèse nulle. Ho et acceptons l'hypothèse alternative H1.

Si la valeur de la statistique de test ne tombe pas dans la région de rejet (critique), nous acceptons Ho. La région autre que la région de rejet est la région d'acceptation.

Statistique de test

Prendre une décision

Une décision statistique consiste soit à rejeter, soit à accepter l'hypothèse nulle. La décision dépendra du fait que la valeur calculée de la statistique de test se situe dans la région du rejet ou dans la région de l'acceptation.

Supposons que l'hypothèse soit testée à un niveau de signification 5% et que les résultats observés ont des probabilités inférieures à 5%. Dans ce cas, nous considérons la différence entre les statistiques de l’échantillon et le paramètre inconnu comme significative.

Test d'hypothèse, prise de décision, exemple 1

En d’autres termes, nous pensons que le résultat de l’échantillon est si rare qu’il ne peut pas être expliqué uniquement par une variation fortuite. Nous rejetons ensuite l’hypothèse nulle et déclarons que les observations de l’échantillon ne sont pas cohérentes avec l’hypothèse nulle.

test d'hypothèse, prise de décision, exemple 2

D'un autre côté, si à un niveau de signification 5%, l'ensemble de valeurs observé a une probabilité supérieure à 5%, nous donnons une raison selon laquelle la différence entre le résultat de l'échantillon et la valeur du paramètre inconnu peut être expliquée par une variation aléatoire et donc n’est pas statistiquement significatif.

Par conséquent, nous décidons de ne pas rejeter l’hypothèse nulle et déclarons que les observations de l’échantillon ne sont pas incompatibles avec l’hypothèse nulle.

Test unilatéral et bilatéral

Un test unilatéral est un test dans lequel les valeurs du paramètre étudié (dans notre exemple précédent, le taux de cholestérol moyen) sous l'hypothèse alternative peuvent être soit supérieures, soit inférieures aux valeurs du paramètre sous l'hypothèse nulle. hypothèse, mais pas les deux.

Autrement dit, nous formulons des hypothèses nulles et alternatives pour un test unilatéral comme suit :

Hypothèse nulleH0 : µ = µ0
Hypothèse alternativeH1 : µ < µ0 ou μ > μ0

Un test bilatéral est un test dans lequel les valeurs du paramètre étudié sous l'hypothèse alternative peuvent être supérieures ou inférieures aux valeurs du paramètre sous l'hypothèse nulle.

Nous formulons les hypothèses du test bilatéral comme suit :

Hypothèse nulleH0 : µ = µ0
Hypothèse alternativeH1 : µ ≠ µ1

Il est très important de savoir si nous sommes intéressés par un test unilatéral ou bilatéral dans une application particulière.

Valeur p et son interprétation

Il existe deux approches pour tester une hypothèse statistique : la méthode des valeurs critiques et la méthode des 72 valeurs.

L'approche générale dans laquelle nous calculons une statistique de test et déterminons le résultat d'un test en comparant la statistique de test à une valeur critique déterminée par l'erreur de type I est appelée la méthode de la valeur critique pour tester l'hypothèse.

La valeur p pour tout test d'hypothèse est le niveau alpha (a) auquel nous serions indifférents entre l'acceptation et le rejet de l'hypothèse nulle étant donné les exemples de données disponibles.

Autrement dit, la valeur est le niveau auquel la valeur donnée de la statistique de test (telle que t, F, chi carré) se situerait à la limite entre les régions d'acceptation et de rejet.

La valeur p peut également être considérée comme la probabilité d’obtenir une statistique de test aussi extrême ou plus extrême que la statistique de test réellement obtenue, étant donné que l’hypothèse nulle est vraie.

Les programmes d'analyse de données statistiques calculent généralement les valeurs p lors de l'exécution du test d'hypothèse. Les règles de décision, que la plupart des chercheurs suivent pour énoncer leurs résultats, sont les suivantes :

  • A contribuição de Henri Fayol para a gestão p-Si la valeur est inférieure à 0,01, les résultats sont très significatifs.
  • Si la valeur p est comprise entre 0,01 et 0,05, les résultats sont considérés comme statistiquement significatifs.
  • Si la valeur p est comprise entre 0,05 et 0,10, les résultats tendent uniquement vers une signification statistique.
  • Si la valeur p est supérieure à 0,10, les résultats sont considérés comme non significatifs.

Étapes d'un test statistique

Tout test statistique d’hypothèses fonctionne de la même manière et est composé des mêmes éléments essentiels. La procédure générale pour un test statistique est la suivante :

  1. Établir l'hypothèse nulle (Ho) et son alternative (Ht). Il s’agit d’un test unilatéral si l’hypothèse alternative indique le sens de la différence. Si aucune direction de différence n’est donnée, il s’agit d’un test bilatéral.
  2. Choisissez le niveau de signification souhaité. Bien que α=0,05 et α=0,01 soient les plus courants, de nombreux autres sont également utilisés.
  3. Calculez la statistique de test appropriée de l'échantillon de données (normale, t).
  4. Trouvez la ou les valeurs critiques à l’aide de tableaux d’intégrales normales correspondant à la région critique établie.
  5. Avec les valeurs critiques déterminées à l’étape 4, comparez la statistique de test calculée à l’étape 3.
  6. Prendre la décision : rejeter l'hypothèse nulle si la statistique de test calculée se situe dans la région critique et accepter l'alternative (ou suspendre la décision)

Quelques tests de signification couramment utilisés

Cette section donne un aperçu de quelques tests statistiques représentatifs de la vaste gamme dont disposent les chercheurs.

Cette section reconnaît deux classes générales de tests de signification : paramétriques et non paramétriques.

Les procédures statistiques qui nécessitent la spécification de la distribution de probabilité de la population sont appelées tests paramétriques.

En revanche, les procédures non paramétriques sont des approches sans distribution ne nécessitant aucune spécification de la répartition sous-jacente de la population.

Les tests paramétriques sont plus puissants car leurs données sont dérivées de mesures d'intervalles et de ratios.

Les tests non paramétriques sont utilisés pour tester des hypothèses avec des données nominales et ordinales. Notre objectif dans ce texte est de discuter principalement des tests paramétriques d’usage courant.

Les hypothèses pour les tests paramétriques sont les suivantes :

  • Les observations doivent être indépendantes.
  • Les observations sont tirées de populations normales.
  • Les populations doivent avoir des variances égales.
  • Les niveaux de mesure doivent être au moins intervalle.

En essayant de choisir un test de signification particulier, il convient de considérer au moins trois points :

  • Le test implique-t-il un échantillon, deux échantillons ou k-des échantillons ?
  • Les cas individuels des échantillons sont-ils indépendants ou dépendants ?
  • À quels niveaux de mesure les données se réfèrent-elles à un nominal, un ordinal, un intervalle ou un rapport ?

Compte tenu des requêtes ci-dessus, nous discuterons de quelques tests de signification courants. Ceux-ci incluent, entre autres.

  • Les tests normaux
  • Les tests T
  • Le test du chi carré
  • Le test F

Quel est l’objectif principal des tests d’hypothèses en statistique ?

L'objectif principal des tests d'hypothèses en statistique est de faire des déductions sur des paramètres de population inconnus sur la base des informations contenues dans des échantillons de données. Ces inférences peuvent être formulées sous forme d’estimations des paramètres ou de tests d’hypothèses sur leurs valeurs.

Quelles sont les deux principales hypothèses utilisées dans un test statistique ?

Les deux principales hypothèses utilisées dans un test statistique sont l'hypothèse nulle (Ho) et l'hypothèse alternative (H1). L’hypothèse nulle est l’hypothèse à tester, tandis que l’hypothèse alternative contredit dans un certain sens l’hypothèse nulle.

En quoi un test unilatéral est-il différent d'un test bilatéral ?

Un test unilatéral est un test dans lequel les valeurs du paramètre étudié sous l'hypothèse alternative peuvent être supérieures ou inférieures aux valeurs du paramètre sous l'hypothèse nulle, mais pas les deux. Un test bilatéral permet aux valeurs du paramètre sous l'hypothèse alternative d'être supérieures et inférieures aux valeurs sous l'hypothèse nulle.

Quel est le niveau de signification dans les tests d’hypothèses ?

Le niveau de signification est la probabilité critique dans le choix entre l’hypothèse nulle et l’hypothèse alternative. Il représente le niveau de probabilité trop faible pour justifier le soutien de l’hypothèse nulle. Les niveaux de signification courants incluent 5% ou 1%.

Que sont les erreurs de type I et de type II dans les tests d’hypothèse ?

Une erreur de type I se produit lorsqu’une véritable hypothèse nulle est rejetée à tort. Une erreur de type II se produit lorsqu’une fausse hypothèse nulle est acceptée à tort. La probabilité de commettre une erreur de type I est notée α, et la probabilité de commettre une erreur de type II est notée ß.

Comment la valeur p est-elle utilisée dans les tests d’hypothèse ?

La valeur p est la probabilité d'obtenir une statistique de test aussi extrême ou plus extrême que la statistique de test réellement obtenue, étant donné que l'hypothèse nulle est vraie. Cela aide à déterminer la signification des résultats. Si la valeur p est inférieure au niveau de signification choisi, l'hypothèse nulle est rejetée.

Quels sont les tests de signification courants en statistique ?

Certains tests de signification courants comprennent les tests normaux, les tests t, le test du chi carré et le test F. Le choix du test dépend de facteurs tels que le nombre d’échantillons, l’indépendance des cas et le niveau de mesure des données.