Statistiques du test t de Student

Test t de Student, en statistique, une méthode de test d'hypothèses sur la moyenne d'un petit échantillon tiré d'une population normalement distribuée lorsque l'écart-type de la population est inconnu.

En 1908, William Sealy Gosset, un anglais publié sous le pseudonyme Student, a développé le test t et la distribution t. La distribution t est une famille de courbes dans laquelle le nombre de degrés de liberté (le nombre d'observations indépendantes dans l'échantillon moins un) spécifie une courbe particulière. À mesure que la taille de l'échantillon (et donc les degrés de liberté) augmente, la distribution t s'approche de la forme en cloche de la distribution normale standard. En pratique, pour les tests impliquant la moyenne d'un échantillon de taille supérieure à 30, la distribution normale est généralement appliquée.

Il est habituel de formuler d'abord une hypothèse nulle, qui stipule qu'il n'y a pas de différence effective entre la moyenne observée de l'échantillon et la moyenne hypothétique ou déclarée de la population, c'est-à-dire que toute différence mesurée n'est due qu'au hasard. Dans une étude agricole, par exemple, l'hypothèse nulle pourrait être qu'une application d'engrais n'a eu aucun effet sur le rendement des cultures, et une expérience serait réalisée pour tester si elle a augmenté la récolte. En général, un test t peut être soit bilatéral (également appelé bilatéral), indiquant simplement que les moyennes ne sont pas équivalentes, soit unilatéral, spécifiant si la moyenne observée est plus grande ou plus petite que la moyenne hypothétique. La statistique de test t est ensuite calculée. Si la statistique t observée est plus extrême que la valeur critique déterminée par la distribution de référence appropriée, l'hypothèse nulle est rejetée. La distribution de référence appropriée pour la statistique t est la distribution t. La valeur critique dépend du niveau de signification du test (la probabilité de rejeter par erreur l'hypothèse nulle).

Par exemple, supposons qu'un chercheur souhaite tester l'hypothèse qu'un échantillon de taille n = 25 avec une moyenne x = 79 et un écart type s = 10 a été tiré au hasard d'une population avec une moyenne μ = 75 et un écart type inconnu. En utilisant la formule de la statistique t, le t calculé est égal à 2. Pour un test bilatéral à un niveau de signification commun α = 0,05, les valeurs critiques de la distribution t sur 24 degrés de liberté sont −2,064 et 2,064. Le t calculé ne dépasse pas ces valeurs, par conséquent l'hypothèse nulle ne peut pas être rejetée avec une confiance de 95%. (Le niveau de confiance est 1 - α.)

Une deuxième application de la distribution t teste l'hypothèse que deux échantillons aléatoires indépendants ont la même moyenne. La distribution t peut également être utilisée pour construire des intervalles de confiance pour la vraie moyenne d'une population (la première application) ou pour la différence entre deux moyennes d'échantillonnage (la deuxième application). Voir aussi estimation d'intervalle.