Tests d’hypothèse avec la corrélation de Pearson

Nous testons le coefficient de corrélation pour déterminer si la relation linéaire dans les données de l’échantillon modélise efficacement la relation dans la population.

Objectifs d’apprentissage

Utiliser un test d’hypothèse afin de déterminer la signification du coefficient de corrélation de Pearson.

Key Takeaways

Key Points

  • Le coefficient de corrélation de Pearson, \text{r}, nous renseigne sur la force de la relation linéaire entre les points \text{x} et \text{y} sur un graphe de régression.
  • Le test d’hypothèse nous permet de décider si la valeur du coefficient de corrélation de la population \rho est « proche de 0 » ou « significativement différente de 0 » en fonction du coefficient de corrélation de l’échantillon \text{r} et de la taille de l’échantillon \text{n}.
  • Si le test conclut que le coefficient de corrélation est significativement différent de 0, on dit que le coefficient de corrélation est « significatif ».
  • Si le test conclut que le coefficient de corrélation n’est pas significativement différent de 0 (il est proche de 0), on dit que le coefficient de corrélation est « non significatif ».

Termes clés

  • Coefficient de corrélation de Pearson : une mesure de la corrélation linéaire (dépendance) entre deux variables \text{X} et \text{Y}, donnant une valeur entre +1 et -1 inclus, où 1 est une corrélation positive totale, 0 est une absence de corrélation, et -1 est une corrélation négative

Tester la significativité du coefficient de corrélation

Le coefficient de corrélation de Pearson, \text{r}, nous renseigne sur la force de la relation linéaire entre les points \text{x} et \text{y} sur un graphique de régression. Cependant, la fiabilité du modèle linéaire dépend également du nombre de points de données observés dans l’échantillon. Nous devons examiner à la fois la valeur du coefficient de corrélation \text{r} et la taille de l’échantillon \text{n}. Nous effectuons un test d’hypothèse de la  » signification du coefficient de corrélation  » pour décider si la relation linéaire dans les données de l’échantillon est suffisamment forte pour être utilisée pour modéliser la relation dans la population.

Le test d’hypothèse nous permet de décider si la valeur du coefficient de corrélation de la population \rho est  » proche de 0  » ou  » significativement différente de 0 « . Nous le décidons en fonction du coefficient de corrélation de l’échantillon \text{r} et de la taille de l’échantillon \text{n}.

Si le test conclut que le coefficient de corrélation est significativement différent de 0, nous disons que le coefficient de corrélation est « significatif. »

Conclusion : « Il y a suffisamment de preuves pour conclure qu’il existe une relation linéaire significative entre \text{x} et \text{y} car le coefficient de corrélation est significativement différent de 0. »

Ce que signifie la conclusion : Il existe une relation linéaire significative entre \text{x} et \text{y}. Nous pouvons utiliser la droite de régression pour modéliser la relation linéaire entre \text{x} et \text{y} dans la population.

Si le test conclut que le coefficient de corrélation n’est pas significativement différent de 0 (il est proche de 0), nous disons que le coefficient de corrélation est « non significatif. « 

Conclusion :  » Les preuves sont insuffisantes pour conclure qu’il existe une relation linéaire significative entre \text{x} et \text{y} car le coefficient de corrélation n’est pas significativement différent de 0. « 

Ce que signifie la conclusion : Il n’y a pas de relation linéaire significative entre \text{x} et \text{y}. Nous ne pouvons donc PAS utiliser la droite de régression pour modéliser une relation linéaire entre \text{x} et \text{y} dans la population.

Réaliser le test d’hypothèse

Notre hypothèse nulle sera que le coefficient de corrélation N’EST PAS significativement différent de 0. Il n’y a PAS de relation linéaire significative (corrélation) entre \text{x} et \text{y} dans la population. Notre hypothèse alternative sera que le coefficient de corrélation de la population EST significativement différent de 0. Il EXISTE une relation linéaire significative (corrélation) entre \text{x} et \text{y} dans la population.

Utilisation d’un tableau de valeurs critiques pour prendre une décision

Les valeurs critiques à 95 % du tableau de coefficient de corrélation de l’échantillon présenté dans nous donne une bonne idée de si la valeur calculée de \text{r} est significative ou non. Comparez \text{r} à la valeur critique appropriée dans le tableau. Si \text{r} ne se situe pas entre les valeurs critiques positives et négatives, alors le coefficient de corrélation est significatif. Si \text{r} est significatif, alors nous pouvons utiliser la ligne pour la prédiction.

image

Valeurs critiques à 95 % du tableau du coefficient de corrélation de l’échantillon : Ce tableau nous permet de savoir si la valeur calculée de r est significative ou non.

À titre d’exemple, supposons que vous ayez calculé \text{r}=0,801 en utilisant \text{n}=10 points de données. \text{df} = \text{n}-2 =10-2 = 8. Les valeurs critiques associées à \text{df}=8 sont \pm 0.632. Si \text{r} est inférieur à la valeur critique négative ou \text{r} est supérieur à la valeur critique positive, alors \text{r} est significatif. Puisque \text{r}=0,801 et 0,801 > 0,632, \text{r} est significatif et la droite peut être utilisée pour la prédiction.

Hypothèses dans le test de la significativité du coefficient de corrélation

Tester la significativité du coefficient de corrélation exige que certaines hypothèses sur les données soient satisfaites. Le postulat de ce test est que les données sont un échantillon de points observés pris dans une population plus large. Nous n’avons pas examiné l’ensemble de la population car il n’est pas possible ou faisable de le faire. Nous examinons l’échantillon pour tirer une conclusion sur la question de savoir si la relation linéaire que nous observons entre \text{x} et \text{y} dans les données de l’échantillon fournit une preuve suffisamment forte pour que nous puissions conclure qu’il existe une relation linéaire entre \text{x} et \text{y} dans la population.

Les hypothèses qui sous-tendent le test de signification sont :

  • Il existe une relation linéaire dans la population qui modélise la valeur moyenne de \text{y} pour des valeurs variables de \text{x}. En d’autres termes, la valeur attendue de \text{y} pour chaque valeur particulière se trouve sur une ligne droite dans la population. (Nous ne connaissons pas l’équation de la ligne pour la population. Notre droite de régression à partir de l’échantillon est notre meilleure estimation de cette droite dans la population. )
  • Les valeurs \text{y} pour toute valeur \text{x} particulière sont normalement distribuées autour de la ligne. Cela implique qu’il y a plus de valeurs \text{y} dispersées près de la ligne que de valeurs dispersées plus loin. L’hypothèse un ci-dessus implique que ces distributions normales sont centrées sur la ligne : les moyennes de ces distributions normales des valeurs \text{y} se trouvent sur la ligne.
  • Les écarts types des valeurs \text{y} de la population autour de la ligne sont égaux pour chaque valeur de \text{x}. En d’autres termes, chacune de ces distributions normales des valeurs \text{y} a la même forme et la même dispersion autour de la ligne.
  • Les erreurs résiduelles sont mutuellement indépendantes (aucune tendance).

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *