Qu'est-ce qu'une variable confondante ? Définition et exemples

Une variable confondante entraîne une fausse association entre la variable indépendante et la variable dépendante.

Une variable confondante est une variable qui influence à la fois la variable indépendante et la variable dépendante et conduit à une fausse corrélation entre elles. Une variable de confusion est également appelée facteur de confusion, facteur de confusion ou variable cachée. Comme il existe souvent des variables de confusion dans les expériences, la corrélation ne signifie pas la causalité. En d’autres termes, lorsque vous observez un changement dans la variable indépendante et un changement dans la variable dépendante, vous ne pouvez pas être certain que les deux variables sont liées.

Voici des exemples de variables confusionnelles, un aperçu de la différence entre un facteur de confusion et un médiateur, et des moyens de réduire le risque que les variables confusionnelles conduisent à des conclusions incorrectes.

Confusion positive et négative

Parfois, la confusion met en évidence une fausse relation de cause à effet, tandis que d’autres fois, elle masque un véritable effet.

Confusion positive : La confusion positive surestime la relation entre les variables indépendantes et dépendantes. Elle biaise les résultats en les éloignant de l’hypothèse nulle.
Confondation négative : La confusion négative sous-estime la relation entre les variables indépendantes et dépendantes. Elle biaise les résultats vers l’hypothèse nulle.

Exemples de variables confusionnelles

Dans une étude où la variable indépendante est la vente de crème glacée et la variable dépendante est les attaques de requins, un chercheur constate que l’augmentation des ventes va de pair avec les attaques de requins. La variable confondante est l’indice de chaleur. Lorsqu’il fait plus chaud, plus de personnes achètent des glaces et plus de personnes se baignent dans des eaux (infestées de requins). Il n’y a pas de relation de cause à effet entre les personnes qui achètent des glaces et celles qui se font attaquer par des requins.
Véritable exemple de confusion positive : Une étude de Harvard de 1981 a établi un lien entre la consommation de café et le cancer du pancréas. Le tabagisme était la variable confondante dans cette étude. Beaucoup des buveurs de café de l’étude fumaient également. Lorsque les données ont été ajustées pour le tabagisme, le lien entre la consommation de café (la variable indépendante) et l’incidence du cancer du pancréas (la variable dépendante) a disparu.
Vrai exemple de confusion négative : Dans une étude de 2008 sur la toxicité (variable dépendante) du méthylmercure dans le poisson et les fruits de mer (variable indépendante), les chercheurs ont constaté que les nutriments bénéfiques présents dans les aliments (variable confondante) contrebalançaient certains des effets négatifs de la toxicité du mercure.

La corrélation n’implique pas la causalité. Si vous n’êtes pas convaincu, consultez les corrélations fallacieuses compilées par Tyler Vigen.

Comment réduire le risque de confusion

La première étape pour réduire le risque de variables confusionnelles affectant votre expérience est d’essayer d’identifier tout ce qui pourrait affecter l’étude. C’est une bonne idée de vérifier la littérature ou au moins de demander à d’autres chercheurs quels sont les facteurs de confusion. Sinon, il est probable que vous les découvriez lors de l’examen par les pairs !

Lorsque vous concevez une expérience, considérez ces techniques pour réduire l’effet des variables confusionnelles :

Introduire des variables de contrôle. Par exemple, si vous pensez que l’âge est un facteur de confusion, ne testez que dans un certain groupe d’âge. Si la température est un facteur de confusion potentiel, contrôlez-la.
Soyez cohérent quant au temps. Prenez des données à la même heure de la journée. Répétez les expériences à la même période de l’année. Ne variez pas la durée des traitements au sein d’une même expérience.
Lorsque cela est possible, utilisez le double aveugle. Dans une expérience en double aveugle, ni le chercheur ni le sujet ne savent si un traitement a été appliqué ou non.
Randomiser. Sélectionnez les contrôles et les sujets testés au hasard, plutôt que de demander au chercheur de choisir le groupe ou (dans les expériences humaines) de laisser les sujets choisir la participation.
Utiliser des contrôles de cas ou l’appariement. Si vous suspectez des variables de confusion, faites correspondre le sujet testé et le contrôle autant que possible. Dans les expériences humaines, vous pourriez choisir des sujets de même âge, sexe, ethnie, éducation, régime alimentaire, etc. Pour les études sur les animaux et les plantes, vous utiliserez des lignées pures. Pour les études chimiques, utilisez des échantillons provenant du même fournisseur et du même lot.

Facteur de confusion vs médiateur ou modificateur d’effet

Un facteur de confusion affecte à la fois les variables indépendantes et dépendantes. En revanche, un médiateur ou un modificateur d’effet n’affecte pas la variable indépendante, mais modifie l’effet de la variable indépendante sur la variable dépendante. Par exemple, dans un test d’efficacité d’un médicament, ce dernier peut être plus efficace chez les enfants que chez les adultes. Dans ce cas, l’âge est un modificateur d’effet. L’âge n’affecte pas le médicament lui-même, il ne s’agit donc pas d’un facteur de confusion.

Facteur de confusion vs biais

D’une certaine manière, une variable de confusion entraîne un biais dans la mesure où elle déforme les résultats d’une expérience. Cependant, le biais fait généralement référence à un type d’erreur systématique provenant de la conception expérimentale, de la collecte des données ou de l’analyse des données. Une expérience peut contenir un biais sans être affectée par une variable confondante.

Variable confondante : Un facteur qui affecte à la fois les variables indépendantes et dépendantes, entraînant une fausse association entre elles.
Modificateur d’effet : Une variable qui modifie positivement ou négativement l’effet de la variable indépendante sur la variable dépendante.
Bias : Une erreur systématique qui masque le véritable effet de la variable indépendante sur la variable dépendante.

Axelson, O. (1989). « Confondre le tabagisme dans l’épidémiologie professionnelle ». British Journal of Industrial Medicine. 46 (8) : 505-07. doi:10.1136/oem.46.8.505
Kish, L (1959). « Quelques problèmes statistiques dans la conception de la recherche ». Am Sociol. 26 (3) : 328-338. doi:10.2307/2089381
VanderWeele, T.J. ; Shpitser, I. (2013). « Sur la définition d’un facteur de confusion ». Annales de la statistique. 41 (1) : 196-220. doi:10.1214/12-aos1058
Yule, G. Udny (1926). » Pourquoi avons-nous parfois des corrélations absurdes entre les séries temporelles ? « . Une étude sur l’échantillonnage et la nature des séries temporelles ». Journal of the Royal Statistical Society. 89 (1) : 1-63. doi:10.2307/2341482

Heading