Collinéarité, en statistiques, corrélation entre les variables prédicteurs (ou variables indépendantes), de telle sorte qu’elles expriment une relation linéaire dans un modèle de régression. Lorsque les variables prédictives d’un même modèle de régression sont corrélées, elles ne peuvent pas prédire indépendamment la valeur de la variable dépendante. En d’autres termes, elles expliquent une partie de la même variance de la variable dépendante, ce qui réduit leur signification statistique.
La colinéarité devient une préoccupation dans l’analyse de régression lorsqu’il existe une forte corrélation ou une association entre deux variables prédictives potentielles, lorsqu’il y a une augmentation spectaculaire de la valeur p (c’est-à-dire une réduction du niveau de signification) d’une variable prédictive lorsqu’une autre variable prédictive est incluse dans le modèle de régression, ou lorsqu’un facteur d’inflation de la variance élevé est déterminé. Le facteur d’inflation de la variance fournit une mesure du degré de colinéarité, de sorte qu’un facteur d’inflation de la variance de 1 ou 2 ne montre essentiellement aucune colinéarité et une mesure de 20 ou plus montre une colinéarité extrême.
La multicollinéarité décrit une situation dans laquelle plus de deux variables prédicteurs sont associées de sorte que, lorsque toutes sont incluses dans le modèle, une diminution de la signification statistique est observée. Comme pour le diagnostic de la colinéarité, la multicollinéarité peut être évaluée à l’aide des facteurs d’inflation de la variance avec le même guide que les valeurs supérieures à 10 suggèrent un degré élevé de multicollinéarité. Contrairement au diagnostic de colinéarité, cependant, il peut ne pas être possible de prédire la multicollinéarité avant d’observer ses effets sur le modèle de régression multiple, car deux quelconques des variables prédictives peuvent n’avoir qu’un faible degré de corrélation ou d’association.