Collinearità, in statistica, correlazione tra variabili predittive (o variabili indipendenti), tali da esprimere una relazione lineare in un modello di regressione. Quando le variabili predittive nello stesso modello di regressione sono correlate, non possono predire indipendentemente il valore della variabile dipendente. In altre parole, spiegano una parte della stessa varianza nella variabile dipendente, il che a sua volta riduce la loro significatività statistica.
La collinearità diventa una preoccupazione nell’analisi di regressione quando c’è un’alta correlazione o un’associazione tra due potenziali variabili predittive, quando c’è un drammatico aumento del valore p (cioè una riduzione del livello di significatività) di una variabile predittiva quando un altro predittore è incluso nel modello di regressione, o quando viene determinato un alto fattore di inflazione della varianza. Il fattore di inflazione della varianza fornisce una misura del grado di collinearità, per cui un fattore di inflazione della varianza di 1 o 2 mostra essenzialmente nessuna collinearità e una misura di 20 o più mostra una collinearità estrema.
La multicollinearità descrive una situazione in cui più di due variabili predittrici sono associate in modo che, quando tutte sono incluse nel modello, si osserva una diminuzione della significatività statistica. Simile alla diagnosi per la collinearità, la multicollinearità può essere valutata usando i fattori di inflazione della varianza con la stessa guida che valori maggiori di 10 suggeriscono un alto grado di multicollinearità. A differenza della diagnosi di collinearità, tuttavia, potrebbe non essere possibile prevedere la multicollinearità prima di osservare i suoi effetti sul modello di regressione multipla, perché due qualsiasi delle variabili predittrici potrebbero avere solo un basso grado di correlazione o associazione.