Le degré d’association entre les deux variables peut être évalué par un certain nombre de coefficients. Les sous-sections suivantes décrivent quelques-uns d’entre eux. Pour une discussion plus complète de leurs utilisations, voir les articles principaux liés sous chaque titre de sous-section.
Rapport de cotesModifier
La mesure d’association la plus simple pour un tableau de contingence 2 × 2 est l’odds ratio. Étant donné deux événements, A et B, l’odds ratio est défini comme le rapport entre les chances de A en présence de B et les chances de A en l’absence de B, ou de manière équivalente (en raison de la symétrie), le rapport entre les chances de B en présence de A et les chances de B en l’absence de A. Deux événements sont indépendants si et seulement si l’odds ratio est égal à 1. Si l’odds ratio est supérieur à 1, les événements sont positivement associés ; si l’odds ratio est inférieur à 1, les événements sont négativement associés.
L’odds ratio a une expression simple en termes de probabilités ; étant donné la distribution de probabilité conjointe :
B = 1 B = 0 A = 1 p 11 p 10 A = 0 p 01 p 00 {\displaystyle {\begin{array}{c|cc}&B=1&B=0\\\hline A=1&p_{11}&p_{10}\\A=0&p_{01}&p_{00}\end{array}}}
L’odds ratio est:
O R = p 11 p 00 p 10 p 01 . {\displaystyle OR={\frac {p_{11}p_{00}}{p_{10}p_{01}}.}
Coefficient PhiEdit
Une mesure simple, applicable uniquement au cas des tableaux de contingence 2 × 2, est le coefficient phi (φ) défini par
ϕ = ± χ 2 N , {\displaystyle \phi =\pm {\sqrt {\frac {\chi ^{2}}{N}},}
où χ2 est calculé comme dans le test du chi carré de Pearson, et N est le grand total des observations. φ varie de 0 (correspondant à l’absence d’association entre les variables) à 1 ou -1 (association complète ou association inverse complète), à condition qu’il soit basé sur des données de fréquence représentées dans des tableaux 2 × 2. Son signe est alors égal au signe du produit des éléments diagonaux principaux du tableau moins le produit des éléments hors diagonale. φ prend la valeur minimale de -1,0 ou la valeur maximale de +1,0 si et seulement si chaque proportion marginale est égale à 0,5 (et que deux cellules diagonales sont vides).
Le V de Cramér et le coefficient de contingence CEdit
Deux alternatives sont le coefficient de contingence C, et le V de Cramér.
Les formules pour les coefficients C et V sont :
C = χ 2 N + χ 2 {\displaystyle C={\sqrt {\frac {\chi ^{2}}{N+\chi ^{2}}}}}
et V = χ 2 N ( k – 1 ) , {\displaystyle V={\sqrt {\frac{\chi ^{2}}{N(k-1)}},}
k étant le nombre de lignes ou le nombre de colonnes, le plus petit des deux.
C souffre de l’inconvénient de ne pas atteindre un maximum de 1,0, notamment le maximum qu’il peut atteindre dans un tableau 2 × 2 est 0,707 . Il peut atteindre des valeurs plus proches de 1,0 dans les tableaux de contingence comportant plus de catégories ; par exemple, il peut atteindre un maximum de 0,870 dans un tableau 4 × 4. Il ne devrait donc pas être utilisé pour comparer les associations dans différents tableaux s’ils ont un nombre différent de catégories.
C peut être ajusté pour qu’il atteigne un maximum de 1,0 lorsqu’il y a une association complète dans un tableau de n’importe quel nombre de lignes et de colonnes en divisant C par k – 1 k {\displaystyle {\sqrt {\frac {k-1}{k}}}}.
où k est le nombre de lignes ou de colonnes, lorsque le tableau est carré, ou par r – 1 r × c – 1 c 4 {\displaystyle {\sqrt{{r-1 \over r}\times {c-1 \over c}}}}
où r est le nombre de lignes et c le nombre de colonnes.
Coefficient de corrélation tétrachoriqueModifier
Un autre choix est le coefficient de corrélation tétrachorique mais il n’est applicable qu’aux tableaux 2 × 2. La corrélation polychorique est une extension de la corrélation tétrachorique aux tableaux impliquant des variables à plus de deux niveaux.
La corrélation tétrachorique suppose que la variable sous-jacente à chaque mesure dichotomique est normalement distribuée. Ce coefficient fournit » une mesure pratique de la corrélation lorsque des mesures graduées ont été réduites à deux catégories. «
Le coefficient de corrélation tétrachorique ne doit pas être confondu avec le coefficient de corrélation de Pearson calculé en attribuant, par exemple, les valeurs 0,0 et 1,0 pour représenter les deux niveaux de chaque variable (ce qui est mathématiquement équivalent au coefficient φ).
Coefficient lambdaModifier
Le coefficient lambda est une mesure de la force d’association des tableaux croisés lorsque les variables sont mesurées au niveau nominal. Les valeurs vont de 0,0 (aucune association) à 1,0 (l’association maximale possible).
Le lambda asymétrique mesure le pourcentage d’amélioration de la prédiction de la variable dépendante. Le lambda symétrique mesure le pourcentage d’amélioration lorsque la prédiction se fait dans les deux sens.
Coefficient d’incertitudeModifier
Le coefficient d’incertitude, ou U de Theil, est une autre mesure pour les variables au niveau nominal. Ses valeurs vont de -1,0 (association négative à 100 %, ou inversion parfaite) à +1,0 (association positive à 100 %, ou accord parfait). Une valeur de 0,0 indique l’absence d’association.
De plus, le coefficient d’incertitude est conditionnel et une mesure asymétrique de l’association, qui peut être exprimée comme suit
U ( X | Y ) ≠ U ( Y | X ) {\displaystyle U(X|Y)\neq U(Y|X)}.