Tabella di contingenza

Il grado di associazione tra le due variabili può essere valutato da un certo numero di coefficienti. Le seguenti sottosezioni ne descrivono alcuni. Per una discussione più completa dei loro usi, vedere gli articoli principali collegati sotto ogni titolo di sottosezione.

Odds ratioModifica

Articolo principale: Odds ratio

La misura di associazione più semplice per una tabella di contingenza 2 × 2 è l’odds ratio. Dati due eventi, A e B, l’odds ratio è definito come il rapporto tra le probabilità di A in presenza di B e le probabilità di A in assenza di B, o equivalentemente (per simmetria), il rapporto tra le probabilità di B in presenza di A e le probabilità di B in assenza di A. Due eventi sono indipendenti se e solo se l’odds ratio è 1; se l’odds ratio è maggiore di 1, gli eventi sono associati positivamente; se l’odds ratio è minore di 1, gli eventi sono associati negativamente.

L’odds ratio ha una semplice espressione in termini di probabilità; data la distribuzione congiunta di probabilità:

B = 1 B = 0 A = 1 p 11 p 10 A = 0 p 01 p 00 {displaystyle {\begin{array}{c|cc}&B=1&B=0\code(01) A=1&p_{11}&p_{10}\\A=0&p_{01}&p_{00}\end{array}}}

{{displaystyle {begin{array}{c|cc}B=1B=0\hline A=1p_{11}p_{10}\A=0p_{01}p_{00}\end{array}}

il rapporto di probabilità è:

O R = p 11 p 00 p 10 p 01 . {displaystyle OR={{frac {p_{11}p_{00}}{p_{10}p_{01}}.}

{\displaystyle OR={\frac {p_{11}p_{00}}{p_{10}p_{01}}.}

Coefficiente PhiEdit

Articolo principale: Coefficiente Phi

Una misura semplice, applicabile solo al caso di tabelle di contingenza 2 × 2, è il coefficiente phi (φ) definito da

ϕ = ± χ 2 N , {displaystyle \phi =\pm {sqrt {\frac {\chi ^{2}}}},

{\displaystyle \phi =\pm {sqrt {\frac {\chi ^{2}}{N},}

dove χ2 è calcolato come nel test del chi-quadrato di Pearson, e N è il totale complessivo delle osservazioni. φ varia da 0 (corrispondente a nessuna associazione tra le variabili) a 1 o -1 (associazione completa o associazione inversa completa), purché si basi su dati di frequenza rappresentati in tabelle 2 × 2. Allora il suo segno è uguale al segno del prodotto degli elementi diagonali principali della tabella meno il prodotto degli elementi fuori diagonale. φ assume il valore minimo -1,0 o il valore massimo di +1,0 se e solo se ogni proporzione marginale è uguale a 0,5 (e due celle diagonali sono vuote).

V di Cramér e il coefficiente di contingenza CEdit

Articolo principale: V di Cramér

Due alternative sono il coefficiente di contingenza C, e il V di Cramér.

Le formule per i coefficienti C e V sono:

C = χ 2 N + χ 2 {displaystyle C={sqrt {\frac {\chi ^{2}}{N+\chi ^{2}}}}}

C=sqrt {\frac {\chi^2}{N+\chi^2}}

e V = χ 2 N ( k – 1 ) , {\displaystyle V={sqrt {\frac {\chi^{2}}{N(k-1)}},

V={\sqrt {{frac {\chi ^{2}}{N(k-1)}}}},

k è il numero di righe o il numero di colonne, se inferiore.

C ha lo svantaggio di non raggiungere un massimo di 1,0, in particolare il massimo che può raggiungere in una tabella 2 × 2 è 0,707 . Può raggiungere valori più vicini a 1,0 in tabelle di contingenza con più categorie; per esempio, può raggiungere un massimo di 0,870 in una tabella 4 × 4. Pertanto, non dovrebbe essere usato per confrontare le associazioni in diverse tabelle se hanno un diverso numero di categorie.

C può essere regolato in modo da raggiungere un massimo di 1,0 quando c’è un’associazione completa in una tabella con qualsiasi numero di righe e colonne, dividendo C per k – 1 k {\displaystyle {\sqrt {\frac {k-1}{k}}}}

\sqrt{\frac{k-1}{k}}

dove k è il numero di righe o colonne, quando la tabella è quadrata, o per r – 1 r × c – 1 c 4 {\displaystyle {\sqrt{r-1 \over r}{c-1 \over c}}}}

{displaystyle {sqrt{r-1 \over r}times {c-1 \over c}}}}

dove r è il numero di righe e c è il numero di colonne.

Coefficiente di correlazione tetracoricaModifica

Articolo principale: Correlazione policorica

Un’altra scelta è il coefficiente di correlazione tetracorica, ma è applicabile solo a tabelle 2 × 2. La correlazione policorica è un’estensione della correlazione tetracorica alle tabelle che coinvolgono variabili con più di due livelli.

La correlazione tetracorica assume che la variabile sottostante ogni misura dicotomica sia normalmente distribuita. Il coefficiente fornisce “una misura conveniente di correlazione quando le misure graduate sono state ridotte a due categorie.”

Il coefficiente di correlazione tetracorica non deve essere confuso con il coefficiente di correlazione di Pearson calcolato assegnando, per esempio, i valori 0.0 e 1.0 per rappresentare i due livelli di ogni variabile (che è matematicamente equivalente al coefficiente φ).

Coefficiente LambdaModifica

Articolo principale: Lambda di Goodman e Kruskal

Il coefficiente lambda è una misura della forza di associazione delle tabulazioni incrociate quando le variabili sono misurate a livello nominale. I valori vanno da 0,0 (nessuna associazione) a 1,0 (la massima associazione possibile).

La lambda asimmetrica misura il miglioramento percentuale nella previsione della variabile dipendente. Il lambda simmetrico misura la percentuale di miglioramento quando la predizione è fatta in entrambe le direzioni.

Coefficiente di incertezzaModifica

Articolo principale: Coefficiente di incertezza

Il coefficiente di incertezza, o U di Theil, è un’altra misura per le variabili a livello nominale. I suoi valori vanno da -1,0 (100% associazione negativa, o perfetta inversione) a +1,0 (100% associazione positiva, o perfetto accordo). Un valore di 0,0 indica l’assenza di associazione.

Anche il coefficiente di incertezza è condizionato e una misura asimmetrica di associazione, che può essere espressa come

U ( X | Y ) ≠ U ( Y | X ) {\displaystyle U(X|Y)\neq U(Y|X)}

{{displaystyle U(X|Y)\neq U(Y|X)}

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *