Tabela de contingência

O grau de associação entre as duas variáveis pode ser avaliado através de vários coeficientes. As subsecções seguintes descrevem algumas delas. Para uma discussão mais completa das suas utilizações, ver os principais artigos ligados sob cada título da subsecção.

Odds ratioEdit

Artigo principal: Odds ratio

A medida mais simples de associação para uma tabela de contingência 2 × 2 é o odds ratio. Dados dois eventos, A e B, o odds ratio é definido como o odds ratio de A na presença de B e o odds de A na ausência de B, ou equivalente (devido à simetria), o odds ratio de B na presença de A e o odds de B na ausência de A. Dois eventos são independentes se e só se o odds ratio for 1; se o odds ratio for superior a 1, os eventos são associados positivamente; se o odds ratio for inferior a 1, os eventos são associados negativamente.

O odds ratio tem uma expressão simples em termos de probabilidades; dada a distribuição conjunta de probabilidades:

B = 1 B = 0 A = 1 p 11 p 10 A = 0 p 01 p 00 {\i1}displaystyle {\i}{c|cc}&B=1&B=0\i A=1&p_{11}&p_{10}\\A=0&p_{01}&p_{00}\end{array}}}

${\i1}displaystyle {\i}{c|cc}B=1B=0\i}hline A=1p_{11}p_{10}\i_{01}p_{00}{00}{00}end{array}}$

a razão de probabilidade é:

O R = p 11 p 00 p 10 p 01 . {\a10}p_{01}}.}{p_{10}p_{01}}.}{p_{01}}{p_10}p_{01}}.}

${\\displaystyle OR={\frac {p_{11}p_{00}}{p_{p_{10}p_{01}}.}$

Phi coefficientEdit

Main article: Phi coeficiente

Uma medida simples, aplicável apenas ao caso de 2 × 2 tabelas de contingência, é o coeficiente phi (φ) definido por

ϕ = ± χ 2 N , {\phi =pm {\sqrt {\frac ^{2}{N}}},

${\i=pm {\i}{\i}{\i1}{\i1},}$

p> onde χ2 é computado como no teste de chi-quadrado de Pearson, e N é o total geral de observações. φ varia de 0 (correspondente a nenhuma associação entre as variáveis) a 1 ou -1 (associação completa ou associação inversa completa), desde que se baseie em dados de frequência representados em 2 × 2 tabelas. Então o seu sinal é igual ao sinal do produto dos elementos diagonais principais da tabela menos o produto dos elementos não diagonais. φ assume o valor mínimo -1,0 ou o valor máximo de +1,0 se e apenas se cada proporção marginal for igual a 0,5 (e duas células diagonais estiverem vazias).

V de Cramér e o coeficiente de contingência CEdit

Artigo principal: Cramér’s V

Duas alternativas são o coeficiente de contingência C, e Cramér’s V.

Fórmulas para os coeficientes C e V são:

C = χ 2 N + χ 2 {\displaystyle C={\sqrt {\frac ^{\frac ^{\q}}{N+\qi ^{2}}}}}

$C=sqrt{\frac{\chi^2}{N+\chi^2}}$

e V = χ 2 N ( k – 1 ) , {\displaystyle V={\sqrt {\frac {\chi ^{\n(k-1)}}{N(k-1)}}{N(k-1)},}

$V={\sqrt {\frac {\chi ^{2}}{N(k-1)}}}},$

k sendo o número de filas ou o número de colunas, o que for menor.

C sofre da desvantagem de não atingir um máximo de 1,0, nomeadamente o máximo que pode atingir numa tabela de 2 × 2 é 0,707 . Pode atingir valores mais próximos de 1,0 em tabelas de contingência com mais categorias; por exemplo, pode atingir um máximo de 0,870 numa tabela de 4 × 4. Não deve, portanto, ser usado para comparar associações em tabelas diferentes se tiverem números diferentes de categorias.

C pode ser ajustado de modo a atingir um máximo de 1,0 quando há associação completa numa tabela de qualquer número de linhas e colunas dividindo C por k – 1 k {\sqrt {\frac {\k}}}}

$\sqrt{k-1}{k}}$

em que k é o número de linhas ou colunas, quando a tabela é quadrada, ou por r – 1 r × c – 1 c 4 {\sqrt{r-1 {r-1 {\sqrt{r-1 {\sqrt}{c-1 {c}}}}

${\i1}displaystyle {\i}{r-1 {r-1 {\i}over r}times {c-1 {\i}over c}}}}$

onde r é o número de filas e c é o número de colunas.

Coeficiente de correlação tetracoralEditar

Artigo principal: Correlação polícorica

Outra escolha é o coeficiente de correlação tetracórica, mas só é aplicável a 2 × 2 tabelas. A correlação polícorica é uma extensão da correlação tetracórica a tabelas envolvendo variáveis com mais de dois níveis.

A correlação tetracórica assume que a variável subjacente a cada medida dicotómica é normalmente distribuída. O coeficiente fornece “uma medida conveniente de correlação quando as medidas graduadas foram reduzidas a duas categorias”

O coeficiente de correlação tetracórica não deve ser confundido com o coeficiente de correlação de Pearson calculado atribuindo, digamos, valores 0,0 e 1,0 para representar os dois níveis de cada variável (que é matematicamente equivalente ao coeficiente φ).

Coeficiente LambdaEdit

Artigo principal: Goodman e Kruskal’s lambda

O coeficiente lambda é uma medida da força de associação das tabulações cruzadas quando as variáveis são medidas ao nível nominal. Os valores variam de 0,0 (sem associação) a 1,0 (a associação máxima possível).

Asymmetric lambda mede a melhoria percentual na previsão da variável dependente. A lambda simétrica mede a melhoria percentual quando a previsão é feita em ambos os sentidos.

Coeficiente de incertezaEditar

Artigo principal: Coeficiente de incerteza

O coeficiente de incerteza, ou U de Theil, é outra medida para variáveis ao nível nominal. Os seus valores variam de -1,0 (associação 100% negativa, ou inversão perfeita) a +1,0 (associação 100% positiva, ou concordância perfeita). Um valor de 0,0 indica a ausência de associação.

Também, o coeficiente de incerteza é condicional e uma medida assimétrica de associação, que pode ser expressa como

U ( X | Y ) ≠ U ( Y | X ) {\displaystyle U(X|Y)\neq U(Y|X)}

${\i1}displaystyle U(X|Y)}neq U(Y|X)}$

Heading