Una variable de confusión es una variable que influye tanto en la variable independiente como en la dependiente y conduce a una falsa correlación entre ellas. Una variable de confusión también se denomina confusor, factor de confusión o variable al acecho. Dado que las variables de confusión suelen existir en los experimentos, la correlación no significa causalidad. En otras palabras, cuando se observa un cambio en la variable independiente y un cambio en la variable dependiente, no se puede estar seguro de que las dos variables estén relacionadas.
Aquí hay ejemplos de variables de confusión, un vistazo a la diferencia entre un factor de confusión y un mediador, y formas de reducir el riesgo de que las variables de confusión lleven a conclusiones incorrectas.
Confusión positiva y negativa
A veces la confusión señala una falsa relación causa-efecto, mientras que otras veces enmascara un efecto verdadero.
- Confusión positiva: La confusión positiva sobreestima la relación entre las variables independientes y dependientes. Sesga los resultados lejos de la hipótesis nula.
- Confusión negativa: La confusión negativa subestima la relación entre las variables independientes y dependientes. Sesga los resultados hacia la hipótesis nula.
- En un estudio en el que la variable independiente son las ventas de helados y la variable dependiente son los ataques de tiburones, un investigador ve que el aumento de las ventas va de la mano de los ataques de tiburones. La variable de confusión es el índice de calor. Cuando hace más calor, más gente compra helados y más gente se baña en aguas (infestadas de tiburones). No hay ninguna relación causal entre la gente que compra helados y los ataques de tiburones.
- Ejemplo de confusión positiva real: Un estudio de Harvard de 1981 relacionó el consumo de café con el cáncer de páncreas. Fumar era la variable de confusión en este estudio. Muchos de los bebedores de café del estudio también fumaban. Cuando los datos se ajustaron en función del tabaquismo, la relación entre el consumo de café (la variable independiente) y la incidencia del cáncer de páncreas (la variable dependiente) desapareció.
- Ejemplo de confusión negativa real: En un estudio de 2008 sobre la toxicidad (variable dependiente) del metilmercurio en el pescado y el marisco (variable independiente), los investigadores descubrieron que los nutrientes beneficiosos de los alimentos (variable de confusión) contrarrestaban algunos de los efectos negativos de la toxicidad del mercurio.
- Introduzca variables de control. Por ejemplo, si cree que la edad es un factor de confusión, realice la prueba sólo dentro de un determinado grupo de edad. Si la temperatura es un posible factor de confusión, contrólela.
- Sea coherente con el tiempo. Tome los datos a la misma hora del día. Repita los experimentos en la misma época del año. No varíe la duración de los tratamientos dentro de un mismo experimento.
- Cuando sea posible, utilice el doble cegamiento. En un experimento doblemente ciego, ni el investigador ni el sujeto saben si se ha aplicado o no un tratamiento.
- Aleatorizar. Seleccione los controles y los sujetos de prueba de forma aleatoria, en lugar de que el investigador elija el grupo o (en los experimentos con humanos) deje que los sujetos seleccionen la participación.
- Utilice controles de casos o emparejamientos. Si sospecha que hay variables de confusión, empareje el sujeto de prueba y el control en la medida de lo posible. En los experimentos con humanos, podría seleccionar sujetos de la misma edad, sexo, etnia, educación, dieta, etc. En los estudios con animales y plantas, utilizarías líneas puras. En los estudios químicos, utilice muestras del mismo proveedor y lote.
- Axelson, O. (1989). «Confounding from smoking in occupational epidemiology». British Journal of Industrial Medicine. 46 (8): 505-07. doi:10.1136/oem.46.8.505
- Kish, L (1959). «Algunos problemas estadísticos en el diseño de la investigación». Am Sociol. 26 (3): 328-338. doi:10.2307/2089381
- VanderWeele, T.J.; Shpitser, I. (2013). «Sobre la definición de un confusor». Annals of Statistics. 41 (1): 196-220. doi:10.1214/12-aos1058
- Yule, G. Udny (1926). «¿Por qué a veces obtenemos correlaciones sin sentido entre las series temporales? A Study in Sampling and the Nature of Time-Series». Journal of the Royal Statistical Society. 89 (1): 1-63. doi:10.2307/2341482
Ejemplos de variables de confusión
La correlación no implica causalidad. Si no estás convencido, echa un vistazo a las correlaciones espurias recopiladas por Tyler Vigen.
Cómo reducir el riesgo de confusión
El primer paso para reducir el riesgo de que las variables de confusión afecten a tu experimento es tratar de identificar cualquier cosa que pueda afectar al estudio. Es una buena idea revisar la literatura o al menos preguntar a otros investigadores sobre los factores de confusión. De lo contrario, ¡es probable que los descubra durante la revisión por pares!
Confundidor vs Mediador o Modificador del Efecto
Un confusor afecta tanto a las variables independientes como a las dependientes. En cambio, un mediador o modificador del efecto no afecta a la variable independiente, pero sí modifica el efecto que la variable independiente tiene sobre la variable dependiente. Por ejemplo, en una prueba de eficacia de un fármaco, éste puede ser más eficaz en niños que en adultos. En este caso, la edad es un modificador del efecto. La edad no afecta al fármaco en sí, por lo que no es un factor de confusión.
Confusor vs Sesgo
En cierto modo, una variable de confusión produce un sesgo en el sentido de que distorsiona el resultado de un experimento. Sin embargo, el sesgo suele referirse a un tipo de error sistemático procedente del diseño experimental, la recogida de datos o el análisis de los mismos. Un experimento puede contener un sesgo sin estar afectado por una variable de confusión.
Variable de confusión: Un factor que afecta tanto a la variable independiente como a la dependiente, dando lugar a una falsa asociación entre ellas.
Modificador del efecto: Una variable que modifica positiva o negativamente el efecto de la variable independiente sobre la variable dependiente.
Sesgo: Un error sistemático que enmascara el verdadero efecto de la variable independiente sobre la variable dependiente.