En el análisis estadísticos de datos, frecuentemente pueden aparecer, variables de confusión que se interponen entre la variable independiente X y el efecto que provoca sobre la variable dependiente Y.
Por ejemplo, la falta de ejercicios puede conducir a un aumento de peso donde la falta de ejercicio es la variable independiente (X) y el aumento de peso es la variable dependiente (Y).
También puede haber otros factores de influencia que podrían afectar a la variable dependiente, conocidos como variables de confusión o factores de confusión
Posiblemente, siempre que se observe una diferencia en el resultado de un experimento producto de aplicar cierto tratamiento, sea necesario considerar si el efecto observado es realmente debido al tratamiento o si hay posibles explicaciones alternativas.
Por lo tanto, para validar un estudio, se deben tener en cuenta con precisión factores sustanciales que podrían arruinar la relación real o afectar tu explicación.
¿Qué son las variables de confusión?
Una variable de confusión es una variable, distinta de la variable independiente que te interesa, que puede afectar a la variable dependiente.
Esto puede llevar a conclusiones erróneas sobre la relación entre las variables independientes y dependientes
Te ocupas de las variables de confusión al controlarlas; mediante restricción, aleatorización, pareo y control estadístico.
Estas variables son problemáticas porque funcionan de tal manera que enmascaran y complican, tanto los hallazgos derivados del análisis de los datos como las inferencias extraídas a partir de las muestras
Hacen complicado decidir si el tratamiento aplicado provocó el efecto o la existencia de variables de confusión han influido en las conclusiones.
Para que una variable pueda considerarse como variable de confusión;
- Debe haberse conectado con variables independientes de interés, y
- Debe estar conectada directamente con el resultado o la variable dependiente.
De manera más precisa, confusión se refiere a la combinación de efectos de tal manera que el resultado en un experimento, se mezcla con la influencia de factores adicionales que producen una distorsión en el
Ejemplo de Variables de Confusión
Veamos un caso en particular que ilustra lo que estamos comentando:
Digamos que deseas averiguar cómo el consumo de alcohol afecta la mortalidad… Decides comparar las tasas de mortalidad entre dos grupos: uno que consiste en grandes consumidores de alcohol y otro conformado por abstemios. En este caso, el consumo de alcohol sería la variable independiente y la mortalidad sería la variable dependiente. Si descubres que las personas que consumen más alcohol tienen más probabilidades de morir, puede parecer intuitivo concluir que el consumo de alcohol aumenta el riesgo de muerte. Sin embargo, en realidad, , la situación podría ser más compleja. Es posible que el consumo de alcohol no sea el único factor que afecta la mortalidad y que difiere entre los dos grupos. Las personas que consumen menos alcohol pueden tener más probabilidades de llevar una dieta más saludable o menos probabilidades de fumar, por ejemplo. Comer una dieta saludable o fumar podría, a su vez, afectar la mortalidad. (Ilola, 2018)

¿Por qué las variables de confusión son importantes en mi investigación?
La existencia de variables de confusión dificulta establecer una conexión clara y precisa entre el tratamiento (causa) y los resultados (efecto), a menos que se empleen métodos apropiados para controlarlas.
Por lo tanto, para reducir las variables de confusión, el investigador debe asegurarse de que todas ellas hayan sido identificadas en el estudio
Comprender las variables de confusión puede dar resultados más precisos.
La variable de confusión puede dar lugar a importantes obstáculos durante el desarrollo de la investigación, en particular ocasiona aumento de la varianza y mayor sesgo.
Estos efectos pueden hacer que los resultados se sobreestimen o subestimen al final
¿Cómo minimizar los posibles efectos de las Variables de Confusión durante el diseño de un estudio?
Si estás investigando los efectos de una intervención, puedes asignar personas al azar a un grupo de tratamiento y a uno control.
En la aleatorización, asignas al azar el tratamiento (o variable independiente) en tu estudio a un número suficientemente grande de sujetos, lo que te permite controlar todas las posibles variables de confusión.
Los grupos aún pueden diferir en posibles factores de confusión por casualidad, pero la aleatorización minimiza estas diferencias.
En otros tipos de estudios, puedes abordar la confusión mediante la restricción o el emparejamiento.
Restricción significa estudiar solo a personas que son similares en términos de una variable de confusión
Por ejemplo, si crees que la edad es una variable de confusión, puedes optar por estudiar solo a personas mayores de 65 años (obviamente, esto limitaría la aplicabilidad de los resultados a otros grupos).
Pareo significa emparejar personas en los dos grupos en función de posibles factores de confusión.
Así que hay varios métodos que puedes utilizar para disminuir el impacto de las variables de confusión en tu investigación: restricción, aleatorización, emparejamiento y control estadístico
Te comento un poco más acerca del control estadístico

Control estadístico
Después de completar el estudio, puedes minimizar los efectos de confusión utilizando métodos estadísticos.
Si solo hay una pequeña cantidad de posibles factores de confusión, puedes utilizar la estratificación.
En la estratificación, produces grupos más pequeños en los que las variables de confusión no cambian y luego examinas la relación entre la variable independiente y dependiente en cada grupo.
En el ejemplo que usamos antes, por citar un caso, es posible que desees dividir la muestra en grupos de fumadores y no fumadores y examinar la relación entre el consumo de alcohol y la mortalidad dentro de cada uno.
Si hay un mayor número de posibles factores de confusión, puedes utilizar el análisis multivariado, por ejemplo, regresión logística o lineal
Para una mejor comprensión del concepto de variables de confusión, por aquí abajo te dejo un resumen de estas ideas en formato vídeo:
Para finalizar…
La asociación entre dos variables puede verse modificada por una tercera variable y esto puede conducir a resultados distorsionados.
Incluso después de tener esto en cuenta en el diseño del estudio y en el análisis de datos, tus datos aún podrían estar distorsionados por factores de confusión
Por ejemplo, puede haber otros factores de confusión que no conoces, pero los primeros pasos para reducir sus efectos son estar conscientes de su potencial para obscurecer los resultados y planificar en consecuencia.
Referencias
Eveliina Ilola. (2018, October). A beginner’s guide to confounding – Students 4 Best Evidence. Students 4 Best Evidence. https://s4be.cochrane.org/blog/2018/10/01/a-beginners-guide-to-confounding/
Neelam Tyagi. (2021). What are Confounding Variables? – Effects and Controlling | Analytics Steps. AnalyticsSteps. https://www.analyticssteps.com/blogs/what-are-confounding-variables-effects-and-controlling