El sesgo de confusión se produce cuando hay una distorsión de la asociación entre las variables independientes y dependiente debido a una tercera variable asociada de manera independiente con ambas.
Una relación causal entre dos variables se describe comúnmente como la forma en que la variable independiente afecta a la variable dependiente. La variable independiente puede tomar diferentes valores de manera independiente, y la de variable dependiente varía según el valor de la variable independiente.
Supongamos que se desea investigar cómo el consumo de alcohol impacta la mortalidad….
En este caso se decide comparar la tasa de mortalidad entre dos grupos: un grupo compuesto por consumidores importantes de alcohol y otro grupo con abstemios. En este ejemplo, la variable independiente es el consumo de alcohol y la mortalidad corresponde a la variable dependiente.
Si el grupo compuesto por las personas que consumen alcohol tienen una mayor probabilidad de morir, podría parecer intuitivo concluir que el consumo de alcohol aumenta el riesgo de muerte; Sin embargo, en realidad, la situación podría ser más compleja. Es posible que el consumo de alcohol no sea el único factor que afecta la mortalidad y que difiera entre los dos grupos.
Las personas que consumen alcohol podrían tener una dieta más saludable o ser menos propensas a consumir tabaco, por ejemplo. Estos factores a su vez, podrían estar afectando la mortalidad. A estas variables se les llama variables confusoras. Si estas variables son ignoradas y se asume que la diferencia en mortalidad es causada exclusivamente por el consumo de alcohol, los resultados podrían no reflejar la realidad, y como resultado concluir asociaciones de causalidad que no existen o por el contrario, ignorar asociaciones que sí existen.