源自风暴统计网:一键统计分析与绘图的网站
机器学习(ML)已在医学研究中变得无处不在。
《欧洲流行病学杂志》发表了一篇题为“Machine learning in causal inference for epidemiology”的综述。这篇论文没有停留在“机器学习很强大”的泛泛之谈,而是系统回答了三个核心问题:
因果推断中,传统方法为什么不够用?
机器学习如何“助攻”因果推断?
三类“双重稳健”方法:因果推断更可靠
因果推断中,传统方法为什么不够用?
参数模型的使用非常流行,这要归功于它们的简单性和有用的渐近特性,这些特性允许构造置信区间和假设检验。然而,传统方法为什么不够用?
依赖强假设:传统模型需要预设变量之间的关系(如线性、逻辑形式),一旦假设错误,结论就可能失真。一个例子是使用逻辑回归来估计倾向得分:它限制了暴露和混杂因素之间的关系类型,假设暴露的对数概率由协变量的线性组合适当地描述。
高维数据难处理:面对基因、环境、行为等多维度数据,传统模型容易“过拟合”或“欠拟合”。
模型灵活性差:现实世界中的因果关系往往是复杂、非线性的,传统参数模型难以捕捉。
机器学习如何“助攻”因果推断?
先进技术和数据收集方法的出现导致研究的复杂性增加,迫使研究人员更频繁地使用高维数据。与此同时,机器学习(ML)技术的使用也在增加,因为它们能够从数据中学习模式和关系,而无需为每种情况显式编程。
迄今为止,流行病学中的ML算法主要用于执行预测任务,例如疾病诊断、患者预后或治疗反应。机器学习算法擅长从数据中学习复杂的模式,允许分析师根据可用信息生成准确的预测。
在流行病学研究中越来越多地使用ML引发了人们对因果推断的兴趣,其目标是在感兴趣的关系上得出因果结论。在这种情况下,研究人员的目标是定义一个因果估计,代表他们想要估计的数量,然后建立必要的假设,通过一个被称为识别的过程,用观察到的数据来表达它。此后,重点转移到估计和推断任务。
使用观察性数据进行因果推断的一个主要风险是混杂因素的存在。
常见的混杂调整技术包括多变量回归模型、倾向评分法和g-方法。所有这些方法通常都采用参数模型。然而,参数模型依赖于正确的模型规范,这在高维数据的背景下可能特别具有挑战性。例如,在遗传流行病学中,研究人员经常处理包含数千种遗传变异信息的数据集,旨在捕捉遗传因素和环境暴露之间复杂的相互作用,以了解它们对疾病风险的综合影响。在环境流行病学中,测量空气污染、水污染物和工业毒素等环境暴露对健康结果的共同影响至关重要。在这些情况下,不需要指定变量之间关系的函数形式的ML方法可以充分发挥其潜力,减少由模型错误指定引起的偏倚。
机器学习的优势在于:
不预设关系形式:机器学习(如随机森林、神经网络)能从数据中自动学习模式,适合处理复杂关系。
擅长处理高维数据:通过正则化、集成学习等方法,机器学习能在保持预测能力的同时避免过拟合。
提升预测精度:更准确的预测意味着更可靠的因果估计基础。
但这里有一个关键区别:优秀的预测能力不等于因果识别能力。
举个例子,机器学习模型可能发现“携带打火机”与“肺癌”高度相关,但这显然是混淆因素(吸烟)造成的结果,而非原因。
真正的突破发生在研究者开始思考:如何既利用机器学习的灵活性,又保持因果推断的严谨性?
三类“双重稳健”方法:因果推断更可靠
近年来,利用机器学习高效性的因果效应估计方法已被提出。这些方法融合了因果推断与机器学习这两种看似迥异的视角,使二者能够优势互补。
将机器学习方法融入因果效应估计,可凭借其灵活性和近似复杂函数、处理交互作用与非线性关系的能力,避免函数形式限制,从而弱化模型设定正确性的假设。
本文推荐三种最常用于因果推断研究的双重稳健估计:增强逆概率加权(AIPW)、双重/去偏机器学习(DML)和目标最大似然估计(TMLE)。
它们都叫“双重稳健”,意思是:只要暴露模型或结果模型中有一个是对的,估计结果就是可信的。
为什么叫“双重稳健”?
传统方法只依赖一个模型(比如只依赖倾向得分或只依赖结果模型),一旦模型错,结果就错。
双重稳健方法同时用两个模型,给研究者“两次机会”,提高了估计的稳定性。
论文举了不少流行病学中的应用例子,比如:
评估不同癌症治疗方式(放疗 vs 放化疗)对死亡率的影响
研究母乳喂养时间对婴儿胃肠道感染的影响
分析孕妇运动与婴儿出生体重的关系
在这些研究中,使用双重稳健方法(尤其是结合机器学习的)通常能得到更可靠、偏差更小的估计结果。
在复杂、高维的流行病学数据中,结合机器学习的双重稳健估计方法(如TMLE、AIPW、DML)能更可靠地估计因果关系,减少模型设定错误带来的偏差,是未来因果推断的重要发展方向。
所以为什么要用机器学习开展因果推断,因为相较于常规方法,它更准确,结果更可靠。
关于郑老师团队及公众号
【因果推断与机器学习】未来医学科研的大势所趋
临床、护理、公卫的朋友们,2026年,将是诸位因果推断方法革新的一年。郑老师团队推出“因果推断与机器学习”训练营,丰富的因果推断方法教学,课程理论结合R语言实操,覆盖从基础到进阶的完整链条,欢迎参加!
模块一:理论
1.流行病任务与因果推断;2.因果推断与偏倚控制
模块二:回归与G方法
3.回归的方法及其应用;4.G方法及实践
模块三:倾向得分
5.倾向得分方法;6.倾向得分加权
模块四:机器学习
7.机器学习理论;8. 机器学习与 G方法;9.机器学习与倾向得分
模块五:双重稳健估计方法
10.双重稳健方法;11.双重机器学习
模块六:TMLE方法
12.TMLE 方法;13.机器学习与 TMLE方法
模块七:缺失数据填补与因果推断
14.缺失数据填补与机器学习;15.缺失数据填补后双重稳健估计
模块八:中介分析与因果中介
16.中介分析与因果中介;17.双重稳健估计下的中介分析
模块九:处理效应异质性分析
18.处理异质性分析方法;19.因果森林方法
报名训练营,请添加郑老师助教微信咨询(微信:aq566665)