肇庆市网站建设_网站建设公司_Linux_seo优化
2025/12/25 9:53:01 网站建设 项目流程

源自风暴统计网:一键统计分析与绘图的网站

机器学习(ML)已在医学研究中变得无处不在。

《欧洲流行病学杂志》发表了一篇题为“Machine learning in causal inference for epidemiology”的综述。这篇论文没有停留在“机器学习很强大”的泛泛之谈,而是系统回答了三个核心问题:

  • 因果推断中,传统方法为什么不够用?

  • 机器学习如何“助攻”因果推断?

  • 三类“双重稳健”方法:因果推断更可靠

因果推断中,传统方法为什么不够用?

参数模型的使用非常流行,这要归功于它们的简单性和有用的渐近特性,这些特性允许构造置信区间和假设检验。然而,传统方法为什么不够用?

  • 依赖强假设:传统模型需要预设变量之间的关系(如线性、逻辑形式),一旦假设错误,结论就可能失真。一个例子是使用逻辑回归来估计倾向得分:它限制了暴露和混杂因素之间的关系类型,假设暴露的对数概率由协变量的线性组合适当地描述。

  • 高维数据难处理:面对基因、环境、行为等多维度数据,传统模型容易“过拟合”或“欠拟合”。

  • 模型灵活性差:现实世界中的因果关系往往是复杂、非线性的,传统参数模型难以捕捉。

机器学习如何“助攻”因果推断?

先进技术和数据收集方法的出现导致研究的复杂性增加,迫使研究人员更频繁地使用高维数据。与此同时,机器学习(ML)技术的使用也在增加,因为它们能够从数据中学习模式和关系,而无需为每种情况显式编程。

迄今为止,流行病学中的ML算法主要用于执行预测任务,例如疾病诊断、患者预后或治疗反应。机器学习算法擅长从数据中学习复杂的模式,允许分析师根据可用信息生成准确的预测。

在流行病学研究中越来越多地使用ML引发了人们对因果推断的兴趣,其目标是在感兴趣的关系上得出因果结论。在这种情况下,研究人员的目标是定义一个因果估计,代表他们想要估计的数量,然后建立必要的假设,通过一个被称为识别的过程,用观察到的数据来表达它。此后,重点转移到估计和推断任务。

使用观察性数据进行因果推断的一个主要风险是混杂因素的存在。

常见的混杂调整技术包括多变量回归模型、倾向评分法和g-方法。所有这些方法通常都采用参数模型。然而,参数模型依赖于正确的模型规范,这在高维数据的背景下可能特别具有挑战性。例如,在遗传流行病学中,研究人员经常处理包含数千种遗传变异信息的数据集,旨在捕捉遗传因素和环境暴露之间复杂的相互作用,以了解它们对疾病风险的综合影响。在环境流行病学中,测量空气污染、水污染物和工业毒素等环境暴露对健康结果的共同影响至关重要。在这些情况下,不需要指定变量之间关系的函数形式的ML方法可以充分发挥其潜力,减少由模型错误指定引起的偏倚。

机器学习的优势在于:

  • 不预设关系形式:机器学习(如随机森林、神经网络)能从数据中自动学习模式,适合处理复杂关系。

  • 擅长处理高维数据:通过正则化、集成学习等方法,机器学习能在保持预测能力的同时避免过拟合。

  • 提升预测精度:更准确的预测意味着更可靠的因果估计基础。

但这里有一个关键区别:优秀的预测能力不等于因果识别能力

举个例子,机器学习模型可能发现“携带打火机”与“肺癌”高度相关,但这显然是混淆因素(吸烟)造成的结果,而非原因。

真正的突破发生在研究者开始思考:如何既利用机器学习的灵活性,又保持因果推断的严谨性?

三类“双重稳健”方法:因果推断更可靠

近年来,利用机器学习高效性的因果效应估计方法已被提出。这些方法融合了因果推断与机器学习这两种看似迥异的视角,使二者能够优势互补。

将机器学习方法融入因果效应估计,可凭借其灵活性和近似复杂函数、处理交互作用与非线性关系的能力,避免函数形式限制,从而弱化模型设定正确性的假设。

本文推荐三种最常用于因果推断研究的双重稳健估计:增强逆概率加权(AIPW)、双重/去偏机器学习(DML)和目标最大似然估计(TMLE)。

它们都叫“双重稳健”,意思是:只要暴露模型或结果模型中有一个是对的,估计结果就是可信的

为什么叫“双重稳健”?

  • 传统方法只依赖一个模型(比如只依赖倾向得分或只依赖结果模型),一旦模型错,结果就错。

  • 双重稳健方法同时用两个模型,给研究者“两次机会”,提高了估计的稳定性。

论文举了不少流行病学中的应用例子,比如:

  • 评估不同癌症治疗方式(放疗 vs 放化疗)对死亡率的影响

  • 研究母乳喂养时间对婴儿胃肠道感染的影响

  • 分析孕妇运动与婴儿出生体重的关系

在这些研究中,使用双重稳健方法(尤其是结合机器学习的)通常能得到更可靠、偏差更小的估计结果。

在复杂、高维的流行病学数据中,结合机器学习的双重稳健估计方法(如TMLE、AIPW、DML)能更可靠地估计因果关系,减少模型设定错误带来的偏差,是未来因果推断的重要发展方向。

所以为什么要用机器学习开展因果推断,因为相较于常规方法,它更准确,结果更可靠。

关于郑老师团队及公众号

【因果推断与机器学习】未来医学科研的大势所趋

临床、护理、公卫的朋友们,2026年,将是诸位因果推断方法革新的一年。郑老师团队推出“因果推断与机器学习”训练营,丰富的因果推断方法教学,课程理论结合R语言实操,覆盖从基础到进阶的完整链条,欢迎参加!

模块一:理论

1.流行病任务与因果推断;2.因果推断与偏倚控制

模块二:回归与G方法

3.回归的方法及其应用;4.G方法及实践

模块三:倾向得分

5.倾向得分方法;6.倾向得分加权

模块四:机器学习

7.机器学习理论;8. 机器学习与 G方法;9.机器学习与倾向得分

模块五:双重稳健估计方法

10.双重稳健方法;11.双重机器学习

模块六:TMLE方法

12.TMLE 方法;13.机器学习与 TMLE方法

模块七:缺失数据填补与因果推断

14.缺失数据填补与机器学习;15.缺失数据填补后双重稳健估计

模块八:中介分析与因果中介

16.中介分析与因果中介;17.双重稳健估计下的中介分析

模块九:处理效应异质性分析

18.处理异质性分析方法;19.因果森林方法

报名训练营,请添加郑老师助教微信咨询(微信:aq566665)

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询