肇庆市网站建设_网站建设公司_Linux_seo优化-南通市网站建设公司

源自风暴统计网：一键统计分析与绘图的网站

机器学习（ML）已在医学研究中变得无处不在。

《欧洲流行病学杂志》发表了一篇题为“Machine learning in causal inference for epidemiology”的综述。这篇论文没有停留在“机器学习很强大”的泛泛之谈，而是系统回答了三个核心问题：

因果推断中，传统方法为什么不够用？
机器学习如何“助攻”因果推断？
三类“双重稳健”方法：因果推断更可靠

因果推断中，传统方法为什么不够用？

参数模型的使用非常流行，这要归功于它们的简单性和有用的渐近特性，这些特性允许构造置信区间和假设检验。然而，传统方法为什么不够用？

依赖强假设：传统模型需要预设变量之间的关系（如线性、逻辑形式），一旦假设错误，结论就可能失真。一个例子是使用逻辑回归来估计倾向得分：它限制了暴露和混杂因素之间的关系类型，假设暴露的对数概率由协变量的线性组合适当地描述。
高维数据难处理：面对基因、环境、行为等多维度数据，传统模型容易“过拟合”或“欠拟合”。
模型灵活性差：现实世界中的因果关系往往是复杂、非线性的，传统参数模型难以捕捉。

机器学习如何“助攻”因果推断？

先进技术和数据收集方法的出现导致研究的复杂性增加，迫使研究人员更频繁地使用高维数据。与此同时，机器学习（ML）技术的使用也在增加，因为它们能够从数据中学习模式和关系，而无需为每种情况显式编程。

迄今为止，流行病学中的ML算法主要用于执行预测任务，例如疾病诊断、患者预后或治疗反应。机器学习算法擅长从数据中学习复杂的模式，允许分析师根据可用信息生成准确的预测。

在流行病学研究中越来越多地使用ML引发了人们对因果推断的兴趣，其目标是在感兴趣的关系上得出因果结论。在这种情况下，研究人员的目标是定义一个因果估计，代表他们想要估计的数量，然后建立必要的假设，通过一个被称为识别的过程，用观察到的数据来表达它。此后，重点转移到估计和推断任务。

使用观察性数据进行因果推断的一个主要风险是混杂因素的存在。

常见的混杂调整技术包括多变量回归模型、倾向评分法和g-方法。所有这些方法通常都采用参数模型。然而，参数模型依赖于正确的模型规范，这在高维数据的背景下可能特别具有挑战性。例如，在遗传流行病学中，研究人员经常处理包含数千种遗传变异信息的数据集，旨在捕捉遗传因素和环境暴露之间复杂的相互作用，以了解它们对疾病风险的综合影响。在环境流行病学中，测量空气污染、水污染物和工业毒素等环境暴露对健康结果的共同影响至关重要。在这些情况下，不需要指定变量之间关系的函数形式的ML方法可以充分发挥其潜力，减少由模型错误指定引起的偏倚。

机器学习的优势在于：

不预设关系形式：机器学习（如随机森林、神经网络）能从数据中自动学习模式，适合处理复杂关系。
擅长处理高维数据：通过正则化、集成学习等方法，机器学习能在保持预测能力的同时避免过拟合。
提升预测精度：更准确的预测意味着更可靠的因果估计基础。

但这里有一个关键区别：优秀的预测能力不等于因果识别能力。

举个例子，机器学习模型可能发现“携带打火机”与“肺癌”高度相关，但这显然是混淆因素（吸烟）造成的结果，而非原因。

真正的突破发生在研究者开始思考：如何既利用机器学习的灵活性，又保持因果推断的严谨性？

三类“双重稳健”方法：因果推断更可靠

近年来，利用机器学习高效性的因果效应估计方法已被提出。这些方法融合了因果推断与机器学习这两种看似迥异的视角，使二者能够优势互补。

将机器学习方法融入因果效应估计，可凭借其灵活性和近似复杂函数、处理交互作用与非线性关系的能力，避免函数形式限制，从而弱化模型设定正确性的假设。

本文推荐三种最常用于因果推断研究的双重稳健估计：增强逆概率加权（AIPW）、双重/去偏机器学习（DML）和目标最大似然估计（TMLE）。

它们都叫“双重稳健”，意思是：只要暴露模型或结果模型中有一个是对的，估计结果就是可信的。

为什么叫“双重稳健”？

传统方法只依赖一个模型（比如只依赖倾向得分或只依赖结果模型），一旦模型错，结果就错。
双重稳健方法同时用两个模型，给研究者“两次机会”，提高了估计的稳定性。

论文举了不少流行病学中的应用例子，比如：

评估不同癌症治疗方式（放疗 vs 放化疗）对死亡率的影响
研究母乳喂养时间对婴儿胃肠道感染的影响
分析孕妇运动与婴儿出生体重的关系

在这些研究中，使用双重稳健方法（尤其是结合机器学习的）通常能得到更可靠、偏差更小的估计结果。

在复杂、高维的流行病学数据中，结合机器学习的双重稳健估计方法（如TMLE、AIPW、DML）能更可靠地估计因果关系，减少模型设定错误带来的偏差，是未来因果推断的重要发展方向。

所以为什么要用机器学习开展因果推断，因为相较于常规方法，它更准确，结果更可靠。

关于郑老师团队及公众号

【因果推断与机器学习】未来医学科研的大势所趋

临床、护理、公卫的朋友们，2026年，将是诸位因果推断方法革新的一年。郑老师团队推出“因果推断与机器学习”训练营，丰富的因果推断方法教学，课程理论结合R语言实操，覆盖从基础到进阶的完整链条，欢迎参加！

模块一：理论

1.流行病任务与因果推断；2.因果推断与偏倚控制

模块二：回归与G方法

3.回归的方法及其应用；4.G方法及实践

模块三：倾向得分

5.倾向得分方法；6.倾向得分加权

模块四：机器学习

7.机器学习理论；8. 机器学习与 G方法；9.机器学习与倾向得分

模块五：双重稳健估计方法

10.双重稳健方法；11.双重机器学习

模块六：TMLE方法

12.TMLE 方法；13.机器学习与 TMLE方法

模块七：缺失数据填补与因果推断

14.缺失数据填补与机器学习；15.缺失数据填补后双重稳健估计

模块八：中介分析与因果中介

16.中介分析与因果中介；17.双重稳健估计下的中介分析

模块九：处理效应异质性分析

18.处理异质性分析方法；19.因果森林方法

报名训练营，请添加郑老师助教微信咨询（微信：aq566665）

肇庆市网站建设_网站建设公司_Linux_seo优化

机器学习如何“助攻”因果推断？

三类“双重稳健”方法：因果推断更可靠

热门文章

文章分类

标签云

需要专业的网站建设服务？

肇庆市网站建设_网站建设公司_Linux_seo优化

机器学习如何“助攻”因果推断？

三类“双重稳健”方法：因果推断更可靠

热门文章

文章分类

标签云

相关文章

Wan2.2-TI2V-5B视频生成模型部署与应用深度解析

Charticulator终极指南：零基础打造专业级交互图表

终极免费神器：knowledge-grab让教育资源下载变得如此简单

需要专业的网站建设服务？