嘉峪关市网站建设_网站建设公司_Redis_seo优化
2026/1/19 15:18:11 网站建设 项目流程

3 Questions: On biology and medicine’s “data revolution”

Caroline Uhler是麻省理工学院的Andrew (1956) and Erna Viterbi工程学教授,同时也是某研究所的电气工程与计算机科学教授,以及某中心(隶属于某机构)的主任。Uhler对科学家揭示生物系统因果关系的所有方法都感兴趣,范围从观测变量的因果发现到因果特征学习与表征学习。在这次访谈中,她讨论了生物学中的机器学习、亟待解决的问题领域,以及某中心正在开展的前沿研究。

问:某中心围绕四个自然的生物组织层次(蛋白质、细胞、组织和生物体)设立了四个重点研究领域。在当前机器学习的发展背景下,是什么使得现在正是解决这些特定问题类别的恰当时机?

生物学和医学目前正在经历一场“数据革命”。大规模、多样化数据集的可用性——从基因组学、多组学到高分辨率成像和电子健康记录——使得现在成为一个绝佳时机。廉价且准确的DNA测序已成为现实,先进的分子成像变得常规,单细胞基因组学则能够对数百万个细胞进行分析。这些创新——以及它们产生的大规模数据集——已经将我们带到了一个生物学新时代的门槛。在这个时代,我们将能够超越描述生命的单元(如所有蛋白质、基因和细胞类型),转而理解“生命程序”,例如基因回路和细胞间通讯的逻辑(这些逻辑构成了组织模式的基础),以及构成基因型-表型图的分子机制。

与此同时,在过去十年中,机器学习取得了显著进展,像BERT、GPT-3和ChatGPT这样的模型在文本理解和生成方面展示了先进能力,而视觉Transformer和多模态模型(如CLIP)已在图像相关任务中达到人类水平的表现。这些突破提供了强大的架构蓝图和训练策略,可以适用于生物数据。例如,Transformer可以像处理语言一样对基因组序列进行建模,而视觉模型可以分析医学和显微镜图像。

重要的是,生物学不仅有望成为机器学习的受益者,也将成为新的机器学习研究的重要灵感来源。就像农业和育种催生了现代统计学一样,生物学也有可能激发新的、甚至更深刻的机器学习研究方向。与推荐系统和互联网广告等领域不同(在这些领域中没有自然法则需要发现,预测准确性是最终的价值衡量标准),在生物学中,现象是可物理解释的,因果机制才是最终目标。此外,生物学拥有遗传和化学工具,能够在扰动筛选方面达到其他领域无法比拟的规模。这些结合的特点使得生物学既特别适合从机器学习中极大地受益,也适合作为其深刻的灵感源泉。

问:换个角度,哪些生物学问题仍然对我们目前的工具集有很强的抵抗性?是否存在一些领域,也许是疾病或健康方面的具体挑战,您认为已经成熟到可以解决问题了?

机器学习在预测任务方面表现出色,例如图像分类、自然语言处理和临床风险建模。然而,在生物科学中,预测准确性往往是不够的。这些领域的根本问题本质上是因果性的:对特定基因或通路的扰动如何影响下游细胞过程?干预导致表型变化的机制是什么?主要针对从观察数据中捕捉统计关联而优化的传统机器学习模型,往往无法回答此类干预性查询。

生物学和医学领域也迫切需要激发机器学习在基础理论上的新发展。该领域现在拥有高通量扰动技术——如集合CRISPR筛选、单细胞转录组学和空间谱分析——这些技术能在系统性干预下生成丰富的数据集。这些数据模态自然呼唤超越模式识别、支持因果推断、主动实验设计以及在具有复杂、结构化潜在变量的环境中进行表征学习的模型发展。从数学角度来看,这需要解决可识别性、样本效率以及组合、几何和概率工具集成等核心问题。我相信,应对这些挑战不仅将释放对细胞系统机制的新见解,也将推动机器学习的理论边界。

关于基础模型,该领域的一个共识是,我们距离创建一个横跨多个尺度的、类似语言领域中ChatGPT所代表的、能够模拟所有生物现象的数字生物体式的整体生物学基础模型还很遥远。尽管新的基础模型几乎每周都在涌现,但这些模型迄今为止都专注于特定尺度和问题,并且聚焦于一种或几种模态。

在根据蛋白质序列预测其结构方面已经取得了重大进展。这一成功突显了迭代性机器学习挑战(如CASP)的重要性,这些挑战在基准测试蛋白质结构预测的最先进算法并推动其改进方面发挥了重要作用。

某中心正在组织一些挑战,以提高机器学习领域的认识,并在开发解决因果预测问题的方法上取得进展,这对于生物医学科学至关重要。随着单基因扰动在单细胞水平数据的可用性增加,我相信预测单个或组合扰动的效果,以及哪些扰动可以驱动期望的表型,是可能解决的问题。通过我们的细胞扰动预测挑战(CPPC),我们的目标是提供客观测试和基准测试预测新扰动效果的算法的手段。

另一个该领域已取得显著进展的领域是疾病诊断和患者分流。机器学习算法可以整合不同来源的患者信息(数据模态),生成缺失的模态,识别我们可能难以发现的模式,并帮助根据疾病风险对患者进行分层。虽然我们必须对模型预测中潜在的偏见、模型学习“捷径”而非真正相关性以及在临床决策中自动偏差的风险保持警惕,但我相信这是机器学习已经产生重大影响的领域。

问:我们来谈谈最近从某中心传出的一些头条新闻。您认为人们应该对哪些当前的研究特别感到兴奋,为什么?

在与某机构的Dr. Fei Chen合作中,我们最近开发了一种用于预测未知蛋白质亚细胞定位的方法,称为PUPS。许多现有方法只能根据它们所训练的特定蛋白质和细胞数据进行预测。然而,PUPS结合了蛋白质语言模型和图像修复模型,以同时利用蛋白质序列和细胞图像。我们证明了蛋白质序列输入能够泛化到未知蛋白质,而细胞图像输入能够捕捉单细胞变异性,从而实现细胞类型特异性的预测。该模型学习每个氨基酸残基对于预测的亚细胞定位有多重要,并且可以预测由于蛋白质序列突变而导致的定位变化。由于蛋白质的功能与其亚细胞定位严格相关,我们的预测可能为潜在疾病机制提供见解。未来,我们旨在扩展此方法,以预测细胞中多个蛋白质的定位,并可能理解蛋白质-蛋白质相互作用。

我们与苏黎世联邦理工学院的长期合作者G.V. Shivashankar教授此前已经展示了,当与机器学习算法结合时,用荧光DNA嵌入染料染色以标记染色质的简单细胞图像,如何能提供大量关于细胞在健康和疾病状态下状态和命运的信息。最近,我们进一步深化了这一观察,并通过开发Image2Reg方法证明了染色质组织与基因调控之间的深层联系,该方法能够从染色质图像中预测未知的基因或化学扰动基因。Image2Reg利用卷积神经网络来学习受扰动细胞染色质图像的信息表征。它还采用图卷积网络创建基因嵌入,该嵌入根据蛋白质-蛋白质相互作用数据,并结合细胞类型特异性转录组数据,捕捉基因的调控效应。最后,它学习了由此产生的细胞的物理和生化表征之间的映射,使我们能够基于染色质图像预测被扰动的基因模块。

此外,我们最近最终确定了一种用于预测未知组合基因扰动结果并识别扰动基因之间发生的相互作用类型的方法。MORPH可以指导设计针对“实验室循环”实验的最具信息性的扰动。此外,基于注意力的框架理论上使我们的方法能够识别基因之间的因果关系,从而为潜在的基因调控程序提供见解。最后,由于其模块化结构,我们可以将MORPH应用于以各种模态测量的扰动数据,不仅包括转录组学,还包括成像。我们对这种方法在高效探索扰动空间、通过将因果理论与重要应用联系起来以促进我们对细胞程序理解的潜力感到非常兴奋。这对于基础研究和治疗应用都具有重要意义。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询