眉山市网站建设_网站建设公司_原型设计_seo优化
2026/1/8 19:22:29 网站建设 项目流程

文章目录

    • 介绍
    • 代码
    • 参考

介绍

利用 CONCORD 在单细胞数据集中揭示一致的细胞状态图谱 从单细胞数据中揭示潜在的细胞状态图谱需要克服批处理整合、去噪和降维等关键障碍。在此,我们提出了 CONCORD,这是一个统一的框架,能够在单个自监督模型中同时解决这些挑战。其核心是实施一种概率抽样策略,通过数据集感知抽样来纠正批处理效应,并通过硬负样本抽样来提高生物学分辨率。仅使用一个具有单个隐藏层的极简神经网络和对比学习,CONCORD 超越了最先进的性能,而不依赖于深度架构、辅助损失或外部监督。它无缝地整合了不同批次、技术甚至物种的数据,以生成高分辨率的细胞图谱。所得的潜在表示经过去噪处理,并具有生物学意义,能够捕捉基因共表达程序,揭示详细的细胞谱系轨迹,并保留局部几何关系和全局拓扑结构。我们展示了 CONCORD 在各种数据集上的广泛应用性,证明其具备作为通用框架的潜力,能够学习细胞身份和动态的统一且高保真的表示形式。

细胞会表达数千个基因,以执行特定功能并维持体内平衡。基因表达与复杂的基因调控网络以及细胞间的相互作用密切相关,这些因素共同作用,使细胞在高维基因表达空间中被限制在结构化、低维的“状态图谱”中1,2。单细胞技术的进步,尤其是单细胞 RNA 测序(scRNA-seq),使得能够对这一图谱进行实证描绘。新的证据表明,这些图谱可能包含多种特征——包括离散的簇、连续的轨迹、分支的树状结构和循环的转变——反映了细胞状态的潜在组织方式3,4。然而,这些特征的存在和排列通常事先未知,这凸显了需要能够稳健地捕捉其拓扑结构和几何形状的计算方法,以阐明发育、稳态和疾病进展的原理。
降维是一种表示学习的形式,常用于揭示细胞状态图谱的结构。通过将高维数据投影到低维空间,关键的结构模式变得更加易于可视化和分析。然而,诸如主成分分析(PCA)、非负矩阵分解(NMF)5 和因子分析6 等传统方法往往过分强调广泛的细胞类型差异,而忽略了细微的状态,还会将分化过程与细胞周期进程混淆。这些挑战因批次效应而加剧,批次效应是未被充分理解的技术变异来源,会掩盖或扭曲真实的生物信号。尽管已经开发出了一系列批次校正工具,如 Harmony7、Scanorama8、Seurat9、单细胞变分推理(scVI)10、基因组实验关系的关联推断(LIGER)11 和互近邻(MNN)12 等,但它们往往对技术变异的结构做出强假设,从而导致因过度校正或不足校正批次效应而产生的扭曲。此外,当应用于大规模的图谱级数据集时,许多方法都会出现扩展性问题。
在新兴的表示学习方法中,对比学习最近在单细胞分析领域展现出了良好的应用前景14、15、16、17、18、19、20。这些方法最初是为图像和自然语言处理等领域而开发的21、22、23,它们通过将相似的(“正例”)细胞与不同的(“负例”)细胞在小批量(训练过程中迭代采样的细胞子集)中进行比较来学习具有信息量的细胞表示。通过将每个细胞与其他细胞区分开来,模型学习到能够区分不同细胞状态的特征。同时,对同一细胞的增强版本(通常通过随机掩码生成)进行对齐,有助于模型捕捉稳健的基因共表达模式,而非依赖于单个基因的表达24。因此,所学习的表示具有内在的鲁棒性,能够抵御技术噪声和丢弃(单细胞数据集中常见的伪影25)等现象,从而改善诸如聚类和细胞类型分类等下游任务15、16、17。
然而,当前的对比方法存在根本性的局限性:有监督的方法需要大量的人工标注,并且难以推广到新的状态或连续的轨迹上(19, 20);而无监督的方法通常通过均匀采样来形成小批次(14, 15, 16, 17),这导致了两个主要的缺陷。首先,均匀采样强调的是广泛的差异(例如,主要的细胞类型),而对罕见的子群体或细微的差别则代表性不足,从而导致细粒度细胞状态的分辨率不佳。其次,在同一个小批次中混合来自不同数据集的细胞会放大数据集特有的技术差异——即所谓的“批次效应”——导致模型无意中编码这些伪影,而不是捕捉到具有生物学意义的变异。虽然涉及生成对抗网络17, 26, 27、通过反向传播进行的无监督域适应28 和条件变分自编码器(VAE)29 的策略试图减轻批次效应,但它们旨在最小化数据集特有的差异这一目标与对比学习旨在最大化不同细胞之间的差异这一目标相冲突。这常常会导致批次效应校正不完全,并可能对潜在空间造成扭曲。这一困境引发了这样一个问题:对比学习能否在最大程度上捕捉细胞的多样性,同时又能将批次效应降至最低。
在此,我们通过将对比学习的一个局限性(即其对小批量数据组合的敏感性)转化为一种优势,来解决这一开放性问题。我们的核心见解是,小批量数据的组合从根本上决定了对比学习的结果。我们引入了 CONCORD 这一框架,它重新定义了对比学习的过程。

代码

https://github.com/Gartner-Lab/Concord

参考

  • Revealing a coherent cell-state landscape across single-cell datasets with CONCORD
  • https://github.com/Gartner-Lab/Concord

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询