动脉粥样硬化作为心血管疾病的核心病理基础,斑块内细胞的复杂构成与相互作用一直是研究难点——这些细胞如何驱动斑块进展、不同阶段的细胞类型有何变化,至今仍有诸多未解之谜?
2025年9月10日,《Nature Communications》杂志发表了Matthias Heinig团队的研究成果,该团队通过整合约25万个细胞构建了人类动脉粥样硬化斑块的单细胞集成图谱。今天我们就来拆解一下这篇文章:Integrated single-cell atlas of human atherosclerotic plaques。
研究概述
该研究整合了12个公开的颈动脉、冠状动脉和股动脉的单细胞转录组(scRNA-Seq)数据集,构建了目前规模最大的人类动脉粥样硬化斑块细胞图谱。研究人员利用该图谱定义了斑块中中性粒细胞、巨噬细胞及内皮细胞的特异性亚群,并验证了纤维肌细胞在脉管系统中的特异性。此外,该图谱支持自动细胞类型注释、实验设计优化、批量RNA-seq数据解卷积等下游研究。
实验设计
研究团队首先收集了所有公开的人类斑块单细胞数据,并进行统一的预处理。通过基准测试,研究者选择了表现最优的scPoli算法来消除技术批次效应并保留生物学信号。随后,利用专家共识和表面蛋白测量值对细胞标注进行了正交验证后,构建最终图谱。最后,研究者将该图谱应用于样本量估算、组织间细胞比较以及大样本量批量数据的反卷积分析。
研究结果
•图 1:展示了从多中心数据收集、质量控制、算法筛选到参考图谱构建及下游应用的全过程工作流。
•图 2:展示了该图谱涵盖的各类斑块细胞及其特异性标志基因的表达模式。
•图 3:通过混淆矩阵对比,证明了预测标注与专家手动标注及表面蛋白测量值之间具有高度一致性。
•图 4:验证了将该图谱作为参考集时,对独立颈动脉数据集进行自动标注的准确率超过90%。
•图 5:利用scPower框架计算出在不同效应大小下,检测特定生物学通路差异基因所需的样本规模。
•图 6:反卷积分析显示早期病变中平滑肌细胞较多,而晚期斑块中促血管生成内皮细胞和泡沫巨噬细胞显著富集。
•图 7:跨器官比对发现,纤维肌细胞仅存在于脉管组织中,而泡沫巨噬细胞在肺部等组织中也有分布。
生信分析
scDblFinder
对各个样本进行独立的数据清洗,识别并标记单细胞测序中的双细胞。
celda
校正单细胞数据中的环境RNA污染,并保留计数原始值用于后续分析。
anndata
对单细胞数据进行拼接、存储和管理,支持多数据集的整合处理,保留基因表达矩阵及样本元数据。
scanpy
用于数据集读取、预处理及可视化,包括基因和细胞的过滤、表达矩阵转换及点图等图表绘制。
scran
进行数据标准化,通过计算大小因子对基因表达计数进行归一化,再进行log1p转换,为后续整合和聚类分析奠定基础。
scib-metrics
用于整合方法的基准测试,从批次校正和生物学信号保留两个维度的10个指标,评估不同整合方法的性能。
scVI、Harmony、LIGER、scANVI、scGen、scPoli、PCA
均为数据整合方法,通过构建潜在空间消除技术批次效应并保留生物学信号,经基准测试后选择scPoli作为最终整合工具。
scArches
采用迁移学习方法,将新的查询数据集映射到已建立的参考图谱上,实现自动标注。
Seurat
用于部分数据集(如Pauli et al.)的预处理,包括基因和细胞的过滤、标准化等步骤,确保数据质量。
BayesPrism
批量RNA-seq数据解卷积,以单细胞图谱为参考,结合细胞类型特异性基因表达特征,估算批量样本中各细胞类型的丰度。
scPower
结合图谱中的细胞频率和基因表达先验,估算单细胞实验设计中的统计效能。
Fastp
对批量RNA-seq数据进行适配器剪切和质量修剪,去除低质量序列,提升后续比对的准确性。
Salmon
对转录本进行定量分析,将修剪后的reads比对到GENCODE v40 GRCh38参考转录组,计算转录本表达水平。
tximeta
整合Salmon转录本定量结果与样本元数据,并将转录本水平定量汇总至基因水平,输入给后续分析。
FastQC、MultiQC
对数据进行质量评估,FastQC生成单样本的reads质量统计,MultiQC整合多样本质量数据,便于快速识别 outliers。
DESeq2
对批量数据进行差异表达分析,通过方差稳定转换后的计数进行PCA分析,检测样本 outliers。
compositions包
细胞丰度进行的中心化对数比(CLR)转换,消除成分数据的固有偏差,便于后续统计检验。
Leiden算法
进行细胞聚类分析,基于基因表达相似性将细胞分组,为细胞类型注释和亚型识别提供依据。
CELLxGENE
对整合后单细胞图谱进行存储与公开访问,提供标准化的数据展示和获取接口。
总结
研究意义
本研究构建了一个统一的人类动脉粥样硬化斑块参考框架,解决了现有数据集标注不一致和覆盖度不足的问题。该图谱识别出了中性粒细胞等在斑块中难以检测的稀有细胞,并揭示了内皮细胞亚群在病变进展中的演变规律。这为未来心血管研究提供了基准工具,也有助于发现新的疾病生物标志物和治疗靶点。
文章复现
这篇文章的原始数据和生信分析代码都公开了,非常全面,覆盖了从数据预处理、整合、注释、验证到下游功效分析、解卷积的全流程。
原始数据
•Supplementary Data 1;CELLxGENE portal 访问地址:https://cellxgene.cziscience.com/collections/db70986c-7d91-49fe-a399-a4730be394ac
•NCBI GEO编号:GSE155512, GSE159677, GSE179159, GSE210152, GSE224273, GSE234077, GSE247238, GSE253904, GSE131778, GSE184073, GSE196943
代码仓库
•https://github.com/heiniglab/reproducibility-plaque-atlas(doi:10.5281/zenodo.15389565)
•https://github.com/heiniglab/plaque-atlas-mapping(doi:10.5281/zenodo.15389569)
•https://github.com/matmu/plaque-atlas-mapping_docker
推荐阅读
中国银河生信云平台(UseGalaxy.cn)致力于零代码生信分析。平台拥有海量计算资源、3000 多个生信工具和数十条生信流程,并且为用户提供 200G 免费存储空间。进群交流请先加 usegalaxy 为好友。我们还为进阶用户提供高质量培训课程:
RNA-seq数据分析实战 | 2026年第1期,开启你的生信学习之旅