潮州市网站建设_网站建设公司_AJAX_seo优化
2026/1/9 17:21:45 网站建设 项目流程

群体遗传结构,作为群体遗传学的核心研究目标与关键产出,旨在揭示遗传变异在群体中的时空分布格局。在众多相关研究中,由系统发育树、主成分分析与ADMIXTURE等经典方法共同构成的整合分析图谱,已成为解码这一格局的“标准密码”(图1)。今天,我们将共同学习如何从重测序数据出发,一步步完成这份核心图谱的构建。

图1 群体遗传结构示例

图a系统发育树,观察各枝分布来判断群体的聚类情况。图b主成分分析,不同的颜色代表了不同的群体,观察不同颜色样本在坐标图中的位置来判断群体演化特征。图c交叉验证误差统计图,折线图最低点对应的X轴为最佳分群数。图d群体分层分析,不同颜色代表不同假设祖先群体,观察k为最佳分群数时的祖先来源构成,来推断样本的混杂或分化历史。

01 系统发育树

首先,我们通过系统发育分析来解析样本间的聚类情况。整个流程从遗传距离计算开始:我们使用VCF2Dis软件(https://github.com/BGI-shenzhen/VCF2Dis),它能基于包含样本数据的VCF文件,计算出标准化的群体间遗传距离矩阵(图2)。获得遗传距离矩阵后,可将其上传至在线工具FastME 2.0(http://www.atgc-montpellier.fr/fastme/),选择“Distance matrix”格式并设置相应参数,提交任务后即可通过邮件获取系统发育树文件(.nwk格式)。最后,将该文件导入iTOL在线平台(https://itol.embl.de/upload.cgi),即可对系统发育树进行查看、编辑与美化,从而直观展示群体间的遗传结构与聚类情况。

图2 VCF2Dis软件使用

02.主成分分析

虽然我们通过系统发育分析可以知道群体中的分群情况,但是系统发育分析却不能反映个体在宏观遗传空间中的位置。这个时候我们就需要利用主成分分析找出能最大程度解释遗传变异的前几个主成分,并将每个样本投射到这个由PC构成的二维/三维“地图”上。通过主成分分析可以知道群体主要的分化方向,是连续渐变还是离散聚类以及找群体中的离散个体(图3)。这个过程我们使用Plink计算主成分,使用R语言(https://posit.co/download/rstudio-desktop/)进行可视化绘图。

图3 主成分计算

图4 R语言绘图

03.群体分层分析

通过主成分分析与系统发育分析,我们已初步揭示了样本间的聚类关系与遗传分化格局。然而,这些方法尚不能回答一个更为本质的问题:这些个体究竟源自多少个潜在的祖先群体?为了追溯群体的混合历史并量化个体的祖先来源构成,我们需要借助群体分层分析。以ADMIXTURE为代表的方法,能够推断每个个体基因组中来源于K个假设祖先群体的比例,并通过交叉验证确定最优的K值。该分析对于发现隐蔽的遗传亚群、识别混合或异常个体具有关键作用。

图5 群体遗传分层分析

图6 admixture的结果文件

通过对系统发育、主成分与群体分层分析的综合解析,我们已对群体的遗传结构有了基本的认知。然而,这些初步结果尚未充分揭示群体内各组分之间的遗传差异程度、分化水平及其内在联系。因此,为深入理解群体结构与演化动态,后续有必要开展更为精细的遗传分析,如:群体遗传分化指数分析,遗传多样性分析以及基因流分析等等。这些分析将帮助我们更完整地刻画群体的遗传格局与演化历程。后续内容我们下次再一起学习。

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询