咸阳市网站建设_网站建设公司_字体设计_seo优化
2025/12/20 20:15:24 网站建设 项目流程

三、下载参考基因组

常用参考基因组数据库:

  • Ensembl(人、动物):https://ftp.ensembl.org/pub/
  • EnsemblGenomes(植物、细菌、真菌、其他):https://ftp.ensemblgenomes.org/pub/
  • NCBI:https://ftp.ncbi.nih.gov/genomes/
  • UCSC:ftp://hgdownload.cse.ucsc.edu/

Ensembl的使用

(1)选择最新的release image

(2)fasta/ image

(3)选择物种image

(4)选择数据 image

1. 基因组下载

人的基因组序列image

  • 未知所属染色体的基因:Homo_sapiens.GRCh38.dna.nonchromosomal.fa.gzimage
  • 全基因组的两个版本:primary_assembly​(多数分析使用)、toplevel
    image
  • 替换重复序列(一般不用,用完整的)。
    rm(Repeat-Masked)(重复序列屏蔽):重复序列小写、非重复序列大写
    image
    sm(Separate Molecules)(独立分子):从主序列中分离出来的特定序列集合。需要专门研究替代单倍型,或者您只需要某一条特定染色体的序列时,才需要下载这些文件。
    image

2. 基因注释下载

gff→gff2→gff3格式:人读友好,机器不方便

gtf格式:推荐

  • 预测,未实验验证:abinitio
  • 染色体基因:chr(一般下载这个)
  • 未在染色体基因:chr_patch_hapl

image

gff格式

第一行:基因

  1. 序列ID:染色体编号/contig编号
  2. 注释来源(预测程序/数据库):maker
  3. 序列类型:gene
  4. 起始位置:2652107
  5. 结束位置:2657465
  6. 得分:没有得分用“.”表示
  7. 链:-(负链)、+(正链)、.(链不确定或无关)
  8. 相位:仅对CDS特征有效,表示起始密码子的相位,可以是0、1、2。0表示该特征起始于密码子的第一个碱基,1表示第二个碱基,2表示第三个碱基。对于非CDS特征,用"."表示。
  9. 属性:以键值对的形式提供特征的额外信息,键值对之间用分号分隔。基因编号:HF00001
    ID:特征的唯一标识符。
    Name:特征的可读名称,不一定唯一。
    Parent:表示父特征的ID,用于建立特征之间的层次关系。例如,一个exon的Parent可能是其所在的mRNA。
    其他自定义键,如Note、Dbxref等。

第二行:mRNA可变剪接

  • mRNA编号:HF00001-RA

image

3. gff3转换为gtf

gffread -T HFTH1.gene.gff3 -o applegene.gtf
//gffread安装到官网下载,解压,添加环境变量
//不支持.gz格式,要解压成.gff3

gtf格式:无gene行,无parent信息,直接指明转录本所属mRNA、基因ID

image

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询