三、下载参考基因组
常用参考基因组数据库:
- Ensembl(人、动物):https://ftp.ensembl.org/pub/
- EnsemblGenomes(植物、细菌、真菌、其他):https://ftp.ensemblgenomes.org/pub/
- NCBI:https://ftp.ncbi.nih.gov/genomes/
- UCSC:ftp://hgdownload.cse.ucsc.edu/
Ensembl的使用
(1)选择最新的release ![]()
(2)fasta/ ![]()
(3)选择物种![]()
(4)选择数据 
1. 基因组下载
人的基因组序列
- 未知所属染色体的基因:Homo_sapiens.GRCh38.dna.nonchromosomal.fa.gz

- 全基因组的两个版本:primary_assembly(多数分析使用)、toplevel

- 替换重复序列(一般不用,用完整的)。
rm(Repeat-Masked)(重复序列屏蔽):重复序列小写、非重复序列大写
sm(Separate Molecules)(独立分子):从主序列中分离出来的特定序列集合。需要专门研究替代单倍型,或者您只需要某一条特定染色体的序列时,才需要下载这些文件。
2. 基因注释下载
gff→gff2→gff3格式:人读友好,机器不方便
gtf格式:推荐
- 预测,未实验验证:abinitio
- 染色体基因:chr(一般下载这个)
- 未在染色体基因:chr_patch_hapl

gff格式
第一行:基因
- 序列ID:染色体编号/contig编号
- 注释来源(预测程序/数据库):maker
- 序列类型:gene
- 起始位置:2652107
- 结束位置:2657465
- 得分:没有得分用“.”表示
- 链:
-(负链)、+(正链)、.(链不确定或无关) - 相位:仅对CDS特征有效,表示起始密码子的相位,可以是0、1、2。0表示该特征起始于密码子的第一个碱基,1表示第二个碱基,2表示第三个碱基。对于非CDS特征,用"."表示。
- 属性:以键值对的形式提供特征的额外信息,键值对之间用分号分隔。基因编号:HF00001
ID:特征的唯一标识符。
Name:特征的可读名称,不一定唯一。
Parent:表示父特征的ID,用于建立特征之间的层次关系。例如,一个exon的Parent可能是其所在的mRNA。
其他自定义键,如Note、Dbxref等。
第二行:mRNA可变剪接
- mRNA编号:HF00001-RA

3. gff3转换为gtf
gffread -T HFTH1.gene.gff3 -o applegene.gtf
//gffread安装到官网下载,解压,添加环境变量
//不支持.gz格式,要解压成.gff3
gtf格式:无gene行,无parent信息,直接指明转录本所属mRNA、基因ID
