生信流程搭建(二)Ensembl数据库下载常用参考序列与对应的gtf文件、MT文件

在下载参考序列的时候遇到了很多大坑,对于一些不理解的版本信息,极力推荐去官网的ftp下载目录中查看Readme文档

一、下载参考序列fasta及注释文件gtf、线粒体MT

人类基因组版本对应关系

NCBI Ensembl UCSC
GRCh36 release_52 hg18
GRCh37 release_59/61/64/68/69/75 hg19
GRCh38 release_76/77/78/80/81/82 hg38

GFF(general feature format):这种格式主要是用来注释基因组。 现大部分利用的是第三版,即gff3。

GTF(gene transfer format):主要是用来对基因进行注释。当前所广泛使用的gtf格式为第二版,即gtf2 。

以homo sapiens为例,https://asia.ensembl.org/Homo_sapiens/Info/Index可以查看现有的基因版本和一些配套的信息。

基因组各种版本对应关系:http://www.bio-info-trainee.com/1469.html
常见基因组下载完毕后如下大小:

常见基因组下载完毕后的大小

1.1 下载ftp地址(2019/10/29)

# 人类homo GRCh38
wget ftp://ftp.ensembl.org/pub/release-98/fasta/mus_musculus/dna/Mus_musculus.GRCm38.dna.primary_assembly.fa.gz
wget ftp://ftp.ensembl.org/pub/release-98/gtf/homo_sapiens/Homo_sapiens.GRCh38.98.gtf.gz
wget ftp://ftp.ensembl.org/pub/release-98/fasta/homo_sapiens/dna/Homo_sapiens.GRCh38.dna.chromosome.MT.fa.gz

# 人类homo hg19
wget ftp://ftp.ensembl.org/pub/grch37/release-98/fasta/homo_sapiens/dna/Homo_sapiens.GRCh37.dna.primary_assembly.fa.gz
wget ftp://ftp.ensembl.org/pub/grch37/release-98/gtf/homo_sapiens/Homo_sapiens.GRCh37.87.gtf.gz
wget ftp://ftp.ensembl.org/pub/grch37/release-98/fasta/homo_sapiens/dna/Homo_sapiens.GRCh37.dna.chromosome.MT.fa.gz

# 小鼠musculus GRCm38
wget ftp://ftp.ensembl.org/pub/release-98/fasta/mus_musculus/dna/Mus_musculus.GRCm38.dna.primary_assembly.fa.gz
wget ftp://ftp.ensembl.org/pub/release-98/gtf/mus_musculus/Mus_musculus.GRCm38.98.gtf.gz
wget ftp://ftp.ensembl.org/pub/release-98/fasta/mus_musculus/dna/Mus_musculus.GRCm38.dna.chromosome.MT.fa.gz

# 大鼠 Rattus_norvegicus
wget ftp://ftp.ensembl.org/pub/release-98/fasta/rattus_norvegicus/dna/Rattus_norvegicus.Rnor_6.0.dna.toplevel.fa.gz
wget ftp://ftp.ensembl.org/pub/release-98/gtf/rattus_norvegicus/Rattus_norvegicus.Rnor_6.0.98.gtf.gz
wget ftp://ftp.ensembl.org/pub/release-98/fasta/rattus_norvegicus/dna/Rattus_norvegicus.Rnor_6.0.dna.chromosome.MT.fa.gz

# 斑马鱼 Danio_rerio.GRCz11
wget ftp://ftp.ensembl.org/pub/release-98/fasta/danio_rerio/dna/Danio_rerio.GRCz11.dna.primary_assembly.fa.gz
wget ftp://ftp.ensembl.org/pub/release-98/gtf/danio_rerio/Danio_rerio.GRCz11.98.gtf.gz
wget ftp://ftp.ensembl.org/pub/release-98/fasta/danio_rerio/dna/Danio_rerio.GRCz11.dna.chromosome.MT.fa.gz

# 拟南芥 Arabidopsis_thaliana
wget ftp://ftp.ensemblgenomes.org/pub/plants/release-45/fasta/arabidopsis_thaliana/dna/Arabidopsis_thaliana.TAIR10.dna.toplevel.fa.gz
wget ftp://ftp.ensemblgenomes.org/pub/plants/release-45/gtf/arabidopsis_thaliana/Arabidopsis_thaliana.TAIR10.45.gtf.gz
wget ftp://ftp.ensemblgenomes.org/pub/plants/release-45/fasta/arabidopsis_thaliana/dna/Arabidopsis_thaliana.TAIR10.dna.chromosome.Mt.fa.gz

参考文章

  • gff/gtf格式
  • 参考基因组及注释文件下载

更多关于生物信息数据库和版本选择的文章

  • 高通量测序数据处理学习记录(零):NGS分析如何选择合适的参考基因组和注释文件
  • 坑队友系列:ftp协议下载ensembl参考基因组
  • Ensembl和NCBI基因组下载,基因序列下载查看
  • Ensembl和NCBI基因组下载,基因序列下载查看
  • 【测序实验】如何从UCSC、RefSeq、Ensembl中下载参考基因组序列

你可能感兴趣的:(生信流程搭建(二)Ensembl数据库下载常用参考序列与对应的gtf文件、MT文件)