一文搞定参考基因组序列下载

生物信息学的分析很大一部分都是围绕序列展开,可以说序列分析催生了生物信息学。比如通过与参考基因组序列进行比对,检测各种变异;RNA-seq数据与参考基因组比对,进行定量。

给大家介绍如何下载某一个物种的参考基因组序列,分为浏览器版与命令行版2种方式。

浏览器版

通过NCBI的genome数据库下载。比如我要下载人类参考基因组序列,打开https://www.ncbi.nlm.nih.gov/genome ,在搜索框中输入human, 会出现很多关键词提示,我们选择第一个(这是human的双名法名字)如下图

image

点击搜索,返回的结果页面包括人基因组的各种基本信息,比如每一条染色体的大小、GC含量、基因数目、假基因数目、编码的蛋白质数目。当然我们的目的是下载参考基因组序列,其他信息先不管,结果页面最上面的部分显示了参考基因组的DNA,转录本,蛋白质三种类型的FASTA序列下载地址,如下所示

image

点击genome就可以下载了。细心的同学可能会问下载的基因组版本不是我想要的啊,的确,从这里下载的都是最新的版本。如果想要下载之前的版本,可以复制genome的链接地址,将地址后面两部分删除,即下面地址的黑色部分

ftp://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/000/001/405/GCF_000001405.39_GRCh38.p13/GCF_000001405.39_GRCh38.p13_genomic.fna.gz

得到的就是所有版本的目录,可以根据自己的需要进入不同版本的目录进行下载。

命令行版

第一步:

下载所有参考基因组组装情况的汇总信息:ftp://ftp.ncbi.nlm.nih.gov/genomes/ASSEMBLY_REPORTS/assembly_summary_refseq.txt

第二步:

获取FTP下载地址并下载。这里根据物种的taxid取出FTP信息,human的taxid为9606,(每个物种都会有自己的taxid,可以去https://www.ncbi.nlm.nih.gov/taxonomy/搜索每个物种的taxid, 具体细节见文末)代码如下:

awk -F "\t" '$11=="latest" && $20~"^ftp:" && $7==9606{print $20}' assembly_summary_refseq.txt > 9606.txt 

****如何查找一个物种的taxid

第一步:打开网址https://www.ncbi.nlm.nih.gov/taxonomy/

第二步:输入物种名,例如输入human得到结果如下:

image

第三步:点击上图箭头所指链接,打开新页面后。观察地址栏最后的id=9606。其他物种可以通过类似的步骤获取其taxid

image

欢迎关注公众号:"生物信息学"

你可能感兴趣的:(一文搞定参考基因组序列下载)