一文搞定参考基因组序列下载

生物信息学的分析很大一部分都是围绕序列展开，可以说序列分析催生了生物信息学。比如通过与参考基因组序列进行比对，检测各种变异；RNA-seq数据与参考基因组比对，进行定量。

给大家介绍如何下载某一个物种的参考基因组序列，分为浏览器版与命令行版2种方式。

通过NCBI的genome数据库下载。比如我要下载人类参考基因组序列，打开https://www.ncbi.nlm.nih.gov/genome ,在搜索框中输入human, 会出现很多关键词提示，我们选择第一个（这是human的双名法名字）如下图

image

点击搜索，返回的结果页面包括人基因组的各种基本信息，比如每一条染色体的大小、GC含量、基因数目、假基因数目、编码的蛋白质数目。当然我们的目的是下载参考基因组序列，其他信息先不管，结果页面最上面的部分显示了参考基因组的DNA，转录本，蛋白质三种类型的FASTA序列下载地址，如下所示

image

点击genome就可以下载了。细心的同学可能会问下载的基因组版本不是我想要的啊，的确，从这里下载的都是最新的版本。如果想要下载之前的版本，可以复制genome的链接地址，将地址后面两部分删除，即下面地址的黑色部分

ftp://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/000/001/405/GCF_000001405.39_GRCh38.p13/GCF_000001405.39_GRCh38.p13_genomic.fna.gz

得到的就是所有版本的目录，可以根据自己的需要进入不同版本的目录进行下载。

下载所有参考基因组组装情况的汇总信息：ftp://ftp.ncbi.nlm.nih.gov/genomes/ASSEMBLY_REPORTS/assembly_summary_refseq.txt

获取FTP下载地址并下载。这里根据物种的taxid取出FTP信息，human的taxid为9606，（每个物种都会有自己的taxid,可以去https://www.ncbi.nlm.nih.gov/taxonomy/搜索每个物种的taxid, 具体细节见文末）代码如下：

awk -F "\t" '$11=="latest" && $20~"^ftp:" && $7==9606{print $20}' assembly_summary_refseq.txt > 9606.txt

第一步：打开网址https://www.ncbi.nlm.nih.gov/taxonomy/

第二步：输入物种名，例如输入human得到结果如下：

image

第三步：点击上图箭头所指链接，打开新页面后。观察地址栏最后的id=9606。其他物种可以通过类似的步骤获取其taxid

image

欢迎关注公众号："生物信息学"