如何下载人类的参考基因组和注释文件

参考基因组概况

参考基因组下载的网站主要有3个NCBI,Ensembl,UCSC,一般参考基因组的.gz压缩文件文件大小为900M以上不超过950M,解压后大于等于3G.

如何下载人类的参考基因组和注释文件_第1张图片

                                                                              基因组的主要版本对应关系

参考基因组下载过程

UCSC下载参考基因组

网址:http://genome.ucsc.edu/

点击次序(->本网页点击;):dowloads->Genome Data>>Human->full data

如何下载人类的参考基因组和注释文件_第2张图片

如何下载人类的参考基因组和注释文件_第3张图片

nohup wget http://hgdownload.soe.ucsc.edu/goldenPath/hg19/bigZips/hg19.fa.gz &
gzip -d  hg19.fa.gz

 

基因组注释文件下载 

UCSC下载参考基因组注释

如何下载人类的参考基因组和注释文件_第4张图片

设置如上,点击get output开始下载

ncbi的数据参考基因组下载过程

一、网址:https://www.ncbi.nlm.nih.gov/genome/?term=human

该网址是在ncbi的以“human”为检索词搜索词检索genome数据库获得的,这可以在URL中看到,该方式是以http方式下载的文件。

如何下载人类的参考基因组和注释文件_第5张图片

二、ftp站点下载:https://ftp.ncbi.nih.gov/(需要控制参考基因组版本的话,可以采取该种方式,网站使用的一般是最新的基因组文件)

如何下载人类的参考基因组和注释文件_第6张图片如何下载人类的参考基因组和注释文件_第7张图片

记得需要的GCA_000001405序号

如何下载人类的参考基因组和注释文件_第8张图片如何下载人类的参考基因组和注释文件_第9张图片

https://ftp.ncbi.nih.gov/genomes/all/GCA/000/001/405/GCA_000001405.28_GRCh38.p13/

https://ftp.ncbi.nih.gov/genomes/all/GCA/000/001/405/在该步骤是可以选择版本的,在这里不描述,相信各位可以观察到具体是如何组织文件的。我们选择 的.p13,写这篇笔记的时候这个是最新的。

如何下载人类的参考基因组和注释文件_第10张图片

右击复制,可用于shell下用wget工具下载工具下载

#下载参考基因组
wget https://ftp.ncbi.nih.gov/genomes/all/GCA/000/001/405/GCA_000001405.28_GRCh38.p13/GCA_000001405.28_GRCh38.p13_genomic.fna.gz 
gzip -d GCA_000001405.28_GRCh38.p13_genomic.fna.gz 

#下载gff注释文件
wget https://ftp.ncbi.nih.gov/genomes/all/GCA/000/001/405/GCA_000001405.28_GRCh38.p13/GCA_000001405.28_GRCh38.p13_genomic.gff.gz
gzip -d GCA_000001405.28_GRCh38.p13_genomic.gff.gz

 提醒:一定要注意ncbi中URL中的规律,共勉

你可能感兴趣的:(如何下载人类的参考基因组和注释文件)