如何从NCBI下载基因组序列和注释文件并统计基因个数

从NCBI下载一个物种的基因组文件。假设我们要下载一个叫做Tetranychus urticae的物种,首先在NCBI上genome中搜索Tetranychus urticae。得到如下截图:


如何从NCBI下载基因组序列和注释文件并统计基因个数_第1张图片
image.png

然后复制genome和gff的下载地址
在xshell中下载,命令如下

wget -c ftp://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/000/239/435/GCF_000239435.1_ASM23943v1/GCF_000239435.1_ASM23943v1_genomic.fna.gz

wget -c ftp://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/000/239/435/GCF_000239435.1_ASM23943v1/GCF_000239435.1_ASM23943v1_genomic.gff.gz

解压:

gunzip GCF_000239435.1_ASM23943v1_genomic.fna.gz

gunzip GCF_000239435.1_ASM23943v1_genomic.gff.gz

查看gff文件

less -S GCF_000239435.1_ASM23943v1_genomic.gff
如何从NCBI下载基因组序列和注释文件并统计基因个数_第2张图片
image.png

可以看出关于基因信息在第三列,统计该物种注释出的基因数目:

cut -f3 GCF_000239435.1_ASM23943v1_genomic.gff|grep  'gene'|grep -v 'pseudogene'|wc -l

***pseudogene并不是我们想要的,因此,在上述命令中我把它去除了。

你可能感兴趣的:(如何从NCBI下载基因组序列和注释文件并统计基因个数)