数据库 | NCBI nt nt tax, uniprot, 物种基因组获取

导读

记录常用的NCBI数据库,方便查询。

一、NCBI库

1 下载基因组

1.1 方法: NCBI ftp genome download
1.2 reviewed genome完整列表:ftp://ftp.ncbi.nlm.nih.gov/genomes/ASSEMBLY_REPORTS/

1.3 基因组信息
下载名称:GCF_000063585.1_ASM6358v1_genomic.fna
序列信息:>NC_009495.1 Clostridium botulinum A str. ATCC 3502, complete genome

2 物种参考基因组

完整基因组 + 不完整基因组
ftp://ftp.ncbi.nlm.nih.gov/genomes/refseq/

3 NCBI_nt库

mkdir NCBI_nt
cd  NCBI_nt
wget -c "ftp://ftp.ncbi.nlm.nih.gov/blast/db/nt.*.tar.gz"
for a in nt.*.tar.gz; do tar xzf $a; done

wget -c "ftp://ftp.ncbi.nlm.nih.gov/blast/db/v4/nt_v4.*.tar.gz"
# Note: if you are using a more recent blast verions (beyond v2.6) 
# you will need a the newer database format

4 NCBI_nr库

wget -c ftp://ftp.ncbi.nih.gov/blast/db/nr.*.tar.gz
# 下载blast格式化nr库,比直接下载更方便
/home/cheng/softwares/ncbi-blast-2.10.0+-src/c++/ReleaseMT/bin/blastdbcmd -db nr -entry all -dbtype prot -out test.fa
# 用blast中的blastdbcmd功能从nr blast库提取fasta

5 NCBI taxonomy库

mkdir NCBI_tax
cd NCBI_tax
wget ftp://ftp.ncbi.nlm.nih.gov/pub/taxonomy/taxdump.tar.gz
tar -xvf taxdump.tar.gz

二、其他数据库

1 ucsc human genome hg38

mkdir BMTAGGER_INDEX
cd BMTAGGER_INDEX
wget ftp://hgdownload.soe.ucsc.edu/goldenPath/hg38/chromosomes/*fa.gz
gunzip *fa.gz
cat *fa > hg38.fa
rm chr*.fa

2 ensemble mouse genome
https://github.com/ParkinsonLab/Metatranscriptome-Workshop

wget ftp://ftp.ensembl.org/pub/current_fasta/mus_musculus/cds/Mus_musculus.GRCm38.cds.all.fa.gz
gzip -d Mus_musculus.GRCm38.cds.all.fa.gz
mv Mus_musculus.GRCm38.cds.all.fa mouse_cds.fa

3 uniprot50 90 100
https://ftp.expasy.org/databases/uniprot/current_release/uniref/

2020.9.10更新

你可能感兴趣的:(数据库 | NCBI nt nt tax, uniprot, 物种基因组获取)