NCBI 子数据库SRA/EMBL子数据库ENA的高级检索及数据下载

参考:https://www.jianshu.com/p/cf0a7b937413
NCBI 子数据库SRA是存储高通量原始测序数据的数据库,发测序类文章,审稿人都会要求你在NCBI提交原始测序数据,有助于后续有人继续分析,因为基因注释是不断更新的,也就是说不断有新的基因被发现,特别是非模式物种。

一、检索

1.1 SRA数据库

Sequence Read Archive
https://www.ncbi.nlm.nih.gov/sra/?term=
点击* Advanced

Fig1.PNG

如果有很多测序数据情况下,高级检索可以更快速找到所需要的测序数据,

1.1.1 高级检索

NCBI 子数据库SRA/EMBL子数据库ENA的高级检索及数据下载_第1张图片
Fig2.PNG

Layout:单端或双端测序
Organism:物种名称(拉丁文)
Platform:"abi solid"或"bgiseq","illumina"(二代),"oxford nanopore","pacbio smrt"
Source:"transcriptomic","metatranscriptomic"(宏转录组)"genomic"(宏基因组)
Strategy:"amplicon"扩增子,"rna seq","mirna seq"
Show index list

1.1.2 结果

NCBI 子数据库SRA/EMBL子数据库ENA的高级检索及数据下载_第2张图片
Fig3.PNG

这些数据可以直接下载,但如果是双端测序数据,这种下载方式得到的后缀名为gz的文件其实是两个文件。数据量小可以去 https://usegalaxy.org/拆分,数据量大使用fastp拆分。

1.2 ENA数据库

European Nucleotide Archivehttps://www.ebi.ac.uk/ena

NCBI 子数据库SRA/EMBL子数据库ENA的高级检索及数据下载_第3张图片
Fig4.PNG

点击 Advanced

1.2.1 高级检索

NCBI 子数据库SRA/EMBL子数据库ENA的高级检索及数据下载_第4张图片
Fig5.PNG
NCBI 子数据库SRA/EMBL子数据库ENA的高级检索及数据下载_第5张图片
Fig6.PNG

1.2.2 结果

NCBI 子数据库SRA/EMBL子数据库ENA的高级检索及数据下载_第6张图片
Fig7.PNG

NCBI 子数据库SRA/EMBL子数据库ENA的高级检索及数据下载_第7张图片
Fig8.PNG

二、下载

2.1 ftp下载

记录上面得到的登录号:
ftp://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/
输入登录号的前六位,找到对应文件夹的sra文件,点击下载。
ftp://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/

2.2 wget命令

记录上面ftp下载方法中的ftp地址

wget ftp地址

2.2 prefetch命令

需要先安装sratoolkit软件

sudo apt-get update#更新软件源
sudo apt install sra-toolkit#安装

下载

prefetch 登录号

登录号不含有后缀名,例如:

prefetch SRR8884976

附:
ENA数据库:https://www.ebi.ac.uk/ena/data/view/SRR8884976
下载:
ftp://ftp.sra.ebi.ac.uk/vol1/srr/SRR888/006/SRR8884976
ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR888/006/SRR8884976/SRR8884976_1.fastq.gzSRR888/006/SRR8884976/SRR8884976_1.fastq.gz
ftp://ftp.sra.ebi.ac.uk/vol1/

你可能感兴趣的:(NCBI 子数据库SRA/EMBL子数据库ENA的高级检索及数据下载)