一步步教你NCBI_SRA上传测序数据

测序文章在审稿期间,审稿人往往需要作者上传原始数据至NCBI。而搜索引擎搜到的参考资料甚少,不得不边摸索边总结,几番倒腾终于上传成功。今天小编把经验用图文展示,手把手教你,一步步上传自己的测序测序数据值NCBI。
本文原载于公众号"生信天团",此处做进一步修改完善。

首先,你需要注册一个NCBI的账号,用自己常用的邮箱申请即可。
然后登陆到SRA数据库的官方网址:https://submit.ncbi.nlm.nih.gov/subs/sra/

操作步骤:

在SRA官方网址点击New submission,进入Submission Portal界面,以下步骤按照SRA递交程序讲解,标记“***”为重点内容。

一、SUBMITTER

图片.png

按照内容提示,填写相关的信息,如提交者姓名、邮箱、单位、地址等……
最后点击Continue

注意,填写邮箱会提示qq、163、foxmail等邮箱不能收到NCBI邮件,需要提供其他可供使用的邮箱。事实上,是可以收到NCBI邮件的,但是还是按照要求换成其他,如gmail等。

二、GENERAL INFO

图片.png

BioProject:询问是否注册过BioProject,第一次递交或者不同的测序工程,选择No。
BioSample:询问是否提交过BioSample,选择No。
Release data:公开日期。可以选择立即释放或者指定日期,依个人需求。
点击Continue

三、PROJECT INFO

图片.png

Project title:为递交的Project命名,“?”有提示范例
Public description:简单描述
Relevance:相关领域
Is your project……:询问是否为子项目,选择No
External Links:外部链接,可以不填
之后的其他参数根据需求填写,可以空缺。
点击Continue

四、BIOSAMPLE TYPE

图片.png

Sample Type:根据测序样本选择相应的属性,如微生物、模式物种、无脊椎动物、人、植物等。
点击Continue

五、BIOSAMPLE ATTRIBUTES

图片.png

Attributes:选择提交 BioSample attributes的方式,提供在线表格和Excel文档,建议使用Excel文档,更易于批量修改。
选中后,点击Download Excel Download TSV 下载Excel表格。内容如下:
图片.png

填写说明:sample_name必须唯一,且与提交的 clean data文件匹配。绿色表达必填选项,蓝色表示这些字段中至少有一个是必需的,黄色标识可选内容。
填写完成保存后,选择Choose file上传文件。
点击Continue
如果提交后报错 :
Error: Your table upload failed because multiple BioSamples cannot have identical attributes.
破解办法:在文件末尾新添一列,如id,并编号1,2,3……

图片.png

六、SRA METADATA

图片.png

SRA metadata:递交数据的格式,提供在线表格和Excel文档,建议Excel。
下载Download Excel spreadsheet ,如下图:
Sheet1 = Contact Info and Instructions,填写说明文档
Sheet2 = SRA_data,真正需要自己手动填写的部分
这里提供我上传的范例:

图片.png

图片.png

【重点:难点:易错点】

  1. 双侧测序:针对illumina转录组测序,都是采用双端测序,一个样本会产生两个文件,分别为左右两端。而在上传时候,只需要在一个生物样本内,填写两个filename即可。这也是笔者摸索很久才搞清楚的。而其他诸如microRNA则采用单端测序,只需递交一个filename即可。
  2. 生物重复:可以在design_description中写明生物重复。
  3. 样品名字:最好将samplename和之前Biosample attributes提交内容一致。libraryID我是复制sample_name。
    点击Continue

七、FILES

图片.png

这才进入上传数据的主题,有三种可供选择的上传方式:
Method 1. 网页上传:建议文件大小不超过2GB,大于2GB则需要安装Aspera connect插件。
Method 2. FTP、Aspera、Amazon S3上传:

  • FTP: 点击选择,展开列表可以看到具体上传的方式。需要下载安装FileZilla等软件,NCBI会提供你上传的地址、用户名和密码。如我的是
 Address: ftp-private.ncbi.nlm.nih.gov
 Username: subftp 
Password: ******* ***
  • Aspera:懂得linux操作的应该对这个软件不陌生,是上传下载原始数据的利器,可以参看我之前的文章SRA原始数据高速下载查阅使用教程。
    图片.png

    以Linux为例:
    • 首先,下载Get the key file文件,然后将红色框内代码保存为txt文件。将两个文件上传至自己的服务器或linux上。

• 命令行操作代码:

 ascp -i   -QT -l100m -k1 -d   [email protected]:uploads/jfxie2013_163.com_00yOGS42

:路径为下载好的“Get the key file”文件的绝对路径(文件名为aspera.openssh)
:所有需要上传的文件的文件夹路径,注意里面不要包含其他任何无关数据。
注意:确保ascpera添加到环境变量中。
之后静待数据上传吧,Aspera上传的另一个好处是可以支持断点续传,简直不要太赞了。

图片.png

以Windows为例:

  1. 下载Aspera软件,并安装。https://www.ibm.com/aspera/connect/
  2. 要下载key file,并记住下载的位置,后面需要调用这个文件。
  3. 启动Windows + R→ 输入cmd → 确定 → 打开命令提示符
    首先将目录转移到aspera的根目录下,即bin目录下


    图片.png
  4. 输入提供的命令行代码并修改文件位置即可(不受中文影响)。


    图片.png

Method 3. Amazon S3: 应该是亚马逊云服务。

上传完成后点击Select preload folder
点击Refresh folders可以看到已经上传好的数据,尽快进行下一步,好像这个保存并非长久的。
然后选择Use selected folder
点击Continue

图片.png

八、REVIEW & SUBMIT

进入这一页已基本完成了,再审查一下所递交的内容有无纰漏。
无需多久NCBI就会审核通过。

参考资料:

  1. 原始数据上传NCBI,手把手带你轻松搞定!
  2. 如何向NCBI的SRA上传数据
  3. Question: SRA submission Error
  4. SRA原始数据高速下载

你可能感兴趣的:(一步步教你NCBI_SRA上传测序数据)