获取登录号Accession Number之完整解决方案|组学数据上传NCBI

目前NCBI中的SRA上传流程有精简与优化,可以不需要单独申请BioSample与BioProject。因为SRA提交步骤中就包含了创建BioProject和BioSample,可以直接一步到位。

1、开始创建SRA

登录NCBI主上传界面:https://www.ncbi.nlm.nih.gov/home/submit/,选择SRA数据库。

或者到SRA 的网页https://trace.ncbi.nlm.nih.gov/Traces/sra_sub,点击“Create new Submission”。

最后都进入到SAR数据上传主界面,点击创建。

可能进来之后的界面是这样的,没有看到创建按钮:

后来发现,首次使用的用户需要注册邮箱的邮件确认之后,才能开始上传。

2、填写submitter信息

如果是初次递交数据,根据要求填写下面信息,填写提交人的个人信息和单位信息:需要将*必填项需准确且完整地填写。

注:email选项中,两个邮箱中需要留一个该项目负责人的常用邮箱,因为后续如果想要修改数据信息或者释放时间,都需要该邮箱发送邮件至NCBI才会受理。如果已经是SRA老用户,确认默认信息,做些更改即可。

3、GENERAL INFO(关键步骤)

如果此次上传的样品已经申请过BioProject和BioSample,则选择“Yes”并添加相应的BioProject 编号(如PRJNA#);如果未申请过,则选择“NO”,此次SRA上传向导就会在后续步骤中让您填写相关信息,由系统自动创建并分配编号。此处千万不要随便选择,否则后续步骤会报错。

 4、PROJECT INFO(填写project信息)

只需填写 2 个信息,Project title 和 Public description,点击“?”会出现提示,按照提示参考例子填写即可。(带有*号的为必填,其它可以不填写)

 5、BIOSAMPLE TYPE(样本类型选择)

按照样本的物种或者来源,选择一个类型。

6、填写Biosample信息

有两种方式,一种是在线表格填写(样品数据较少建议使用此种方法,如只有一个样品);另外一种是需要我们下载excel表格填写,表格中绿色的为必填,蓝色浅蓝色的需要至少填一个,其他可以填写'not collected',  'not applicable' or 'missing',黄色内容可以选填或者不填写,如果是生物学重复需要添加一列replicate,按照“replicate = biological replicate 1”格式进行填写,如下图所示(这个很重要,否则后续会报错)。填写完成后需要将Excel另存为文本文件(制表符分隔),然后点击“选择文件”上传;

Organism:需要使用拉丁名称进行填写,不能填写成英文名称,如果填写拉丁名称还报错,此处也可以填写样品名称;

Isolate:有时提交表格报错,是因为不同的样品在这个地方填写了相同的信息,因此需要修改成不同的信息,可以填写该样品是怎么处理的;

collection_date,样本搜集日期,格式必须是 XX-月份简写-年份四位,设置单元格为文本后填写;

Geo loc name,样本搜集地点,国家:城市 省份,如:China:Beijing;

Sample_type,样本类型。如:Microbe\Model organism or animal sample\Human sample\Pathogen;

这步容易出错,请耐心填写,注意在输入法英文状态下填写。上传前,多检查,报错后 SRA

系统会给出理由以及推荐的修改方式。

7、SRA METADATA(上传Metadata表格)

上一步表格上传完成后,接着上传Metadata表格,填写规则请查看Excel表格中的Sheet3中的library and Platform Terms信息(或者参考以下内容)。填写完成后另存为txt文本文件(制表分隔符),然后点击“选择文件”进行上传;

8、填写Biosample信息

sheet3是关于文库和测序平台的一些介绍。只用填写 sheet2,如图,鼠标放在表头红色的三角符号上会有提示。

第一列(A 列),bioproject_accession,如果之前没申请 bioproject 则不用填写;

第二列(B 列),与之前的 sample name(2.5 样本信息表填写)要一致;

第三列(C 列),library_ID,可以自己编写一个,或者可以直接填写样品名称,各不一样;

第四列(D 列),简单描述项目背景;

第 EFGHIJ,下拉框进行选择即可,在 sheet3 里面有具体的介绍,以下列出来常见的项目类型,以供参考。

第L列是填写上传的文件类型,普通转录组一般上传fq,则第Q列不需要填写(或者也可以上传比对结果bam文件,此时Q列需要提供比对基因组信息)。如果上传全转录组的测序结果文件可参考以下填写内容,由于pacbio的下机原始数据为bam格式,而bam格式NCBI系统则认为是比对结果文件,此时可以填写“unaligned”。(以下NCBI staff给我们支招)

  For unaligned bam files please enter ‘unaligned’ in the ‘assembly’ column.

此外,我们Pacbio测序平台的数据也可以直接上传CCS后的fq或fa文件(一致性序列)。

第 K 列是实验设计的描述,如果Library_Strategy\Library_Source两个地方其中选择了“OTHER”选项,则需要填写建库过程。

第 M 列是上传文件的名字(一般PE双端测序每个样品有两个文件、SE单端测序每个样品一个文件)。txt 文件(制表符分隔)上传后,然后点击“Continue”。

后续可以继续选择网页上传,该方法操作简便,且可以选择多个文件同时上传。单个文件大于2G时需要安装Aspera软件,下载地址:https://downloads.asperasoft.com/connect2//

Filezilla客户端上传

该方法支持断点续传,且不需要敲入任何代码,只需要进行简单的拖拽操作就可以轻松完成数据上传SRA。

1、安装Filezilla

首先需要安装Filezilla(https://filezilla-project.org/download.php?show_all=1 ),一般我们使用较多的是windows操作系统,选择与自己匹配的版本(如果不确定自己的windows是32位还是64位,建议下载win32这个版本)进行安装。除此之外,该网站还有Mac、Linux版本,如下图所示。

默认安装目录或者自定义安装路径都可以。如果老师不愿意安装Filezilla,这里推荐一个免安装的绿化版本Filezilla软件免费分享给您。已经上传至网盘:https://pan.genomics.cn/ucdisk/s/VvI7Fn (鼠标左键单击跳转进入网盘后进行下载)

2、使用 Filezilla 连接 NCBI

  在上传向导提交页面中进行到 Files这一步骤时需要选择:FTP or Aspera Command Line file preload,如下图所示:

而后点击下面的FTP upload instructions,主要获取红色框里面的信息,这部分为SRA提供的账号密码信息(如下图所示),以便后续Filezilla连接。

使用上述提供的账号密码链接服务器(主机输入上述对应的Address:ftp-private.ncbi.nlm.nih.gov),状态提示栏会报 550/:permission denied 错误,此时不必惊讶,这是正常情况。

接着,只需要在软件的远程站点框中输入指定的个人目录 upload/xxxxx(注:在上传的网页界面中FTP upload instructions信息里面查找,每个账号的路径都是不一样的,我的路径为:uploads/[email protected]_*******),然后键盘上敲击 Enter 即可进入个人目录。

进入个人目录后需要新建一个文件夹,来进行上传数据。如果不创建文件夹而直接将数据上传到个人目录下面,系统将不能自动提取上传的数据。因此,在远程站点区域选中路径,然后鼠标右击,创建new_folder目录:

此时就可以在本地站点中找到clean data文件夹中的fq文件,直接拖拽到刚在远程站点中创建的new_folder文件夹中,完成拖拽就开始进行上传了,如下图所示:

当Filezilla在服务器/本地文件列队文件区域都为空白时,表示完成文件传输。成功的传输界面也表示上述拖拽的8个文件都已经完成上传,如下图所示。

2、回到上传网页操作

当Filezilla上传完数据后,还需要在网页上操作最后几步。回到SRA上传向导网页中,点击Select preload folder按钮后弹出界面,如下图所示:

再点击Refresh folders:

文件数据与之前上传的是一致的,点击Use select folder回到网页,发现Select preload folder按钮后面显示已经选中new_folder文件夹,然后点击continue进行到下一步。

 Overview这一步就是检查之前上传的信息是否有误,如果非常确定准确无误的话,就可以直接点击Submit进行提交了。

完成数据上传后,5个工作日内会收到NCBI发送的一封邮件,里面包含SRA accession ID(一般以SR开头),文章中可以作为引用。

如果没有收到邮件,可以登录NCBI账号进入SRA上传界面,点击Manage Data查看Bioproject accession,该ID也可在文章中作为引用。(每个样品的accession也是可以的)

最后,如果还是想让NCBI提供上述邮件中对应的SRA accession,可以发邮件至[email protected]  注意邮件中需要提供SRA submission SUB*****(每次上传数据系统都会生成一个提交号码)。


文章来源:https://mp.weixin.qq.com/s/eiaTqJ4kJxmDJfHZe_N66w

你可能感兴趣的:(获取登录号Accession Number之完整解决方案|组学数据上传NCBI)