NCBI组学数据上传流程

论文发表之前我们常常会有递交测序数据到NCBI的需求,这些数据例如:基因组,转录组,ChIP-seq,ATAC-seq,基因组注释文件,三代测序原始数据等都有不同的NCBI子数据库将其收集。

1. NCBI账号注册

  • 点击最右上角
  • 点击注册属于自己的账号
    image.png

2. 登录账号后开始数据上传

  • 先递交BioProject项目信息
  • 这里需要依次填写7个部分的内容, 并至少指定一个机构邮箱
  • 再递交BioSample样品信息
  • 这里需要依次填写6个部分的内容, 并至少指定一个机构邮箱


  • 然后我们递交测序原始数据(二代测序;三代测序)到SRA数据库

    1)填写基础信息

    2)这里需要输入系统分配的的BioProject号

    3)接下来的内容依次填写,都是一些基础的测序信息,需要递交的数据必须用英文命名,直到这一步才开始上传数据。由于国内网速不好,需要使用aspera工具递交

    在windows或Linux系统下打开命令行,创建一个新目录,命名为submit,并将需要上传的数据拷贝到该目录下,输入
ascp -i ~/aspera.openssh -QT -l100m -k1 -d submit [email protected]:uploads/568019240_qq.com_w3VfoRkI

等待10分钟后, 点击 select preload folder, 将出现刚才上传的文件夹,选中即可,注意这里上传的文件名及后缀必须和SRA METADATA表格中填写的完全一样,完成递交后我们可以看到这些递交信息,经NCBI系统确认后,会显示Processed

  • 如果拼接了基因组,我们需要上传基因组fasta文件和基因注释文件,官方步骤点这里查看
    1)制作GeneBank递交模版,这一步需要填写之前的BioSample和BioProject号
    2)准备一个需要上传的基因组fasta文件,fasta的Header最好用这种格式:
>xxxx_1 [organism=Genus species] [strain=xxxx]
>xxxx_2 [organism=Genus species] [strain=xxxx]

3)准备GFF3/GTF文件,文件的第一列必须和基因组序列header对应具体的细节在这里,简单来说,先下载table2asn_GFF工具,然后使用命令:

table2asn_GFF -M n -J -c w -euk -t template.sbt -gaps-min 10 -l paired-ends -locus-tag-prefix H6S33 -j "[organism=Morchella sextelata]" -i ./Morchella.fsa -f ydj.gff3 -o output.sqn -Z

-f: 基因组注释文件GFF3/GTF
-t: 第一步制作的模版
-i: 第二步准备的基因组序列文件
-locus-tag-prefix: 这个参数好像需要写邮件到[email protected],他们会给回复这个号(可能也有别的办法获取)
4)运行完成后,文件夹下会存在一个.sqn后缀的文件,将其放入一个单独的文件夹,命名为submit2,然后开始递交


5)依次填写这些信息

上传数据还是使用ascp,命令运行后过十分钟点击select preload folder,然后上传,最后进入递交数据管理界面进行核对即可

ascp -i ~/aspera.openssh -QT -l100m -k1 -d submit2 [email protected]:uploads/568019240_qq.com_w3VfoRkI

数据递交过程有任何问题可以向工作人员反应:[email protected]

你可能感兴趣的:(NCBI组学数据上传流程)