Meta组装小课题2:GapCloser

宏基因组复杂样品基因组的组装(无参考基因组)

什么是Gap以及它是怎样产生的

Gap : 序列中未确定的区域,通常用N或n表示。

  • 读长限制产生gap:如,测序中的gap指的是测序极限读长以外的那段序列,比如我测序只能有双端150bp的读长,一个片段有350bp,那剩余的50bp就无从得知了。

  • 组装技术限制产生gap:如,将测序得到的reads比对回得到的contigs,利用reads之间的连接关系和插入片段大小信息(Mate-Pair,),将contigs组装成scaffolds。scaffold序列中的未确定区域。

    Meta组装小课题2:GapCloser_第1张图片
    Contig2scaffold

为什么要GapCloser?

为了使组装的序列更完整

怎样进行GapCloser?

补洞:

得到的scaffold中间会有较多的gap,为了使组装的序列更完整,需再次利用测序的双末端数据之间的配对关系连接contigs,并利用测序数据与已经组装的contig之间的覆盖关系对contig之间空隙进行补洞,延长contigs,补洞后的contigs长度相比补洞之前一般增加2-7倍。

Meta组装小课题2:GapCloser_第2张图片
GapCloser
  • 一个参数 : F

SOAPdenovo-63mer all -d 1 -M 3 -R -u -F -s KB1.soapdenovo.cfg -K 55 -o 55 1>ass.55.log 2>ass.55.err

-d           去除kmers频数不大于该值(kmerFreqCutoff)的k-mer,默认值[0] ##最小化错误测序带来的影响
-M           在contiging操作时,合并相似序列的强度,默认值为[1],最小值0,最大值3。#deal with heterozygosis
-R  (optional)    移除repeats,使用pregraph步骤中产生的结果,如果参数-R在pregraph步骤中被设置的话,默认[NO]
-u  (optional)    构建scaffolding前不屏蔽高/低覆盖度的contigs,这里高频率覆盖度指平均contig覆盖深度的2倍。默认[mask]屏蔽
-F  (optional)    对scaffold内部的gap进行填充,这个参数现在似乎没什么用,因为SOAPdenovo附带了一个Gapcloser工具,就是用于scaffold内部填充的。
-s        solexa reads 的配置文件
-K           输入的K-mer值大小,默认值[23],取值范围 13-127 #K-mer值必须是奇数;组装杂合子基因组的K-mer值应该小一点;组装含有高repeats基因组且要求其有高的测序深度和长的reads,的K-mer应该大一点。
-o        图形输出的文件名前缀
  • 一个软件GapCloser

SOAPdenovo补scaffold内部N的脚本

Command Line Options
A typical command line:

    GapCloser –b config_file –a scaffold_file –o output_file

参数说明:

-a 输入scaffold文件名
-b 输入library文件名,同SOAPdenovo library文件
-o 输出文件名
其他参数详见Gapcloser Manual

GapCloser-bin-v1.12-r6.tgz for SOAPdenovo

还有很多软件相继被发布,以应对人们对组装质量的不同要求:

A Scaffold Analysis Tool Using Mate-Pair Information in Genome Sequencing
MyBioSoftware
不同长度mate-pair在组装上之差异

对GapCloser依然去除不了的N(即不确定性)从N连续处打断,得到不含N的scaftigs.过滤掉小于长度500bp的scaftigs,进行统计分析和后续基因预测。

你可能感兴趣的:(Meta组装小课题2:GapCloser)