生信 | megahit 序列拼接

MEGAHIT

MEGAHIT is a single node assembler for large and complex metagenomics NGS reads, such as soil. Compare to SOAPdenovo, it generates longer contigs and consumes less memory.

参考文献:an ultra-fast single-node solution for large and complex metagenomics assembly via succinct de Bruijn graphnomics assembly via succinct de Bruijn graph

https://github.com/voutcn/megahit

在了解组装的软件前,先了解几个概念:

组装:将基因测序测得的短序列拼接连续完整的长序列(what);因为目前二代测序的序列读长比较短最长只有300bp,长序列能提高物种注释分析的准确性(why)

contig/scaffoldN50:将contig/scaffold长度从长到短进行排序并累加,当累加和达到contig/scaffold总长度的50%的时候,最后参与加和的那一条contig/scaffold长度即为contig/ scaffoldN50的长度。一般来说,contig/scaffoldN50越长,表示组装结果越好

组装的软件:

SOAPdenovo:中复杂度环境

MEGAHIT:资源消耗少,时间消耗短,组装结果优

SPAdes:组装效果优,资源消耗高

IDBA:适合测序深度不均一的数据,资源消耗过高

FLASH:A very fast and accurate software tool to merge paired-end reads from NGS experiments.(用于16s较多)

....

组装策略(原理):

1基于序列overlap关系进行拼接,代表软件有Omega;

2 基于k-mer的ercde Bruijn图进行组装

(详细的原理自行百度)

简要使用

megahit -t 24 -m 0.95 --min-contig-len 500 --out-dir $SampleOutputDirASS --out-prefix $sample -1 $sample.R1.paired.fq.gz -2 $sample.R2.paired.fq.gz

              说明:

                            软件: megahit

                            参数: 基本默认

                                   --min-contig-len : 指定最小的contig 的长度

                                    -t :线程数

                                   -m :内存使用率

                                   --out-dir : 拼接的序列contig 和结果评估文件

                                   --out-prefix:输出的前缀

                            输出结果:   拼接的序列contig 和结果评估文件

组装结果的评估:

序列一致性评估(将reads比到基因组上,验证reads对基因组的覆盖情况,用于评估组装的完整性以及测序的均匀性。较高的mapping rate(90%以上)以及coverage(95%以上)认为组装结果和reads有比较好的一致性);

序列完整性评估(50%的scaffold覆盖基因的95%以上,85%的scaffold覆盖基因的90%以上,认为组装较完整);

准确性评估

保守性基因评估

评估软件:QUEST

quast.py megahit.contigs.fa -o megahit-report

 

 

 

参考:宏基因组组装:从what 到how

           megahit 组装结果进一步分析

 

 

 

你可能感兴趣的:(生物信息软件应用,#,生信,生信软件应用)