idba_ud-序列拼接组装(2018-05-24)

拼接的思路大体可以分为两种:一种叫做Overgap,一种是debrujin,前者是根据两条read序列前后部分的重叠来拼接,适用于一代测序的结果,而后者是将reads切割成更小的片段k-mers,k-mers的组合来完成拼接工作,适用于二代高通量测序

现在可以用的软件非常之多,比如说:clc(收费的),SOAPdenovo,velet等等。

使用idba_ud软件进行拼接,

首先准备好经过trimmomatic去接头和低质量序列的reads,双端和单端都可以。

idba_ud(http://i.cs.hku.hk/~alse/hkubrg/projects/idba_ud/)是一个可以针对不同测序深度的短reads的基于交互式De Bruijin作图的从头拼接软件。他从小的k-mer开始到大的的k-mer步步前进,设定阈值,短的和低深度的contigs被删掉,这样来完成低深度和高深度的拼接。


idba_ud-序列拼接组装(2018-05-24)_第1张图片
命令参数

Comment

IDBA接受fasta格式的reads. Fastq格式可以通过fq2fa程序被转化为fasta文件

$ bin/fq2fa read.fq read.fa

IDBA-SC需要将paired-end reads存在一个FastA文件中,一对reads保存在两行,如果不是,可以用fq2fa来合并两个FastQ为一个。

$ bin/fq2fa --merge --filter read_1.fq read_2.fq read.fa(使用这条命令。将两个fq文件合并成一个fa文件)


or convert a FastQ read file to FastA file.

$ bin/fq2fa --paired --filter read.fq read.fa

最后输入如下命令即可:

idba_ud -r total.read.fa --maxk 90 --step 10 -o output_dir1--num_threads 4 --min_contig 200

--mask 设定kmer,此处选定最大值90。


idba_ud-序列拼接组装(2018-05-24)_第2张图片

我的序列500Mb,大概10几分钟就出结果了。

参考:

一位大牛:http://118.31.76.100:100/ngs/bin/idba-ud/

你可能感兴趣的:(idba_ud-序列拼接组装(2018-05-24))