单菌 | canu && SPAdes 序列拼接

canu是一个用JAVA语言写的三代数据组装工具。canu专门用于三代这种错误率较高的测序的结果进行组装。canu延续了celera Assembler工具的组装原理,采用Overlap-Layout-Consensus,也就是得到序列与序列之间的交叠进行的组装。

##1 自身纠错
canu -correct \
-p CorrectHQ_correct -d CorrectHQ_correct \
merylThreads=24 \
gnuplotTested=true \
genomeSize=7m \
minReadLength=2000 minOverlapLength=500 corOutCoverage=120 corMinCoverage=2 \
-pacbio-raw CorrectHQ_01.fa CorrectHQ_02.fa CorrectHQ_03.fa

##2 修剪read
canu -trim \
       -p CorrectHQ_trim -d CorrectHQ_trim \
       maxThreads=24 \
       gnuplotTested=true \
       genomeSize=7m \
       minReadLength=2000 \
       minOverlapLength=500 \
       -pacbio-corrected CorrectHQ_correct/CorrectHQ_correct.correctedReads.fasta.gz


## 3 组装
canu -assemble \
    -p CorrectHQ_assemble -d CorrectHQ_assemble \
    maxThreads=24 gnuplotTested=true \
    genomeSize=7m \
    correctedErrorRate=0.050 \
    -pacbio-corrected CorrectHQ_trim/CorrectHQ_trim.trimmedReads.fasta.gz

# -p 输出文件的前缀,必须指定
# -d 输出文件夹
# Threads 线程数
# gnuplotTested 检测是否有gnuplot程序,gnuplotTested=true 可以跳过检查
# gnuplotImageFormat 用gnuplot生成的图片格式
# genomeSize 估计的基因组大小
# minReadLength read长度小于这个值将不会被用来组装
# corOutCoverage

参考:canu - 三代测序组装工具
链接:https://www.jianshu.com/p/66d859f7643f

SPAdes 主要用于进行单细胞测序的细菌基因组组装,当然也能用于非单细胞测序数据。输入数据可以是 Illumina、IonTorrent reads,或 PacBio、Sanger reads,也可以把一些 contigs 序列作为 long reads 进行输入。该软件可以同时接受多组 paired-end、mate-pairs 和 unpaired reads 数据的输入。同时该软件有一个独立的模块用于进行杂合基因组的组装。 

#!/bin/sh
spades.py -k 21,33,55,77,99,127 -o Correct_assembly \
-1 1.clean.fq.gz \
-2 2.clean.fq.gz \
--pacbio CorrectHQ_01.fa --pacbio CorrectHQ_02.fa --pacbio CorrectHQ_03.fa \
--careful -t 24 -m 60 --cov-cutoff auto

-o output_dir
指定输出的文件夹
--sc
此 flag 用于 MDA (single-cell) 数据
--iontorrent
此 flag 用于 IonTorrent 数据的组装
--test
使用 test 数据运行 SPAdes,用于检测软件是否正确安装
-h | --help
打印帮助信息
--only-error-correction
仅仅执行 reads error correction 步骤
--only-assembler
仅仅运行组装模块
--careful
通过运行 MismatchCorrector 模块进行基因组上 mismatches 和 short indels 的修正。推荐使用此参数。
--continue
从上一次终止处继续运行程序。
--restart-from
从指定的位置重新开始运行程序。和上一个参数相比,此参数可以用于改变一些组装参数。可选的值有:

ec 从 error correction 处开始
as 从 assembly module 处开始
k{int} 从指定的 k 值处开始
mc 从 mismatch correction 处开始

--disable-gzip-output
使用此参数来设定不对 corrected reads 进行压缩。默认下 corrected reads 是 .fastq.gz 格式的
-t int
使用的线程数,默认为16
-m int
设定内存的限制,单位为 Gb。如果程序使用的内存达到此值,则程序会终止运行。默认值是 250 。
--tmp-dir dir_name
设置 reads error correction 的临时文件存放路径。默认为 output_dir/corrected/tmp 。
-k int,int,...
由逗号分隔的 k-mer sizes。这些数值必须为奇数,要小于 128,且按升序排列。如果使用了 --sc 参数,则默认值为 21,33,55 。 若没有 --sc 参数,则程序会根据 reads 长度自动选择 k-mer 参数。
--phred-offset
碱基质量格式, 33 或 64

参考:使用 SPAdes 进行基因组组装
链接:http://www.chenlianfu.com/?p=2116

 

你可能感兴趣的:(单菌分析,#,生信,生信软件应用)