FLASH 合并双端测序reads

FLASH 合并双端测序reads_第1张图片
FLASH

FLASH (Fast Length Adjustment of SHort reads) 是一个快速且精确的双端测序reads融合工具;FLASH被设计的目的是用来融合原始DNA片段长度小于两倍读长的双端测序数据(需要融合的双端测序reads之间必需要存在overlap)。Merged reads相比于单端read长,有助于基因组组装和基因组分析。FLASH 也适用于 RNA-seq数据。

#1. FLASH简介

#1.1 FLASH 的缺陷

  • FLASH 不能用于没有overlap的双端测序reads;
  • FLASH 不适用于有大量的Indel的数据,例如Sanger测序数据;Illumina 最适用于FLASH。

#1.2 FLASH原理
简单说,FLASH 会考虑成对reads间最短长度或大于最短长度的所有可能的overlap,最终选取overlap中错配率最小的情况进行融合。

#2. 安装

FLASH 可在GNU/Linux 、Mac OS X和windows上运行;FLASH 依赖于C标准库和 zlib。
安装FLASH需要经过以下几个步骤:

$ wget https://sourceforge.net/projects/flashpage/files/FLASH-1.2.11.tar.gz
$ tar xzf FLASH-1.2.11.tar.gz
$ cd FLASH-1.2.11
$ make

#3. 使用

#3.1 线程设置
FLASH 默认使用多线程,默认和处理器相同数目的线程用于reads融合,可以通过参数-t(--threads=1)自定义线程数;并且最多2个线程用于输入和最多3个线程用于输出。
使用多线程时,融合成功和未成功的reads输出的顺序不会与输入reads顺序一致。如果你想改变这种情况,只需要设定--threads=1。

#3.2 准确度
基于默认参数,对于测序错误率低于1% 的reads,FLASH 可以准确处理90%的read pairs;错误率达到2%时,98% 的read pairs可以被正确处理。

No error 1% error rate 2% error rate 3% error rate 5% error rate
default parameters 99.73% 99.68% 98.43% 94.76% 77.91%
more aggressive parameters 99.73% 99.68% 99.06% 98.30% 93.65%

使用GAGE 数据测试:

647,052 pairs of 101bp long reads from Staphylococcus aureus 90.77%
18,252,400 pairs of 101bp long reads from human 91.02%

#3.3 命令

flash --min-overlap 10 --max-mismatch-density 0.25 -t 6 R1.fastq R2.fastq --output-prefix=Flash --output-directory=./flash >flash.log

#4. 参考

FLASH: Fast length adjustment of short reads to improve genome assemblies. T. Magoc and S. Salzberg. Bioinformatics 27:21 (2011), 2957-63.
FLASH2 github
FLASH

你可能感兴趣的:(FLASH 合并双端测序reads)