三代校正工具LoRDEC原理

前言

三代长读长测序的主要错误有随机错误和Indel

解决这类问题的思路主要有两个:1.利用三代数据自校正;2.利用二代短读长数据校正三代长读长数据
软件合集:


具体可以点击here进行查看

LoRDEC

LoRDEC这款软件是2014年发表在bioinformatics的一款软件,LoRDEC: accurate and efficient long read error correction
它是一款利用二代短读长数据校正三代长读长数据的软件

1.二代数据错误

二代数据的错误体现在读长若干碱基发生错误,那么如果你的测序深度足够,那么这类错误很容易被校正
当然还有插入和缺失的错误,可以参考《A survey of error-correction methods for next-generation sequencing》

2.三代数据错误

正如开头所述,三代长读长测序的主要错误有随机错误和Indel

3.原理

通常来说,由于二代测序成本低,可以测取一定深度的数据,那么该软件的原理是将二代的读段分解成k-mer,利用德布鲁因图对三代数据进行校正

下图是k=3,3-mer:


那么将二代数据的读段利用德布鲁因图,以3-mer将其分解。我们之前说过,三代长读长测序的主要错误有随机错误和Indel,那么如下图:



我们把易错的区域定义为weak区(图中直线部分),没有错误的区域定义为solid区域(图中矩形部分),那么我们利用二代数据的k-mer依据德布鲁因图对这些weak区域进行校正,从而校正这些随机错误和Indel
如图b,二代数据的k-mer依据德布鲁因图校正三代数据的错误

使用

详细使用方法可以参考其主页“https://gite.lirmm.fr/lordec/lordec-releases/wikis/home”

你可能感兴趣的:(三代校正工具LoRDEC原理)