nanopore测序数据

nanopore技术的错误率具有偏好性,包含indel、单碱基错配等错误类型,且存在系统误差。在高GC含量区域、同聚物区域和串联重复区域错误率大大增加。

同聚物Homopolymer是指基因组上单一碱基重复的区域(例 AAAAAAAAAA),这样的区域基因组上还不少,会引入indel。

串联重复序列是指以相对恒定的短序列为重复单位,首尾相接, 串联连接形成的重复序列,又称卫星DNA (satellite DNA)。在人类基因组中,串联重复序列约占10%,主要分布在非编码区, 少数位于编码区。编码区中的串联重复序列与功能有关,非编码区串联重复序列多分布在间隔DNA或内含子,重复单位短的仅2bp长的可达数十碱基对,重复次数少则数次,多则几百次,会引入indel。

缺失型错误率和错配错误率在高GC区域出现了显著的增加,呈现明显的GC bias现象

你可能感兴趣的:(nanopore测序数据)