VarDict: a novel and versatile variant caller for next-generation sequencing in cancer research

VarDict 原文链接

MATERIALS AND METHODS

1.Local realignments and InDel calling

VarDict 通过局部重对齐(包括有监督的和无监督的)提高InDel的等位基因频率统计。有些InDel比read的长度或者核心部分短很多,导致大多数aligners会将其与gap对齐,出现mismatch被强制对齐,当mismatches出现很多时soft-clipping。下面给出一个由IGV做出的例子。很多时候mismatch和soft-clipping会被忽略或者错误处理,实际上这些是InDel的重要判定依据。当这样一个InDel在对齐中被发现时,VarDict会触发有监督的局部重新对齐,识别存在InDel的3'和5'端Read的不匹配对齐,并添加它们以支持InDel使等位基因频率增加。无监督的局部重新对齐时,VarDict扫描soft-clipping附近的局部序列,寻找较大的InDel。Vardict首先从同一基因组位置的 soft-clippings Reads中获得一致序列。如果可以找到一致序列,vardict然后使用它在用户可定义的距离(默认为125 bp)内查找无间隙匹配,但允许小于等于3个碱基的不匹配。当找到匹配并远离断点时,调用删除;当匹配结束部分与断点相邻时,调用插入。如果不能调用indel,vardict通过5′和3′端soft-cliping来识别连续的剪裁良好的序列(通常在5 bp内),假设它们在插入的任意一侧,并确定它们是否有匹配的端。如果发现不匹配≤3,则调用大插入。该方法允许调用大于读取长度的插入,以及大型复杂变量。

VarDict: a novel and versatile variant caller for next-generation sequencing in cancer research_第1张图片
Figure 1. 这个例子显示了pc-9肺癌细胞系中egfr外显子19的15 bp缺失突变。最上面的灰色柱状图表示该位置reads中碱基的数量统计,灰色细线表示一条read,黑色是表示缺失,彩色表示soft-clipped reads与参考序列不同,不能对齐,颜色对应着ATCG;
Detecting complex variants

VarDict可以检测复杂的变异,删除和插入的组合情况,其他的方法错误检测或超出。据观察,在一条read中复合的proximal (<10 bp) InDels和mismatch通常被看成一个复杂变异。VarDict将一个复杂变异标记为一个变异而非多个独立的。当一条read中检测到一个InDel时,VarDict进行递归扫描寻找是否存在 InDel (within 10 bp) 或者mismatches (within 3 bp),若存在则组合为一个复杂变异。该规则适用于连续mismatches,检测MNVs

你可能感兴趣的:(VarDict: a novel and versatile variant caller for next-generation sequencing in cancer research)