【一起学生信】认识MAPQ

目录

    • MAPQ 定义
    • MAPQ的影响因素
    • 比对算法中MAPQ的实现

MAPQ(Mapping Qualities) 用来表示每条read的比对情况,MAPQ越高,表示比对质量越好,后续可以根据分析需要来进行过滤。

MAPQ 定义

从概率的角度来看,每个read的比对都是一个真实比对的估计,它是一个随机变量,也有可能存在错误。错误的概率可以用 Phred 来衡量。假设一条read的MAPQ的值为 $mQ, $P 表示reads比对错误的概率。

$P = 10 ^ (-$mQ / 10.0);

如果 m Q 的 值 为 30 , 那 么 mQ的值为30,那么 mQ30P(比对错误率) 就是 0.1%。

MAPQ的影响因素

  1. 基因组重复区域MAPQ会比较低,因为会出现multiple mapping 和 reads聚集的情况;

  2. read 中碱基质量值,低质量值的碱基意味着序列很可能是错误的,错误的序列可能会导致错误的比对,所以MAPQ会低;

  3. 比对算法的敏感性,如果比对算法敏感性差,会造成比对错误,MAPQ低;

  4. 单双端测序的影响,如果reads两端都可以比对到基因组同一位置,那么比对正确的可能性很大,MAPQ会高;

  5. 如果MAPQ在30以上,一般是:
    a. read 的全部碱基质量值很高;
    b. 比对几乎没有mismatch,1-2bp的mismatch有可能是真是存在的变异;

比对算法中MAPQ的实现

这个嘛,我还没有来得及看,先留个坑后面填。。。

你可能感兴趣的:(技术文档,生物信息)