变异探测算法深度解析

一、somatic与germline区别

image

胚系突变(Germline Mutation)和体细胞突变(Somatic Mutation)在WGS、WES、Gene Panel检测时常常遇到,二者最大的区别是胚系突变本质上是遗传性,可以遗传给后代,而体细胞突变可能对****细胞造成损害,癌变或细胞死亡,****突变不能遗传给后代

Germline与Somatic 生信检测方法

Germline突变频率主要集中在50%(杂合) , 100%(纯合),一般是比对错误或者测序错误等原因产出噪音,干扰变异探测。我们可以使用统计学分析或者机器学习等方法,对潜在变异位点进行区分,得到突变位点。

Somatic一般使用对照样本进行分析, 例如,取肿瘤细胞作为Tumor样本,取血液中的白细胞或者癌旁正常细胞作为对照样本来分析,Tumor中特有的突变为Somatic mutation 。

二、变异检测方法

image

变异检测方法:

  1. 测序原始数据经过清洗后的fastq文件, 比对到参考基因组上,获得BAM文件。

  2. 根据比对质量,过滤低比对质量的数据。

  3. 提取每个位点的等位基因。潜在SNV位点,出现某些等位基因与参考等位基因不同, 如图,第5、23和28位。这些等位基因可能是SNVs或测序错误

  4. 对于每一个候选SNV,可以应用不同的统计方法来确定该基因座中是否存在SNV

  5. 将探测到的snv存储在VCF文件中

image

当前探测SNV的统计方法:

  1. 通过计算等位基因(counting alleles)

  2. 通过二项分布( binomial distribution)

  3. 通过泊松二项分布(Poisson-binomial distribution)

  4. 通过贝叶斯方法(Bayesian)

1. 基于等位基因的变异探测方法

基本方法是基于对等位基因的计数。

设D0是D中可信度高的基的子集。通常我们过滤碱基的质量分数≥20。因此,D0 = {bi∈D | qi≥20}。然后,在D0的所有底数中计算每个等位基因出现的次数。

  • 如果D0参考等位基因的比例低于θlow(一般,20%),它被称为纯合非参序列等位基因(homozygous non-reference allele) ;

  • 如果D0参考等位基因的比例高于θhigh(一般,80%),它被称为纯合子参考序列等位基因( homozygous reference allele);

  • 否则,它被称为杂合基因型

image

有三个非参考序列等位基因至少出现一次。

对于位置5,T出现的时间少于20%。我们预测该基因型为AA(非参考序列等位基因纯合子)。对于位置23,参考基A出现的频率超过80%。我们预测该基因型为AA(参考序列等位基因纯合子)。

对于28号位点,75%的reads包含参考基t。我们预测该位点的基因型为GT(杂合子位点)。

这种方法被用于许多商业软件程序,包括Roches GSMapper, CLC基因组工作台和DNSTAR Lasergene。测序深度高(> 20×)时效果较好。

然而,这种方法缺陷也比较明显:

  1. 简单的质量过滤可能会导致信息丢失。

  2. 这种方法不能提供不确定性的度量。

  3. 这种方法可能会低估杂合基因型

  4. 不能给出p值

2. 基于二项分布的变异探测方法

令D = {b1,…, bn}是覆盖特定位置的一组碱基。

设随机变量X为n个碱基中,突变的个数。Prn (X = k)为观察D中k个突变的概率。

假设D中有K个非参考序列碱基,假设n个碱基的排序误差是独立的。当序列误差概率p已知时(比如p = 0.01), X服从二项分布。然后,我们有

image

三条read覆盖位置 j,位置 j 的三个碱基为D = {A, G, A}。
image

注意,有两个基是非参考序列碱基。观察两个非参考变量的p值为

image

该方法虽然确定了不确定性概率,但没有利用每个基的质量分数

3. 基于泊松分布的变异探测方法

二项分布假定对同一位置上的每个碱基的测序错误率是相同的。然而,不同碱基的测序错误率实际上是不同的。每个碱基的测序错误率可以通过PHRED质量评分来估计。

设随机变量X为非参考序列碱基个数,碱基总数为n 。表示P rn(X = k) D = {b1中k个变量的概率,…,在零模型下为bn}。

我们将二项分布推广到一个泊松二项分布,其中不同的基的序列误差概率是不同的。然后,我们有

image

同样,实际计算如下

image
image

4. 基于贝叶斯的变异探测方法

D代表观测数据(即,特定位点的碱基), G代表位点的基因型 ,有10个可能的基因型:AA, CC, GG, TT, AC, AG, AT, CG, CT, GT 。D = {b1,…, bd}和G基因型A1A2。我们的目标是计算Pr(G|D) ,然后,我们目标是使Pr(G|D)最大化的基因型G。

根据贝叶斯

image

Pr(D|G)是后验概率,Pr(G)先验概率 。

** Pr(D|G) 后验概率计算方法**

由于碱基来自不同的read,所以read base是独立的

image

假设G=A1A2, Pr(bi|G) 通过下边公式计算

image

ei为错误概率,根据碱基质量分数得出的。(参见本公众号前期文章, 《测序数据质控报告分析》文章,有详细介绍)

image

Pr(G)先验概率计算方法

G有10种可能的基因型。先验概率Pr(G)受其为纯合子参考型、杂合子或纯合子非参考基因型的身份的影响。

设r为参考序列碱基,s为替代等位基因。

通常设置

Homozygous SNP rate = altHOM = 0.0005

Heterozygous SNP rate = altHET = 0.001

(例如, r=G and s=A.)

image

许多方法利用额外的生物信息来提高Pr(G)的估计。例如,我们可以使用已知的数据dbSNP来得出 。

计算步骤

Pr(b1=A|AG)=1/2(Pr(b1=A|A)+Pr(b1=A|G))=1/2((1-10-2)+10-2/3)=0.49667

Pr(b2=G|AG)=1/2(Pr(b2=G|A)+Pr(b2=G|G))=1/2(10-1/3+(1-10-1))=0.466667

Pr(b3=A|AG)=1/2(Pr(b3=A|A)+Pr(b3=A|G))=1/2((1-10-5)+10-5/3)=0.499997

Pr(D|AG) = 0.496670.4666670.499997 = 0.115888

Pr(AG|D) = Pr(D|AG)*Pr(AG)=0.000116

因此,我们预测该基因型为AG。

image

基因组分析 微信公众号推出 《50篇文章深入理解NGS》系列文章, 第三篇文章 《变异探测算法深度解析》,争取每周更新一篇高质量生信干货帖子。

请点击 关注微信公众号 ,**转发 **给同学和同事,您的认可,是对我最大的支持 ,任何问题,后台可以留言。

你可能感兴趣的:(变异探测算法深度解析)