一、somatic与germline区别
胚系突变(Germline Mutation)和体细胞突变(Somatic Mutation)在WGS、WES、Gene Panel检测时常常遇到,二者最大的区别是胚系突变本质上是遗传性,可以遗传给后代,而体细胞突变可能对****细胞造成损害,癌变或细胞死亡,****突变不能遗传给后代。
Germline与Somatic 生信检测方法
Germline突变频率主要集中在50%(杂合) , 100%(纯合),一般是比对错误或者测序错误等原因产出噪音,干扰变异探测。我们可以使用统计学分析或者机器学习等方法,对潜在变异位点进行区分,得到突变位点。
Somatic一般使用对照样本进行分析, 例如,取肿瘤细胞作为Tumor样本,取血液中的白细胞或者癌旁正常细胞作为对照样本来分析,Tumor中特有的突变为Somatic mutation 。
二、变异检测方法
变异检测方法:
测序原始数据经过清洗后的fastq文件, 比对到参考基因组上,获得BAM文件。
根据比对质量,过滤低比对质量的数据。
提取每个位点的等位基因。潜在SNV位点,出现某些等位基因与参考等位基因不同, 如图,第5、23和28位。这些等位基因可能是SNVs或测序错误
对于每一个候选SNV,可以应用不同的统计方法来确定该基因座中是否存在SNV
将探测到的snv存储在VCF文件中
当前探测SNV的统计方法:
通过计算等位基因(counting alleles)
通过二项分布( binomial distribution)
通过泊松二项分布(Poisson-binomial distribution)
通过贝叶斯方法(Bayesian)
1. 基于等位基因的变异探测方法
基本方法是基于对等位基因的计数。
设D0是D中可信度高的基的子集。通常我们过滤碱基的质量分数≥20。因此,D0 = {bi∈D | qi≥20}。然后,在D0的所有底数中计算每个等位基因出现的次数。
如果D0参考等位基因的比例低于θlow(一般,20%),它被称为纯合非参序列等位基因(homozygous non-reference allele) ;
如果D0参考等位基因的比例高于θhigh(一般,80%),它被称为纯合子参考序列等位基因( homozygous reference allele);
否则,它被称为杂合基因型。
有三个非参考序列等位基因至少出现一次。
对于位置5,T出现的时间少于20%。我们预测该基因型为AA(非参考序列等位基因纯合子)。对于位置23,参考基A出现的频率超过80%。我们预测该基因型为AA(参考序列等位基因纯合子)。
对于28号位点,75%的reads包含参考基t。我们预测该位点的基因型为GT(杂合子位点)。
这种方法被用于许多商业软件程序,包括Roches GSMapper, CLC基因组工作台和DNSTAR Lasergene。测序深度高(> 20×)时效果较好。
然而,这种方法缺陷也比较明显:
简单的质量过滤可能会导致信息丢失。
这种方法不能提供不确定性的度量。
这种方法可能会低估杂合基因型
不能给出p值
2. 基于二项分布的变异探测方法
令D = {b1,…, bn}是覆盖特定位置的一组碱基。
设随机变量X为n个碱基中,突变的个数。Prn (X = k)为观察D中k个突变的概率。
假设D中有K个非参考序列碱基,假设n个碱基的排序误差是独立的。当序列误差概率p已知时(比如p = 0.01), X服从二项分布。然后,我们有
注意,有两个基是非参考序列碱基。观察两个非参考变量的p值为
该方法虽然确定了不确定性概率,但没有利用每个基的质量分数
3. 基于泊松分布的变异探测方法
二项分布假定对同一位置上的每个碱基的测序错误率是相同的。然而,不同碱基的测序错误率实际上是不同的。每个碱基的测序错误率可以通过PHRED质量评分来估计。
设随机变量X为非参考序列碱基个数,碱基总数为n 。表示P rn(X = k) D = {b1中k个变量的概率,…,在零模型下为bn}。
我们将二项分布推广到一个泊松二项分布,其中不同的基的序列误差概率是不同的。然后,我们有
同样,实际计算如下
4. 基于贝叶斯的变异探测方法
D代表观测数据(即,特定位点的碱基), G代表位点的基因型 ,有10个可能的基因型:AA, CC, GG, TT, AC, AG, AT, CG, CT, GT 。D = {b1,…, bd}和G基因型A1A2。我们的目标是计算Pr(G|D) ,然后,我们目标是使Pr(G|D)最大化的基因型G。
根据贝叶斯
Pr(D|G)是后验概率,Pr(G)先验概率 。
** Pr(D|G) 后验概率计算方法**
由于碱基来自不同的read,所以read base是独立的
假设G=A1A2, Pr(bi|G) 通过下边公式计算
ei为错误概率,根据碱基质量分数得出的。(参见本公众号前期文章, 《测序数据质控报告分析》文章,有详细介绍)
Pr(G)先验概率计算方法
G有10种可能的基因型。先验概率Pr(G)受其为纯合子参考型、杂合子或纯合子非参考基因型的身份的影响。
设r为参考序列碱基,s为替代等位基因。
通常设置
Homozygous SNP rate = altHOM = 0.0005
Heterozygous SNP rate = altHET = 0.001
(例如, r=G and s=A.)
许多方法利用额外的生物信息来提高Pr(G)的估计。例如,我们可以使用已知的数据dbSNP来得出 。
计算步骤
Pr(b1=A|AG)=1/2(Pr(b1=A|A)+Pr(b1=A|G))=1/2((1-10-2)+10-2/3)=0.49667
Pr(b2=G|AG)=1/2(Pr(b2=G|A)+Pr(b2=G|G))=1/2(10-1/3+(1-10-1))=0.466667
Pr(b3=A|AG)=1/2(Pr(b3=A|A)+Pr(b3=A|G))=1/2((1-10-5)+10-5/3)=0.499997
Pr(D|AG) = 0.496670.4666670.499997 = 0.115888
Pr(AG|D) = Pr(D|AG)*Pr(AG)=0.000116
因此,我们预测该基因型为AG。
基因组分析 微信公众号推出 《50篇文章深入理解NGS》系列文章, 第三篇文章 《变异探测算法深度解析》,争取每周更新一篇高质量生信干货帖子。
请点击 关注微信公众号 ,**转发 **给同学和同事,您的认可,是对我最大的支持 ,任何问题,后台可以留言。