WES-全外显子分析需知

《Review of Current Methods, Applications, and Data Management for the Bioinformatics Analysis of Whole Exome Sequencing》

image

Something should be told

二代测序应用包括,DNA-seq,RNA-seq、ChIP-seq和methyl-seq。

  • DNA-seq可以应用于WGS、WES或基因组特定靶向区域;一般来说,DNA测序的目的是发现单核苷酸形式的基因组变异,小插入缺失,拷贝数变异或其他结构变异,最终目的是将这些变异与人类疾病联系到一起;

  • RNA-seq用于评价基因表达差异,也用于发现新的转录本,包括非编码RNA,并检测转录本剪切或基因融合事件。

  • ChIP-seq检测基因组范围的转录因子结合位点和染色体相关的修饰。甲基化测序用于展示各种类型的DNA甲基化,比如单个核苷酸的5-甲基胞嘧啶和5-羟甲基胞嘧啶;

Raw data QC and Preprocessing

  • 数据QC(quality control)是拿到数据的第一步,用于了解数据质量;

  • 标准的预处理步骤包括3‘末端接头去除以及reads末端低质量碱基的移除;

Sequence Alignment

  • 比对类似于一个字符串匹配的过程;找到序列的最佳比对,比对算法需要能够容忍不精确匹配;而且,需要能够快速对百万计的reads进行比对;

  • 应运而生了很多短读长比对工具,主要利用BWT(Burrows–Wheeler Transformation,称作块排序压缩),SW(Smith–Waterman)动态规划算法或两者的结合在合理的计算时间内找到最佳的比对结果;

Post-alignment Processing

  • 比对至相同坐标位置的reads被认为是duplicates;WES分析过程中,应移除dup,目的是避免引入由PCR过程带来的bias;

  • 碱基质量是下游分析中对突变进行精确检测的关键因素;

  • 机器产生的分数经常是不精确,且有系统性偏倚。因此在call突变之前推荐进行碱基质量值校正以提高置信分数的准确度;

  • 质量值校正前,需要排除已知突变,因为这些代表的是基因组的真实变异,不应该算作测序错误;大多程序进行质量值校正时,会除比对文件外将已知突变的列表也考虑进去;对于,没有已知突变的基因组,推荐先生成突变列表,留下高质量的突变,接着做BQSR时采纳这些突变作为已知基因组突变;在靶向测序时,只有一小部分基因组被测序,不推荐使用BQSR,因为覆盖有限基因组区域时,无法精确估计错误;

Variant Analysis

  • 突变分析包括基因型确定call突变突变注释和优先级排序

  • 将比对的reads与参考基因组进行比较,可以发现不同类型的基因突变,包括SNVs、indels、CNVs和大的结构变异。在癌症研究中,至关重要的一点是将体细胞突变与胚系突变区分开来,因为两者在肿瘤发展中扮演着不同的角色;胚系突变遗传至生殖细胞中存在的突变,与病人家族史有关;体细胞突变只存在于体细胞中,具有组织特异性;

  • 样本量足够的情况下,推荐进行多样本call突变;将多个样本来自一个基因组区域的所有reads考虑进去,减少了将随机存在测序错误call为突变的可能可能性,提高了call出低频或单个样本低覆盖度等位基因突变的可能性;

  • 但多样本call变异不太实际。如果样本量大,需要惊人的计算资源和时间消耗;而且,如果一个项目是多阶段进行,每次进行部分样本测序,多样本calling就会需要在加入新样本后重新进行突变calling分析;此时,执行单样本分析相较可行;

  • 体细胞突变:

    • 第一种算法是将样本均作为相同样本,进行多样本变异calling,将基于基因型相减的方法与成对样本信息进行整合,提取只在肿瘤样本中存在的突变(体细胞突变)或两种样本中均存在的突变(胚系突变);这种方法容易出现假阳性,如果正常样本中胚系突变频率较低未call出,假阴性,如果肿瘤样本突变频率较低无法与测序错误区分开来;但是,这种方案目前评价很好,在call变异时表现出高精度和高灵敏度, 采取这种策略的软件包括GATK, SAMtools mpileup, 和Isaac variant caller等。

    • 另一种算法将肿瘤和正常样本作成对样本看待,利用联合二倍体基因型可能性或样品之间共有等位基因频率,同时对两个样本进行检测。相应的工具包括deepSNV,Strelka, MutationSeq, MutTect,QuadGT , Seurat, Shimmer和SolSNP,jointSNVMix,SomaticSniper,VarScan2,Virmid.

  • 突变注释

    • 检测到突变后,需要将以下特征,比如:基因组特征,基因symbol,外显子功能和氨基酸变化等加入突变列表中。大多研究关注蛋白编码区域发生的非同义突变的SNV和indel, 这涵盖了已发现的85%的孟德尔疾病中的致病突变和复杂疾病中很多疾病相关的突变;

    • 除了上述讨论的基本注释外,很多程序将公共数据库进行整合,以得到突变的其他信息,比如,正常人群的MAF(minor allele frequency,次等位基因频率)、临床研究的试验证据、突变功能的有害预测以及与已知肿瘤或遗传疾病研究相关的突变和基因等。

    • ANNOVAR是使用最多的软件之一,该软件提供了3中注释模式,基于基因、基于区域、基于过滤,集合了4,0000多种公共数据库用于注释;

  • 突变过滤和优先级排序

    • 第一步是去除可信度较低的突变;

    • 第二步是,将突变限制为人群频率较低的,基于假设,稀有突变更易引起疾病;

    • 第三步是,对突变与基因相关性进行优先级排序。一般,SNVs可以依据其对蛋白编码造成的影响进行排序,剪接位点突变(SNV经常发生在剪接donor或receptor位点)和无义突变比错义突变影响更大;Indels,可以基于其是否对剪接造成影响或发生移码框的改变进行排序;

你可能感兴趣的:(WES-全外显子分析需知)