2020-06-09 RETA:用于全外显子组和靶向测序数据分析的R包

2020-6-9晚修改
因为白天的时候怎么也打不开github网站了,用了WVPN后晚间才打开链接,这个分析工具已经变成一个网页工具了,只需在浏览器输入VCF文件就能进行分析。
链接:http://wyanglab.org:3838/weta/
教程:http://wyanglab.org:3838/weta/weta-tutorial.pdf

2020-6-9晚修改

摘要

全外显子组和靶向测序在孟德尔遗传疾病的诊断中发挥了重要作用,但这些数据的分析涉及到许多复杂的工具,而且很难全面理解分析结果。在这里,本文报道一个R包RETA,可提供对这些数据的一站式分析,并提供具有许多高级可视化、功能全面的、交互式且易于理解的报告。它便于临床医生和科学家更好地分析和解释这类用于疾病诊断的测序数据。
Availability and implementation: https://github.com/reta-s/reta/releases
Contact: [email protected]

前言

在全外显子组或靶向基因panels上应用二代测序(NGS)正成为孟德尔疾病分子诊断的有力工具。前人已经开发了几个工具来帮助数据分析,如variant calling、注释以及对变异的过滤或优先排序,包括KGGseq (Li et al., 2012), PriVar (Zhang et al., 2013), exomeSuite (Maranhao et al., 2014)和GeneCOST (Ozer et al., 2015)。然而,仍然缺乏一个综合性的一站式工具来促进对这些数据的各种分析,并提供一份全面的互动报告,以便于理解结果。
在这里,我们提出一个R包,RETA,以一种对用户友好的和易于理解的方式满足这一需求。其重要功能包括各种深入的质量控制措施、综合覆盖检查和可视化、纯合性检测以及交互式、直接的分析结果展示。继承模式考虑允许对变异的数据进行深入处理,从而确定因果分析的优先级。

具体介绍

模块

RETA由6大模块构成。

  • General QC,它将提供(1)目标区域的一般摘要,例如根据所选平台的区域和碱基对的总数;(2)测序数据的摘要,包括读取次数、平均GC比率和读取长度。
  • In-depth QC,(1)X染色体和常染色体变异的合子检查,以检查性别指定错误、样本污染或血缘关系;(2)按血统鉴定(IBD)分析以检查家庭关系检查或婚姻血缘关系;(3)碱基深度在目标区域的分布;(4)变异统计表,包括Ti/TV比率(转换到颠换)、变异区域分布和基因分型质量。
  • Candidate gene QC,本模块从用户选择列表中分析每个候选基因的详细复盖面,并报告每个基因中的罕见变异。这里的表格包括(1)包含低覆盖区域(默认情况下小于5倍)的候选基因汇总,每个基因名称超链接到报告最后部分的详细覆盖数字;(2)显示所有候选基因中的低覆盖区域的互动表。类似地,(3)显示候选基因中定位质量低的区域的表格;(3)候选基因中的罕见变异,排除次要等位基因频率(MAF)>1%、低质量或覆盖率的变异。
  • Structural variants analysis,我们在这里包括runs-of-homozygosity(ROH)区域,因为较大的ROH通常意味着较大的杂合缺失、血缘关系或单亲二体。本节中的内容包括:(1)确定的ROH区域,以及在它们中发现的纯合子变体。(2)称为拷贝数变异体(CNV、大重复和缺失)及其基因。我们为每个平台提供了一些经过预处理的外显子数据来辅助CNV calling,主要用作有效的背景比较,特别是在用户输入的样本很少的情况下。每个CNV区域在报告的最后一节都有一个详细的数字。基于继承模式的
  • 变体优先级排序(Variants prioritization based on inheritance modes),在这里,我们根据假设的遗传模式进行变异筛选和优先排序,包括常染色体隐性(包括纯合子或复合杂合子)、常染色体显性、重复突变和X连锁遗传。候选变体根据相应的继承模式显示在每个小节中。
  • 提供了CNV和覆盖率分析的详细数字(Detailed figures for CNV and coverage analysis)。本节包含候选基因的CNV部分和覆盖率分析部分提到的所有数字。对于覆盖图,每个有问题的基因都有两个与之相关的数字,一个是整个基因的覆盖概况,另一个是用垂直矩形突出显示的低覆盖区域的放大数字(图1)。

Features特征值

据我们所知,这是第一个对候选基因面板进行全面质量控制和覆盖评估,并为外显子组或靶向测序数据提供交互式综合报告的软件,具有以下特点:

  • 最低软件要求:安装RETA依赖的R包后不需要其他工具。
  • 综合覆盖评估和可视化:这指出了否定检测的可能原因,从而指出了新的工作方向,特别是当一个人未能识别出有意义的候选变体时。
  • 深入的质量控制:例如,家庭成员关系检查的IBD分析,样品污染或性别错误的变异杂合性分析。
  • ROH分析:它可以从血缘关系家族和大型杂合缺失或单亲二体病例中识别可能的隐性变异。
  • 内置的候选基因panels和平台设计:用户可以根据自己研究的疾病简单地选择候选基因panels,并选择与所使用的靶向或外显子测序平台相对应的平台。
  • 交互式、直接的分析报告:组织良好的结果使得对结果的理解变得直接。


    图1.*IL2RG*基因的详细覆盖示例。(上图)仅放大低覆盖区域的绘图。从上到下追踪:染色体信息、基因组坐标、基因、靶区、每个样本的覆盖率(这里有三个样本,y轴代表深度)。突出显示的橙色矩形表示低覆盖率的目标区域。(下图)整个基因的覆盖图。

示例文件

补充材料中包括用于演示的HTML格式的文件和分析报告。
https://www.biorxiv.org/content/suppl/2017/03/28/121384.DC1/121384-1.html
https://www.biorxiv.org/content/suppl/2017/03/28/121384.DC1/121384-2.html

References

Li, M.X. et al. (2012) A comprehensive framework for prioritizing variants in exome sequencing studies of Mendelian diseases. Nucleic Acids Res., 40,
e53.
Maranhao, B. et al. (2014) exomeSuite: Whole exome sequence variant filtering tool for rapid identification of putative disease causing SNVs/indels.
Genomics, 103, 169-176.
Ozer, B., Sagiroglu, M. and Demirci, H. (2015) GeneCOST: a novel scoring-based prioritization framework for identifying disease causing genes.
Bioinformatics, 31, 3715-3717.
Zhang, L. et al. (2013) PriVar: a toolkit for prioritizing SNVs and indels from next-generation sequencing data. Bioinformatics, 29, 124-125.

你可能感兴趣的:(2020-06-09 RETA:用于全外显子组和靶向测序数据分析的R包)