全基因组测序数据分析--导


WES/WGS

了解遗传变异,例如单核苷酸多态性 (SNP)、小插入缺失 (InDels)、多核苷酸多态性 (MNP) 和拷贝数变异 (CNV),有助于揭示基因型和表型之间的关系。目前,高通量全基因组测序(WGS)和全外显子组测序(WES)被广泛用于研究DNA序列变异对人类多样性的影响,识别与人类复杂性或孟德尔病相关的遗传变异,并揭示不同人群的变异。这两种技术都有显着的优点和局限性,但平衡成本和时间效率与所需结果有助于选择最佳测序方法。WES 的成本可能低于 WGS,因为它仅涵盖蛋白质编码区域并生成较少的原始数据,但 WGS 提供了更全面的基因组景观,同时考虑了非编码和编码基因组区域。 它还允许识别 WES 可能遗漏的SV和CNV。 此外,WGS允许获得更均匀和可靠的覆盖范围。总而言之,WGS是一种比WES更通用的方法。


本教程将指导您完成 Genestack 上的基因变异发现工作流程。 我们将分析 Dogan 等人的数据集。 包括来自土耳其的个体高覆盖率 (x35) WGS 数据。 该实验可以在公共实验中找到——定期更新的从 SRA、ENA、GEO、ArrayExpress 导入的可免费访问的实验集合。 Genestack 使您能够无缝地处理公共和私有数据。 使用我们的数据导入器导入您自己的测序数据、映射读取或遗传变异数据。

遗传变异分析流程包括以下步骤:

1、原始读数的质量控制
2、原始读取的预处理
3、预处理后读数映射到参考基因组
4、映射后处理
5、映射读取的质量控制
6、变体调用
7、变体注释
8、变体过滤和优先级排序


原始读数的质量控制

原始测序数据中未识别的碱基、低质量的序列和污染物(如接头)会影响下游分析,从而导致错误的结果和结论。 在开始 WGS 分析之前,我们将检查初始数据质量并决定如何通过各种预处理选项改进下游分析。 FastQC报告应用程序基于 FastQC 工具,并生成几个表征原始数据质量的统计数据:每个碱基和每个序列的 Phred 分数分布、GC 内容分布、每个碱基序列内容、读取长度分布和序列重复水平。

FastQC 报告包含以下概述的几个质量控制指标:

  • 原始数据的基本统计信息,例如已处理的读取总数和 GC 内容;
  • 序列长度分布描述--分析的reads片段大小的分布;
  • 每个序列的 GC 含量图,显示每个单独读取的整个长度的 GC 含量;
  • 每个碱基序列质量图描绘了分析的测序测定中每个位置每个碱基的质量分数范围;
  • 每个序列质量得分图允许在总序列中检测质量差的序列;
  • 每个碱基序列含量图表示测试样品中每个位置的 A、C、T 和 G 的相对数量;
  • 序列重复水平图表示可能存在于库中的非唯一序列的比例;
  • 过度表达的序列提供的序列信息占总数的 0.1% 以上,并且可能具有较高的生物学意义或表明文库受到污染。

位于页面左侧的表格告诉我们哪些报告引起了关注或报告失败。

这种情况下,原始数据均未通过每个碱基序列的内容指标。 理想情况下,在随机库中,我们会看到 4 条平行线代表相对基础组成。 测试样本中读取开始时的波动可能是由接头序列或文库的其他污染引起的。

序列重复图表示具有不同重复水平的序列的相对数量,对于 WGS 实验,通常以均匀覆盖为特征,该图应迅速降至零。 重复可能对应于在文库制备或多次读取相同序列期间产生的 PCR 扩增偏差。

上述问题可以通过对原始数据进行适当的预处理来解决。 在这种情况下,我们将修剪读取端的低质量碱基并去除接头和污染物。 此外,我们将按质量分数过滤读取,以便在进一步分析中我们将只考虑具有高质量(平均 Q≥20)分数的读取。 尽管原始数据质量存在差异,但我们将对两个样本应用相同的预处理步骤。 应该强调的是,在任何应用的预处理步骤之后,您都可以使用 FastQC 应用检查其对原始读数质量的影响。

既然我们已经检查了测序分析的质量并决定了适当的预处理步骤,现在是时候为 WGS 数据的遗传变异分析创建管道,从原始数据预处理到遗传变异注释和过滤。



参考
https://genestack-user-tutorials.readthedocs.io/tutorials/WGS_data_analysis/
(失效)

可参考
https://warwick.ac.uk/fac/sci/statistics/staff/academic-research/nichols/presentations/ohbm2014/imggen/Nho-ImgGen-WGSeqPractical.pdf

你可能感兴趣的:(全基因组测序数据分析--导)