From 16S rDNA测序 To 宏基因组学研究—应用的策略和主要流程

主要内容

1.实验设计和研究目的定制策略

2.统计分析内容的事先计划

3.样品的采集、保存、提取(良好结果的前提)

4.测序平台的选择

5.数据的存储、分析、发布

——————————————————————————————————

1.实验设计和研究目的定制策略

1.1 一切始于实验设计

在某些方面实验设计需要谨慎:宏基因组研究中使用方法特点不同。

首先要确立宏基因组学研究的主要目标:要尝试解释怎样的科学问题?

根据实验规模和收集并用于后续分析的关联数据或Metadata的数量,可以实现测试多个假设。

1.2 分析方法学的处境

宏基因组数据集的高纬度,给微生物分析方法学带来了挑战与创新机遇。

什么是高纬度数据集?

高纬度数据集解释示意图

收集的数据类型,将决定分析类型

分析可以帮助我们回答哪些问题:

分析可以解释的问题

在实验开始之前,规划样本结构和数据的获取以及要使用的分析流程,将会避免一些不必要的麻烦并节省资金成本。

1.3 需要特别关注的问题

在研究设计阶段,研究者需要考虑与宏基因组数据收集和分析相关的伦理和法律问题。

从宿主采集的任何样本将含有大量的寄主遗传物质。宿主遗传物质对样本的潜在污染增加了宏基因组学研究的复杂性。去除污染序列的复杂计算流程对于产生有意义的结论是非常必要的。同时,能够保护供体的隐私。

2. 统计分析内容的事先计划

2.1 统计分析计划应考虑因素

做好统计分析计划应是研究设计的一个组成部分。虽然许多实验设计可以在宏基因组项目中进行,但没有单一一条途径可以直接通向完美策略。

统计分析计划应考虑到实验的特点(在人体研究中的纳入和排除标准)

样本采集率(一批或多批受试者招募率)

研究对象的描述,假设的验证,独立或嵌合在生物信息工具或流程中的分析方法等。

2.2 统计分析计划的主要优势

当有数据时,同时就有了一个分析的策略。这一点至关重要,因为二代测序提供大量数据,而我们希望继续专注于自身的主要研究目标。当主要研究目标完成后,探索性分析和额外的假设调研才成为可能。

2.3 样品量该如何评估

为了合理评估细菌群落之间的相似或差异程度,必须有可度量的差异或者效应的大小。一般来说,效应规模越小,一组样本内的变异性越大,就需要更多的样本来获得足够的统计能力。

样品数量的估算方式可参考如下文献:

LaRosa, P. S. et al.Hypothesis testing and power calculations for taxonomic-based human microbiomedata. PLoSOne 7,e52078, doi:10.1371/journal.pone.0052078 (2012).

2.4 样品复杂度与测序深度间的关系

样品的复杂性将极大地影响宏基因组测序项目中的序列覆盖深度。

样品的复杂性较低,则可以估计所需的测序覆盖深度,以便对整个宏基因组项目进行采样。

尽管每种二代测序平台都有独特的偏向性和相关的错率误(这个问题不限于二代测序)。

2.5 纵向研究挑战大

纵向研究可以在独立的每个时间点、沿时间线以及跨不同区域位点进行分析。在可行的情况下,时间点之间的宏基因组数据对于理解微生物种群动态变化特征至关重要。

2.6 关于合并样本

合并样本似乎是降低成本和减少样本变化的一个好策略。

但合并样本失去了所有低遗传代表性和推断微生物种群的能力。

2.7 需要Metadata为分析提供关联

对于任何一个宏基因组研究来说,关键是与其相关的Metadata的质量和范围。它将增强分析结果的说服力,使之成为最有力的证据。它为实验提供了背景,允许在研究之间进行有意义的比较,同时加深了我们对数据集的理解。随着信息的深入,需要对“环境因素”有更广泛的了解。虽然不是实验的重点,但看似无关的数据可能变得很重要。

有关样本位置或与其他样本的相对位置的信息可以包括在分析中。生物地理学的概念超越了对影响微生物空间分布的环境特征的描述。它旨在了解微生物自身生态位内的代谢过程及其与其他生物生态位的关系。生态位可能是口腔、消化管或皮肤中的不同部位。为了帮助我们更好地理解这些位置方面,诞生了大规模的数据可视化和分析工具。

当我们发现微生物组是任何生物系统中相互依赖的“器官”时,我们可能需要重新定义什么是与基因组样本一起收集的最佳相关数据。

定义或重新定义表型可能具有至关重要的意义。因为表型是基因型和生物体环境的相互作用的结果,包括微生物组,所以我们需要重新关注所定义的表型的粒度。从宏观到分子尺度,以前由于无意义而被忽视的新角度,在用不同的观察方向或观察窗口进行观察时,可能会发挥作用。

3. 样品的采集、保存、提取(良好结果的前提)

3.1 样品采集(良好结果的基础)

尽管测序平台的技术已经发展,但它们都专注于对核酸(DNA或RNA)进行测序。从环境、植物、昆虫和动物到人类,微生物组样本的来源差别很大。公布的环境样本数据多种多样(土壤、温泉、海水、空气以及家庭和医院环境)。对植物来说,地上和地下的相关微生物群已经被研究。在昆虫、动物和人类中,多个身体部位已经被调研过。在随后的许多研究中,所涉及的假设、目标、可用的设施和人员以及可用的资金在决策中起重要作用。

由于所采集数据的深度,污染将被检测成为样品的一个组成部分。建议在使用耗材或抑制剂对下游应用造成潜在无意污染的情况下检查每个步骤。尤其是重复使用的工具,在这些工具中,适当的清洁和消毒程序是必不可少的。

本环节不探讨:生物样本或戴口罩可以消除呼吸的污染。在使用手套保护样品时,皮肤或表面的简单接触会污染手套,进而可能污染样品本身。天然的DNA酶和RNA酶可能会对样品造成潜在的损害。

本环节主要集中在:收集的数据深度及其关联上的应用常识。换言之,如果你想知道香蕉皮上的微生物群,但你把香蕉扔在地里,你还将了解到地表微生物群以及水果的微生物群。

正确的取样方案对宏基因组学研究至关重要,因为许多生物体的准确鉴定取决于样本的收集和处理。确定地理位置或特定的体位、表面、深度、体积或要采集的数量是采样标准化所必需的。在可能的情况下,保持样品的浓缩并对其进行处理,以便立即储存。各方面的一致性既能保持样品的质量,又能限制分析过程中的批次(量)效应,确保研究准确性。保护样品不受其他元素(风、太阳等)的影响看起来不错,但在处理样品时,样品干枯同样也是一个常见问题。

分析一个样本的真实性,技术重复和评估观察到的差异是否具有统计学意义是一个好的做法。真实重复:当同一地点被多次取样时,很少在宏基因组学研究中进行,因为由于位点的生物组织,当多次针对一个位点采样时,由于技术的敏感性可能很容易显示出差异;当样品被分割处理时,技术重复则很容易进行。

3.2 样品的储存

储存和取样是紧密相连的问题。在采集样本时,不可能总是有冷冻室或专家在场。在开始研究之前,需要确定影响下游步骤一些问题的解决方案。样本类型的性质太过多样化,无法考虑到所有细节,但有一个关键问题:“我真正需要多少样本?”相关的问题是:“我是否需要来自同一样本的DNA、RNA、蛋白质、脂质、小分子等?”、“样品将用于多个环节、制备或提取?”,以及以后可能感兴趣的与当前或未来研究应用有关的任何其他问题。

样品储存方案众多,从立即提取到长期储存在液氮中。样品的性质通常规定了避免样品干燥、变性、溶解、降解等的最佳方案。由于现场立即提取或进入-80℃冷冻柜并非始终是一种可行的选择或易实施的方案,必须制定替代方案以保护样品、完整性和对研究问题的价值。多家公司正在提供含有保存液的采样材料,但这些不同保存液的效果很少经过比较分析验证。

样品成本忽略,存储空间足够,这可以忽略样品采集数量。但使每个样本或每批样本采集流程保持一致是很重要的。无论研究者是在大型人体受试者队列中工作还是在大型野外采集中工作,人员、取样设备(可能时一次性使用)以及临时和永久性储存的成本都会迅速增加。随着样品的收集和储存,核苷酸提取将是下一步。

3.3 核酸提取

纳入到宏基因组学研究中的样本可能非常多样化。在进行任何分析之前,需要从样本中提取DNA和/或RNA。样本的类型和来源决定了最合适的提取方法。由于提取的DNA和/或RNA的质量影响到所有后续步骤,因此这一步骤通过可用的核酸提取试剂盒。提取对分析的成功至关重要。在选择最合适的提取方法之前,建议仔细阅读文献并对特定样本的方法进行验证。提取方法的选择取决于DNA或RNA的产量、对核酸的剪切情况、污染物的去除(可能对后续步骤有抑制作用)等。

现有试剂盒的优化;如何保存样本也很重要;细菌细胞壁结构的差异导致细菌细胞裂解或多或少是有效率的。裂解的效率不同会扭曲微生物群落的表观组成,并在相对丰度的估计中引入偏差。

样品处理和加工的一致性是避免批量效应的关键。培训、标准操作程序和良好的质量控制有助于最大限度地减少批量(次)效应的可能性。当有足够的样本可用且提取方法已得到验证时,核酸提取自动化才是一个很好的选择。

一次提取多个大分子是一种选择。试剂盒和操作步骤允许从同一样本中纯化DNA和RNA,而其他试剂盒也可以通过回收蛋白质来进一步纯化DNA和RNA。一个挑战是从同一样本中纯化其他大分子,这可能需要一套不同的策略。

去除宿主DNA可能会提高分析质量,并通过减少相同信息的reads来降低测序成本。商用试剂盒采用的两种策略是:真核细胞的差异裂解和基于宿主和微生物之间CpG位点甲基化密度的甲基化DNA完成分离。减少宿主DNA的尝试不仅限于脊椎动物宿主,而且在植物中也成功地去除了污染物DNA。

4. 测序平台的选择

4.1 选择测序平台需要考虑的问题

由于科学研究的多样性,没有一种单一的方法可以推荐。对文献的详细审查、与同事讨论、测序设施、成本、可用性、周转时间和项目范围将是决策过程的一部分。但研究提出的假设和研究的最终目标应该是真正的驱动力。

每个测序平台的特点是它们在读取长度、AT或GC丰富区域的偏差以及它们对Ploy结构测序能力方面的强弱。

4.2 怎样的测序深度才满足要求

确定所需的Reads数应该在信息统计分析所需的最小Reads数与可用预算之间的权衡。

这个选择是由平台和你的实验需求驱动的。

样品低复杂度——可以降低测序覆盖度;

样品高复杂度——需要增加测序覆盖度;

关注低丰度数据集——增加测序覆盖度。

4.3 数据质量

数据质量始终是一个需要考虑的参数。评估序列质量数据最常用的指标之一是Q分值。低Q值(低于20)会导致假阳性变异增加。Q20代表1%的错误概率,是高质量碱基的公认标准,类似于基于SangerDNA测序的预期。随着技术的进步,我们可以期望Q30(误差概率为1-1000)及以上的质量标准成为标准。

5. 数据的存储、分析、发布

5.1 数据存储与分析

所有的生物信息学工具都依赖于数据库来添加从系统发育到功能的信息。虽然有些仅基于一种技术(如METAhit和HMP的基因数据集),但另一些则是通过一代又一代的方法和技术进步而发展起来的,如COG、KEGG、GenBank和所有其他国际存管机构。缺乏标准化、注释不一致以及不同的技术导致一些未知的错误,这些给研究者带来了一些挑战。

管理型数据库试图限制这些问题,并通过删除与所讨论的焦点无关的信息(例如序列)来减少数据集的大小。其中一些数据库包括CAZy、Greengenes、HOMD和MetaCyc。附加信息的强大之处在于它们丰富了可以从数据集中获得的内容。但是,来自数据集的部分信息是不可用的,因为它与以前获得的数据集不完全匹配。由于微生物菌株的多样性尚待测序,对你的科学问题的解答,可能存在于没有相关功能的保守蛋白质中,也可能存在以前从未沉积过的基因或基因集。

5.2 数据与发布

任何一个宏基因组项目都应该包括一个将收集到的数据共享给科学界目标,包括序列数据和Metadata。国际核苷酸序列数据库协作组织(INSDC,http://INSDC.org)拥有一些用于收集和传播核酸数据集的储存库。INSDC托管以下计算机化数据库:日本DNA数据库(日本)、GenBank(美国)和欧洲核苷酸档案(英国)。

研究团体已经认识到需要归档定义良好的Metadata,从而创建了基因组标准联盟。他们的任务是:1)实施新的基因组标准,2)在标准内,捕获和交换信息的方法,3)协调整个基因组学界的信息收集和分析工作将基因组和Metadata提交给期刊和序列库。MIGS(关于基因组序列的最小信息)、MIMS(关于元基因组序列的最小信息)、MIMARKS(关于标记基因序列的最小信息)和MIxS(关于任何(X)序列的最小信息)规范都是标准化,并增强了我们进一步分析数据集的能力,无论是用于培训还是用于补充分析:采用这些标准可以提高数据存储库收集的信息的质量、可访问性和实用性。

到目前为止,还没有标准的格式来表示数据是如何分析的。为了大家的利益,标准格式中应该包括分析中使用的方法、工具和参数。一种选择是将这些信息作为已发表文章的在线附录提供等。类似的高质量标准也应该投入使用。

你可能感兴趣的:(From 16S rDNA测序 To 宏基因组学研究—应用的策略和主要流程)