刘永鑫Adam

Nature综述：2万字带你系统入门鸟枪法宏基因组实验和分析

NBT：鸟枪法宏基因组-从取样到数据分析

Shotgun metagenomics, from sampling to analysis

Nature Biotechnology [IF:31.864]

2017-09-12 Articles

DOI: https://doi.org/10.1038/nbt.3935

第一作者：Christopher Quince^1,7，Alan W Walker^1,7

通讯作者：Nicola Segata⁶

其它作者：Jared T Simpson, Nicholas J Loman

主要单位：

¹ 华威大学沃里克医学院，英国沃里克(Warwick Medical School, University of Warwick, Warwick, UK.)

⁶ 意大利特兰托大学整合生物学中心(Centre for Integrative Biology, University of Trento, Trento, Italy.)

热心肠日报

Nature子刊：宏基因组研究超强综述——从取样到分析

https://www.mr-gut.cn/papers/read/1081754161

创作：刘永鑫审核：刘永鑫

原标题：鸟枪法宏基因组-从样本制作到数据分析

随着测序价格下降、配套软件的发表和更新，宏基因组广泛应用；
本文概述了宏基因组学的工作流程，总结了实验设计的基本思路，以及常见问题和解决方法；
实验阶段从DNA提取、文库制备和测序各阶段进行详细描述和经验分享；
分析阶段介绍了拼接、分箱、有参定量、基因和代谢通路和下游分析的方法和原理，同时对主流软件的优缺点和适合范围进行讨论；
本文是入手宏基因组研究必读综述，内容深入浅出，适合本领域各层次同行学习。

主编评语：此文是Nicola Segata领衔创作的宏基因组分析综述，是目前我所见到的指导宏基因组实验和分析最好的综述。Segata本人及其团队在宏基因组分析领域编写了最多的主流软件，如LEfSe、MetaPhlAn2基于多标记基因的宏基因组物种组成定量文章解读软件使用、HUMAnN2基于UniRef数据库的功能定量 1文章解读 2软件教程 3有参分析流程和GraPhlAn：最美进化树或层级分类树等，而且还表发了众多顶级宏基因组研究文章，如Cell：15万人体微生物基因组！超大规模宏基因组研究揭示数千计人体微生物新物种、《Nature子刊：跨越人群的大肠癌肠道菌群特征和诊断标志物》等。此文发表近2年，引用200+次，是CNS平均引用的2.5倍多，足以见此文的重要性。

摘要

Abstract

细菌、古细菌、病毒和单细胞真核生物的不同微生物群落在环境和人类健康中起着至关重要的作用。然而，微生物经常难以在实验室中培养，这可能会混淆成员的命名和对群落如何运作的理解。高通量测序技术和计算流程已经应用到鸟枪法宏基因组学中，改变了微生物学。但仍然需要计算方法来克服影响基于组装和基于比对的宏基因组分析的挑战，特别是高复杂性样品或含有与测序基因组具有相似性生物的环境。了解这些群落的功能和表征特定菌株，为使用微生物工厂合成产品的治疗、发现和创新方法提供了生物技术前景，并可以确定微生物对我们的家园、动物和人类健康的贡献。

正文

Main

高通量测序方法可以对样品中的所有微生物进行基因组分析，而不仅仅是那些适合培养的微生物。鸟枪法宏基因组学（shotgun metagenomics）是对样本中存在的所有（’meta-‘）微生物基因组的非靶向（untargeted / ‘shotgun’）测序。鸟枪法测序可用于分析微生物群落的分类组成和功能潜力，并恢复全基因组序列。诸如高通量16S rRNA基因测序（其描绘所选生物或单个标记基因）的方法有时被称为宏基因组学，但这是用词不当，因为它们不针对样品的整个基因组含量。

自首次使用以来的15年中，宏基因组学已经能够对复杂的微生物组进行大规模研究。通过该技术的发现，包括鉴定具有内共生行为的环境细菌门、以及可以对氨进行完全硝化的物种。其他值得注意的发现包括共生细菌中广泛存在的抗生素抗性基因，追踪人类暴发病原体，微生物组的病毒和细菌部分与炎症性肠病的强烈关联，以及监测菌株的能力 - 在粪便微生物组移植引起的扰动后肠道微生物群的变化。

在这里，我们讨论鸟枪法宏基因组学研究的最佳实践，包括目前认识和应用的局限性，并提供未来宏基因组学的展望。

在初步研究设计之后，典型的鸟枪宏基因组学研究包括五个步骤：（i）样品的收集，处理和测序; （ii）测序读长的预处理; （iii）微生物组序列分析分类学、功能和基因组特征; （iv）统计和后处理分析，以及（v）验证（图1）。许多实验和计算方法可用于执行每个步骤，这意味着研究人员面临着艰巨的选择。而且，尽管其显而易见的简单，但由于潜在的实验偏差以及计算分析及其解释的复杂性，鸟枪法宏基因组学具有局限性。我们评估每个步骤伴随的选择和常见问题。

图1. 宏基因组分析流程概述

Figure 1: Summary of a metagenomics workflow.

步骤（1）：研究设计和实验方案。在宏基因组学中经常低估这一步骤的重要性。步骤（2）：数据预处理。数据质量控制（quality control，QC）步骤最小化基本序列偏差，例如去除测序接头、质量修剪、去除测序重复（使用例如FastQC，Trimmomatic或Picard工具）。还过滤外源或非靶DNA序列，并且如果比较分类群或功能的多样性，则对样品进行二次采样以标准化读长数量。步骤（3）：序列分析。根据实验目标，采用“基于读长”和/或“基于组装”的方法。两种方法都有优点和局限性（表4）。步骤（4）：后处理。可以使用各种多变量统计技术来解释数据。步骤（5）：验证。高维生物学数据的结论易受研究驱动的偏差影响，因此后续验证至关重要。

附图1. 用于规划宏基因组学研究的示例工作流程

Example workflow for planning a metagenomics study

这里提出的建议针对的是该领域的入门级研究人员，特别是关注假设驱动的实验，与探索性/假设生成研究相比，这些实验当然可能设计得非常不同。

研究设计（蓝框），样品采集（绿框）和实验程序（黄框）的关键考虑因素突出显示。了解混杂因素的可能性和设计的优化，可以显著地提高宏基因组序列数据和解释的质量。附框1包含进一步的具体建议。

附框1. 实验设计中的问题和解决方案

Supplementary Box 1 Problems and solutions for study design

为研究提供的统计功效和测序深度的要求

Powering the study & Read depth requirements

能够检测显著差异所需的样品数量和测序深度将取决于诸如不同样品之间微生物组成的一致性、样品的固有微生物多样性和所研究现象的效应大小等因素。

解决方案：决策可以通过相同类型环境中先前研究的结果来指导。在缺乏此信息的情况下，进行基于标记基因的初步研究以评估谨慎的列出的每个因素的可能相对影响。

混淆变量和对照组

Confounding variables and control groups

通常很难选择对照组与不含其他混杂变量的目标样本进行比较。这方面的一个例子是啮齿动物微生物组研究，其中笼和动物批次效应可导致微生物组成的显著差异，与所研究的变量无关。另一个例子是与病例相关微生物组的横断面研究（cross-pal study），在没有积极治疗的情况下患者无法取样。

解决方案：当前的最佳实践是尽可能多地收集关于每个研究组的元数据，并在比较组时将这些元素纳入后续分析中。对于临床样本，通常包括性别、年龄、抗生素/药物使用、地理位置、饮食习惯和布里斯托尔粪便图表分数等特征。对于环境样品，通常包括地理位置、季节、pH、温度等。有关规划啮齿动物微生物组研究的进一步广泛建议，来自同一患者/位置的纵向采样也可作为额外控制，特别是当纵向变化可以与元数据相关联。

样品采集/保存

Sample collection/preservation

可能很难以完全相同的方式处理和保存所有样品（例如，当不同研究组从多个位置提供样品时）。通过纵向研究，在最终时间点收集的样品在DNA提取之前，冷冻保存中花费的时间少于在其他时间点收集的样品。采样和保存程序的这些变化可能会引入系统偏差。

解决方案：在可能的情况下，对于给定研究中的所有样品，应始终对收集和保存方法进行标准化。在进行后续数据分析时，还应记录所有使用的程序并将其作为相关元数据包括在内。理想情况下，这应包括收集和DNA提取之间的时间，冷冻储存的时间长度和冻融循环次数等因素。对于哺乳动物的肠道样本，有一些证据表明，在长期冷冻储存后，甘油储存可能会产生更具代表性的成分结果改变。同样，在长期冷冻储存之前进行冷冻干燥可能是一种谨慎的方法。

生物量/污染

Biomass/Contamination

二代测序技术是高度敏感的，这意味着非常少量的DNA足以进行测序。然而，常见的实验室试剂盒和试剂并非无菌，意味着这些中存在的任何污染都可能超过仅含有极低微生物量的样品中的“真实”信号。

解决方案。在测序之前，使用定量方法如qPCR测量样品中存在的生物量水平是明智的。含有少于10⁵个微生物细胞的样品似乎受到背景污染的影响最大。表1提供了一些可以尝试的方法，以便在测序之前从样品中富集细胞数 / DNA产量。使用与实际样品相同的试剂盒/试剂处理的阴性对照样品应进行测序，以确定存在的污染微生物的类型。然后可以从最终序列数据集中生物信息地去除源自这些污染物的序列数据。注意，通过使用载体DNA可以增强这些阴性对照的灵敏度。

DNA提取方法的选择

Choice of DNA extraction methodology

这一步骤可以极大地影响宏基因组学研究的结果。如果所选择的方法不够严格以从一些细胞类型中提取DNA，则它们将不会在随后的序列数据中准确地表示。从根本上说，DNA提取方法的最佳类型将取决于给定样品中存在的细胞类型的基本组成。不幸的是，即使在相同类型的样品中，这也可以变化很大（例如，一些人的粪便由革兰氏阴性物种主导，细胞壁相对容易破坏，而其他人的粪便由相对顽固的革兰氏阳性物种主导）。因此，没有一种DNA提取方法可以最佳地适用于所有样本类型。

解决方案：使用定义的模拟群落（Mock communities，人工混合成分确定的混菌），控制由来自特定环境中常见的物种类型的混合物的培养物组成，可以作为测试不同DNA提取方法效率和准确性的有效起点。通过包括系统发育上不同的物种集合可以优化模拟群落，这些物种已知在所研究的样本类型中通常很丰富。然而，使用简化模拟很难模拟真实微生物群落的复杂性，并且不可能测试未知/未培养生物的提取步骤的效率。大量证据表明，与化学裂解相比，将珠粒打浆步骤结合到DNA提取过程中可提高所得物种特征的产量和代表性。然而，这种类型的方法通常会导致更强烈的DNA打断，可能会限制新一代长读长测序技术的能力。在将序列数据上传到公共存储库时，DNA提取方法也应作为关键的元数据包含在内。这允许将方法选择的差异考虑到随后的荟萃分析中(荟萃分析包含来自不同实验室的宏基因组数据集)。

关于DNA提取方法选择，可阅读之前NBT发表的评测文章：

DNA提取也能发Nature？

鸟枪法宏基因组学研究方案设计

Shotgun metagenomics study design

基于假设的研究设计所涉及的步骤在附图1中概述，附框1中总结了具体建议。微生物含量可能因同一环境的样本而异，这使得在少量样本中检测具有统计学意义和生物学意义的差异变得复杂。因此，重要的是要确定研究是否足以检测差异，特别是影响很小时。一种有用的策略可能是生成试点(pilot)数据以获得功率计算（power calculations）。或者，可采用双层（two-tiered）方法，其中对用较便宜的微生物调查（例如16S rRNA基因测序）预筛选的样品，然后选择子集进行鸟枪法宏基因组学（N.S.）18。

特别是对于复杂环境的样品，对照可能很难获得。这对于那些研究人类微生物组的人来说尤其重要，其中栖息的微生物群落受多种因素的影响，如宿主基因型、年龄、饮食和环境。在可行的情况下，我们建议纵向研究纳入来自同一栖息地的样本，而不是简单的横断面研究，比较两个样本集的“快照(snapshots)”。重要的是，纵向研究不依赖于可能是非代表性异常值的单个样本的结果。排除可能被不需要的变量混淆的样本也是谨慎的。例如，在人类受试者的研究中，排除标准可能包括暴露于已知影响微生物组的药物，例如抗生素。如果这不可行，则应将潜在的混杂因素纳入比较分析（附栏1）。

如果样本来自动物模型，特别是共同饲养的啮齿动物，则应考虑动物年龄、居住环境、甚至处理动物人员的性别对微生物群落特征的潜在影响。通常可以通过单独容纳动物以防止微生物在笼子内、配偶之间传播来缓解研究设计中的潜在混杂因素（尽管这可能引入行为改变，可能导致不同的偏差），从而在不同的实验群组中容纳动物。使用来自不同供应商或具有不同遗传背景的小鼠品系进行笼养或重复实验。

最后，无论所研究的样本类型如何，收集详细而准确的元数据至关重要。有关标记基因序列的最少信息（Minimum information about a marker gene sequence，MIMARKS）和任何基因序列的最少信息（ minimum information about any (x) gene sequence，MIxS）必须列出，以提供所需元数据，但宏基因组学现在应用于不同类型的环境，难以选择适合每种样本类型的参数。我们建议将尽可能多的描述性和详细的元数据与每个样本相关联，以使研究群组或样本类型之间的比较更有可能与特定的环境变量相关联。

样本采集和DNA提取

Sample collection and DNA extraction

样品采集和保存方案可能会影响宏基因组学数据的质量和准确性。重要的是，在某些情况下，这些步骤的影响大小可能大于感兴趣的生物学变量的影响大小。实际上，样本处理方法的变化也可能是来自不同研究数据进行荟萃分析中的重要混淆因素（附框1）。已经针对一种样本类型验证的收集和存储方法不能被认为对于其他样本类型是最佳的。因此，通常需要仔细的初步工作来优化样品类型的处理条件（附图1）。

常温保存方法的比较，可参考《Microbiome: 室温存储样本方法比较》

主要目标是收集足够的微生物生物量进行测序，并尽量减少样品污染。富集方法可用于微生物稀缺的环境（表1）。然而，这些程序可能会将偏差引入测序数据。一些研究表明，样品采集和冷冻的时间长度以及样品经历的冻融循环次数等因素会影响检测到的微生物群落特征; 因此，应记录收集和储存协议和条件（附框1）。

DNA提取方法可以影响下游序列数据的组成。提取方法必须对多种微生物类群有效; 否则，测序结果可能由仅来自易于裂解的微生物DNA支配。包括机械裂解（或珠击）的DNA提取方法通常被认为优于化学裂解的方法。然而，基于珠击的方法在效率上提高，但强烈的提取技术如珠击可导致DNA片段长度缩短，这可能导致在使用片段大小选择技术的文库制备方法中DNA丢失。

样品处理阶段可能会发生污染。试剂盒或实验室试剂可能含有不同量的微生物污染物。来自低生物量样品（例如，皮肤拭子）的宏基因组数据集特别容易受到这个问题的影响，因为与低污染水平竞争的“真实”信号较少，我们建议使用低生物量样品的研究人员使用超净试剂并加入’空白’测序对照，其中对试剂进行测序而不添加样品模板。其他污染源包括先前测序运行中的交叉污染、基于Illumina的测序方案中添加的PhiX对照DNA、以及人或宿主DNA。

表1. 在测序之前富集微生物细胞和DNA方法的优点和局限性

Table 1: Advantages and limitations of methods to enrich for microbial cells and DNA before sequencing

全基因组扩增

Whole-genome amplification

优点

即使微量材料也可以产生足够的DNA用于测序
可以应用于提取环境DNA
可以在一类样品中扩增全部的物种

缺点

扩增会产生显著的偏差，对宏基因组表征产生影响
扩增中产生嵌合体影响组装
对感兴趣的物种无法改变其丰度比例(没有富集特定类群的能力)

单细胞基因组

Single-cell genomics

优点

可以从未培养的生物体中产生基因组
可以与荧光原位杂交等靶向方法结合使用，以选择特定的分类群，包括那些可能是微生物群落中罕见成员的分类群
将基因组数据置于其正确的系统发育背景中
参考基因组可以帮助宏基因组拼接

缺点

分离单个细胞是成本昂贵的，需要专业设备
需要全基因组扩增的步骤
在基因组扩增过程中容易引入偏差，因此通常只能回收部分基因组
容易受到污染

流式分选

Flow sorting

优点

提供对感兴趣的细胞进行高通量分选的方法
可以选择特定的分类群，包括那些可能是微生物群落中罕见成员的分类群

缺点

需要昂贵的设备和专业操作人员
需要完整的细胞
可能无法回收样品中附着于表面或固定在结构中的细胞，如生物膜
可以收集的细胞数量受流速和分选体积的限制

原位富集

In situ enrichment

优点

简化微生物群落结构，可以更容易地从宏基因组学数据中组装基因组
富集样品中特定分类群的存在，可以提供有关其在微生物群落中功能作用的线索

缺点

要求感兴趣的细胞可以在整个富集期内稳定地保持在微观世界中
简化微生物群落结构，偏差有利于能够在微观世界中茁壮成长的生物

培养和微培养

Culture or microculture

优点

允许对表型特征的分离株进行广泛测试
参考基因组可以帮助宏基因组拼接
提供功能数据以改进宏基因组学注释
将基因组数据置于其正确的系统发育背景中

缺点

通量低，可能是高度劳动密集型的工作（分几万个菌，点样就是一项体力活）
受到在实验室中一些难培养微生物的限制（永远不可能培养所有微生物）
不太可能恢复微生物群落的稀有成员，因为培养的分离物集合将由最丰富的生物体主导

序列捕获技术

Sequence capture technologies

优点

可以使用寡核苷酸探针来鉴定感兴趣的物种，如最近证明的不依赖于培养的病毒诊断（在病毒组研究中有广泛应用，如《NBT：宏基因组中设计全面可扩展探针捕获序列多样性》）
通过仅关注感兴趣的物种，特别是当存在大量宿主污染时，可以实现更高的灵敏度

缺点

使用的试剂盒价格昂贵
与PCR一样，当目标生物与用于设计探针的参考序列相比变异较大时无法捕获
可以对目标生物进行不均匀的基因组覆盖，影响组装

免疫磁珠分离技术

Immunomagnetic separation

优点

可以富集特定的分类群，包括那些可能是微生物群落中相对罕见的成员
远比单细胞基因组学或流式分选技术便宜得多
与其他有针对性的浓缩技术相比，在技术上更具挑战性，且更耗时

缺点

需要完整的细胞
需要针对目标靶细胞的特异性抗体
如果目标细胞数量低，可能需要在细胞分离后进行全基因组扩增

背景(人和真核)消减技术

Background (human or eukaryotic) depletion techniques

优点

对于微生物细胞数远低于真核细胞的样品特别有用
增强了对微生物基因组数据的检测
需要较低的序列深度以获得良好的微生物基因组覆盖率，降低测序成本
相对便宜，而不是技术上的挑战

缺点

在加工步骤中可能失去感兴趣的细菌DNA，并在随后的微生物组分析产生偏差
可能引入污染

文库制备和测序

Library preparation and sequencing

文库制备和测序方法的选择取决于材料和服务的可用性、成本、易于自动化和DNA样品定量。Illumina平台在鸟枪法宏基因组学中占据主导地位，因为它具有广泛的可用性，非常高的通量（每次运行高达1.5 Tb）和高精度（典型错误率为0.1-1％），尽管竞争的Ion Torrent S5或S5 XL仪器是另一种选择。诸如Oxford Nanopore MinION和Pacific Biosciences Sequel等长读长序列技术已经扩大了通量，现在每次运行可产生高达10 Gb，因此这些平台很快就会开始采用宏基因组学研究（详者注：两年后的今天，这些平台的准确度和通量均有明显的提升，而且已经有一大批采用三代测序的宏基因组文章率先发表于NBT杂志）。

三代测序应用于宏基因组的代表工作：

NBT：牛瘤胃微生物组的参考基因组集
NBT：宏基因组二、三代混合组装软件OPERA-MS
NBT封面：纳米孔宏基因组6小时识别下呼吸道病原体
纳米孔测序揭示冻土冻融对土壤微生物群落变化的影响

鉴于在单次运行中可实现非常高的输出，通常通过多达96或384个样品的标签混样一次对多个宏基因组样品进行测序，通常使用可用于所有文库制备方案的双索引条形码集。Illumina平台在测序批次间（运行之间）和测序批次内（运行中）之间存在交叉污染的问题。最近，人们越来越担心使用新扩增方法（ExAmp）的新型Illumina仪器会遇到更高比率的“索引跳跃（index hopping）”，其中不正确的条形码标识符被纳入增长的簇中，但这种问题在典型宏基因组学项目中的程度尚未经过评估，Illumina已经提出了减轻此问题的最佳实践。研究人员可以通过随机选择含有已知加内参孔作为阳性对照，和模板阴性对照来评估这些问题的程度。这些措施对于诊断宏基因组学项目尤其重要，其中少量病原体读长可能是高宿主污染背景下的感染信号。尽管在该领域仍然不常见，但技术重复对于评估可变性是有用的，并且即使对样本的子集进行重复也可以提供足够的信息以将技术与真正的变异区分开来。

有多种方法可用于制备Illumina测序文库，通常使用片段化的方法来区分。例如，Illumina Nextera和Nextera XT产品中使用的基于转座酶的“标记(tagmentation)”很受欢迎，因为它的成本低（每个样品25-40美元，稀释方法可以进一步降低这些成本）。标记方法需要小的DNA起始量（建议使用1 ng DNA，但可以使用更少的DNA）。由于随后的PCR扩增步骤，这种低输入是可接受的。然而，由于标记靶向特定序列基序，它可能引入扩增偏差以及众所周知的与PCR相关的GC含量偏差。减少这些偏差的一种方法是使用依赖于物理片段化的无PCR方法（例如，无PCR的TruSeq）来产生可以更能代表样品中潜在物种组成的测序文库。

这里没有针对给定环境或研究类型的“合适”覆盖量/测序量的通用标准，并且这种数字不太可能存在。根据经验，我们经常建议选择一个最大化测序输出的系统，以便从尽可能多的低丰度微生物组成员中检索序列。Illumina HiSeq 2500或4000，NextSeq和NovaSeq产生大量序列数据（每次运行120 Gb和1.5 Tb），非常适合宏基因组学研究（需要注意关于索引跳跃的问题）。这些仪器每次运行的通量是已知的，并且通过确定混样的数量，研究者可以设置每样品的期望测序深度。2017年的典型实验旨在产生1到10 Gb，但这些深度可能过高或不足，这取决于检测样品中稀有成员所需的灵敏度（详者注：我见过的测序数据量范围是6-300GB，这取决于你想要研究多低丰度的物种，通用最低量 6Gb = 150 bp X 2 X 2千万，可使1%丰度菌基因组测序深度 = 6GB*1%/5MB = 12X，0.1%只有1.2X，而通常纯菌要获得较完整的基因组也需要30-100X的深度）。

Illumina平台的主要区别在于其总产出数据量和最大的测序长度。Illumina HiSeq 2500虽然现在已有两代历史，但却是鸟枪法宏基因组学的热门选择，因为它能够在快速运行模式下生成2×250-nt读长（每个流通槽可产生高达180 Gb）或最多1个Tb处于高输出模式，具有2×125-nt读数。较新的HiSeq 3000和4000系统进一步提高了运行的总通量（4000的最高可达1.5 Tb），但读取长度限制为150-nt。NextSeq台式仪器具有与HiSeq 2500快速运行模式类似的输出，但仅限于读长150 nt。然而，NextSeq的成本不到HiSeq价格的一半，因此可能对希望操作自己的仪器的研究团队具有吸引力。最近发布的NovaSeq平台承诺在不久的将来每个流动槽通量可达3 Tb。Illumina MiSeq受输出限制（在2 × 300-nt 模式下高达15 Gb），但仍然是单标记基因微生物组研究的事实标准。MiSeq（或MiniSeq）可能仍然可用于对有限数量的样品进行测序或评估文库浓度和平衡条形码混池，在运行更高通量的仪器之前提供良好初步结果判断，其中单个运行（Run）花费可能 > 10,000美元。

宏基因组拼接

Metagenome assembly

已经公开了许多用于从序列读长库中重建微生物群落组成的方法。选择“最佳”是一项艰巨的任务，主要取决于研究的目的。

宏基因组从头/无参（de novo)组装/拼接在概念上类似于全基因组组装。de Bruijn图方法目前是一种非常流行的宏基因组装方法。对于单草图的基因组拼接，通过将每个测序读长分解为固定长度k的重叠子序列来构建de Bruijn图。这组重叠的“k-mers”定义了de Bruijn图的顶点和边。组装程序的任务是找到重建基因组的图形路径。生成非基因组序列的序列错误和重复序列会使此任务变得复杂，这可能导致错误组装和碎片化。

宏基因组拼接呈现出独特的挑战。首先，当组装单个基因组时，通常假设沿着基因组的序列覆盖近似均匀。组装程序可以使用序列覆盖来识别重复拷贝，区分真实序列和测序错误，并识别等位基因变异。宏基因的拼接更困难，因为每个基因组的覆盖范围取决于群落中每个基因组的丰度。如果总体测序深度不足以在图中形成连接，则低丰度基因组可能最终碎片化。在图形形成中使用短k-mer大小可以帮助恢复较低丰度的基因组，但这是以图中重复k-mer频率增加为代价，掩盖了基因组的正确重建。组装程序必须在恢复低丰度基因组和获得高丰度基因组的长而准确的重叠群之间取得平衡。第二个问题是样品可含有相同细菌种类的不同菌株。这些密切相关的基因组可以在组装图中引起分支，其中它们可以通过单核苷酸变体或整个基因或操纵子的存在或不存在而不同。组装程序通常会在这些分支点处停止，从而导致碎片重建。

特定的宏基因组的组装软件试图克服这些挑战。Meta-IDBA使用多重k-mer方法来避免选择适合低丰度物种和高丰度物种的k-mer长度的任务。Meta-IDBA具有对de Bruijn图分区的扩展（与MetaVelvet一样），最新版本IDBA-UD优化了不均匀序列深度分布的重建。SPAdes组装程序已扩展用于宏基因组装配，可用于组装使用不同技术测序的数据（二、三混合组装）。

对于可能包含数百种菌株的复杂样品，必须尽可能增加测序深度。计算时间和内存可能不足以完成这样的组装。分布式组装程序，例如Ray，它在一组计算机集群上分布内存负载，已被用于组装来自人类粪便样本的宏基因组。为了帮助组装非常复杂的样品，Pell等人开发了一种轻量级方法，将宏基因组装图分割成可以独立组装的连接组件。另一种方法是潜在的菌株分析，使用k-mer丰度模式对读长进行分区，这样可以使用有限量的内存组装各个低丰度基因组。MEGAHIT使用简洁的数据结构来降低组装复杂宏基因组的内存需求，并实现非常快的运行时间。

MEGAHIT的文章导读和软件使用教程如下：

MEGAHIT：多快好省的宏基因组装工具
组装拼接MEGAHIT和评估quast

关于不同装配软件的关键指标（如完整性，连续性和产生嵌合重叠群的倾向）方面的表现，几乎没有同行的共识。尽管宏基因组分析“烘焙比赛（bake-offs）”旨在为分析软件提出具体建议，但软件性能很可能取决于生物因素（例如，潜在的微生物群落结构）和技术因素（例如，测序平台特征和覆盖范围）。在Assemblathon项目中观察到没有一个组装软件表现出“最佳”。

我们分析了模拟合成和真实群落的组装结果（表2和表3）。我们评估了MEGAHIT和metaSPAdes从模拟群体中重建已知基因组并捕获真实数据集中的分类学和基因多样性的能力。两者都成功地重建了超过75％的模拟群落 - 一个包含20个生物，另一个包含49个细菌和10个古菌。MetaSPAdes产生更长的重叠群，但这些似乎不太准确。当限于与模拟群落中的参考序列完全匹配的重叠群时，MEGAHIT成功地重建了更多真正的基因组。因此，在这种情况下选择组装软件将取决于重叠群大小与准确度的相对重要性。在真实数据集（表3）中，难以辨别一致的模式。然而，检查中等单拷贝核心基因数（以估计组装中的基因组数量）表明，对于更复杂的土壤和海洋群落，MEGAHIT汇集了更多可以在功能上注释的基因。这里的关键结论是，不同的最先进程序对于不同的数据集将是最佳的，同时需要相似的运行时间（在最大样本上使用16个线程约48小时）和内存使用峰值（不超过125 GB）。因此，谨慎尝试不止一种组装方法。CAMI挑战报告称，MEGAHIT在其基准数据集中是位于前三名的宏基因组拼接软件，并且与metaSPAdes（未在CAMI中评估）一起，可能是当前最佳选择。无论使用哪种组装软件，结果都不是基因组，而是潜在的数百万个重叠群，这促使需要使用分箱工具将重叠群连接回它们所衍生的基因组。

表2. 基于已知成份的模拟群落评估宏基因组拼接

Table 2: Comparative evaluation of metagenomic assembly on mock microbial communities with known composition

使用SPAdes（版本3.7.1）和MegaHIT（1.0.4）使用默认建议参数进行宏基因组装，“-meta”“-k 21,33,55,77”用于SPAdes和“—presets meta-sensitive”用于“MegaHIT”。输入的宏基因组是先前描述的模拟群落的Illumina测序数据，其被子采样到5000万个读长以用于相同深度下多样性和其它结果的可比性。子采样的双端fastq文件位于 https://mgexamples.s3.climb.ac.uk/HMP_MOCK_SRR2726667_8.25M.1.fastq.gz 和 https://mgexamples.s3.climb.ac.uk/HMP_MOCK_SRR2726667_8.25M.2.fastq.gz 用于HMP模拟群落（包括20个菌株）和 https://mgexamples.s3.climb.ac.uk/MOCK_M63H.25M.1.fastq.gz 和 https://mgexamples.s3.climb.ac.uk/MOCK_M63H.25M.2.fastq.gz 用于环境模拟群落（包括59株）。通过与BLASTN比对模拟群落中生物的基因组的重叠群来计算重建百分比和百分比同一性。N50值对应于重叠群的大小，其中较长的重叠群代表总组装的至少一半，并且它是评估组件质量的关键参数之一。在括号中，我们报告称为“完全重叠群（perfect contigs）”的统计数据，其是通过宏基因组拼接重建的重叠群，其在重叠群的整个长度上与参考基因组具有 > 99％的同一性。值得注意的是，“完美的重叠群”不包括嵌合重叠群。

表3. 不同环境宏基因组拼接的比较

Table 3: Comparative evaluation of metagenomic assembly of a set of metagenomes from diverse environments

使用如表2中报告的SPAdes和MegaHIT产生组装。通过HMP（二次取样5千万读长的宏基因组）在对肠样品进行测序 https://mgexamples.s3.climb.ac.uk/HMP_GUT_SRS052697.25M.1.fastq.gz 和 https://mgexamples.s3.climb.ac.uk/HMP_GUT_SRS052697.25M.2.fastq.gz ），Ofek-Lalzar等人的土壤样本（5000万读长子样本宏基因组，网址为 https://mgexamples.s3.climb.ac.uk/SOIL_NATCOMM.25M.1.fastq.gz 和 https://mgexamples.s3.climb.ac.uk/SOIL_NATCOMM.25M.2.fastq.gz ）和Sunagawa等人的海洋样本（ https://mgexamples.s3.climb.ac.uk/TARA_OCEAN.25M.1.fastq.gz 和 https://mgexamples.s3.climb.ac.uk/TARA_OCEAN.25M.2.fastq.gz ，有5000万读取子采样的宏基因组）。功能注释如前所述进行，使用Prodigal（使用默认参数和“-p meta”标志运行）从组装的重叠群中鉴定的基因总数，与NCBI非冗余（nr）数据匹配使用DIAMOND以95％同一性设定，36个通用COGs，COGs的单核基因使用rpsblast以e值<0.00001注释，KEGG orthologs使用DIAMOND的blastp和默认参数注释。

重叠群分箱

Binning contigs

宏基因组拼接高度分散，包含数千个重叠群（表2），研究人员不知道哪个重叠群来自哪个基因组，甚至不知道有多少基因组存在。重叠群“分箱”的目的是将重叠群分为物种。有监督的分箱方法使用已经测序的基因组数据库将重叠群标记为分类学类别。无监督（聚类）方法在数据中查找自然组。

监督和非监督方法都有两个主要元素：用于定义给定重叠群和分箱之间相似性的度量，以及将这些相似性转换为赋值的算法。对于物种分类学，针对已知基因组的重叠群同源性是一种潜在有用的方法，但大多数微生物物种尚未测序，因此大部分重建的基因组片段不能比对到参考基因组。这促使使用重叠群序列进行分箱。不同的微生物物种的基因组包含特定的碱基组合，这导致不同的k-mer频率。基于这些k-mer频率的度量可用于对重叠群进行分组，其中四聚体(4 k-mer)被认为是对宏基因组学数据进行分类的最有用信息。基于这些频率的许多软件选择可供选择，例如朴素贝叶斯分类器或支持向量机，但序列组成通常缺乏将复杂数据集解析到复杂群落中物种水平所必需的特异性。

重叠群的聚类分析非常有吸引力，因为它不需要参考基因组。直到最近，大多数重叠群聚类算法，例如MetaWatt和SCIMM，使用了各种物种组成指标，有时还与总覆盖率相结合。最近，随着多样本宏基因组数据集的产生，研究人员已经意识到跨多个样本的重叠群覆盖提供了更强大的信号，可以将重叠群聚集在一起。基本原则是来自相同基因组的重叠群在每个宏基因组内具有相似的覆盖值，尽管基因组内GC含量变异和细菌复制起点周围的读长深度增加可以挑战这一假设。例如，第一种算法，例如扩展的自身比对，需要人工输入来执行聚类，这是基于可以在二维中可视化的覆盖信息和组成。现在可以使用完全自动化的方法，例如CONCOCT，GroopM和MetaBAT，它们便于大数据集，但是当结合人工细化时可以获得更好的结果，例如使用可视化工具，例如Anvio。

当前已经有很多更新的分箱方法和提纯工具，如：

Microbiome：
宏基因组分箱流程MetaWRAP 简介安装和数据库部署实战和结果解读
DAS工具: 利用去重、聚合和评分的策略从宏基因组中恢复基因组
NBT：宏基因组”读云”10X建库+雅典娜算法组装获得微生物高质量基因组

重建宏基因组装基因组（metagenomic assembled genomes，MAG）的方法对于揭示细菌的多样性是必不可少的。从富含醋酸盐和过滤的地下水样品中回收来自候选门的近1,000个MAG，没有培养的代表，显示了这种方法的潜力。回收的基因组很小，新陈代谢最少，并且形成了与先前培养的细菌多样性分开的单系分支。这些已被提议作为新的细菌细分，通过宏基因组学揭示候选Radiation门。

通过检查在大多数微生物基因组中发现的单拷贝核心基因来评估MAG的完整性，例如tRNA合成酶或核糖体蛋白。纯MAG将使所有这些基因以单拷贝存在。构建后，MAG为比较基因组学提供了丰富的数据集，包括构建系统发育树，功能谱和样本中MAG丰度的比较（图2，补充代码和 https://github.com/chrisquince/metag-rev-sup ）。

图2. 无参和有参宏基因组物种表征

Figure 2: Assembly-based and assembly-free metagenome profiling.

从宏基因组病例对照设计开始，我们说明了识别生物体和编码功能所需的一些步骤，并尝试将这些样本的特征与病例或对照条件联系起来。左边是一个基于组装的流程（这可以完全按照命令和代码作为GitHub库在 https://github.com/chrisquince/metag-rev-sup 提供）。右边是使用MetaPhlAn2、HUMAnN2和最近MetaPhlAn2方法的种水平扩展的基于读长的流程。（原始数据可在 http://metagexample.s3.climb.ac.uk/Reads.tar.gz 获得。）

有参宏基因组定量

Assembly-free metagenomic profiling

宏基因组的分类学分析确定了宏基因组中存在哪些微生物物种并估计它们的丰度。这可以通过外部序列数据资源（例如公众可获得的参考基因组）在没有组装的情况下进行。这种方法可以避免复杂的拼接问题，加快计算速度，并能够分析无法重新组装的低丰度生物（附框1）。其主要局限在于以前无特征的微生物难以描述（附框1）。然而，可用的参考基因组的数量正在迅速增加，每年产生数千个基因组，包括一些来自新培养方法靶向的难生长物种、单细胞测序方法或宏基因组拼接的不可培养物种。一些样本类型（例如人类肠道）可用的参考基因组的多样性现在足够广泛，可以使无组装的方法开展分类学的有效分析，包括缺乏足够序列覆盖和深度的相对低丰度的微生物，以便组装基因组。由于缺乏代表性的参考基因组，对包括土壤和海洋在内的更多样化环境的分析存在困难。因此，通常建议在分析来自这些环境的宏基因组时使用组装。

具有物种水平分辨率的无装配物种学组成，利用参考基因组和环境特定组装中提供的信息，并已用于迄今为止进行的最大的人类相关宏基因组学研究。读长到基因组的简单比对可能导致具有许多误报的错误匹配，但是当基于最低共同祖先（LCA）策略进行后处理或者与组合插值相结合的马尔可夫模型时，这种方法已被证明是有效的。但是，这些方法的运行时间并没有改善基于组装的方法的运行时间。Kraken也利用LCA，但通过用k-mer匹配代替序列比对来加速计算。

Kraken：使用精确比对的超快速宏基因组序列分类软件

通过从可用的参考序列中选择代表性或判别性基因（标记）进行分类学分析是另一种快速且准确的非组装方法，其已经通过若干改进，具有可操作性。例如，通过观察来自预组装的环境特异性基因目录的共同丰富的标记，MetaHIT联盟能够表征人类肠道中的已知和新型生物。类似地，mOTU侧重于普遍保守但系统发育信息标记（例如，编码核糖体蛋白的基因），而MetaPhlAn（图2）采用具有高辨别力的数千个进化枝特异性标记，并且有效地定量分析用于人类微生物组计划（HMP）的来自多个身体区域的微生物组具有非常低的假阳性率。这些方法是可扩展的，可用于大型宏基因组学荟萃分析。基于标记的方法也可用于使用数千个宏基因组的菌株水平比较微生物基因组学。重要的是，随着更多参考基因组和高质量宏基因组组件的出现，这些方法的准确性将得到提高。对于具有数百个样本的大型数据集，其上执行或解释宏基因组学是不切实际的，基于标记的方法是目前推荐选择的方法，特别是对于具有大量微生物多样性的环境，可充分表征的测序物种覆盖。

MetaPhlAn2基于多标记基因的宏基因组物种组成定量文章解读软件使用

宏基因组中的基因和代谢通路

Genes and metabolic pathways from metagenomes

利用片段化但高质量的宏基因组拼接结果，可以使用适合的单基因组表征工具鉴定微生物群落的基因库。这些基因鉴定步骤，通常具有宏基因组特异性参数设置，然后是通常用于表征纯分离基因组组装的基于同源性的注释流程（图2）。实际上，尽管这种方法通常受参考数据库目录中大部分未表征基因的限制，到目前为止一些最大的鸟枪法测序工作已经使用宏基因组拼接结果来汇编人类和小鼠肠道的宏基因组参考基因集。

Microbiome：鸡肠道宏基因集的构建(张和平、魏泓、秦楠点评)
Cell子刊：人类微生物组参考基因集中的单体基因

其他大的宏基因组数据集通过针对功能特征性蛋白质家族的翻译序列搜索来解释。包括手动注释和计算预测的蛋白质家族组合的数据库，例如KEGG或UniProt，可以用于该任务并且能够表征微生物组的功能潜力（图2）。单个蛋白质家族聚类成更高级别的代谢途径和功能模块，提供图形报告或综合代谢存在、缺失和丰度表，如HUMAnN流程。无论采用无组装/有参还是基于组装/无参的方法，分析群落代谢潜力的主要限制因素是大多数微生物物种中缺乏对基因的注释（选定的模式生物除外; 框1））。这意味着在宏基因组中更加一致地检测和量化高度保守的途径和看家(housekeeping)功能，这可以解释为什么即使分类组成变化很大，功能性状在不同的样品和环境中经常出乎意料地一致。微生物蛋白，编码基因和其他基因组特征（tRNA，非编码RNA和CRISPR）的实验证明和功能描述，以更全面地评估个别基因座的功能是一个瓶颈，目前对分析宏基因组功能能力的提高具有至关重要的影响。

HUMAnN2基于UniRef数据库的功能定量 1文章解读 2软件教程 3有参分析流程

对宏基因组的代谢功能分析的补充方法是对感兴趣的特定功能的深入描述。例如，在微生物群落中鉴定参与抗生素抗性的基因（’抗性组resistome’）可以告知抗生素抗性的传播。临时方法（Ad hoc）和人工策划的抗生素抗性基因数据库对这种方法至关重要; ARDB是第一个广泛采用的抗性数据库，现在由其他资源补充，例如Resfams。相当大的努力也致力于报告宏基因组的毒力库; 针对特定感兴趣的基因家族的宏基因组的靶向分析也可用于验证来自单个基于培养分离实验的发现。

框1. 宏基因组的局限性的机遇

Box 1: Limitations and opportunities in metagenomics

鸟枪法宏基因组研究存在一些局限性和挑战。局限性包括：

准入门槛高 Entry-level access

在无法获得测序和计算设施的情况下，对大量宏基因组进行测序和分析仍然很昂贵。改进的测序平台和云计算设施的发展将会降低这些入门级成本。

基因组目录的全面性 Comprehensiveness of genome catalogs

可用的 > 50,000个微生物基因组的集合偏向模式生物，病原体和易培养的细菌。所有宏基因组计算工具在某种程度上依赖于可用的基因组，因此它们受参考序列资源中偏差的影响。

功能组成分析中存在偏差 Biases in functional profiling

由于大多数基因缺乏有效的注释，因此宏基因组中存在的功能类别的分析受到阻碍，这个问题只能通过昂贵且低通量的基因特异性功能研究来缓解。此外，内在的微生物组特性，例如其平均基因组大小，可以严重影响定量分析。

微生物暗物质 Microbial dark matter

以前，基于培养的方法或宏基因组学可能尚未对微生物组的若干成员进行过表征。基于装配的方法可以恢复部分“微生物暗物质”。在组装后，一小部分读长仍可能未被使用，并且该部分的大小高度依赖于群落结构和复杂性（表2和3）。它还受到诸如测序噪音，污染物DNA和微生物以及质粒的影响，即使在其基因组的部分组装后仍保持在分类学上模糊不清。

“活着或死亡”的困境 ‘Live or dead’ dilemma

在宿主细胞死亡后，DNA在环境中持续存在，因此测序结果可能不代表活性微生物群体。如果目的是研究活性微生物，可以使用结合游离DNA的化合物如异丙脒（propidium monazide），去除死亡或受损细胞内的DNA，或使用宏转录组技术研究有活跃表达的RNA部分。

组成型数据的魔咒 ‘Curse of compositionality’

定量宏基因组特征报告结果为相对总体的比例，与实际绝对浓度无关。因此，样品中真实浓度的变化可能产生错误的相关性。例如，如果高度丰富的生物体在两个相同的样品中使其浓度加倍，则样品中的所有其他生物在标准化后似乎丰度都存在差异。

粘膜相关的微生物组测序 Mucosa-associated microbiome sequencing

人体粘膜组织是微生物与免疫系统之间的关键界面，但由于人类DNA的极高比例和微生物量低，因此用鸟枪法宏基因组学对粘膜微生物组进行测序是非常具有挑战性的。

鸟枪法宏基因组研究也提供了众多机遇，例如：

整合宏组学 Integrative meta-omics

尽管使用RNA、蛋白质和代谢组学高通量检测可以对DNA测序进行有效补充，但是使用鸟枪法宏转录组学、基于质谱的宏蛋白质组学和代谢组学，目前尚不清楚如何在共同框架内整合和分析宏组学数据。

整合宏组学的方法，可参考此文：《Nature Protocols：整合宏基因组、代谢组和表型分析的的计算框架》

病毒组鸟枪法测序 Virome shotgun sequencing

可以通过鸟枪法宏基因组学检测病毒，但通常需要病毒体富集技术来获取更广泛的病毒。由于病毒基因组的可用性有限以及缺乏家族间系统发育信号，病毒组分析在计算上也具有挑战性。关于病毒组靶方富集的方法参考：《NBT：宏基因组中设计全面可扩展探针捕获序列多样性》。关于病毒组的常规分析套路，参考：《EID：宏基因组测序在新发腹泻病毒鉴定中的应用》

株水平组成分析 Strain-level profiling

单一分离物测序的基因组分辨率仍然高于宏基因组背景下单个生物体的分辨率。将分析分辨率提高到单一菌株水平对于深入的群体基因组学和微生物流行病学至关重要。

纵向研究设计 Longitudinal study design

许多鸟枪法宏基因组研究是横断面的，因此没有用于评估相互作用与受试者内部变异性和微生物组时间变异。已经开发了用于纵向队列研究的工具，但是需要更多的方法和数据来研究时间维度。

解开因果 Disentangling cause from effect

来自宏基因组研究的假设应该跟进实验工作以验证相关性和关联。纵向和前瞻性设置可以潜在地提供对感兴趣病症的致病动态的直接见解。

验证微生物组生物标志物 Validation of microbiome biomarkers

给定条件的微生物组生物标志物通常具有强烈的研究依赖性。因此，重要的是验证技术和群组中的生物标记物，以提高重现性并最小化批次效应。

数据共享和分析的可重复性 Data sharing and analysis reproducibility

强烈鼓励数据和元数据共享; 通常在发布和开源软件之前要求进行原始数据存储。然而，宏基因组学尚未达到其他更成熟的高通量技术的标准化特征水平。

下游分析

Post-processing analysis

无论用于初级宏基因组序列分析的方法如何，输出将包括样品与微生物特征（即物种、分类群、基因和通路）的数据矩阵。后处理分析使用统计工具来解释这些矩阵，并解释结果与样本元数据的关联程度。许多这些统计方法并不特定于宏基因组学。宏基因组衍生的定量值具体挑战，包括物种和功能组成的比例性质以及丰度的对数正态长尾分布。这些问题在高通量16S rRNA基因扩增子测序数据集中也存在问题，并且几种流行的R包，如最初为扩增子测序开发的DESeq2，vegan和metagenomeSeq，也可用于宏基因组学。

后处理工具包括传统的多变量统计和机器学习。无监督方法包括样本的简单聚类和相关，以及可视化技术，例如热图，排序（例如，主成分分析和主坐标分析）或网络，其允许以图形方式显示数据中的模式。一些无监督的统计工具旨在专门解决由宏基因组概况（组成型问题）（框1）的比例性质引入的问题，并推断群落内的生态关系。监督方法包括统计方法，例如用于组间差异直接假设检验的多变量方差分析（ANOVA），或训练模型标记样本组的机器学习分类器，例如随机森林或支持向量机。一个典型的机器学习例子是基于群落生态失调来诊断疾病（例如，型糖尿病），尽管开发交叉研究预测特征的研究具有挑战性。

无监督和有监督的方法将整个群落视为一个整体。补充策略是询问哪些特定分类群或功能基因在样本类型或患者组之间在统计学上是不同的。鉴于宏基因组学数据集的复杂性，和通常可以进行的大量比较、多重比较或效应大小估计的校正是至关重要的。

稳健的统计检验是确定结果有效性的关键，但简洁的图形表示可以直观地揭示模式。在许多情况下，后处理结果的可视化需要特殊的图形工具和精心选择通用的可视化方法。

展望

Outlook

宏基因组学仍然面临着适用性、实用性和标准化的障碍（框1）。对于缺少大部分微生物生命之树和许多微生物基因的功能注释、参考基因组序列数据，大大降低了用于分析大量序列计算方法的潜力。来自土壤或水等环境的宏基因组特别受到这一问题的影响，因为它们具有较高的微生物多样性和这些群落中未知分类群的比例。鸟枪法测序也无法区分活体和死体来源生物。然而，前景是光明的，因为大量的湿实验室和计算研究人员正在逐步找到解决这些问题的方法。

宏基因组生物信息学工具正在不断改进，特别是用于将原始读长序列解析成有意义的微生物特征（基因组、物种丰度和功能潜能特征）（图1）。例如，现在可以进行种水平分析，但关于哪种序列分析方法最好（表4）仍存在争议。如果有足够的基因组覆盖率（即超过20倍），则宏基因组组装是优先选择的理论解决方案，但是对于大多数微生物组成员来说这种覆盖水平很难获得（表4），并且不组装的方法具有其他优点，包括进行大规模种水平分析的潜力。这两种方法的成功取决于微生物群落的组成和复杂性、测序深度、数据集的大小和可用的计算资源（表4）。我们建议研究人员尽可能使用这两种方法进行序列分析，因为它们相互补充和验证。

至于群落DNA测序的技术改进，长读长序列平台已经成熟，并且可能对宏基因组拼接策略更有用，尽管目前很少有出版物（译者注：近期有大量相关研究，详见公众号目录或下面几篇三代测序在宏基因组中应用的文章供参考）。

NBT：牛瘤胃微生物组的参考基因组集
NBT：宏基因组二、三代混合组装软件OPERA-MS
NBT封面：纳米孔宏基因组6小时识别下呼吸道病原体
纳米孔测序揭示冻土冻融对土壤微生物群落变化的影响

如果实现足够的覆盖率（通常为30-100×），Pacific Biosciences仪器可以提供完整或接近完整的微生物基因组，具有低碱错误率。牛津纳米孔MinION是一种单分子、长读长设备，由于其尺寸和便携性（与智能手机相当）而具有吸引力，并且对该平台的读长的早期分析表明其错误率接近于Pacific Biosciences。将分离的基因组拼接成单个重叠群是可能的，因此MinION的便携性提高了野外宏基因组测序的诱人可能性。

从宏基因组改进基因组重建的另一种实验方法，是将Illumina测序与多标签文库制备方案相结合。这种“合成长读取”技术依赖于将基因组DNA稀释成由数百至数千个单个分子组成的片段化和条形码池，详见《NBT：宏基因组”读云”10X建库+雅典娜算法组装获得微生物高质量基因组》。对这些库进行测序并从头组装以产生合成的长读长。合成长读取的一个好处是因为它们是由Illumina序列的共识构建的，所以基本错误率极低。然而，该方案相当费力并且需要高DNA输入（1至10μg之间），并且局部重复序列存在问题。报告表明，这种方法对于宏基因组学是有用的，特别是当与标准鸟枪测序结合时，因为它可以从密切相关的菌株以及来自稀有微生物的菌株重建基因组。

鸟枪法宏基因组学的另一个突出优势是从遗传相近生物的混合物中精确重建株水平（strain-level）变异，基于组装、比对或两者结合的解决方案。比对到一个物种独特的基因可以解决样本中的显性单倍型，并且该方法已经应用于数千个不相关的宏基因组，提供了菌株水平的系统发育，使分析数百个基本上无明显差异特征物种的微生物群体基因组学成为可能。单个样品中来自相同物种菌株的混合物不能通过共有方法解析，但如果多个样品中存在相同的菌株，则单核苷酸变异中将存在特征。这些核苷酸变异可以与推断单倍型及其频率相关联。该方法最初仅在比对到参考基因之后应用，并且任选地与同时的菌株系统发育重建一起应用，但是现在它已经在完全无参考的方法中直接应用于具有菌株基因的拼接重叠群中。这种方法的一个限制是在某些环境中，如人类肠道，一种菌株通常比来自同一物种的其他菌株占主导地位。因此，检测低丰度物种的非优势菌株是具有挑战性的，并且用户必须权衡仅显性菌株的稳健性，与可从菌株混合物获得的潜在额外信息。株水平宏基因组学是一个非常活跃的研究领域，它有可能赋予宏基因组学以类似于培养的单一分离物测序的分辨率。尽管长读长技术可以在未来帮助这些工作，但在此之前，解决宏基因组学株水平分析的计算挑战可以说是该领域面临的最大挑战。

表4. 宏基因组无参(组装)和有参(读长比对)分析方法的优点和不足

Table 4: Strengths and weaknesses of assembly-based and read-based analyses for primary analysis of metagenomics data

方面	基于组装的分析	读长层面的分析(比对)
全面性	可以构建多个全基因组，但仅适用于具有足够覆盖的生物体以进行组装和分箱	可以提供群落功能或结构的汇总图，但仅基于有效比对到参考数据库的部分读长
群复杂性性	在复杂的群中，只有一小部分基因组可以通过组装来解决	在给定足够的测序深度和令人满意的参考数据库覆盖范围的情况
新颖性	可以解析没有序列亲源的全新生物基因组	无法解析无近亲生物的基因组
计算成本	需要计算成本极高的组装、比对和分箱	可以高效执行，实现大型荟萃分析
基因组解析代谢	可以通过完全组装的基因组将代谢与系统发育联系起来，甚至是新的多样性	通常可以仅解决群落的聚合代谢，并且只有在已知参考基因组的背景下才能与系统发育相关联
专业的人工监督	精确分箱和支架以及错误装配检测所需要手工进行	通常不需要手动，但选择使用的参考基因组可能涉及人工监督
与微生物基因组学整合	可以将组装到微生物基因组流程中，该流程设计用于分析来自纯培养分离物的基因组	获得的概况不能直接放入源自纯培养分离物基因组的背景中

结论

Conclusions

自2004年由Jillian Banfield和J. Craig Venter领导的团队开始将全DNA测序应用于环境样品以来，鸟宏基因组学已成为研究微生物群落的重要工具。由于测序成本的下降和计算方法的发展，使得宏基因组学的广泛应用成为可能。研究人员现在面临的主要限制是培训计算科学家分析复杂的宏基因组数据集以及为设计适当的研究并有足够样本的成本。诸如对宏基因组解释的关键评估（CAMI）等倡议对于计算工具的无偏差评估以提高可重复性和标准化至关重要。

鸟枪法宏基因组学将在各种生物医学和环境应用中发挥越来越重要的作用。我们希望这篇综述能够让我们了解鸟枪宏基因组学的基本概念，包括它的局限性和巨大的潜力。

猜你喜欢

10000+：菌群分析宝宝与猫狗梅毒狂想曲提DNA发Nature Cell专刊肠道指挥大脑

系列教程：微生物组入门 Biostar 微生物组宏基因组

专业技能：学术图表高分文章生信宝典不可或缺的人

一文读懂：宏基因组寄生虫益处进化树

必备技能：提问搜索 Endnote

文献阅读热心肠 SemanticScholar Geenmedical

扩增子分析：图表解读分析流程统计绘图

16S功能预测 PICRUSt FAPROTAX Bugbase Tax4Fun

在线工具：16S预测培养基生信绘图

科研经验：云笔记云协作公众号

编程模板: Shell R Perl

生物科普: 肠道细菌人体上的生命生命大跃进细胞暗战人体奥秘

写在后面

为鼓励读者交流、快速解决科研困难，我们建立了“宏基因组”专业讨论群，目前己有国内外5000+ 一线科研人员加入。参与讨论，获得专业解答，欢迎分享此文至朋友圈，并扫码加主编好友带你入群，务必备注“姓名-单位-研究方向-职称/年级”。PI请明示身份，另有海内外微生物相关PI群供大佬合作交流。技术问题寻求帮助，首先阅读《如何优雅的提问》学习解决问题思路，仍未解决群内讨论，问题不私聊，帮助同行。

学习16S扩增子、宏基因组科研思路和分析实战，关注“宏基因组”

点击阅读原文，跳转最新文章目录阅读

你可能感兴趣的:(Nature综述：2万字带你系统入门鸟枪法宏基因组实验和分析)

市场准入负面清单(2015-2018）
1980市场准入负面清单(2015-2018）数据简介就市场竞争环境而言，市场准入负面清单制度为代表的市场准入管制放松将通过明确被限制或禁止领域，同时对未限制的领域实行平等待遇，推动市场竞争的公平性。这种公平性有助于打破部分行业的垄断格局，使得市场竞争环境更加公正透明，降低企业市场势力，促进企业市场竞争动态均衡。市场准入负面清单制度作为一种政府管理经济活动的制度安排，符合有限政府干预理论的核心思想
行业锦标赛激励数据集（2008-2023）数据皮皮侠AI 人工智能大数据物联网矩阵动态规划
1771行业锦标赛激励数据集（2008-2023）数据简介坚持创新驱动发展，要强化企业创新主体地位，发挥企业家在技术创新中的重要作用。作为企业组织内部最具有影响力的角色，高级管理人员拥有企业经营管理的自由裁量权，对企业战略决策及由此产生的经营绩效具有举足轻重的影响。合理的薪酬契约安排是促进员工努力工作并提高企业绩效的重要手段。效率视角下的锦标赛理论主要关注企业内部薪酬差距的激励效应，但随着信息技术
Requestium - 将Requests和Selenium合并在一起的自动化测试工具测试界晓晓软件测试测试工具 selenium 自动化软件测试功能测试自动化测试程序人生
Requests是Python的第三方库，主要用于发送http请求，常用于接口自动化测试等。Selenium是一个用于Web应用程序的自动化测试工具。Selenium测试直接运行在浏览器中，就像真正的用户在操作一样。本篇介绍一款将Requests和Selenium结合在一起的自动化测试工具-Requestium简介Requestium是一个Python库，它将Requests、Selenium和P
传统微商困境与开源链动2+1模式、AI智能名片及S2B2C商城小程序的转型破局说私域开源人工智能小程序
摘要：本文聚焦传统微商代理分级模式面临的库存积压、出货困难等“滚雪球”危机，深入剖析其根源。在此基础上，引入开源链动2+1模式、AI智能名片以及S2B2C商城小程序，探讨这些新兴元素如何助力品牌微商实现转型，突破传统困境，实现可持续发展。通过分析各元素的特点与优势，阐述它们在优化供应链、提升营销效率、增强客户关系管理等方面的协同作用，为微商行业的创新发展提供理论支持与实践参考。关键词：传统微商；开
使用 C++ 实现 MFCC 特征提取与说话人识别系统 whoarethenext c++开发语言 mfcc 语音识别
使用C++实现MFCC特征提取与说话人识别系统在音频处理和人工智能领域，C++凭借其卓越的性能和对硬件的底层控制能力，在实时音频分析、嵌入式设备和高性能计算场景中占据着不可或缺的地位。本文将引导你了解如何使用C++库计算核心的音频特征——梅尔频率倒谱系数(MFCCs)，并进一步利用这些特征构建一个说话人识别（声纹识别）系统。Part1:在C/C++中计算MFCCs直接从零开始实现MFCC的所有计算
深度解析：venv和conda如何解决依赖冲突难题咕咕日志 conda python
文章目录前言一、虚拟环境的核心价值1.1依赖冲突的典型场景1.2隔离机制实现原理二、venv与conda的架构对比2.1工具定位差异2.2性能基准测试（以创建环境+安装numpy为例）三、venv的配置与最佳实践3.1基础工作流3.2多版本Python管理四、conda的进阶应用4.1环境创建与通道配置4.2混合使用conda与pip的风险控制4.3跨平台环境导出五、工具选型决策树5.1场景化推荐
OneCode技术架构深度解析：自主UI体系、注解驱动与全栈开发的协同优势低代码老李 OneCode产品介绍 OneCode实战软件行业架构 ui
引言：低代码平台的技术基石在AIGC与数字化转型的双重驱动下，企业级低代码平台已从简单的界面搭建工具演进为全栈业务开发环境。OneCode作为国内领先的低代码开发平台，其核心竞争力源于三大技术支柱：自主可控的UI体系、注解驱动的开发模式和端到端的全栈支持能力。这三大支柱形成有机整体，使OneCode在开发效率、系统集成和业务适应性方面建立起显著优势。本文将深入剖析这些技术特性的实现原理与应用价值，
OneCode UI 核心组件体系分析：继承关系与功能详解
前言在低代码开发平台蓬勃发展的今天，UI组件体系作为连接可视化设计与代码实现的核心纽带，其架构设计直接决定了平台的灵活性、扩展性与开发效率。OneCode作为专注于企业级应用构建的低代码平台，摒弃了传统第三方UI库的集成模式，自主研发了一套完整的UI组件体系。这一体系不仅实现了组件的高度可定制化，更通过创新的继承机制与状态管理，构建了层次清晰、功能完备的组件生态。本文以OneCodeUI组件体系为
OneCode 通用组件开发配置指南低代码老李软件行业领域设计 DDD 数据可视化低代码
一、布局组件1.1xui.UI.Layout核心属性：columns:布局列数配置dock:停靠方向（left/right/top/bottom）width:宽度设置（支持百分比和像素值）height:高度设置（支持百分比和像素值）iniProp.sub:子布局组配置场景说明：用于构建应用程序的整体布局框架，支持多列划分和元素停靠，是页面结构的基础组件。代码示例：{id:'xui.UI.Layou
从源码到思想：OneCode框架模块化设计如何解决前端大型应用痛点低代码老李软件行业领域设计低代码前端框架架构
在前端大型应用开发中，“模块拆分混乱、依赖关系复杂、资源加载失控”是三大痛点。OneCode框架通过Module.js（模块基类）和ModuleFactory.js（模块工厂）构建了一套完整的模块化管理机制，不仅实现了模块的“生老病死”全生命周期管控，更解决了跨模块通信、依赖加载等核心问题。本文从“为什么这么设计”的角度，拆解其底层逻辑与实战价值。一、先理解：前端模块化的核心矛盾无论用什么框架，模
OneCode图表配置速查手册低代码老李软件行业领域设计低代码信息可视化数据分析数据挖掘
前言在数据可视化日益成为业务决策核心驱动力的今天，高效、灵活的图表配置系统已成为开发人员不可或缺的工具。OneCode图表组件凭借其丰富的图表类型与精细化的配置能力，为开发者提供了构建专业数据可视化界面的完整解决方案。然而，随着图表类型的不断扩展与配置项的日益丰富，如何快速定位并正确使用特定配置属性已成为提升开发效率的关键挑战。本配置字典博文旨在为开发者提供一份全面、系统的OneCode图表配置参
OneCode采用虚拟DOM结构实现服务端渲染的技术实践
一、技术背景与挑战随着企业级应用复杂度的提升，传统服务端渲染(SSR)面临页面交互性不足的问题，而纯前端SPA架构则存在首屏加载慢和SEO不友好的缺陷。OneCode框架创新性地将虚拟DOM技术引入服务端渲染流程，构建了一套兼顾性能与开发效率的企业级前端解决方案。二、虚拟DOM结构设计2.1组件树层次结构OneCode的虚拟DOM基于组件化思想构建，每个组件通过Component类实现，包含以下核
深入解析C++中 std::sort背后的实现原理 —Introsort（Introspective Sort）点云SLAM C++c++算法数据结构快速排序排序算法堆排序深度优先
Introsort简介Introsort是一种混合排序算法，结合了三种经典算法的优点：算法用于特点快速排序通常情况平均时间复杂度O(nlogn)堆排序当快速排序退化（递归过深）时最坏时间复杂度O(nlogn)插入排序小规模数组时（如长度≤16）常数开销小，快Introsort运行机制排序逻辑如下：if(size2*log2(n))堆排序（HeapSort）else快速排序（QuickSort）快速
基于Flask+Jinja2的快捷教务系统(后端链接到新版正方教务系统) cnn-jxx flask python 后端
快捷教务系统（EasyEducationalAdministrationManagementSystem,EasyEAMS）项目简介EasyEAMS是一个基于Flask+Jinja2的现代化教务系统Web应用。学生可通过网页端登录，在线查询个人信息、成绩、课表、学业生涯、通知、选课等。系统界面美观，交互友好，适合高校学生自助使用和二次开发。本项目的api.py文件内容参考并引用了Github上op
嵌入式Linux内核镜像生成过程飘逸轻舞 linux arm开发运维嵌入式
嵌入式Linux内核镜像生成过程嵌入式Linux系统的核心组件是内核，它是操作系统的核心部分，负责管理硬件资源、提供系统调用接口以及驱动设备等功能。在嵌入式系统中，将内核编译成镜像文件是部署系统的关键步骤之一。本文将介绍嵌入式Linux的内核镜像生成过程，并提供相应的源代码示例。获取Linux内核源代码首先，我们需要获取Linux内核的源代码。可以从Linux官方网站（www.kernel.org
冒泡排序算法详解（含Python代码实现）算法_小学生算法
冒泡排序（BubbleSort）是最基础的排序算法之一，通常用于学习排序算法的入门理解。本文将通过Python代码实现冒泡排序，并详细讲解其原理、执行流程、复杂度分析及适用情况。✨一、算法简介冒泡排序的核心思想是：相邻两个元素比较，将较大的元素不断“冒泡”至右侧，最终实现排序。其基本过程是重复比较相邻的元素，如果顺序错误就交换，重复这一过程，直到没有任何需要交换的为止。二、Python代码实现下面
Vue.js前端开发实战-----常用UI组件
1.进入命令行界面，执行yarncreatevite命令，输入项目名称，选择Vue框架，选择JavaScript，完成vue项目创建。2.在完成创建之后在其目录下通过yarn安装ElementPius，具体命令如下：[email protected].在VSCode中创建一个新的vue文件，文件名称命名分别为MyInfo.vue，RoommateDetail.vue
PyTorch中 item()、tolist()使用详解和实战示例点云SLAM PyTorch深度学习 pytorch 人工智能 python 深度学习张量的操作 item tolist
在PyTorch中，.item()和.tolist()是两个常用于从Tensor中提取Python原生数据的方法，尤其在调试、日志记录或将结果传给非张量库时非常有用。下面是它们的详解与代码示例。1..item()方法用途：将仅包含一个元素的张量（即标量张量）转换为对应的Python原生数据类型（float,int,等）。限制：只能用于只包含一个元素的Tensor，否则会报错。示例代码：import
Transformer模型压缩：结构化剪枝与混合精度量化研究 pk_xz123456 仿真模型机器学习深度学习 transformer 剪枝深度学习
Transformer模型压缩：结构化剪枝与混合精度量化研究摘要本文针对Transformer模型在实际部署中面临的计算资源消耗大、内存占用高和推理延迟等问题，提出了一种结合结构化剪枝与混合精度量化的综合压缩方案。我们首先分析了Transformer模型的结构特点及其在计算效率方面的瓶颈，然后系统地研究了结构化剪枝和混合精度量化的理论基础与实现方法。通过实验验证，我们的方法在保持模型性能的同时显著
攻防对抗的工作原理和架构 hao_wujing 安全
大家读完觉得有帮助记得关注和点赞！！！**攻防对抗（CyberKillChainDefense）**是网络安全领域的动态博弈过程，攻击方通过**入侵链**突破防御，防御方则构建**纵深的检测响应体系**进行拦截反制。其本质是**攻击成本与防御效能的持续对抗升级**。以下从工作原理到架构的深度解析：---###一、攻防对抗核心工作原理####**攻击链（CyberKillChain）vs防御链（De
Netty发送与接收报文振宇i Java Netty 报文
前言本文提供了tcp，udp方式发送报文，以下示例tcp发送的是String类型，udp则是字节码。POMio.nettynetty-all4.1.78.Final一、TCP对于TCP的请求而言需要规定解码器的类型，服务端才能成功自动转化字符串与字节流（StringDecoder和StringEncoder用于自动转换字符串和字节流）添加帧解码器，使用换行符作为消息边界（不添加换行符结尾可能会出现
一位华为离职员工的十年感悟（1）
注：徐是华为数据中心的头，技术超级牛人，一级部门总监，华为副总裁，年收入过千万，数据中心是用火山岩建的深入地下的一个大型建筑。防辐射，可防卫星的电子，雷达等手段的侦察。里面有象卫星发射中心那种超大屏幕，机房里满是三米的大型服务器和大型计算机。连接整个华为全球的每一台终端，整个华为每天三十多万封邮件，海外和全球的同步研发，内部的信息管理，内部流程，华为的国内国际ip电话都是通过出去。上周，我正式提交
Logistic回归预测模型2：R语言实现模型的内部和外部验证
前面我们讲了logistic回归预测模型的建立，今天介绍的是模型的验证，可以在训练集和验证集中通过ROC曲线、校准曲线和决策曲线分别进行验证。1、原始数据原始数据分为训练集和验证集，其中训练集用于模型的构建和内部验证，验证集用于外部验证。两个数据集都包含5列，且列名相同。组别Group为因变量，1代表阳性结局，0代表阴性结局。自变量1和4为连续性变量，自变量2和3为二分类变量。2、安装所需要的R包
SVN简介 Bu Sir SVN初体验 svn
svn介绍：1.项目管理中的版本控制问题：①解决代码冲突困难；②容易引发bug；③难于恢复至以前正确的版本；④无法进行权限控制；⑤项目版本发布困难；2.什么是版本控制：版本控制是维护工程蓝图的标准做法，能追踪工程蓝图从诞生一直到定案的过程。是一种记录若干文件内容变化，以便将来查阅特定版本修订情况的系统。3.svn是什么：SVN是版本管理工具，在当前的开源项目里（J2EE），几乎都会使用SVN。Su
Linux 启动过程流程图--ARM版进击的程序汪 linux arm开发运维
以下是ARM版本Linux启动过程的超详细树状图，涵盖硬件上电到应用程序交互的全流程，并包含关键函数调用链及源码位置，适用于系统开发与调试场景：ARMLinux启动全流程（含函数调用链）ARMLinux启动流程（函数级调用链）│├───**1.硬件上电与BootROM阶段**│││├───硬件复位与初始化││├───CPU进入Reset异常向量（ARM异常向量表基址0x0或0xffff0000）│
Markdown 安装使用教程小奇JAVA面试安装使用教程 markdown
一、Markdown简介Markdown是一种轻量级标记语言，语法简洁、易读易写，广泛用于编写博客、文档、README文件等。它可以导出为HTML、PDF等格式，兼容各种平台如GitHub、Typora、VSCode等。二、Markdown编辑器推荐2.1桌面端编辑器平台特点TyporaWindows/macOS/Linux所见即所得，简洁高效VSCode+插件跨平台强大可扩展，开发者首选Mark
R 列表：深入解析与高效应用沐知全栈开发开发语言
R列表：深入解析与高效应用引言在R语言中，列表（List）是一种非常重要的数据结构，它允许我们将不同类型的数据组合在一起。列表在数据分析和统计建模中扮演着至关重要的角色。本文将深入探讨R列表的概念、创建方法、操作技巧以及在实际应用中的高效使用。R列表概述定义R列表是一种可以包含多种数据类型的数据结构，如数值、字符、逻辑值、其他列表等。列表可以看作是一个容器，可以存储任意数量的元素。类型R列表分为两
jEasyUI 创建自定义视图沐知全栈开发开发语言
jEasyUI创建自定义视图引言jEasyUI是一款流行的jQueryUI扩展库，它提供了丰富的UI组件和交互效果，帮助开发者快速构建美观、响应式的网页应用。在jEasyUI中，创建自定义视图是一个常见的需求，本文将详细介绍如何使用jEasyUI创建自定义视图，包括视图的结构、样式和交互。视图结构在jEasyUI中，一个自定义视图通常由以下几个部分组成：容器：用于承载视图内容的HTML元素，通常是
ImportError: /nvidia/cusparse/lib/libcusparse.so.12: undefined symbol: __nvJitLinkComplete_12_4 爱编程的喵喵 Python基础课程 python ImportError torch nvJitLink 解决方案
大家好，我是爱编程的喵喵。双985硕士毕业，现担任全栈工程师一职，热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的知识进行总结与归纳，不仅形成深入且独到的理解，而且能够帮助新手快速入门。本文主要介绍了ImportError:/home/
解决部分机型浏览器使用pdf.js 出现 undefined is not an object(evaluating ‘response.body.getReader‘) 报错问题 HHH 917 pdf javascript pdf 前端
问题undefinedisnotanobject(evaluating‘response.body.getReader’)参考小王子的笔记本的技术博客仔细分析源码后发现，PDFjs的getDocument方法不仅可以接收URL作为参数，还可以接收多种类型：而fetch方法返回的Response对象恰恰拥有arrayBuffer方法，可以将数据转为ArrayBuffer对象解决PDF.getDocu
Nginx负载均衡 510888780 nginx 应用服务器
Nginx负载均衡一些基础知识: nginx 的 upstream目前支持 4 种方式的分配 1)、轮询（默认）每个请求按时间顺序逐一分配到不同的后端服务器，如果后端服务器down掉，能自动剔除。 2)、weight 指定轮询几率，weight和访问比率成正比
RedHat 6.4 安装 rabbitmq bylijinnan erlang rabbitmq redhat
在 linux 下安装软件就是折腾，首先是测试机不能上外网要找运维开通，开通后发现测试机的 yum 不能使用于是又要配置 yum 源，最后安装 rabbitmq 时也尝试了两种方法最后才安装成功机器版本： [root@redhat1 rabbitmq]# lsb_release LSB Version: :base-4.0-amd64:base-4.0-noarch:core
FilenameUtils工具类 eksliang FilenameUtils common-io
转载请出自出处：http://eksliang.iteye.com/blog/2217081 一、概述这是一个Java操作文件的常用库，是Apache对java的IO包的封装，这里面有两个非常核心的类FilenameUtils跟FileUtils，其中FilenameUtils是对文件名操作的封装;FileUtils是文件封装，开发中对文件的操作，几乎都可以在这个框架里面找到。非常的好用。
xml文件解析SAX 不懂事的小屁孩 xml
xml文件解析:xml文件解析有四种方式， 1.DOM生成和解析XML文档(SAX是基于事件流的解析) 2.SAX生成和解析XML文档(基于XML文档树结构的解析) 3.DOM4J生成和解析XML文档 4.JDOM生成和解析XML 本文章用第一种方法进行解析，使用android常用的DefaultHandler import org.xml.sax.Attributes;
通过定时任务执行mysql的定期删除和新建分区，此处是按日分区酷的飞上天空 mysql
使用python脚本作为命令脚本，linux的定时任务来每天定时执行 #!/usr/bin/python # -*- coding: utf8 -*- import pymysql import datetime import calendar #要分区的表 table_name = 'my_table' #连接数据库的信息 host,user,passwd,db =
如何搭建数据湖架构？听听专家的意见蓝儿唯美架构
Edo Interactive在几年前遇到一个大问题：公司使用交易数据来帮助零售商和餐馆进行个性化促销，但其数据仓库没有足够时间去处理所有的信用卡和借记卡交易数据 “我们要花费27小时来处理每日的数据量，”Edo主管基础设施和信息系统的高级副总裁Tim Garnto说道：“所以在2013年，我们放弃了现有的基于PostgreSQL的关系型数据库系统，使用了Hadoop集群作为公司的数
spring学习——控制反转与依赖注入 a-john spring
控制反转（Inversion of Control，英文缩写为IoC）是一个重要的面向对象编程的法则来削减计算机程序的耦合问题，也是轻量级的Spring框架的核心。控制反转一般分为两种类型，依赖注入（Dependency Injection，简称DI）和依赖查找（Dependency Lookup）。依赖注入应用比较广泛。
用spool+unixshell生成文本文件的方法 aijuans xshell
例如我们把scott.dept表生成文本文件的语句写成dept.sql,内容如下: 　　set pages 50000; 　　set lines 200; 　　set trims on; 　　set heading off; 　　spool /oracle_backup/log/test/dept.lst; 　　select deptno||','||dname||','||loc
1、基础--名词解析(OOA/OOD/OOP) asia007 学习基础知识
OOA:Object-Oriented Analysis（面向对象分析方法）是在一个系统的开发过程中进行了系统业务调查以后，按照面向对象的思想来分析问题。OOA与结构化分析有较大的区别。OOA所强调的是在系统调查资料的基础上，针对OO方法所需要的素材进行的归类分析和整理，而不是对管理业务现状和方法的分析。　　OOA（面向对象的分析）模型由5个层次（主题层、对象类层、结构层、属性层和服务层）
浅谈java转成json编码格式技术百合不是茶 json编码 java转成json编码
json编码;是一个轻量级的数据存储和传输的语言在java中需要引入json相关的包,引包方式在工程的lib下就可以了 JSON与JAVA数据的转换（JSON 即 JavaScript Object Natation，它是一种轻量级的数据交换格式，非常适合于服务器与 JavaScript 之间的数据的交
web.xml之Spring配置(基于Spring+Struts+Ibatis) bijian1013 java web.xml SSI spring配置
指定Spring配置文件位置 <context-param> <param-name>contextConfigLocation</param-name> <param-value> /WEB-INF/spring-dao-bean.xml,/WEB-INF/spring-resources.xml, /WEB-INF/
Installing SonarQube（Fail to download libraries from server） sunjing Install Sonar
1. Download and unzip the SonarQube distribution 2. Starting the Web Server The default port is "9000" and the context path is "/". These values can be changed in &l
【MongoDB学习笔记十一】Mongo副本集基本的增删查 bit1129 mongodb
一、创建复本集假设mongod,mongo已经配置在系统路径变量上，启动三个命令行窗口，分别执行如下命令： mongod --port 27017 --dbpath data1 --replSet rs0 mongod --port 27018 --dbpath data2 --replSet rs0 mongod --port 27019 -
Anychart图表系列二之执行Flash和HTML5渲染白糖_ Flash
今天介绍Anychart的Flash和HTML5渲染功能 HTML5 Anychart从6.0第一个版本起，已经逐渐开始支持各种图的HTML5渲染效果了，也就是说即使你没有安装Flash插件，只要浏览器支持HTML5，也能看到Anychart的图形（不过这些是需要做一些配置的）。这里要提醒下大家，Anychart6.0版本对HTML5的支持还不算很成熟，目前还处于
Laravel版本更新异常4.2.8-> 4.2.9 Declaration of ... CompilerEngine ... should be compa bozch laravel
昨天在为了把laravel升级到最新的版本，突然之间就出现了如下错误： ErrorException thrown with message "Declaration of Illuminate\View\Engines\CompilerEngine::handleViewException() should be compatible with Illuminate\View\Eng
编程之美-NIM游戏分析-石头总数为奇数时如何保证先动手者必胜 bylijinnan 编程之美
import java.util.Arrays; import java.util.Random; public class Nim { /**编程之美 NIM游戏分析问题：有N块石头和两个玩家A和B，玩家A先将石头随机分成若干堆，然后按照BABA...的顺序不断轮流取石头，能将剩下的石头一次取光的玩家获胜，每次取石头时，每个玩家只能从若干堆石头中任选一堆，
lunce创建索引及简单查询 chengxuyuancsdn 查询创建索引 lunce
import java.io.File; import java.io.IOException; import org.apache.lucene.analysis.Analyzer; import org.apache.lucene.analysis.standard.StandardAnalyzer; import org.apache.lucene.document.Docume
[IT与投资]坚持独立自主的研究核心技术 comsci it
和别人合作开发某项产品....如果互相之间的技术水平不同,那么这种合作很难进行,一般都会成为强者控制弱者的方法和手段..... 所以弱者,在遇到技术难题的时候,最好不要一开始就去寻求强者的帮助,因为在我们这颗星球上,生物都有一种控制其
flashback transaction闪回事务查询 daizj oracle sql 闪回事务
闪回事务查询有别于闪回查询的特点有以下3个：（1）其正常工作不但需要利用撤销数据，还需要事先启用最小补充日志。（2）返回的结果不是以前的“旧”数据，而是能够将当前数据修改为以前的样子的撤销SQL（Undo SQL）语句。（3）集中地在名为flashback_transaction_query表上查询，而不是在各个表上通过“as of”或“vers
Java I/O之FilenameFilter类列举出指定路径下某个扩展名的文件游其是你 FilenameFilter
这是一个FilenameFilter类用法的例子，实现的列举出“c:\\folder“路径下所有以“.jpg”扩展名的文件。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28
C语言学习五函数，函数的前置声明以及如何在软件开发中合理的设计函数来解决实际问题 dcj3sjt126com c
# include <stdio.h> int f(void) //括号中的void表示该函数不能接受数据，int表示返回的类型为int类型 { return 10; //向主调函数返回10 } void g(void) //函数名前面的void表示该函数没有返回值 { //return 10; //error 与第8行行首的void相矛盾 } in
今天在测试环境使用yum安装，遇到一个问题： Error: Cannot retrieve metalink for repository: epel. Pl dcj3sjt126com centos
今天在测试环境使用yum安装，遇到一个问题： Error: Cannot retrieve metalink for repository: epel. Please verify its path and try again 处理很简单，修改文件“/etc/yum.repos.d/epel.repo”，将baseurl的注释取消， mirrorlist注释掉。即可。 &n
单例模式 shuizhaosi888 单例模式
单例模式懒汉式 public class RunMain { /** * 私有构造 */ private RunMain() { } /** * 内部类，用于占位，只有 */ private static class SingletonRunMain { priv
Spring Security（09）——Filter 234390216 Spring Security
Filter 目录 1.1 Filter顺序 1.2 添加Filter到FilterChain 1.3 DelegatingFilterProxy 1.4 FilterChainProxy 1.5
公司项目NODEJS实践0.1 逐行分析JS源代码 mongodb nginx ubuntu nodejs
一、前言前端如何独立用nodeJs实现一个简单的注册、登录功能，是不是只用nodejs+sql就可以了？其实是可以实现，但离实际应用还有距离，那要怎么做才是实际可用的。网上有很多nod
java.lang.Math liuhaibo_ljf java Math lang
System.out.println(Math.PI); System.out.println(Math.abs(1.2)); System.out.println(Math.abs(1.2)); System.out.println(Math.abs(1)); System.out.println(Math.abs(111111111)); System.out.println(Mat
linux下时间同步 nonobaba ntp
今天在linux下做hbase集群的时候，发现hmaster启动成功了，但是用hbase命令进入shell的时候报了一个错误 PleaseHoldException: Master is initializing，查看了日志，大致意思是说master和slave时间不同步，没办法，只好找一种手动同步一下，后来发现一共部署了10来台机器，手动同步偏差又比较大，所以还是从网上找现成的解决方
ZooKeeper3.4.6的集群部署 roadrunners zookeeper 集群部署
ZooKeeper是Apache的一个开源项目，在分布式服务中应用比较广泛。它主要用来解决分布式应用中经常遇到的一些数据管理问题，如：统一命名服务、状态同步、集群管理、配置文件管理、同步锁、队列等。这里主要讲集群中ZooKeeper的部署。 1、准备工作我们准备3台机器做ZooKeeper集群，分别在3台机器上创建ZooKeeper需要的目录。数据存储目录
Java高效读取大文件 tomcat_oracle java
　　读取文件行的标准方式是在内存中读取，Guava 和Apache Commons IO都提供了如下所示快速读取文件行的方法：　　Files.readLines(new File(path), Charsets.UTF_8); 　　FileUtils.readLines(new File(path)); 　　这种方法带来的问题是文件的所有行都被存放在内存中，当文件足够大时很快就会导致
微信支付api返回的xml转换为Map的方法 xu3508620 xml map 微信api
举例如下： <xml> <return_code><![CDATA[SUCCESS]]></return_code> <return_msg><![CDATA[OK]]></return_msg> <appid><