文献阅读2.1.1 基因组结构预测微生物群落中的代谢物动力学(中文翻译版)

基因组结构预测微生物群落中的代谢物动力学

# 这篇Cell文献,笔者个人觉得很抽象,本质是笔者比较菜,很多细节理解不了。只能勉强翻译凑合着看了。

简言野生细菌群落中特定基因的存在与否足以预测群落水平的代谢物动力学,而不需要对途径调节或复杂的生态过程有详细了解。亮点1.微生物群落中的代谢物通量可从个体基因型中预测2.对 79 种不同的细菌分离株进行了测序和表型分析3.基因存在和缺失通过回归预测分离株的代谢表型4.消费者资源模型从表型预测群落代谢物通量

文字摘要

微生物群落的代谢活动在地球上生命的进化和持续存在中起着决定性的作用,驱动着引起全球生物地球化学循环的氧化还原反应。群落代谢产生于一系列过程,包括基因表达、生态相互作用和环境因素在野生群落中,基因含量与环境背景相关,但从基因组预测代谢物动力学仍然难以捉摸。在这里,我们表明,对于反硝化过程,群落的代谢物动力学可以从群落每个成员拥有的基因中预测。一个简单的线性回归揭示了从基因含量到基因组多样性细菌的代谢物动力学的稀疏且可概括的映射。

介绍

微生物群落的新陈代谢在维持地球生命、影响全球营养循环、废水处理和人类健康方面发挥着重要作用。微生物生态学的一个挑战是了解群落代谢如何由存在的分类群、它们的代谢特征和它们拥有的基因决定解决这一挑战需要将每个群落成员的基因型映射到其代谢特征,然后破译每个成员之间复杂的相互作用如何影响代谢物在群落中的流动。使从群落组成预测代谢物通量的复杂化,相互作用可能取决于细胞外代谢物、非生物因素、合作和高阶效应。尽管存在这些挑战,但将基因组结构与群落的集体代谢联系起来对于从功能上解释群落基因含量、设计合成群落以及了解基因获得和丢失如何影响群落代谢非常重要。

最近的研究表明,群落中存在的基因可能比构成群落的菌株或物种的身份更能提供关于代谢活动的信息。对环境和宿主相关群落的测序研究表明,虽然存在的个体菌株或物种通常具有高度可变性,但通常观察到存在的基因或途径在相似环境中的群落中是稳定的。例如,凤梨科植物原生的水生群落包含来自几个功能组(例如,产甲烷菌、发酵罐和光合自养生物)的原核生物。代表每个功能组的菌株或物种因植物而异,但每个功能组的相对丰度在植物中非常稳定。同样,在海洋和土壤中测量基因含量和营养水平的研究发现,特定代谢基因的相对丰度比特定分类群的丰度更能预测营养水平。这些结果表明,有机碳、氧、硝酸盐、二氧化碳和光等营养物质的可用性,在特定代谢能力的丰度方面限制了群落的组成,而不是限制拥有这些能力的分类群。这一发现的一个含义是,具有相似基因组组成的群落,就它们拥有的代谢途径而言,可能表现出相似的相关代谢过程的速率和生产力,但任何这种对应关系尚未得到证实。

在固定营养条件下进行的实验证实了营养物的有效性在很大程度上决定了群落的组成这一观点,结果表明,在聚集的群落中,菌株的代谢特征可以高度重现。为了证明这一点,几个小组从自然环境中采集了复杂的群落样本,并在实验室中将它们在规定的营养条件下生长。利用这种方法,Datta等人表明,降解多糖颗粒的海洋微生物群落表现出细菌类群的演替。这些粒子上的继承产生于切割多糖的最初定植体,随后是争夺产生的寡糖或消耗糖代谢副产物的菌株。同样,从叶片表面取样并富集在葡萄糖最低培养基中的细菌群落可重复产生由葡萄糖的消费者和葡萄糖代谢副产物的消费者组成的群落。

在这里,我们通过量化由非模式生物组成的基因组多样化群落集合中代谢物的通量来解决将基因内容映射到代谢物动力学的挑战(参见图 1 中的方法摘要)。我们使用细菌反硝化,这是全球氮循环中的一个重要代谢过程,由多种可培养的细菌类群进行,作为模型代谢过程。我们分离了一组反硝化剂,并在受控条件下测量了每种分离物的代谢物消耗和产生的动态然后,我们使用消费者资源模型参数化代谢物动力学。分离株集合的基因组多样性使一种简单的线性回归方法能够将基因含量映射到消费者资源模型参数,从而导致基因存在和不存在到代谢表型的稀疏且可概括的映射。最后,消费者资源模型捕获了由资源竞争介导的菌株之间的相互作用,从而对我们通过实验验证的社区级代谢物动力学产生了预测。

图1. 从基因组结构预测群落代谢物动态的工作流程

结果

反硝化是一种典型的代谢过程

我们使用反硝化作为一个模型代谢过程,因为它是由不同的细菌类群执行的,它在分子水平上有很好的特征,相关的代谢物很容易量化。因为反硝化菌很容易分离和培养,我们可以捕获大量的基因组多样性的自然分离物集合。

反硝化是厌氧呼吸的一种形式,微生物利用氧化氮化合物作为电子受体,驱动四个连续还原反应的级联反应,NO3- ->NO2- -> NO->N2O->N2(图2A)。反硝化作为一种生物地球化学过程,通过土壤、淡水系统和海洋环境中的活动,对全球范围内的氮循环至关重要。此外,反硝化作用通过废水处理厂和人体肠道中的活动影响人类健康。这个过程是由分类学上不同的细菌完成的,它们通常是兼性厌氧菌。众所周知,反硝化途径是模块化的,一些菌株在级联过程中完成所有四个步骤,而另一些菌株执行一个或几乎任意的还原反应子集(图2A)。因此,在自然界中反硝化是一个集体过程,其中一个给定的菌株可以产生可以被其他菌株利用的电子受体

图2. 反硝化作用是一个典型的代谢过程(A)反硝化作用是厌氧呼吸的一种形式,氧化的氮化合物被用作电子接受体。该过程导致从硝酸盐(NO3-)到二氮(N2)的级联反应。一些细菌执行级联反应的所有四个步骤(紫色,"Nar/Nir"),而其他细菌只执行一部分反应。这里显示的是后者的两个例子。"Nar"菌株(蓝色)只进行硝酸盐还原,而"Nir"菌株(红色)进行亚硝酸盐(NO2-)还原,也可能进行后续步骤(虚线)。(B) 反硝化过程的分子步骤示意图。反硝化作用是电子传输链的终端步骤(未显示),因此,有助于ATP的产生。硝酸盐还原为亚硝酸盐的过程在细胞质(通过Nar酶)或周质(Nap)中发生。在细胞质中通过Nar还原硝酸盐需要硝酸盐和亚硝酸盐穿过内膜(NarK1、NarK2和NarK1K2)进行运输。随后的三个步骤都发生在周质中,由还原酶Nir、Nor和Nos编码,如图所示。有两种功能相当的Nir和Nor还原酶类型。分别是NirK/NirS和qNor/cNor。

反硝化作用在分子水平上是很好理解的。该过程将氧化氮化合物的还原与电子传输链联系在一起,从而产生ATP。图2B显示了执行该级联中每个步骤的酶(还原酶)。硝酸盐还原为亚硝酸盐可以在细胞质中由Nar还原酶进行,也可以在周质中利用Nap进行。内膜NarK运输器(NarK1、NarK2和NarK1K2)促进细胞质和周质之间的硝酸盐和亚硝酸盐交换。其余三个反应都只发生在周质空间(图2B)。控制反硝化基因表达的调控元件也被很好地表征出来,包括感知氧化的氮化合物的两个组件系统和检测环境中氧气损失的调节器。由于这些反应大多发生在周质中,底物很容易泄漏到周围的环境中,使反硝化物之间能够交叉进食

我们的实验重点是反硝化的前两个步骤:硝酸盐(NO3-)转化为亚硝酸盐(NO2-),然后是一氧化氮(NO)(图2A)。硝酸盐和亚硝酸盐是可溶的,可以进行高通量代谢动力学测量。为了获得非模式生物的基因组多样性集合,我们使用既定技术从当地土壤中分离出78株变形菌属的细菌菌株。每个菌株都是在无菌培养中获得的,并被描述为执行反硝化的前两个步骤中的一个或两个。因此,菌株被分为三种可能的表型之一(图2A和3A):(1)同时进行硝酸盐和亚硝酸盐还原的Nar/Nir菌株(NO3- -> NO2- -> NO),(2)只进行硝酸盐还原的Nar菌株(NO3- -> NO2-),以及(3)只进行亚硝酸盐还原的Nir菌株(NO2- -> NO)。除了这78株菌株外,我们的菌株库还包括反硝化副球菌(ATCC 19367)模型

代谢物动态的参数化

我们首先着手量化我们不同菌株库中每个分离物的代谢表型(步骤1,图1)。我们的工作重点是量化相关的代谢物,硝酸盐和亚硝酸盐的动态。为了实现这一目标,我们将菌株以较低的起始密度接种到96孔板中,该板含有化学定义的、电子受体有限的培养基,其中含有琥珀酸作为唯一的非发酵碳源(琥珀酸定义培养基,SDM),并提供硝酸盐或亚硝酸盐作为唯一电子受体。然后将培养物在厌氧条件下进行培养。在64小时内,以对数间隔的时间取少量样品(10毫升),检测硝酸盐和亚硝酸盐的浓度。在时间过程结束时,对光密度进行检测。测量的结果是批量培养中硝酸盐和亚硝酸盐生产/消耗动态的时间序列(点,图3A)。使用这种培养和取样方法的井之间的污染被评估为低

图3. 量化反硝化细菌群落中的硝酸盐和亚硝酸盐动态,以映射基因组结构和群落代谢(A)Nar/Nir(紫色)、Nar(蓝色)和Nir(红色)分离物的批次培养代谢物动态示例。硝酸盐(NO3-,蓝点)和亚硝酸盐(NO2-,红点)的动态是通过采样和比色法以对数间隔(圆圈)测量的,±5%的误差条显示。生物量密度只在最后一个时间点测量。曲线显示与(B)所示的消费者-资源模型的拟合。(B)每个菌株的硝酸盐和亚硝酸盐还原的消费者-资源模型描述了生物量密度(x,OD)、硝酸盐浓度(A,mM)和亚硝酸盐浓度(I,mM)随时间的演变。该模型的参数是还原率rA和rI(mM/OD/h),以及产量(OD/mM),分别用于硝酸盐和亚硝酸盐的生长。亲和力参数KA和KI(mM)没有被数据很好地约束,对库中的所有菌株都是固定的。(C) 79个反硝化菌株的系统发育树和归一化的消费-资源参数(78个分离株和模型反硝化菌Paracoccus denitrifificans)。菌株库包括51个Nar/Nir、24个Nar和4个Nir菌株。消费者资源参数是在琥珀酸盐定义的培养基(SDM)中测量的。使用16S rRNA基因构建的系统发育树比例条代表每个位点的估计替换数较深的颜色表示归一化参数的较大值。Nir和Nar菌株的硝酸盐和亚硝酸盐还原参数分别未测定。在不同的分离物中测量的消费者资源参数构成了一个数据集,用于将基因组多样性与代谢物的动态联系起来。另见图S1和表S1-S5。

为了在一个共同的框架内对每个菌株的代谢物动态进行参数化,我们利用了一个消费者-资源模型,该模型明确地将每个菌株的生长与代谢物的生产和消耗动态联系起来(图3B;公式3)。该模型包含多达六个参数:速率(r*,mM/OD/h)、生物量产量(,OD/mM)和亲和力(K*,mM),用于底物硝酸(A)和亚硝酸(I)。对于单株培养的每一个菌株,我们使用测量的反硝化动态在初始生物量密度和硝酸盐/亚硝酸盐浓度的范围内对消费者-资源模型进行参数化(图3A和S1A-S1E)。这些数据使我们能够量化速率(r*)和生物量产量(),但不是亲和力参数(K*),这需要在非常低的底物浓度下测量生长速率。由于参数拟合的结果在很大范围内对K*的值不敏感(图S1F-S1I),我们将亲和力参数固定为一个小的常量值。因此,我们最多使用四个参数捕获库中每个菌株的表型:rA、rI、和(Nar和Nir菌株的模型分别对应于设置rI;=0或rA;=0)。产量()是用t=64小时的光密度测量值推断出来的,速率(r*)是通过将观察到的硝酸盐和亚硝酸盐动态与消费者-资源模型进行拟合而推断出来的(图3B)。对于我们资料库中的大多数菌株(79株中的62株),一组参数可以定量描述初始生物量密度和硝酸盐/亚硝酸盐浓度范围内的代谢物动态。消费者-资源模型捕捉了其余17个菌株在有限的初始条件下的代谢物动态(图S1J-S1L;表S5)。使用四个菌株的代表性子集,我们证实生物量密度动态被消费者-资源参数很好地预测,尽管生物量密度没有随着时间直接测量(图S1M)。

将我们的消费者-资源模型与每个菌株的数据相匹配,产生了库中每个菌株的代谢特征(即反硝化率和产量)的定量描述(图3C)。我们观察到分类群之间的巨大差异,速率常数(rA, rI)的变异系数约为70%,产量(, )约为100%。我们还观察到一些系统发育的模式,例如,蛋白质细菌产生的产量通常比蛋白质细菌高,而且假单胞菌分离物的一个支系显示出比大多数其他菌株更高的亚硝酸还原率(PDM17-23,图3C)。尽管有这些模式,三种定性表型的流行并不强烈依赖于系统发育,每种表型都存在于整个树上(图3C)。后者的观察结果与反硝化酶的普遍水平基因转移是一致的。最后,我们既没有观察到速率和产量之间的相关性,也没有观察到这些参数的明显约束,这表明它们没有受到权衡的影响。

从基因组预测代谢物的动态变化

了解基因组变异如何影响群落层面的代谢物动态,首先需要了解基因组变异如何影响单个菌株的代谢特征。因此,我们试图确定我们库中各菌株的基因组变异与反硝化率和产量的变化有什么关系(图3C)。解决基因组与代谢物动态关系问题的一种常见方法是基于约束的模型。基于约束的模型从注释的基因组中推断出生物体进行的所有代谢反应的集合,然后预测生长速率和代谢物通量,假设代谢网络处于稳定状态并受到生物学上的约束。基于约束的方法在从基因组预测集体代谢方面取得了一些成功,但这些方法需要大量的人工完善,使从非模式生物的基因组进行预测的前景变得复杂。因此,为我们资料库中的所有菌株成功构建基于约束的反硝化作用模型是一项艰巨的任务

我们采取了另一种方法来解决将基因组映射到代谢物动态的问题。我们问道,是否可以仅仅通过对每个菌株所拥有的基因的了解来定量地预测我们库中各菌株的代谢表型的变化。我们的猜想是由两个观察结果激发的。首先,细菌的代谢特征与海洋微生物群落的环境变量密切相关。例如,具有硝酸盐还原能力的分类群的相对丰度与当地的温度、磷酸盐和硝酸盐水平密切相关,这表明负责这些特性的基因的存在也可以从营养水平和温度中预测其次,通过对大量已测序基因组中基因存在和缺失的统计,可以了解基因在途径中发挥的功能作用,如叶酸代谢途径中二氢叶酸还原酶和胸苷酸合成酶活性之间的耦合。这些观察结果共同表明,一个菌株所拥有的基因可以实现对代谢性状的预测。因此,我们没有为我们所有的菌株建立基于约束的代谢模型,每一个模型都需要大量的人工完善,而是采取了简单的回归方法。

我们用线性回归法从基因的存在和不存在(步骤2,图1)来预测每个菌株的消费者-资源模型参数(图3C)。为了实现这一目标,我们对文库中的所有79株菌株进行了全基因组测序。然后,我们对每个基因组进行组装和注释,并确定每个菌株所拥有的17个反硝化相关基因的补充(表S6),利用反硝化的分子和遗传基础被充分了解的事实。我们不仅确定了进行氧化氮化合物还原的还原酶,而且还确定了已知参与反硝化作用的传感器/调节器和运输器我们有意排除了编码任何还原酶运作所需的结构亚单位和伴侣的基因(表S7),因为此类基因与相应的还原酶具有相同的存在/缺失模式,因此,将具有相同的预测能力。图4A显示了每个基因组中反硝化相关基因的存在和缺失情况。基因的存在和缺失模式与反硝化途径的已知特征非常吻合,包括进行亚硝酸盐还原的两个还原酶NirS和NirK的相互排斥(亚硝酸盐还原剂之间的皮尔逊相关度为1.0)。

图4. 从基因的存在和缺失到单个菌株的代谢物动态的统计图谱(A)我们库中79个反硝化菌株的反硝化途径中基因的存在和缺失。每个圆圈的颜色与基因的功能相对应,如图例所示。(B)在SDM中观察到的每个菌株的消费-资源表型参数(如硝酸盐还原率rA,图3C)通过L1-有规则回归对基因的存在和不存在进行线性回归,得出每个基因j的回归系数,截距,以及每个观察i的噪声项εi,系数捕捉到拥有基因j对相应表型参数的影响。对每个表型参数进行了独立的回归。(C-F)分别对rA、、rI和的预测值与测量值作图。虚线表示观察和预测之间完全一致。这些数据的样本内决定系数()和通过迭代的4倍交叉验证估算的样本外决定系数显示出来。N表示每个回归中的菌株数量不进行特定反应的菌株在相应的回归中被省略(例如,Nir菌株被排除在rA的回归中)。(G-J)分别对每个基因的进行估计。星号表示每个的显著性水平。也见图S2和表S6和S7。

接下来,我们表明,每个菌株中反硝化基因的存在和缺失足以定量预测单株培养中的代谢物动态。具体来说,我们构建了一个线性回归,根据基因的存在和缺失来预测我们消费者-资源模型的测量表型参数(图4B)。与观察到的细菌基因组流线化一致,几乎所有拥有硝酸盐和/或亚硝酸盐还原酶的菌株都在培养中进行了相关的反应(唯一的例外是纳氏菌株Acidovorax sp. ACV01,它同时拥有硝酸盐和亚硝酸盐还原酶,图4A)。因此,我们只用进行相关反应的菌株对每个消费者-资源模型参数进行了独立回归(即Nar和Nar/Nir菌株用于rA和回归,Nir和Nar/Nir菌株用于rI和回归)。每个基因的回归系数量化了该基因的存在对特定表型参数的影响。我们使用L1-规则化回归(最小绝对收缩和选择算子,LASSO)来避免过度拟合,对我们的消费者-资源模型中的每个表型参数进行独立回归(图4C-4J)。根据设计,LASSO会寻找一个能优化预测能力的稀疏程度,通常会选择几个变量进行预测,同时将其他系数强制为零。其结果可能是一个稀疏的模型,使用少数几个变量进行预测。值得注意的是,LASSO并不首先假定少数变量足以进行预测(与正向逐步回归和最佳子集回归方法相反)。在不存在强大的预测能力的情况下,例如,一个表型参数不能从基因的存在和不存在中得到很好的预测,LASSO将通过返回所有基因的=0来有效地确定一个预测模型。

对我们的数据集进行LASSO回归发现,一小部分基因的存在和不存在对我们库中所有菌株的消费资源参数具有高度的预测性(图4C-4J)。我们回归的样本内决定系数在0.55和0.74之间,取决于表型参数。最重要的是,我们的回归方法具有样本外的概括性,这是由迭代的4倍交叉验证(次迭代)决定的,尽管预测能力略低在0.36和0.56之间)。因此,在不同的天然分离物中,对一个反硝化菌株所拥有的全部基因的了解足以准确预测该菌株对硝酸盐和/或亚硝酸盐的速率和生物量产量

验证从基因存在与否预测性状的回归方法

我们的回归方法利用反硝化途径的生物学知识来预测代谢物的动态,实际上是假定反硝化基因含量是预测的唯一重要基因组特征为了研究这个假设是否正确,我们询问了其他基因组特征是否可以更好地预测代谢物的动态,还研究了系统发育相关性在我们的预测中发挥的作用。

首先,我们测试了随机选择的基因组的预测能力。为此,我们选择了17个随机基因,这些基因与任何反硝化基因没有强烈的相关性,但在群体中保留了与反硝化基因相同的边缘频率分布。我们发现,使用这些随机选择的基因进行回归,其预测能力平均比使用反硝化基因的回归要小得多(图S2A-S2C)。我们还测试了多达2,048个预测因子的增强集,这些预测因子是通过在17个反硝化基因上添加不同数量的随机选择的基因产生的。我们发现,随着加入更多的基因,预测质量的变化非常小,即使是2048个预测因子集(代表每个基因组中大约30%-50%的基因)所包含的预测能力也与单独使用17个反硝化基因的回归结果一样多(图S2D)。这一结果表明,17个反硝化作用基因承载了大部分基因存在和不存在的预测能力

其次,我们测试了16S rRNA拷贝数、基因组大小或GC-含量是否提高了反硝化基因存在/不存在回归的预测能力。我们测试了这些基因组特征,因为:(1)16S rRNA拷贝数已被观察到与营养丰富条件下的最大生长速度呈正相关;(2)较小的基因组与较快的生长有关;(3)GC-含量已被调查为许多细菌表型的相关因素,如最佳生长温度,并可作为虚假系统发育相关的基线,因为它是一个缓慢演变的基因组特性,表现出高度的系统发育相关性。我们发现,将这些额外的预测因子与17个反硝化基因一起纳入我们的回归中,并没有有意义地提高预测能力或改变推断的系数。因此,反硝化基因的存在和不存在优于这些粗略的基因组特征

第三,我们研究了密切相关的品系之间消费资源参数的相关性对回归成功的作用。我们通过计算每个消费资源参数的自相关(Moran's I)作为系统发育距离的函数来量化我们79个菌株库中系统发育的相关程度。我们观察到,在较短的系统发育距离(16S距离0.01)上,速率参数rA的相关程度较小,而参数在相对较长的距离(16S距离0.16、0.06和0.12)上显示出适度的相关性( = 0:33、0.27和0.48)。从数据集中修剪密切相关的菌株(如ENS01-08,PDM20-23,图3C),降低了的相关性( = 0:30,0.21,和0.39;16S距离分别为0.05,0.06,和0.09),但对rA的相关性影响很小。因此,一些系统发育的相关性可归因于近亲的过度代表。最后,我们表明,这些近亲在我们的数据集中的存在并没有歪曲我们的回归结果。我们对修剪后的数据集(包括64个品系)进行了回归,发现预测能力和回归系数与完整数据集的预测能力和回归系数相似。由此,我们得出结论,近亲的过度代表并没有对我们关于消费者-资源参数的回归结果产生很大影响。

将回归方法推广到另一种媒介条件下

在以琥珀酸为碳源的培养基中,我们将基因含量与代谢物动态进行了映射,接下来我们询问我们的回归方法是否可以推广到其他培养基条件。在我们图书馆的79个菌株中,有64个菌株在以乙酸盐作为唯一(不可发酵)碳源的限定培养基上生长(乙酸盐限定培养基,ADM;表S1)。我们检测了64个菌株在这种培养基中的硝酸盐和亚硝酸盐的动态变化,并推断出消费资源的参数。我们观察到,在SDM和ADM条件下,消费者资源参数有很强的相关性(Pearson相关性0.52-0.93,图5A)此外,LASSO回归预测在ADM中从基因存在和不存在测得的消费者-资源模型参数,取得了与我们在SDM中观察到的相似的预测能力回归系数在不同营养条件下是相关的(图5B),表明基因对表型的影响在不同条件下是保守的。然而,我们注意到,相对于SDM,ADM的速率和产量系统地较低(图5A),这与以前在这些碳源上观察到的相对生长速率一致。因此,ADM的回归系数一般比SDM的小(图5B)。这表明,虽然保守的基因型与表型的关系可能是不同环境和培养基条件下预测能力的基础,但当使用在该环境中测量的数据进行训练时,对特定环境的预测将更加准确。

图5. 个别菌株的代谢物动态可以从替代碳源中基因的存在和缺失中预测出来。79个菌株库中的所有菌株都被筛选出在乙酸盐定义的培养基(ADM)上生长,并对在该培养基上生长的64个菌株的消费资源参数进行测量。(A)在琥珀酸定义的培养基(SDM)上观察到的消费者资源参数与在ADM上观察到的参数相比较。虚线表示在SDM和ADM上观察到的数值完全一致。观察值之间的皮尔逊相关关系显示,所有相关关系的P<(换置检验)。(B) 通过L1-有规律的线性回归,将ADM上的消费者-资源参数与基因的存在和缺失进行回归。得到的回归系数bADM与在SDM中测量的参数的回归系数(也在图4G-4J中显示)作了对比。虚线表示每对回归系数之间完全一致。图中显示了皮尔逊相关性,p=0:008、0.01、<10-4、<10-4(置换检验)。每个点的颜色对应于基因的功能,如图例中进一步说明。另见表S1。

回归系数的机理解释

为什么仅仅是基因的存在和缺失对代谢物的动态有如此强的预测能力,以及为什么回归选择了反硝化途径中的特定基因作为信息预测因子?我们认为,通过以速率和产量来描述代谢表型,我们抓住了每个菌株代谢过程的突出特点,这使得回归能够通过利用特定基因的存在和代谢表型之间的保守相关性而取得成功。在某些情况下,这些相关性似乎与特定基因在途径中的功能作用有关。我们发现,对于一些基因来说,回归系数的符号和大小与相关酶的已知特性在质量上一致。例如,以前在多个细菌菌株中对膜结合和外周硝酸盐还原酶(分别由narG和napA编码;图2B)的比较表明,膜结合酶在体外表现出比外周酶更高的硝酸盐还原活性。这与narG在硝酸盐还原率回归中的大正系数相吻合(图4G)。同样,在亚硝酸盐还原率回归中,我们观察到编码铜基亚硝酸盐还原酶(nirK)的基因有很大的正系数(图4I),在以前的研究中,与nirS编码的替代亚硝酸盐还原酶相比,它在体外和体内的活性明显更高。此外,我们的回归系数显示narG相对于napA对硝酸盐产量的贡献更大(图4H),同样,cnor相对于qnor对亚硝酸盐产量的贡献更大(图4J)。这两个观察结果与以下事实相一致:narG和cnor编码的基因比它们的替代品(分别是napA和qnor)对质子动力(以及因此对ATP生成)的贡献更大。最后,由基因narK1K2(图2B)编码的转运体是硝酸盐/H+交合体NarK1和硝酸盐/亚硝酸盐反转运体NarK2的融合体,后者在利用膜结合的硝酸盐还原酶进行反硝化时,对于在细胞质和周质之间交换硝酸盐和亚硝酸盐至关重要。在反硝化副球菌中,这种融合已被证明对硝酸盐的亲和力大大高于单独的NarK2,导致在反硝化条件下有更高的生长速度。这与我们在硝酸盐和亚硝酸盐还原率回归中发现的情况一致,我们观察到narK1K2的巨大正贡献(图4G和4I)。

综上所述,这些观察结果表明,回归利用了基因存在和代谢特征之间的保守相关性,反映了反硝化作用途径的已知机制特性。然而,需要注意的是,对于我们回归中的许多非零系数,特别是那些与调节器相对应的系数,并没有明确的机械学解释。此外,鉴于我们的回归是在野生分离物的基因组上训练的,而不是在缺失突变体的表型上训练的,我们并不期望回归可以可靠地用于预测突变体的表型。相反,我们期望回归利用了拥有特定基因的菌株平均具有特定性状的趋势(例如,拥有NarG的菌株往往具有高)。特定基因的存在与代谢性状之间的这些相关性在质量上与该途径中一些基因的机理细节相吻合,但我们并不期望回归系数对单一基因的损失做出因果预测

将基因组结构映射到代谢性状的统计方法的影响

我们的统计方法采取了两个重要步骤,在单一菌株水平上将基因组结构与代谢动态相联系。首先,通过在实验室进行定量测量,我们消除了自然群落的测序和代谢组学研究中存在的混杂环境因素,揭示了基因内容对动态代谢表型具有保守的影响。其次,我们的结果表明,可以用统计学方法来发现决定其他代谢表型的途径的关键基因组特征,补充对模式生物的直接基因调查。最后,我们对来自基因组的代谢表型的预测适用于一系列的条件,并且在样本外有很好的概括性,这表明这种方法可以在只有基因组序列数据的情况下预测菌株的代谢动态。这些见解是通过对非模式生物的基因组多样性菌株库中的代谢表型进行参数化而实现的,从而利用基因组的变化来学习从基因型到代谢表型的映射

预测群落中的代谢物动态

从基因组结构预测群落的代谢物动态需要将单菌株的表型与集体行为进行映射。以前的研究发现,通过对单菌种代谢物消耗动态的了解,在预测菌群的代谢物动态方面取得了一些成功。这些方法使用了简单的假设,如每个菌株的代谢物生产或消耗的固定速率,而不是代谢物的动态模型。为了预测群落的代谢物动态,我们使用描述每个菌株的代谢物动态的消费者-资源建模形式,对多菌株群落的代谢物动态进行定量预测(步骤3,图1)。由于消费者-资源参数是由每个菌株的基因组稀疏编码的(图4),从消费者-资源模型预测群落代谢物动态将提供一个从基因内容到群落代谢的映射。

因此,我们通过增加每个菌种对硝酸盐和亚硝酸盐动态的贡献率,将我们的建模形式扩展到N个菌种群(图6B;公式10)。这个''加法''模型假设菌种只通过交叉进食和电子受体的资源竞争进行互动。这个模型还假设,在配对培养中,菌株的硝酸盐和亚硝酸盐的速率和产量与单株培养相同。因此,该模型提供了对单个菌株的消费者-资源模型参数的预测,没有任何自由参数。

为了评估我们的消费者-资源模型对群落中代谢物动态的预测能力,我们使用了测量的消费者-资源参数值(图3C),而不是由基因存在和不存在预测的值(图4C-F)。这使我们能够区分与模型未能预测代谢物动态有关的错误和与从基因组预测表型参数有关的错误。然而,正如我们随后讨论的那样,使用从基因组预测的消费者资源模型参数,对我们预测群落代谢物动态的误差最多只有适度的影响。

预测双菌种群中的代谢物动态

我们测试了这种方法在我们图书馆的12个菌株(4个Nar/Nir,4个Nar和4个Nir)的所有配对组合中预测代谢物动态的能力。我们在含有SDM的96孔板中组装群落,在两个独立的实验条件下最初提供硝酸盐或亚硝酸盐,然后在64小时内采样,测量硝酸盐和亚硝酸盐的浓度。值得注意的是,我们发现,加法模型准确地预测了大多数2株群落的代谢动态(图6,S3A和S3B),只使用单个菌株的测量消费者资源参数。具体来说,图6A的第三栏显示了2株菌群的反硝化动力学的零自由参数预测(曲线),与测量结果(点)一致。2株群落的预测包括非琐碎的动态,如Nar/Nir + Nar群落的亚硝酸盐的瞬时增加。此外,我们观察到,在大多数情况下,加法模型准确地预测了总的终点光密度和群落组成(图S4),表明该模型通常能捕捉到群落中的菌种丰度动态。

图6. 双菌株群落中的代谢物动态可以从单株培养中预测出来(A)三种反硝化表型的所有组合(Nar/Nir,紫色;Nar,蓝色;Nir,红色)的配对培养动态实例。前两栏显示了单独培养的两株菌株的代谢物动态。第三栏显示了两株菌株配对培养的代谢物动态(点),使用消费者-资源模型(曲线,见B中的模型)进行零自由参数预测。所有的培养都是在SDM中进行的,预测是基于SDM中测量的单一培养的消费者-资源参数,而不是从基因组中推断出来的。成对培养预测的误差显示在每个面板的第三列,由归一化的均方根误差(NRMSE)来量化。对于配对培养,我们定义,其中是模型预测和观察到的i和j菌株在配对培养中的代谢物浓度的均方根误差,RMSEi和RMSE j是i和j菌株在单培养中的RMSE。NRMSE在0-2的范围内表示双株群落的误差在与其组成的单株培养相关的2倍之内。(B)一个N个菌株的消费者-资源模型(基于图3B的模型)被用来预测配对培养的代谢物动态(N = 2)。A和I分别是硝酸盐和亚硝酸盐的浓度。xi表示菌株i的生物量密度,参数,由单株培养实验确定(图3C)。所有菌株的K*都固定为0.01mM。(C)NRMSE值的矩阵,量化了所有12个菌株对的模型预测的质量。4个Nar/Nir,4个Nar,和4个Nir。NRMSE值显示的是在SDM中培养的群落,最初提供的是硝酸盐,但Nir + Nir对最初提供的是亚硝酸盐。只有Nar + Nir群落被消费者-资源模型预测得很差(互换检验,,图S3C和S3D)。也见图S3-S6。

我们通过计算归一化均方根误差(NRMSE;见图6的标题;公式12)来量化加成模型预测代谢物动态的质量。我们发现,大多数2株群落的NRMSE在0到2之间,表明我们的模型成功地预测了代谢物动态,只给了每株测量的消费者资源参数。当使用从基因组中通过回归预测的消费者资源参数时,对培养物动态的预测也很准确(图S5A和S5B)。此外,模型预测的成功或失败取决于存在的菌株的表型。该模型成功地预测了大多数表型组合(如Nar/Nir + Nar或Nar + Nar)的2株代谢物动态,但只有在Nar株与Nir株一起培养的情况下失败(图6A、6C、S3C和S3D)。在Nar + Nir群落中,我们的模型预测的失败遵循一个共同的模式,即硝酸盐的还原率比预期的要慢(底行,图6A和S6)。我们推测,模型在Nar + Nir群落中预测代谢物动态的失败是由Nir菌株排泄的一氧化氮引起的一氧化氮可能具有细胞毒性,这可能解释了Nar菌株的硝酸盐还原率较慢。关于这一现象的进一步探讨,见讨论部分。

预测大型群落中的代谢物动态

接下来,我们问从单株培养中测得的动态代谢表型是否可以用来预测3-5株群落的代谢物动态。我们应用加性模型来预测12个菌株子集的81个3菌株组合、21个4菌株组合和6个5菌株组合中的硝酸盐和亚硝酸盐动态。与成对培养一样,3-5株菌群在SDM中进行培养,最初在两个独立的实验条件下提供硝酸盐或亚硝酸盐。在不包含Nar + Nir对的群落中(例如,图7A),我们发现预测的准确性很高(灰色符号,图7B和S3E)。这再次表明,在大多数表型组合中,群落动态可以从群落中每个菌株的消费者-资源参数中预测。然而,在包含Nar + Nir对的群落中,预测结果相对较差(黄色符号,图7B和S3E),这表明Nar和Nir表型之间的相互作用没有在加性模型中得到体现,再次推动了低预测准确性。最后,我们注意到,对于3-5个菌株群落来说,与从基因组预测表型相关的群落代谢物动力学预测的额外误差通常是温和的(NRMSE0.5-1.4的中位数增加)(图S5C)。

图7. 代谢物动态在3-5个菌株群落中是可以预测的。加法消费者-资源模型对两个以上菌种群落的代谢物动态进行了预测,这些预测在实验中得到了验证。(A)在SDM中培养的3株(Nar/Nir + Nar/Nir + Nar)群落的代谢物动态。前三个面板显示每个单独培养的菌株的代谢物动态,第四个面板显示3个菌株群落的代谢物动态。曲线显示了使用SDM中消费者-资源模型参数的测量值(不是从基因组推断的值)对消费者-资源模型的预测(图6B)。(B)NRMSE(公式12)值量化了在SDM中用硝酸盐培养的3-5种菌群的消费-资源模型预测质量。黄色符号表示包含Nar + Nir对的群落。模型对Nar + Nir对培养动态的预测很差(图6C),导致含有Nar + Nir对的群落的NRMSE很高(比较黄色和灰色符号)。左边和右边的散点图比较了仅使用单体养殖数据的消费者-资源模型的预测结果和将Nar + Nir对描述为群落内模块的粗放训练方法(在C和D中描述)。粗粒度方法改善了3-5株群落的预测;当使用Nar + Nir对信息进行预测时,平均NRMSE(黑线)下降(t检验,**** 表示。(C) 在SDM中培养的Nar + Nir对的代谢物动态,左图中的曲线显示了仅使用适合单株培养的参数对消费者-资源模型的预测,右图中的曲线显示了将还原率重新适合Nar + Nir对培养数据的结果,但将产量固定为单株培养值。(D) 在SDM中培养的含有Nar/Nir菌株和(C)中所示Nar+Nir对的3个菌株群落的代谢物动态。左图中的曲线显示了使用从每一株菌的单株培养实验中推断出的参数对消费者-资源模型的预测,右图中的曲线显示了当Nar + Nir对被视为一个模块时的预测,速率参数从对培养数据中重新计算(C的右图)。由于Nar + Nir对的粗颗粒化,NRMSE下降。米黄色的面板表示零自由参数的预测。也见图S3和S5-S7。

纠正Nar和Nir品系之间的相互作用

为了解决我们在3-5个菌株群中的加性模型没有考虑到的Nar和Nir菌株之间的相互作用的影响,我们采取了一种粗放的训练方法。我们询问Nar + Nir对的代谢贡献是否可以作为较大群落中的模块来处理。为了做到这一点,我们为每个Nar + Nir对的配对培养数据(在SDM中用硝酸盐培养)重新拟合硝酸盐和亚硝酸盐还原率,让产量固定(图7C和S7A)。这导致了每个Nar + Nir对的有效硝酸盐和亚硝酸盐还原率。在每一种情况下,我们观察到重新拟合的硝酸盐还原率低于单培养的硝酸盐还原率(图S7B),从数量上证明Nar菌株一直被Nir菌株的存在所拖累。这一观察结果与Nir菌株排泄细胞毒性一氧化氮的假说一致

然后,我们使用重新拟合的Nar + Nir对的速率,对包括这种对的群落(在SDM中用硝酸盐培养)进行预测(例如,图7D)。对于包括多个Nar + Nir对的群落,我们开发了一个简单的平均规则,以确定每个Nar + Nir对的有效速率。例如,在Nar + Nar + Nir群落中,有两组Nar + Nir对的相互作用,在Nir菌株与两个Nar菌株的相互作用中,测量到不同的有效亚硝酸盐还原率。在这个例子中,我们将把这两个有效还原率的平均值作为预测用的数值。我们发现含有Nar + Nir对的3-5个菌株群落中的代谢物动态被这种粗粒度的方法定量地预测出来(黄色符号,图7B)。我们得出结论,将Nar + Nir对作为较大群落中的有效模块,恢复了消费者-资源模型的预测能力。

讨论

使用消费者资源模型对不同的天然分离物库的代谢表型进行量化,使我们能够采取一种统计方法将基因型与动态代谢表型联系起来结果是一个从基因含量到单株代谢物动态的稀疏映射,利用了代谢特征和基因存在之间的保守相关性,其中一些反映了反硝化途径中酶的已知机械特性。基于资源的建模形式允许对群落层面的代谢物动态进行定量预测。结果,该方法产生了一个从基因组结构到反硝化细菌群落水平的代谢物动态的映射。

本研究的一个关键贡献是证明了一个模型代谢过程的基因含量和代谢性状之间的定量映射。人们可能会认为,基因的存在和缺失是一个太粗糙的基因组特征,无法预测动态代谢特征,而其他基因组特征,如启动子序列、合成或等位基因变异,将是进行预测的必要条件。相反,我们发现,基因的存在/缺失与代谢性状之间的关联性很强。这一结果表明,对细菌特定代谢性状的选择可能主要有利于具有特定基因互补的基因组,而基因组更细化的细节,如启动子序列或等位基因变异,则不那么重要。

在群落层面,我们发现超出消费者-资源模型所描述的相互作用并不是特异性的,而是表现出一种普遍的模式(即只有当Nar和Nir菌株同时存在时才会发生)。这表明,资源竞争之外的相互作用可能表现出可以在实验室中发现的模式。在Nar + Nir群落中,群落水平的代谢物动态偏离了加法模型,这一事实表明,当特定的代谢过程,如通过代谢物的交换进行促进,这种相互作用可能更容易发生。

从基因组中改进对群落代谢的预测

有一些重要的注意事项,适用于我们从基因组预测单株代谢特征和从单株代谢预测群落水平。首先,通过使用消费者-资源模型对代谢物动态进行参数化,我们假设该模型可以接近野生分离物的代谢表型。对于我们的大多数库(62/79株),这种近似工作得很好,但在某些情况下(17/79株),该模型至少在某些初始条件下失败(图S1J-S1L;表S5)。这些失败可能是由于该模型没有捕捉到诸如反应产物对还原率的抑制等现象而发生的。展望未来,该模型的假设可以通过应用直接从数据中学习适当的表型参数的方法来放松。

尽管我们为了将基因组变异映射到动态代谢表型上而着手获得一个多样化的菌株库,但需要注意的是,我们的菌株库仅由变形杆菌组成,不包含其他门类的代表。这一局限性意味着目前还不清楚我们的回归方法是否能预测远缘菌株(如革兰氏阳性菌)的表型。除了本研究中描述的79个菌株外,我们还试图对来自放线菌门的三个革兰氏阳性Nar菌株进行反硝化动力学检测。我们发现它们的还原率比我们资料库中的任何菌株都慢(约0.1 mM/OD/h),导致64小时内的硝酸盐还原量几乎可以忽略不计。这一观察结果表明,与变形杆菌相距甚远的菌群的反硝化表型可能是不同的,其速率可能比我们观察到的变形杆菌慢得多。支持这一观点的是,人们对革兰氏阳性菌的反硝化作用知之甚少,而以前收集与我们类似的表型数据的研究仅以变形杆菌为特征。因此,将我们的结果扩展到更多不同的菌株,需要对系统发育扩大的库进行表型分析。

考虑到我们的统计方法具有更广泛的适用性,对于可以随时研究的代谢过程和相互作用的类型有一些限制。反硝化作用是一个被研究得很好的代谢过程,相关的酶是已知的,而且很容易被注释。将我们的方法扩展到研究较少的代谢特征,需要新的方法从数据中学习适当的基因组特征,因为在这些情况下,根据机理知识选择基因可能是一个挑战。例如,通过条形码转座子突变体库对野生分离物进行高通量突变体筛选,可用于发现对代谢性状很重要的未标记或未充分标记的基因,并有可能作为代谢表型的预测因素。

要弥合这里研究的合成群落和野生群落之间的差距,就需要参与自然反硝化群落的化学和空间的复杂性。首先,目前还不清楚这里描述的加性和非加性相互作用是否与野生群落有关。确定这些相互作用的相关性的方法之一是测量自然环境中基因型之间的共同发生率。第二,我们的方法如何适用于复杂的营养环境,如有机碳源的混合物,这是自然群落的特点,还有待观察。解决这个问题的方法之一是直接量化土壤中的硝酸盐和亚硝酸盐的动态,并询问基因含量是否可以预测这种情况下的代谢物动态。最后,自然界中的反硝化作用是在其他代谢过程存在的情况下发生的,它通常依赖于硝化器的硝酸盐,并与异化硝酸盐还原为氨的电子受体竞争。将这里的方法扩展到包括其他代谢通量的更广泛的生态环境中,是一个重要的途径。

应用来自基因组的群落代谢预测

在单菌株水平上,本研究中回归系数的明显机械相关性表明,可以利用统计方法,加上大规模的培养和对分离物库的表型分析,来发现决定群落代谢的基因组的突出特征。高通量的测量将使我们能够对基因组特征进行更详细的调查,使我们能够将我们的统计方法扩展到基因序列和合成的变化上。

此外,类似于这里采用的统计预测可以用来帮助指定基于约束的代谢模型。基于约束的代谢模型是通过对代谢特征的实验测量来完善的,但是测量这些特征是具有挑战性的,特别是对于不可培养的类群或难以从复杂群落中分离出来的菌株。由于我们的方法能够从基因组中预测代谢表型,这些预测可以用来完善仅使用基因组数据的基于约束的代谢网络模型,从而规避了实验测量代谢表型的需要。

在群落层面,我们的方法最终可以在已知单个基因组存在和不存在的群落中预测代谢物的动态。土壤和与宿主相关的群落通常包含数百个细菌分类群;因此,可能有必要在许多分类群中测试消费者-资源形式主义的预测能力。然而,来自土壤的数据表明,反硝化作用可能发生在局部,即10-20毫米的颗粒上。在这种小范围内,群落可能只是由几个菌株组成。如果情况确实如此,我们对2-5个菌株的群落的研究结果(图6和7)可能适用于土壤中的反硝化群落。

在Nar + Nir社区中,与模型预测的偏差

令人吃惊的是,同时含有Nar和Nir表型的群落偏离了消费者-资源模型的预期(图6C和7B)。我们提出,Nar + Nir群落中硝酸盐还原的抑制可能是由Nir菌株产生的一氧化氮引起的。与这一假设相一致的是,受到最强烈抑制的Nar菌株(PDM12和PNT03,图S7)缺乏一氧化氮还原酶(图4A);因此,它们可能无法减轻这种毒性。此外,被强烈抑制的Nar菌株拥有周质硝酸盐还原酶(图2B),它暴露在细胞外一氧化氮的毒性作用下,而被弱抑制的Nar菌株ACV02拥有膜结合的硝酸盐还原酶,它被屏蔽在细胞质中的一氧化氮。尽管Nir菌株拥有一氧化氮还原酶,因此可以通过将一氧化氮还原为一氧化二氮来减轻毒性,但Nir菌株经常会短暂地积累一氧化氮。与这一想法相一致的是,当我们在共培养中测量Nar和Nir菌株的相对丰度时,在大多数情况下,我们观察到Nar菌株的比例比我们的模型预测要小(图S4B)。

为了描述同时存在Nar和Nir菌株的群落中的代谢物动态,我们选择不扩大我们的建模形式,以包括我们假设的Nar菌株抑制机制。相反,我们使用Nar + Nir对培养物的测量结果来描述群落水平的代谢物动态(图7)。这种方法的优点是保持少量的模型参数,但它是以牺牲机制解释为代价的。我们的方法的另一个可能的缺点是对具有多个Nar和Nir对的群落进行建模的挑战。然而,我们发现,一个简单的平均方法成功地描述了群落的代谢物动态,即使在3-5个菌株的群落中存在多个Nar + Nir对时也是如此(图7B)。

我们注意到,Nar + Nir对培养物在代谢上与Nar/Nir单培养物不同,因为前者将反硝化途径分成两个基因组,导致强制性交叉摄食。值得注意的是,我们的模型只在需要交叉进食的情况下失败,这表明我们的形式主义与竞争性相互作用最相关,仅从单培养物的信息准确预测强制性交叉进食可能需要额外的参数。反硝化作用途径在亚硝酸盐还原时分裂的生态环境被认为与环境的pH值有关,低pH值有利于分裂的途径。这一假设来自于以前的一项研究,该研究表明,在反硝化过程中亚硝酸盐的瞬时积累可以通过在基因组间分离硝酸盐和亚硝酸盐的还原过程来减少。减少亚硝酸盐的瞬时积累在低pH环境中是有利的,因为亚硝酸盐会形成有毒的中间产物。因为我们观察到Nar + Nir群落逃脱了亚硝酸盐的短暂积累(图6A和S6),我们的结果与反硝化途径在亚硝酸盐还原处的分离是一致的,是对酸性环境的适应。

总结

我们发现,一个统计学方法可以发现不同野生分离物群落中基因含量和代谢物动态之间的简单关系,这一点非常惊人。我们希望未来的工作能够利用这种方法来理解和预测自然环境中微生物群落的代谢活动。

研究的局限性

我们假设代谢表型可以通过消费者-资源模型来捕获,这个假设对于我们的一部分分离物来说是不成立的,并且限制了我们的方法对那些可以用简单现象学建模的菌株和过程的直接适用性。例如,当电子受体受限时,我们的建模形式很好,但当供体(有机碳)受限时,可能会失败。

我们的回归方法是利用基因型和表型之间的相关性来进行预测。在某种程度上,这些相关性反映了某些基因的保守的表型影响,但系统发育的相关性也起了作用。因此,我们并不期望回归能对单基因敲除突变对表型的影响进行因果预测。

我们的分离物库包括来自变形菌门的菌株。我们并不期望我们的结果可以推广到其他门类的远缘反硝化细菌,如革兰氏阳性细菌。要预测远缘菌株的表型,可能需要扩大资料库。

我们的方法已经在混合良好的条件下对相对简单的营养条件进行了证明。在存在空间结构和复杂化学环境的自然环境中,这种统计方法的效果如何,还有待观察。

你可能感兴趣的:(文献阅读2.1.1 基因组结构预测微生物群落中的代谢物动力学(中文翻译版))