基因调控的数学模型——热力学模型、布尔模型、微分方程模型

原文:Mathematical modeling of gene expression: a guide for the perplexed biologist
DOI: 10.3109/10409238.2011.556597

关键词:基因调控、热力学模型、微分方程模型、布尔模型、模型选择、参数估计、敏感度分析、果蝇

引言

尽管现在有大量的数据,但由于这些数据大多给出的是大量细胞平均的状态或很少的动态系统的快照,因此对于基因调控的定量认识仍然是很不全面的。因此,仅仅通过实验途径来获得完整的基因调控网络极具挑战性。数学建模为解决这一关键问题提供了一条备选途径,提供了结合生化相互作用的详细动力学过程的新方法。
本文我们聚焦于真核系统,讨论一般方法及其应用,总结了目标、挑战和未来的方向。
基因调控模型通常采用统计学或分析方法。两种方法在提供对基因调控系统的非直观见解方面可能非常有效。第一种方法特别适用于包含转录组的数据集,代表了数千个基因的表达水平。基于图的概率模型(例如神经网络,布尔网络和贝叶斯网络)用于表示监管互动。在不同条件下,统计相关性突出显示了哪些基因组共同起作用,表明可能存在调控关系。作为该分析的一部分,可以识别参与转录控制的共有基序。这种方法的最终目标是辨别作为给定数据基础的监管网络。这种统计方法提供了涵盖生物中大部分基因的全景图,但是它们不能解释转录因子,聚合酶和其他调节蛋白之间的复杂关系,或增强子体系结构的精细细节。由于基因阵列数据已经存在了一段时间,因此统计方法已经相当成熟,并且在最近的综述中已经进行了讨论。
相比之下,用于基因调控建模的分析方法类型的一致性较差,并且其价值普遍缺乏,尤其是在基于DNA序列的建模领域。在这里,我们回顾第二种分析方法,该方法通常集中于少量基因的表达,并由多种不同的数学模型表示。该模型可以包括与转录因子和RNA聚合酶与DNA的结合,转录因子之间的协同和抑制性相互作用,mRNA和蛋白质降解以及mRNA翻译率有关的术语。与某些统计方法不同,对于这些方法,我们需要对系统组件和有关系统结构的假设有广泛的了解。在这种情况下已应用了三大类数学模型:热力学模型,布尔模型和基于微分方程的模型。这些模型已被用来总结实验数据,从复杂的实验数据中推断出新的关系,指导研究人员寻找新的可检验假设,并找到很难直接测量而可以导致对新元件进行精确建模的系统的性质。这些模型具有几个一般特征。大多数情况下,模型是确定性的,也就是说,对自变量的更改会对因变量产生可预测的,可重现的影响,但是它们也可以被构造为随机模型,以捕获受内在或外在噪声影响的许多生物系统的不稳定行为。建模方法也可以分为离散的和连续的。离散形式(例如布尔模型)将时间,状态或空间表示为离散值集,从而简化了计算,尽管基于微分方程的模型利用连续值来提供动态变化的“平滑”表示。
在这里,我们讨论三种主要模型的结构和应用:热力学模型,基于微分方程的模型和布尔模型。使用哪种模型的选择通常取决于所考虑的系统和问题。如果成功,那么所选择的模型应该适合现有数据并在系统上提供新的生物学见解,而不仅仅是概括已知的内容。

热力学模型

这种建模方法试图从顺式调控区的序列中提取有关基因调控的信息,并测量或推断出序列特异性转录因子与这些元件的结合。就是说,给定一个启动子和一些特征明确的转录因子,人们努力预测一个基因将如何被激活或抑制。这些模型可预测调节区域上结合位点的不同组合如何共同发挥作用,以提供不同的时间和空间表达输出,并做出特定假设,即基因活性与结合激活因子​​的水平成正比,与结合抑制因子的水平成反比。热力学(也称为分数占用)模型基于DNA-蛋白质相互作用和统计物理学的简单生物物理描述(图1A)。当前的实现忽略了诸如染色质结构和修饰或DNA甲基化之类的其他过程,尽管这些方面可能会纳入未来的模型中,但它们并不会独立地处理辅因子的募集或一般的转录机制。这种简化似乎并不是致命的缺陷。这些模型的相对成功表明,初级DNA /蛋白质相互作用下游的那些事件因此可能在确定增强子结构与基因表达之间的关系中起较小的作用。


图 1 基因调控研究中使用的分析建模方法。(A)基因表达的热力学或分数占用模型。第一列显示了简化的增强子区域,具有两个阻遏物(R)和激活剂(A)的结合位点。数学公式表示阻遏位点的结合效率。在第二栏中,显示了该增强子区域的所有四个可能状态。第三列表示此状态发生的可能性,它不仅是四分之一,而且是蛋白质浓度和结合位点质量的函数。第四列表示特定状态驱动基因表达的效率。这可能是激活子减去阻遏子的简单加性表达,或者是更复杂的表达。最后一栏代表来自每个状态的总表达(状态发生的概率乘以这种蛋白质构型的潜能)及其总和,该总和提供了对顺式元件总输出的度量。 (B)基因表达的微分方程模型。在这种情况下,描述了两个基因之间的调节关系。基因1(G1)的合成涉及mRNA(M1)的表达和蛋白质(P1)的翻译,后者调节基因2(G2)。 mRNA和蛋白质都容易发生周转,蛋白质容易扩散。左侧显示了mRNA和蛋白质的合成,降解和扩散事件。可以使用反应扩散方程式对这一过程进行建模,如右图所示。每个分子成分都分配有一个这样的方程式。 (C)基因表达的布尔模型。显示了描述四种蛋白质之间调节关系的网络。有向箭头表示激活,钝箭头表示压抑。从初始状态开始,演示了三个时间步骤。在此模型中,蛋白质更新发生在一个时间间隔内,并且假定抑制作用高于激活作用。在此,上标[1]和[0]分别指示活动状态或非活动状态。

实现此类模型有两个基本步骤。首先,根据潜在的转录因子与DNA的相互作用列出了增强子的所有可能状态,并为每个状态分配了统计权重(图1A)。基因激发的概率是通过“成功”状态(即具有激活因子优势的状态)的分数来计算的。对于包含一个结合位点的简单的调节区域将只有两个状态,绑定状态和未绑定状态,尽管具有四个位点的元素将具有16个状态。使用转录因子的浓度和这些因子与其在DNA上的位点的结合亲和力来计算状态的统计权重。对于与高亲和力位点结合的大量蛋白质,其权重将比转录因子稀少或结合位点弱的情况大得多。每个状态的概率可以通过用状态的统计权重除以所有可能状态的统计权重之和。该计算过程可以包含已知会影响转录的特性。例如,可以通过分配更高或更低的权重,将转录因子与阻遏物对激活物的抑制作用之间的合作和竞争相互作用明确地添加到模型中。热力学建模的第二步是计算每个状态的基因表达输出。尽管阻遏物占用可能导致低表达,但激活子占用较高的状态可能会诱导高表达。已经采用了不同的方法来将占用转化为基因表达。如下所述,可以根据与RNA聚合酶结合概率或转录因子加权和成比例的基因表达输出建模。
在不同领域如何实施这种方法?热动力学模型的理论基础已经在原核系统中首先进行了探索。由于调节区通常很小,几乎不结合转录因子,因此简单的细菌系统为定量研究提供了一个易于处理的环境。大肠杆菌中的lac操纵子和λ噬菌体的裂解/溶原性转换是已被治疗的两个例子。 Bintu等人考虑了其他启动子和构型。 Zhou和Su概括了Bintu等人的结果,得出一个简单的公式,用于计算所有简单调控结构的转录概率。该模型可作为Python模块“ tCal”获得,该模块允许用户轻松构建和配置目标基因的转录模型(Zhou和Su,2008)。尽管在简单的原核系统中使用热力学模型已经帮助研究人员建立和改进了这种建模方法,但是由于基因调控机制的根本差异,这些研究的结果通常不能直接扩展到真核系统。
在真核生物中,复杂的顺式调控区域适合进行热力学建模,因为这种方法具有最大的潜力来预测转录因子结合位点的不同组合的功能。酵母和果蝇中热力学模型的最新应用说明了这种方法的可能性和局限性。
为了鉴定一组启动子中可能的调控基序,热力学分析可以检测简单模式搜索可能忽略的退化结合位点。 Granek和Clarke 应用热力学模型通过利用转录因子的浓度及其以位重矩阵(PWM)表示的结合位点偏好来检测酵母基因组中的转录因子靶标。他们的算法GOMER具有独特的能力,能够从相对稀疏的数据集中识别转录因子之间的假定竞争性和合作性相互作用,这种方法很难用机器学习方法来实现。他们使用GOMER鉴定了控制细胞周期调控基因表达的Fkh2和Mcm1靶标,并分析了协同作用在该过程中的作用。他们进一步研究了Ndt80和Sum1转录因子之间的竞争在区分基因调控的有丝分裂和减数分裂程序中​​的作用。该算法还预测了Rap1的全基因组结合,这已被染色质免疫沉淀法证实。这些研究集中在酵母上,但是该算法可以应用于其他调控系统。
以上方法着重于分析结合特定转录因子的内源序列,仅提供了这些调控因子可能在启动子上采用的潜在排列方式的很小一部分的视图。相比之下,Gertz和Cohen分析了酵母中大量合成启动子,这些启动子受到三到四个转录因子随机组合的结合,这些转录因子已知共同调节该生物体中的基因。他们测试了2800个启动子,并非完全的可能配置列表,但是比仅考虑基因组中共同调控的基因组所提供的启动子高了几个数量级。每个启动子的定量输出通过荧光报告仪测定,并且活性通过热力学模型拟合。他们的模型能够解释不同启动子结构驱动的基因表达差异的44%至59%,并考虑了转录因子结合位点之间的协同作用以及弱结合位点的影响。然后他们使用该模型预测基因组中的新靶标,包括由于位点的亲和力低而被忽略的Mig1新靶标。这两种方法旨在解密一般的转录"语法",这可能适用于不同物种中发现的新的遗传调控安排。
在光谱的另一端,热力学建模也已用于发现单个复杂调节区域的详细功能。 Reinitz及其同事对果蝇果蝇(eve)基因的1.7-kb启动子近端区域的活性进行了建模,该基因在胚胎的七个条纹中表达。该区域指导条带2的胚盘表达,以及条带7的弱表达。在仔细观察该DNA片段指导的表达后,作者将调节该基因的转录因子的时空表达水平纳入了热力学中。模型。仅使用实验确定的四个转录因子的17个结合位点(那些使用DNAse I脚印法发现的结合位点),他们就无法重建报告基因产生的表达模式。但是,当它们包括针对另外三个转录因子的另一组生物信息学预测的结合位点时,该模型便能够拟合该数据。这项研究的重要结论是,广泛分布的结合位点可能一起起作用以产生类似增强子的输出,这表明并非所有的发育调控元件都以紧凑模块的形式存在。他们通过正确预测特异性结合位点突变或特异性转录因子缺失引起的模式改变,扩展了分析范围。这种建模工作为顺式调控区域的新情况提供了定量支持,但这种研究中发现的参数不能轻易用于其他增强子区域,这限制了该模型的广泛应用。由于参数之间的补偿,对可能包含数十个结合位点的单个增强子区域进行建模对参数估计提出了挑战。之所以会出现这种效果,是因为这种研究中使用的数据是有限的,因此,特别是在有许多参数的情况下,很可能许多组合(反映了完全不同的生物学场景)将产生相同的结果。例如,对于活化剂A具有强位点而对活化剂B具有弱位点的增强剂可能等同于具有弱A和强B位点的增强剂。更多的实验数据对于鉴定生物学上正确的值将是必不可少的。
Segal及其同事在更大范围内进行了一项研究,该研究利用了果蝇胚盘胚胎中可获得的高质量定量数据,将Reinitz的研究方法扩展到了59种不同的增强子。该数据集包含了八个转录因子的空间表达数据和胚盘中胚中靶基因的表达。他们的模型结合了浓度缩放,同型(但不是异型)合作结合以及每种转录因子表达贡献的参数。与之前的启动子研究不同,该模型未尝试引入“淬灭”,即短距离阻遏物的距离效应,这是这些蛋白质的关键特征。尽管有这些简化,但对于许多增强子仍可获得合理的预测。该研究预测,顺式调控模块中包含的弱蛋白结合位点对总增强子活性起着重要作用,同型合作相互作用也是如此,在较低的输入浓度下可以提供更清晰的模式。他们的模型通常可以很好地预测较早表达的缺口基因的表达模式,但对成对规则基因的较晚表达模式的成功率较低,这可能是因为未考虑异型协作相互作用和距离依赖性猝灭。众所周知,这两个功能在许多情况都起着关键作用。
Papatsenko及其同事采用了一种独特的热力学建模方法,他们专注于与果蝇胚胎中驱动神经源性基因表达的增强子相关的基因调控规则。 rho,vnd和vn增强子由两个转录激活因子Dorsal(Dl)和Twist(Twi)和一个阻遏物Snail(Sna)调控。这些基因的调节区域的差异导致背侧和腹侧区域的表达模式略有差异。这项研究将热力学模型应用于计算机模拟概念性调控元件,该调控元件包含Dorsal-twist-snail(DTS)站点的关键核心区块,而不是Segal和Reinitz使用的内源序列。他们的模型能够产生与内源性rho,vnd和vn基因相似的模式,并提示结构特征,例如转录因子之间的协同亲和力差异以及DTS模块数量,可以解释这些基因之间的表达差异。参数比较表明,rho模型要求的Dl-Twi合作性比vnd高5-10倍,以及更高的Twi-Twi合作性,而针对vnd的模型需要更多的DTS模块和更高的Sna-Sna合作性对于rho。系统发育比较被用来验证这些结论:因子结合位点之间的间隔通常是保守的,而且vnd中DTS模块的数量总是比rho中的多。与上面讨论的其他示例不同,没有直接测试建模的DNA序列的功能。但是,本文的大多数结果与早期的定性研究一致。
为了获得在生理上多余的背景下分析高定义元素的好处,最近在一项研究中采用了一种组合方法,该方法对合成的调控元素进行了建模。体内定量表达数据是从27种合成增强子获得的,这些增强子旨在测试影响果蝇早期胚胎阻抑的功能。通过共聚焦激光扫描成像对900多个胚胎进行测量,报道基因活性的水平有所提高,并注意到由于增强子结构的细微变化而导致的定量差异。为了简化分析,本研究着重于影响阻遏物的特定特征,因此激活位点的排列和数量保持不变。值得注意的是,这种建模方法的应用提供了从单个胚胎的分析中无法得出的见解,最显着的是非线性函数描述了短距离压力的猝灭作用,以及对不同激活剂的猝灭的相似敏感性。将这些见解扩展到内源性rho增强剂后,研究表明,从合成增强剂中学到的参数可直接应用于天然增强剂,突出了该增强剂体系结构的重要特征。较早的研究是基于对结构多样的增强子序列的分析,因此很难确定增强子中结合位点组成的重要特征,而这是理解增强子进化的关键。通过专注于一组定义明确的相似元素,Arnosti和同事们能够采用一种模型,该模型具有大量参数,并对这些参数进行了可靠的估计。
这些最新的示例说明了热力学建模在各种情况下的应用。尽管并入了有关DNA序列,转录因子丰度和结合亲和力的定量信息,但是该方法仍然忽略了转录过程的主要特征,例如核小体效应,结合位点的方向,接近转录起始位点和染色质修饰。热力学模型通过考虑多达三个不同层的过程来简化这些复杂性。即,转录因子的结合,辅因子的后续募集以及这些辅因子的转录促进作用。
Janssens等人的模型中的三个步骤说明了这一过程:转录因子的部分占有率(包括由于短距离代表的淬灭而导致的活化剂占有率的校正,辅因子的募集(称为“衔接子”)以及转录率的计算,此处以阿雷尼乌斯(Arrhenius)表示。在其模型的第一层中,转录因子独立地与DNA结合(即无合作结合),并且当短程阻遏物结合并淬灭它们时,活化剂的占有率降低。阻遏由一个乘性项表示,因此几个阻遏物可以作用于同一个激活物,从而连续降低其活性,就像激活物一样,阻遏物的效能(或“缩放因子”)也被视为自由参数,该模型的第二层描述了转录因子对辅因子的募集作用,这是过程的粗略简化,其中每个激活剂都有恒定的潜力来招募辅助因子,并且所有因子都是等效的。 第三层描述了转录的激活,其中辅因子降低了激活能垒,由Arrhenius表达来描述。该模型假定了激活器之间的协同作用,产生了非线性激活响应。在低水平时,此活性对应于观察到的基因开关的生物学特性,但在此表示中,随着募集更多辅因子,信号呈指数增加,因此设置了任意最大阈值水平以限制转录。转录的激活也可以通过其他表达来描述,以产生S形反应,例如逻辑函数。
其他研究使用了这种三层方法的变体。 Segal等允许转录因子之间的同型合作,但省略了距离依赖的压制。第二个层次涉及转录因子(参数化特征)表达贡献的总和,尽管它们不涉及辅因子募集,但在逻辑上与Janssens等人的研究平行。第三层,转录的计算由S形函数表示。 Fakhouri等结合了两个额外的功能,已知对这些增强子起重要作用,即短距离抑制和异型合作。并非所有模型都采用三步法。 Zinzen等仅对转录的第一层进行建模,即转录因子与DNA的结合,然后假设转录水平与活性状态水平呈线性相关,从而临时假设活性增强子必须具有至少绑定一个背面和一个Twist激活剂,并且没有Snail抑制子。与Janssens等人的治疗相反,包括转录因子的合作结合。 Gertz等遵循类似的方法,Granek和Clarke(2005)也采用了相似的方法,他们还包括权重函数以促进合作和竞争。
热力学模型中这些层的实现多样性表明,优化这种模型的事态尚不成熟。没有研究系统地考虑不同公式对整体模型的鲁棒性和准确性的影响。热力学建模的另一个主要挑战是一个平庸而又基本的挑战。功能性结合位点的定义。转录因子可以耐受高序列变异性,从而为基因调控提供了高度灵活性。然而,这种灵活性使结合位点的检测成为一项复杂的任务。实验上已知的结合位点数量有限,生物信息技术不能保证准确检测结合位点,这限制了建模的有效性。然而,随着对结合偏好的全面调查的开展,功能性结合位点的知识鸿沟开始缩小。即便如此,由于对上下文的具体作用了解不足,体内结合常常与预测不符。另外,转录因子的活性可以表现出与环境有关的作用。例如,取决于增强子的结合,驼峰(Hb)蛋白可以起激活子或抑制子的作用。但是,在最近的研究中没有考虑到这种上下文依赖性。在Janssens等人中Hb被用作活化剂及 Segal等研究中的阻遏物。为了更好地了解情境效应,ChIP序列和转录组实验可能有助于提供有关体内结合和功能的必要基因组信息。
尽管有其缺点,但为了详细分析转录顺式元件的功能,热力学建模代表了最具有生物学意义的方法,有望在DNA水平破译基因调控。当前的简化和未知功能限制了其预测能力,但使用更好的数据集(例如体内转录因子占用率)可能会生成更强大和更复杂的模型。数据限制不应阻止数学家创建新方法,可以在合成数据集上对其进行测试并用于指导实验人员。为了获得真正的全球了解,应该将热力学模型与网络级建模研究联系起来,这将是以后进行研究的主题。

微分方程模型

热力学模型在捕获明确定义的转录元件的详细的准平衡活性方面特别有价值。但是,许多生物学问题都需要一个可以代表多组分,随时间变化的动态系统的模型。在这里,微分方程模型脱颖而出。调节网络可以用微分方程表示,其中一组分子(例如mRNA和蛋白质)通过速率方程定义的明确规则相互作用。这些方程式将每种蛋白质或mRNA的水平指定为系统发展过程中其他组分的函数。这些模型通常包括时间和/或空间相关的变量,例如蛋白质和mRNA浓度,以及参数,例如生产和降解速率(图1B)。
微分方程模型可分为两大类:使用常微分方程(ODE)的模型,它们取决于单个变量,例如时间;使用偏微分方程(PDE)的模型,其中涉及多个变量,例如时间和空间。 ODE是一个经过深入研究的数学领域;尽管通常很难用解析的方式解决这些问题(即找到将解决方案表示为显式函数的公式),但可以通过多种数值方法找到解决方案的近似值,并且可以免费使用便捷的软件工具。对PDE的分析和数值研究也很好,但是PDE理论更复杂,计算要求更高。寻找分析解决方案的困难意味着在这里数值模拟也是主要的分析工具。
ODE模型已经应用的最初的基因调控系统是细菌操纵子,例如lac和色氨酸(trp)。这些操纵子中的每一个都由结构基因和一个小的调控DNA区域组成,该区域通过与转录调节因子,RNA聚合酶结合以及在trp情况下,核糖体与前导mRNA的结合来控制基因表达。这些操作已在实验和定量上进行了广泛的研究。 40多年前,古德温建立了第一个操纵子动力学数学模型,然后格里菲斯开发了更简单的可诱导和可抑制基因调控网络的综合分析。问题的美丽吸引了许多其他研究人员,他们开发了更复杂的模型,这些模型考虑了其他相关过程以了解lac和trp操纵子的动力学。这些较早的研究未必可以直接推广到其他生物系统,但它们为分析细菌和真核生物的调控区提供了一般原则。 Santillán和Mackey(2004)提供了一个高级示例,他们介绍了lac操纵子动力学模型,该模型将DNA水平的热力学模型与转录因子水平的微分方程模型相结合。用热力学方法描述了DNA水平的特征,例如已知的操纵子和它们之间的协同性,用ODE描述了蛋白质水平的特征,例如降解和翻译。尚未为真核系统开发此类模型,但是这些原核研究显示的方向非常有价值。
建模人员已将微分方程广泛用于经过深入研究的生物系统,例如胚胎模式,种群和感染动态。但是,这些模型在真核基因调控网络中的使用是最近的,而且它们提供的框架对许多从事该领域工作的生物学家并不熟悉。如下所述,但是,高质量的数据集(例如果蝇中的分割网络)为利用这些模型提供了绝佳的机会。
微分方程模型已应用于复杂程度各异的动态真核调控网络,范围从对可扩散形态发生素(例如双曲线)的简单描述,到包含细胞间信号传导的复杂基因调控网络。黑腹果蝇的前后模式由涉及母体,缺口,成对规则和区段极性基因的基因调控级联控制。该过程是研究最深入的开发系统之一,具有来自遗传学,基因组学和分子生物学的有关调节关系,顺式调节元件和信号传导途径的广泛信息。但是,尽管进行了广泛的研究,但这些实验研究不足以提供这种构图过程的完整,定量的图像。基于微分方程的数学模型已被用来提供对该系统的更深层次的理解。在这里,我们简要描述了在复杂性不断增加的环境中使用这些模型来预测真核调控网络的时空变化的情况。
吗啡是可扩散的物质,会根据阈值浓度触发不同的发育反应。果蝇的Bicoid(Bcd)形态发生原从胚盘早期胚的前部扩散,形成一个形成前后轴的梯度。通常假定此梯度的形状和稳定性是局部产生,扩散和降解的结果。 Gregor和同事使用基于微分方程的反应扩散模型研究了具有不同大小胚胎的果蝇物种中这种梯度的形成。他们的模型描述了随着蛋白质的扩散和衰变,Bcd浓度随时间的变化。实验测量表明,扩散常数的差异很小,因此该模型表明,在大小完全不同的胚胎中,几乎相同的Bcd驱动模式是由于Bcd蛋白寿命的物种特异性差异引起的。最近的实时成像实验表明,Bcd在有丝分裂的几轮中经历了快速的核质穿梭并在细胞质和核区室之间达到平衡。 Shvartsman和同事提出了一个新的ODE模型,以测试Bcd梯度的指数形状是否受到此过程的强烈影响。他们的模型包括在胚胎前极的恒定局部产生,以及在核数目不断增加的情况下扩散和核质穿梭。该模型预测,原子核对Bcd梯度的形状没有显着贡献。 Bcd梯度是在核迁移到胚盘期胚胎的外围之前建立的,并在随后的核分裂过程中保持稳定。 Shvartsman及其同事的分析表明,核Bcd谱很稳定。模型参数不必微调,核密度的局部缺陷应仅在核Bcd剖面中产生局部缺陷。尽管有这些重要的预测,但该模型并未像前面提到的研究那样考虑到胚胎大小与梯度的比例关系。
以前的研究集中在单个转录因子上,但微分方程模型也已应用于相互作用的转录因子网络。在最近的几项研究中,Reinitz及其同事对果蝇缺口基因网络中的动态变化进行了建模,包括细胞化和配对规则前夕1 h的又hunchback(hb),Kruppel(Kr),knirps(kni)和giant(gt)以及母体因子类固醇(bcd)和 caudal(cad)和合子基因无尾(tll)编码的蛋白。他们的模型使用了结合了合成,衰变和扩散的反应扩散方程式,并且基于描述母胚胚中这些蛋白质浓度的高质量数据集。该模型以高精度再现了间隙基因的表达,并与早期的突变体和报道基因研究相吻合。该研究还提出了新的调节相互作用,例如Cad对Kr的激活,并阐明了Hb对Kr,Kr对kni和Gt对kni的调节作用。某些先前报道的调节相互作用对于良好的模型拟合不是必需的。该分析表明,尽管母亲因素驱动了间隔基因的初始激活,但是间隔基因边界的定位和维持主要取决于间隔基因之间的相互作用。有趣的是,扩散对于观察间隔基因表达的动态变化并不是至关重要的。该模型不能令人满意地预测无效突变体的影响,这可能是由于过于简化造成的。使用的一维框架假设前后基因独立于背腹模式网络而受到调控,尽管这种假设并不完全正确。此外,模型中未包括的核运动也会影响缺口基因的调控。在解决问题的三维方法中考虑了这一方面。
基于微分方程的模型也适用于涉及细胞间通信和信号级联的更复杂设置。 Barkai和同事使用反应扩散方程来描述TGF-β途径如何调节果蝇的背侧模式。他们的模型包括TGF-β信号分子Scw和Dpp,Dpp抑制剂Sog,以及裂解Sog的蛋白酶Tld。当Sog游离或处于复合物中时,都包括方程式以说明Dpp / Scw-Sog复合物的形成,Sog,Dpp / Scw和Dpp / Scw-Sog的扩散以及Sld被Tld裂解。该系统的一个有趣特征是,除了dpp之外,所涉及的基因都是隐性的。因此,一半的剂量足以产生正确的活动-这是强大系统的标志。在进行66,000次模拟的过程中,速率常数和蛋白质浓度的参数超过四个数量级,他们观察到只有198个产生的参数集对Sog,TLd和Dpp / Scw的2倍变化具有鲁棒性,并且显示出野生型模式。他们发现健壮的网络对于大多数参数可能具有广泛的可能性,但有两个限制。 Sog–Dpp / Scw复合物的形成促进了Tld对Sog的裂解,而复合到Sog的Dpp / Scw可扩散,尽管游离Dpp / Scw不是。他们的模型表明,抑制剂Sog将Scw和Dpp转运到背中线是健壮性的关键。
在前一种情况下,模型中建立了大量有关因素如何相互作用的实验信息。模型也可以用于发现此类信息。 von Dassow及其同事分析了果蝇胚胎中节段极性的建立,其中非常稳定的分化状态是由涉及Wnt和Hedgehog途径的细胞间相互作用决定的。他们的模型有48个参数,用于结合率,协同系数以及蛋白质和mRNA的半衰期。在大多数情况下,实际价值是未知的。给定现实的初始条件,并使用该网络中的已知相互作用,该模型未再现节段极性基因及其产物的活性。但是,通过添加两个新的交互作用,即Wnt路径中的正反馈回路和Hh路径中的负反馈,他们发现了许多参数集,这些参数集使模型能够重现系统的已知鲁棒行为。他们还表明,健壮性并不高度依赖于单个网络拓扑。只要核心拓扑保持相同,带有其他链接和组件的模型将保持此属性。对初始条件不敏感也表明了这种鲁棒性,作者认为这使该电路易于适应其他系统或环境。
微分方程方法特别适合捕获生物系统的动力学性质。但是,这些模型具有重要的局限性。构建这些模型所需的数据质量和数量使它们难以应用于性能欠佳的系统。向网络中添加新蛋白质可能会产生深远的影响,但是由于不完全模型的过度拟合,可能会遗漏这些影响。在Reinitz及其同事的早期和以后的努力之间,结果得到了显着改善,其中使用了相同的建模和优化技术,但是提高了数据质量,允许更低的错误级别和更精确的参数估计。为了使这些模型易于处理,通常将它们应用于源自大型监管网络的较小模块。
即使当有大量数据可用于建模时,通常大量的参数也会带来巨大的计算挑战。因此,很难扩展这种方法来分析具有数百个相互作用分子的复杂调控网络。尽管这些系统最好用统计学方法来处理,但是计算技术的改进可能会改善这个问题。微分方程模型通常也不会考虑非常精细的影响,例如翻译调节或转录顺式调节元件的序列。因此,这些模型无法提供对增强剂结构和组织的了解,例如热力学模型所提供的信息。因此,微分方程模型通常占据一个中间地带,从而侵入了中等到高复杂性的生物系统,没有热力学途径的极端细节,但是具有描述其他动力学方面缺乏的合理能力的方法。

布尔模型

诸如细菌能力,细胞凋亡和基因转录之类的生物过程通常表现出类似开关的行为。布尔模型将逻辑关系表示为逻辑门,可以捕获并描述这种行为。在这种方法中,系统中的实体(例如mRNA和蛋白质)通常具有两种状态:打开(1)或关闭(0)(图1C)。诸如“与”,“或”和“非”之类的逻辑门用于定义实体之间的关联。对于受两个转录因子调控的基因,“与”表示仅当两个基因都结合时才转录该基因,或表示如果其中之一被结合则该基因被转录,而不表示当两个转录因子结合时,基因不转录。
对于任何描述了其元素之间相互作用的生物系统,布尔模型都可以用来在逻辑结构中结合定性实验观察结果或模拟系统的动态行为。由于它们的简单性质,这​​些模型避免了对有关生物系统反应的定量细节的需求,这使得布尔模型易于分析分析,计算实现并扩展到大规模生物系统。因此,布尔模型可以为网络细节不清楚的系统提供一个良好的起点。可以轻松创建和分析同一网络的变体。尽管它们很简单,但是它们可以提供对底层系统基本性质的见解。
在各种情况下都采用了用于模型基因调节的布尔方法。如前一部分所述,果蝇缺口基因网络已通过反应扩散融合模型进行了研究。 Sánchez和Thieffry采用布尔方法分析了同一网络,模拟了野生型和突变型背景下的定性缺口基因表达模式。这种方法的典型代表是,他们的布尔模型将目标的法规输入求和,然后将其转换为逻辑输出。为了选择参数值,他们动态分析了间隔基因网络,运行迭代循环,其中一次运行的输出被反馈到下一次运行的模型中,并任意接受产生正确表达状态的最小参数值。用于野生型和突变表型。为了进一步简化系统,他们根据母体因子的浓度水平将胚胎沿前后轴分为四个区域。基于已知的实验关系及其建模,他们为网络中涉及的蛋白质分配了不同的功能阈值水平;例如,他们假设Cad将在第一个阈值处激活Kni,在第二个阈值处激活Gt。这项研究说明了间隙基因网络如何响应母体提供的Bcd,Cad和Hb转录因子而产生不同模式的方式,并提供了对间隙基因网络中最关键的相互作用,调节相互作用的阈值水平的见解。 ,以及该网络中缺口基因之间交叉调控的重要性。例如,尽管有人认为间隙基因之间的交叉抑制是产生间隙基因表达模式的关键机制,但他们的分析表明,gt和Kr之间的交叉抑制相互作用至关重要,而其他基因之间却没有交叉作用。
尽管基于布尔和微分方程的模型对缺口基因网络的理解水平相当,但仍然存在关键差异。此处采用的布尔方法将胚胎的连续蛋白质浓度离散为四个功能阈值,对应于沿前后轴的位置。这种简化尽管在计算上是有利的,并且能够用低分辨率的数据来实现,但却使间隙基因网络功能(如边界锐化)的详细建模变得不可能。比较这两项研究,在预测方面存在一些差异。首先,Jaeger等人报道了kni和hb之间的抑制性反馈回路是必不可少的。但在Sánchez和Thieffry(2001)中没有,可能是由于后者的研究没有考虑到后起作用的tll和hb阻遏物。忽略这种抑制性回路是关于作者希望建模的遗传学程度的选择,而与所选模型的类型无关。其次,基于微分方程的方法表明,自动激活是锐化间隙域边界的关键组成部分,但由于上述阈值问题,Sánchez和Thieffry的布尔模型无法检测到它。最后,布尔研究表明,血红蛋白可能同时具有正调控作用和负调控作用,这种可能性被微分方程模型的制定所排除。因此,这些方法之间的主要区别似乎不是源自整体方法,而是源自实施细节。
如上所述,果蝇节段极性网络的微分方程分析表明,其健壮性归因于网络的拓扑结构。一种用于分析该网络的更简单的布尔方法概括了早期研究的主要结论,包括对该网络动态性的准确预测。在这里,我们采取一些简化的假设:抑制剂总是比激活剂占支配地位; mRNA在一个步骤中被翻译成蛋白质;如果不转录,mRNA在一个步骤中会完全降解;如果它们的mRNA在一个步骤后蛋白质就会消失。不存在。一种更精细的两步法,即蛋白质分两步降解,并未改变主要结论(Chaves等,2005)。该研究试图通过使用段极性基因的早期模式作为初始状态,并使用稳定的后期模式作为最终状态来找到网络的所有可能的稳态。实施该模型后,他们发现仅经过六个时间步,表达模式便稳定在一个时不变的空间模式中,这是内源基因电路的一种特性。该模型的性能是通过预测网络中时空基因表达水平(表示为存在(1)或不存在(0))来衡量的。他们发现了10种溶液,导致了6个不同的稳态,其中1个对应于野生型模式,另2个对应于没有条纹或条纹加宽的已知突变体模式。三个附加稳态的存在表明,该网络可以产生在正常开发过程中无法访问的模式,但可以在其他情况下使用。对每种稳态的潜在初始条件的评估表明,片段极性网络很健壮,可以纠正初始表达模式中的错误。
他们的模型为网段极性网络的设计提供了一些见识。首先,它表明无翅基因是网络中的关键元素,在正确的时间以正确的方式启动无翅基因至关重要。尽管Albert和Othmer以及von Dassow的研究在片段极性网络的鲁棒性上达成了共识,但由于对en抑制作用的观察相反,他们采用了稍有不同的网络。这些模型在抑制效果的实现上有所不同;微分方程模型允许抑制效果特别降低激活水平,但在布尔模型中,抑制效果占主导地位且完全。这种差异导致在网络的微分方程处理中,即使是野生型初始基因表达模式,也存在大量带有非常宽的en和wg条纹的模式。
布尔模型在基因调控中的独特应用是在DNA水平上模拟了end16基因的转录。在海胆的胚胎和幼体中肠中表达的endo16基因具有复杂的调控区域,可控制时空表达。该基因已通过实验进行了详细分析,已成为发育增强子如何处理调控信息的范例。该基因的广泛突变分析为Davidson及其同事提供了建立布尔模型的实验基础,该模型描述了该基因的调控元件之间的相互作用。启动子近端模块A启动植物板中的早期基因表达。一旦肠道分化开始,更远端的模块B成为主要的操作单元,将其调节输入传递至模块A,模块A放大此输入以驱动endo16的表达。布尔模型还合并了附加模块DC,E和F对模块A的压抑作用,以及模块A和模块B之间的复杂相互作用。他们的布尔模型描述了endo16增强子区域中的内部开关,从而将控制从模块A到模块B。他们的模型不仅使他们能够总结相互作用,并解释整个胚发生过程中end16基因表达变化的控制,而且还提供了许多可检验的预测和突变调控元件的预测输出。
布尔模型提供了一种简单且易于计算的方法来对基因调控进行建模。但是,这些模型的简单性可能会影响结果的准确性。如果系统严重依赖于反应速率或mRNA或蛋白质浓度的精细细节,则布尔模型可能无法描述该系统。举个例子,如果一个基因对自己的产量产生负调控,那么布尔模型会产生振荡行为,尽管实际上这种过程通常会导致稳态。对于雄心勃勃的研究者,倾向于采用一种建模方法,该方法采用有关蛋白质-DNA相互作用,分子更新或扩散的详细生物物理描述,并认为利用这些详细信息必须是有利的。布尔模型的记录表明,这种更简单的方法可用于调查目的,尤其是对于参数描述不佳的系统。布尔建模提供了一种机制,可以快速探索各种网络,但需要注意的是,这里的成功可能会受到网络体系结构的严重影响。


Table 1. Summary of the properties of mathematical models of gene regulation.

你可能感兴趣的:(基因调控的数学模型——热力学模型、布尔模型、微分方程模型)