"This next century is the century of engineering biology and biotechnology !"
1 走上生物工程学的道路
一种新的生物工程学形式已经成为可能。作为过去十年最激动人心的科学成就之一,这项技术已经从最初的车库生物学发展到在生物技术领域开创了一种新的范式。如今,合成生物学是一项新兴的技术,它将生物学家、生物化学家、计算机科学家、物理学家、工业工程师、经济学家和社会学家聚集在一起。代谢途径设计一直是这一革命的核心。路径设计师设想了一个新的学科,实验室通过云交换生物电路,实验室将自动化和人工智能作为核心技术。欢迎你们加入这场新的生物技术革命。您作为代谢途径设计者的角色是掌握生物cad工具,以便严格探索基于生物的化学生产的设计空间。要做到这一点,你需要首先了解建模、模拟和优化的基本原理,细胞的基本功能,系统和合成生物学的主要概念,以及生物技术的基本协议。作为第一个介绍,这一章概述了自动合成生物学的设计原则,以及这种新技术将为我们所有人带来的前景。
1.1 用于工业生物制造的合成生物学平台
生物技术的前途是非常光明的。生物学本身经历了一场惊人的革命。今天,生物经济与自动化、机器人、人工智能和大数据[8]一起成为第四次工业革命的关键部分。最近的技术进步使科学家能够重新设计生物体,甚至从头开始创造新的生命形式。这是一个新的研究领域,它超越了传统的基因改造,通过引入工程生物学的新技术,将科学和工程结合起来,成为合成生物学。
到2020年,全球合成生物学市场将达到400亿美元。在这种新兴的生物经济中,以生物为基础的化学品和材料生产在经济上可行和生态上可持续的[5]化学过程的替代品。自然过程而非人工过程是驱动下一代工业生物技术的主要化学多样性来源。然而,利用自然产物的力量发展新生物经济需要对生物合成过程有很好的理解,并且需要有能力为下游产品开发生物活性的预测模型。在下一代生物制造中,为了优化流程,建模、人工智能和大数据分析将变得至关重要。最终,合成生物学应该能够为生物系统建模,这样就有可能准确地预测需要重新编程的内容,以实现预期的行为。为了实现这一目标,合成生物学将有助于我们对生物学的理解,并提供新材料、生物传感器、药物和治疗[11]等产品。
因此,工程生物学不仅包括理解基因工程和系统和合成生物学的基础知识,而且还包括掌握本教材中描述的建模和设计的概念和工具。第一部分首先介绍了与现代生物学工程方法相关联的设计-建造-测试-学习循环。将提供生物系统建模和化学模型等通路设计的基本工具。第二部分将使用这些基本工具重点描述代谢途径设计的计算方案,从酶选择到途径发现和计数。本书的最后一部分将把代谢途径设计放在工业生物技术的背景下,以理解与途径优化相关的挑战。目前的技术解决方案将重点讨论实验设计和机器学习解决方案。
1.2 自动化设计-构建-测试-学习周期
尽管未来的应用前景是光明的,但工业生物技术过程仍然昂贵,很少有生物产品进入市场。为了将合成生物学和代谢工程转化为生物制造技术,有必要开发一种自动化流水线。工程生物学自动化流水线包括生物生产路径设计工具(设计)、自动化应变工程(构建)、高通量产品定量(测试),以及通过机器学习(Learn)进行数据分析和重新设计的(参见,图1.1)[2]。
图1.1 代谢途径设计器的作用是选择并结合遗传部分,以获得在底盘菌株中组装后所需的行为。设计蓝图被发送到云中的构建和测试平台。并对实验结果进行了分析,以确定下一个管道迭代的设计规则
在构建阶段,流水线通过一个用于基因克隆的机器人平台进行,所选的DNA部分被插入到质粒载体中,并导入宿主生物如大肠杆菌中进行复制、选择和筛选(见7 Box 1.1)。零件然后通过几种途径组装技术之一,如Golden Gate, Gibson, Ligase循环反应等[4]。菌株转化是将重组DNA插入到底盘宿主体内的过程。然后在选定的培养基条件下培养产生的细菌。如果该通路含有诱导元件,则在选择的诱导时间将诱导物加入培养基中。无细胞系统提供了另一种方法,即在底盘菌株中表达单个功能DNA部分,这些菌株以受控的方式分解(裂解)并混合在一起形成通路。
在测试阶段,样品准备通过自动高通量筛选处理。有几种技术可以对细胞反应进行大规模定量分析,如蛋白质组学(蛋白浓度)、转录组学(蛋白表达水平)、代谢组学(代谢物浓度)等。代谢组学是为了量化目标化学品和关键中间体的效价的重要组成部分。
在学习阶段,定量的实验数据从增长的组合库在不同的条件下进行分析,以确定显著影响和隐藏的关系之间的设计和结果的反应。开发预测模型是为了推断循环的下一个迭代的设计规则。
一些挑战仍然存在。值得注意的是,与大型组合设计空间相关的复杂性似乎是简化管道的挑战之一。事实上,用于典型生物生产途径的候选酶和调控元件的数量通常会导致可能设计的组合爆炸,即使在机器人平台上也无法完全探索。缓解这一瓶颈的一种方法是使用通过管道的第一次迭代获得的度量来驱动后续的迭代。这样,一个机器学习组件被添加到循环中,以推断出synbio电路的设计规则。
Box 1.1
细胞携带着储存在其DNA遗传密码中的蛋白质生产信息。
细胞通过表达DNA来产生蛋白质。
转录是将DNA序列解码成中间信使RNA (mRNA)的过程。
当RNA聚合酶与特定的DNA区域结合时,转录就开始了。
转录可以在不受任何干预或受某些转录因子调控的情况下发生。
诱导剂是可以激活或抑制转录因子的分子。
在核糖体附着mRNA的过程中,mRNA被翻译成一种蛋白质,这个过程称为翻译。
核糖体识别称为核糖体结合位点(RBS)的特殊的fc序列区域,这将决定蛋白质的生产速率。
质粒是一种环状的DNA结构,可用于将外来DNA引入并表达到细菌等生物体中。
菌株自然携带有赋予抗生素耐药性的质粒,并具有作为自主遗传元素进行复制的能力。
它们在细胞中出现的拷贝数和它们的质粒拷贝数一样多。
这些载体骨架可以被切割和编辑,以便通过结扎插入所需的DNA部分。
转化是将携带DNA部分的新质粒插入有能力的细胞的过程,即通过化学或电修饰使细胞能够吸收外源性DNA的细胞。
这种新细胞被称为重组细胞。
1.3 放大和缩小工业生物过程
自动化的设计-构建-测试-学习管道允许通过生长和测试不同培养的样本快速原型化路径设计。然而,选定的原型需要可移植。概念证明需要扩大规模,以达到工业水平的最佳规模。生物技术产品的生命周期涉及不同规模的工作。扩大ofen的规模在于推广一个在湿实验室发现的有希望的原型,从孔板到摇动的烧瓶,最终到生物反应器。然而,在量表底部观察到的现象,在量表顶部未必如此。基于这一原则,一个过程的规模化往往需要经历一个曲折的过程,才能从概念验证阶段过渡到最终产品阶段。易失败的过渡期。
工程生物学既面临着按比例放大的挑战,也面临着按比例缩小的挑战。按比例缩小的实验室试验的条件不一定能复制扩大的发酵过程的条件。为了降低这种方法的风险,从设计的一开始就应该考虑优化放大步骤。或者,按比例缩小就是使用实验室规模的系统模拟大规模的条件。按比例缩小的基本原则是将菌株置于与生物反应器或发酵罐中菌株相同的条件下。例如,通过在葡萄糖喂养和葡萄糖限制条件之间切换,系统在不同条件下的响应可以被识别、建模和表征。
1.4 敏捷的自动化生物设计、云实验室和人工智能
在许多其他制造应用,如在航空航天、电子或汽车工业,计算机辅助设计(CAD)的生物制造允许提高生产力的设计师和设计的质量。生物制造计算机辅助设计以计算机系统取代生物工程中传统的试错方法,以协助生物设计的创造、修改、分析和优化。自动化生物设计将CAD系统与工程原理和自动化生物制造[1]相结合,以增强人类能力,以这种方式简化生物设计到湿实验室实验[10]的转换。为了提高设计-建造-试验-学习循环的效率和灵活性,现代生物制造已经采用了一种敏捷的方法。敏捷的biodesign不需要保持一套固定的设计方法,而是需要基于构建、测试和学习交互进行持续的升级。
具有标准化协议和自动化机器人平台的物理湿实验室正日益成为生物设计原型的远程工作台或云实验室。云实验室允许研究人员通过远程机器人控制进行实验,虚拟了湿实验室。云生物制造正在将生物工程转变为允许智能共享资源的生物制造服务。自动化使这种新模式成为可能。
人工智能是实现生物工程向工业生物制造过渡的核心技术。下一个大的想法和机会在工程生物学为工业生物技术将从自动化学习和设计。机器学习将通过自动生成设计蓝图、云制造指令和目标市场生物电路的测试分析引领下一轮创新,这些目标生物电路用于化学品、生物制剂、生物传感器或先进生物材料的生物生产。
1.5 生物体内代谢途径设计
代谢途径设计师在生物处理厂的日常工作与从事建筑、机械或电子设计的设计师没有太大的区别。几个相互关联的生物工程任务是设计者工作的一部分。图1.2)。作为一名代谢途径设计者,你将经常参与识别有希望的化学目标,也许是因为这种分子是某些新型聚合物的组成部分,或者因为它是一种具有巨大效力和特异性的新型抗生素。类似地,你的工作将包括发现生化步骤,这将使在宿主底壳有机体(如细菌、酵母等)中产生目标化学物质成为可能。你也应该能够选择酶基因序列,通过挖掘生物化学信息和生物多样性,如植物,极端微生物或真菌,来催化路径中的步骤。
图1.2代谢途径设计从识别化学靶点开始,然后进行途径发现和基因部分选择。执行指定零件的装配计划,以生成实验设计。最终的设计蓝图被传送到产品管道。对实验数据进行分析,建立基于统计和机器学习的模型。他们的设计规则将指导下一个路径设计迭代。你的下一个任务将是收集不同的生物部分,基因序列,调控元素,并决定如何将它们结合在主机底盘,以有效地优化设计。
一旦设计项目达到成熟度阶段,即,选择了所需的遗传部分组合,生成了包含遗传文库组合信息的设计蓝图。这样的蓝图用一些标准表示进行编码,然后从设计阶段转移到构建阶段。构建阶段将实现你的设计通过将组合库的信息转换为一组指令或工作列表给实验室的的机器人平台。有趣的是,你的基因构造的实际装配,进行质粒和菌株可以在云实验室(即在一个高度自动化的合成生物学实验室,通过机器人指令进行远程操作)。一旦建立了菌株组合库,它们就被转移到测试阶段,在此阶段培养,分析样本并量化产品。同样,这样的测试操作可以在自动化设施中执行,该设施物理上位于与构建设施不同的空间中,以这种方式遵循云生物制造范例。
将测试阶段量化的实验数据传输到学习平台。代谢通路设计者可以在这个阶段发挥关键作用,以便分析数据,并建立一个模型,将不同的设计因素与观察到的行为联系起来。在云计算平台上进行了基于统计和机器学习的分析,并利用预测对模型进行了修正。对应答有显著影响的主要因素是在被选择的部分如启动子、质粒、基因等中确定的。使用有价值的信息来推断设计规则。这些规则被转移到设计阶段,以选择一个重新设计的最佳组合库作为设计-构建-测试-学习循环的下一个迭代的开始步骤。
生物经济与自动化、机器人、人工智能和大数据一样,是第四次工业革命的关键组成部分。工程生物学的自动化流水线是基于设计-构建-测试-学习的循环。云实验室和自动化是新模式的一部分。生物技术产品的生命周期涉及从湿实验室到工业水平的不同规模的工作。您作为代谢途径设计者的角色是掌握生物cad工具,以便严格探索基于生物的化学生产的设计空间。
2 基因组尺度的建模
在设计新的代谢途径之前,我们需要学习如何模拟细胞行为,如何将其基因组与其表型联系起来,以及如何模拟多种生长条件。在这一章中,我们将看一看公司的一些模型,系统生物学社区发展在过去的几十年里,将评估这些模型如何帮助我们为了理解细胞代谢网络模型和路径,甚至预测细胞培养的发展。我们将学习如何模拟细胞内代谢物通量的平衡状态,以及如何根据环境评估细胞能力。
2.1 系统生物学模型
几年前,细胞培养基本上是基于它们的宏观特性进行建模的。这些模型在预测生长和传质平衡方面是有用的,并且仍然是生物化学工程研究的重要组成部分,以模拟发酵和传质过程。这些早期的模型之一是Monod模型[3]。即使这些宏观模型在优化生物过程[4]方面仍然有用,它们也不能在代谢途径设计的第一个阶段对我们有很大的帮助。作为代谢途径的设计者,我们的目标是开发一种工业菌株,使其具有生产某种所需化学物质的能力。我们想要的是有一个模型来帮助我们产生和测试关于在底盘生物中引入一些基因的效果的假设。为此,我们需要一个模型来观察细胞内发生的化学反应的平衡。这些努力似乎遥不可及一些几十年前,但由于一些高通量技术发展在过去的20年里比如测序,蛋白质组学,代谢组学,今天我们可以享受清晰的细胞的新陈代谢和他们的主要相关酶的相互作用,反应和代谢产物。与基因组测序和编辑一起,基因组级模型的重建是整个社会在为生物工程提供新能力方面最成功的努力之一。
在当前高通量技术的支持下,平衡细胞内成千上万的代谢反应和通量已被证明是一个可接近的问题,我们目前的计算能力和代谢知识使之成为可能。建模动力学和调节,反过来,是完全解决仍然滞后的问题。求解代谢网络中可达平衡态的集合相对容易。不一致性主要是由于模型中缺少一些反应,或者因为有些反应被认为是活跃的,而实际上细胞却关闭了这些反应。另一方面,解决动态和引入规则是一个更复杂的问题,我们将在下一章中讨论。
2.2 从组学到大数据的模型重构
细胞代谢网络重建是一个需要大量努力和资源的过程,通常由一个跨国团队组成的团队经过多年的研究。我们的目标是识别防御有机体新陈代谢的网络的每一个部分,每一个生化反应的细节都达到了最高水平。
网络重构通常是一次完成一个反应,从积累的细胞知识和从基因组学、转录组学、蛋白质组学、代谢组学等获得的数据。每当为某些细胞或有机体令人满意地重建一个新的网络时,它的出版物就会登上新闻头条,并受到社会的欢迎。每个人都对这样的成就表示敬意,世界各地的团队开始在他们的日常研究中采用这种新模式。
代谢网络是建立在反应的基础上的。网络是通过化学计量学,将代谢物和反应联系起来的信息。这样的关系可以用图形化的方式表示,以便于对不同的交互进行快速的概述(参见。图2.1为使用Escher1可视化系统的大肠杆菌核心代谢的图形表示),但更重要的是,它们可以用数学表示。这种把代谢物和酶的反应联系起来的表示就是化学计量矩阵。我们将在本章后面更详细地讨论化学计量矩阵的性质。
重建的代谢模型一般存放在BioModels2数据库中。The Systems Biology community已经为生物模型开发了一个标准表示,称为SBML (Systems Biology Markup Language)。这允许注释和信息交换。SBML的发展是为了适应在描述细胞时所需的大部分细节。我们首先探索大肠杆菌的这些模型之一。大肠杆菌是一种革兰氏阴性细菌,存在于肠道菌群中,已成为实验室和代谢工程行业的主要研究对象之一。通过我们的书,我们将使用几个Python包来帮助我们处理系统和合成生物学中常见的不同类型的数据结构和计算。为了使用基因组级模型,我们将使用cobrapy包[1],这是一个流行的Python库,开发它是为了方便使用有机体基因组级模型s3(参见7 Box 2.1)。The cobrapy附带了一些预加载的模型,因此我们不需要从BioModels SBML存储库下载它们。
Box 2.1
有许多软件工具允许使用基因组级代谢模型,包括网络重构、分析和模拟[2]。有些是可以安装在计算机上的独立工具,有些是用不同语言(如MATLAB或Python)编写的库包,还有一些提供基于web的服务。在本教材中,我们将根据不同的目的使用其中的一些工具。一些最重要的软件包的非详尽列表包括:
- CellDesigner ( http://http://www.celldesigner.org)是一个结构化的图表编辑器,用于绘制基因调控和生化网络。
- COPASI (http://copasi.org/)是一个用于模拟和分析生化网络及其动态的软件应用程序。
- OptFlux (http://www.optflux.org/)是一个基于java的用于基于约束的分析的软件,可以以友好的方式执行许多有用的计算。
- cobrapy (7 https://opencobra.github.io/)是一个python包,它提供了一个简单的接口来进行基于代谢约束的重构和分析(
pip install cobra
)。- Cameo (http://cameo.bio/)是一个高级python库,用于帮助代谢工程项目中的菌种设计过程。
- Tellurium (http://tellurium.analogmachine.org/)是一个Python环境,用于生物网络的可复制动态建模。
如附录A所述,您需要使用Anaconda在计算机中设置一个环境,以便安装所需的库。过程是相对容易的,你应该能够使计算机快速地混淆,这样你就可以开始使用这里给出的例子。其次,您需要一些集成的开发环境。如附录A所述,Eclipse是一种在软件开发人员中流行的经典环境,并且是一种可能的解决方案,以便开始使用这里描述的示例。然而,作为代谢途径设计者,我们的主要目标不是开发新的软件,而是进行数据分析、模拟、建模和设计。在此之前,更倾向于科学计算的其他环境是首选,比如基于IPython的Jupyter笔记本或Spyder,后者是一种类似于matlab的Python开源环境,用于科学计算。
我们来看第一个例子。首先,加载cobrapy中的示例e.c oli模型,如代码2.1所示。在Jupyter笔记本或IPython控制台中调用此代码将输出模型的摘要信息,如下所示。表2.1。
在本例中,我们将大肠杆菌模型iJ01366(实际发表于2011年[5])加载到我们的系统中,该模型包含1805个代谢物和2583个反应(包括转运反应)。这些数字已经让我们了解了这些模型的复杂性。在当前模型等原核生物细胞的大肠杆菌细胞的数量隔间只是三:细胞质、周质和细胞外,但这可能与多个隔间更加复杂的真核生物细胞和细胞器等模型提出了面包师酵母酿酒酵母(细胞外空间,胞质、线粒体、过氧物酶体,细胞核,内质网,高尔基体,或泡)。此外,多细胞生物如植物或人类的代谢模型是多组织的,因此将包含几个组织特异性模型。在genomescale模型中,存在于每个隔室的代谢物通常被认为是不同的化学物质,这一惯例有助于估计每个隔室之间以及细胞与生长介质之间的通量。客观表达由一些反应的组合组成,这些反应被假定为细胞行为的模型,将在接下来的7节2.3中讨论。
每个代谢物、反应或基因的缺陷和注释都可以单独研究。任何代谢物都是由对应于其名称的简写表示的标识符标识的,以及由下划线符号分隔的定位标识符标识的。例如,下面的代码将根据代谢物的id和通用名称生成代谢物列表。
模型中的每个代谢物都是一个Python类,其中包含几个带有信息的字段。这对于搜索特定类别的代谢物是有用的,比如使用分子式在模型中搜索某些代谢物。考虑我们正在寻找d -葡萄糖的情况,它的分子式是C6H12O6。代码2.3将会搜索模型中所有具有这样分子式的代谢物。
运行代谢物搜索的结果如表所示。表2.2。正如预期的,结果包含d -葡萄糖,但也有很多同分异构体,这是发生的事情,尤其是当处理糖时,因为它们有大量的同分异构体。
2.3 基于约束的模型仿真方法
基因组级模型可以包含多种信息,最基本的是细胞内代谢物之间的化学计量关系。只要反应在细胞内是可行的,最可能的是由于存在一种催化反应的酶,化学物质必须遵守化学计量方程。然而,化学计量关系不能提供足够的信息来了解代谢物的个体浓度,因为它们关注的是反应物之间的平衡。然而,了解这些反应的化学计量,为了解细胞代谢的化学能力和限制提供了基本信息。例如,标记为PGI的反应(参见代码2.4)执行葡萄糖-6-磷酸异构酶转换,将d -葡萄糖-6-磷酸转化为d -果糖-6-磷酸。表2.3。
在表2.3我们可以看到关于反应的重要信息。首先,我们得到定义,即酶的名称及其化学计量。根据质量守恒定律计算出的各反应物的相对量。此外,GPR或基因-蛋白反应关系告诉我们,在大肠杆菌中,哪个基因或一组基因编码催化反应的酶。在这种情况下,酶是由基因b4025编码的,但其他更复杂的情况涉及多个亚型和亚基是可能的。如果我们想要将基因表达数据中的信息与细胞的新陈代谢联系起来,这些信息将会很有帮助。此外,该反应受上下界的约束。这些界限定义了与反应相关的通量的最大值和最小值。例如,在表2.3的例子中给出了g6p_c转化为f6p_c的速率,由各化学物质浓度随时间的变化给出,即, x g6p(t), xf6p(t)
一般来说,代谢物可以参与多种反应。因此,代谢物的总消耗(或生产)速率将由消耗(生产)代谢物的反应的通量总和给出。例如,我们可以在包含葡萄糖的模型中查找所有的反应(由模型中的identifer glc_d_c表示),如代码2.5所示,它将输出代码2.6所示的列表。