导读
2023 智源大会上,AI生命科学论坛在昌平国家实验室主任,北京大学教授谢晓亮的主持下,顺利召开。本次论坛的联合主席是智源研究院健康计算研究中心负责人叶启威。
论坛由诺贝尔化学奖得主Arieh Warshel的主题报告开场,介绍了如何利用人工智能研究中酶的多尺度问题;随后北京大学化学与分子工程学院教授高毅勤、Mila-Quebec人工智能研究院副教授唐建、西湖大学遗传学讲席教授、副校长许田、北京大学生物医学创新中心(BIOPIC)研究员高歌也围绕相关领域给出了主题报告。讲者们在报告和最后的讨论中,洞察深刻,直面问题的核心,指出了人工智能在生命科学领域的真实作用。
“AI在生物领域的成就,不仅是深度学习的成功,也是基础理论的成功”。
“蛋白质设计领域取得了成功 ,并非完全依赖于人工智能(AI),需要和实验相结合。”
.....
以下为精彩回顾,请观众欣赏。
利用人工智能研究中酶的多尺度问题
Arieh Warshel丨诺贝尔化学奖得主
诺贝尔化学奖得主Arieh Warshel带来了,题为“Multl Scale and Artificlalintelligence Studies of Enzymes”的精彩报告。在本次报告中,Arieh Warshel教授对其近年来的工作进行了梳理,其工作通过模拟和人工智能的结合,揭示了酶催化的机制,并成功地设计出了更高效的酶和具有特定选择性的药物。
Arieh Warshel表示,人工智能在酶设计过程中主要起到了以下作用:
1.辅助模拟和预测:人工智能被用来模拟和预测化学反应的过程,特别是在酶的催化过程中。
2.改进酶的设计:人工智能被用来设计新的酶突变体。通过计算最大熵的相关性,并将其与催化剂相关联,科学家们能够设计出比野生(自然界)型酶更有效的新突变体。这种方法虽然简单,但取得了令人鼓舞的成果。
3.理解和预测突变的影响:在研究人工合成的酶(如肯普消除酶)时,人工智能被用来预测突变的影响。
Arieh Warshel提到,通过理解酶的机制和反应动力学,可以尝试设计新的酶,以实现特定的功能。这对于开发新的生物催化剂、药物研发和其他生物技术应用具有潜在的重要意义。当然,这个领域还存在许多挑战和限制,但随着计算能力的提升和更深入的研究,我们可以希望在酶设计方面取得更大的进展。
在回答观众提问时候,Arieh Warshel肯定了最大熵的方法,他表示他们发现了一种非常高效的插值方法,即通过设计更大的最大熵,从而预测蛋白质稳定性。当稳定性发生变化时,催化剂往往也会发生变化。这种方法关注蛋白质群之间的相互作用,并且稳定性与催化剂密切相关。尽管他们尚未证明这种方法具有普遍适用性,但在他们的研究中,这种基于最大熵的插值方法已经取得了很好的效果。
复杂分子体系研究中
基于物理和基于数据的模拟方法的结合
高毅勤丨北京大学教授
北京大学化学与分子工程学院教授高毅勤带来了《复杂分子体系研究中基于物理和基于数据的模拟方法的结合》的主题报告。报告主要围绕具有高复杂性和多尺度性的三个问题进行:如何使用分子模拟进行分子对接,蛋白质之间的相互作用,以及细胞内复杂体系的模拟。
针对这些工作,高毅勤提到,通常会结合物理模型和数据驱动模型来模拟复杂体系。例如在预测小分子与蛋白质结合能力时,将受物理限制模型与深度学习相结合,取得了性能和效率提升。
高毅勤认为深度学习具有独特的能力。深度学习能够利用大数据和已知的序列信息,整合了大量的物理信息,例如原子间的合适距离等,快速得到蛋白质等分子的结构。例如谷歌DeepMind的成功表现在他们运用深度学习方法从序列快速得到结构的能力上。
高毅勤还提倡建立统一的物理与深度学习框架,这不仅能提高效率和精度,还能融合物理模型和数据计算,帮助补充数据来校验模型,提高模型的可解释性。在统一框架里,可以进行动力学统计,然后信息反传给预测模型,实现端到端打通。
其实,AI在生物领域的成就,不仅是深度学习的成功,也是基础理论的成功。高毅勤提到,大约50年前,人们提出了基础理论:序列决定结构。这个原理在Alphafold2中得到了应用,这也显示了基础理论的重要性。
大分子药物建模的基础模型
唐建丨Mila-Quebec人工智能研究院副教授
Mila-Quebec人工智能研究院副教授唐建带来了《大分子药物建模的基础模型》主题报告,介绍了如何利用图神经网络或几何深度学习对蛋白质的图结构进行表征。唐建介绍,他们设计的GearNet方法,不仅在节点之间进行信息传递,而且在边之间也能进行信息传递,可以更好利用蛋白质在空间上的三维结构。此外,如果利用多模态学习的方法,基于蛋白质的序列结构以及文本功能描述来学习蛋白质特征表示,也可以帮助我们更好地理解蛋白质的结构。
唐建还介绍了一些预测蛋白质结构的工作。当前方法主要预测主链,他们设计侧链预测模型,参数少,可以大幅度提升了准确性和效率。在设计新型蛋白质的工作介绍中,提出基于扩散模型设计结构和序列的方法,通过不断地精炼(refine)结构和序列,模型可以逐渐收敛到一个稳定的结构和序列。此方法的输入包括当前蛋白质序列、结构以及靶点等背景信息。
最后唐建总结道,在蛋白质特征表示层面,传统方法主要基于序列特征表示学习,而未来的趋势将更多地侧重于基于结构的特征表示学习。蛋白质结构预测,相比之前的方法主要关注蛋白质骨架结构的预测,未来的研究将更加重视侧链预测建模。此外,未来可能会涉及到对所有原子(包括骨架和侧链)进行建模,以及更好地对分子间相互作用和复合物结构进行建模。蛋白质设计是一个非常受欢迎的研究方向,有潜力找到比自然界蛋白更好功能的蛋白质序列。
中药结合人工智能:机遇和挑战
许田丨西湖大学遗传学讲席教授、副校长
西湖大学遗传学讲席教授、副校长许田带来了《中药结合人工智能:机遇和挑战》的主题报告,他提到中国中药资源丰富,但受限于信息不完整和质量控制,导致发展受阻。因此需要整理中药信息,建立标准化系统,应用人工智能进行质量监控。目前,人工智能已经在分析中药改变的基因表达,预测疾病效用和探索作用机理等层面发挥了巨大作用。例如人工智能已预测出用于癌症和软骨退化等多种疾病的中药。在报告中,许田还提到,通过人工智能辅助找寻中药中的有效成分分子,进一步合成和优化,已开发出首个合成生物产品。在药物研发方面,已将人工智能药物设计应用于抗乙肝。
许田还强调了解决中药毒理问题的重要性。过去,这方面的研究较少,因为人们寿命较短,中药主要用于治疗当时的疾病。随着人们寿命的延长,毒理问题变得越来越重要。许田团队利用人工智能预测中药的毒性。例如他们发现了一种过去被认为无毒的中药,实际上对肝脏损伤非常严重。
人工智能已经在基因工程、生物医药领域取得了显著进展。许田团队也会继续将人工智能、生物医药和中药相结合,以解决中药领域的挑战并提供更大的机会。
细胞调控图谱解析的计算方法
高歌丨北京大学生物医学创新中心(BIOPIC)研究员
在报告《细胞调控图谱解析的计算方法》中,北京大学生物医学创新中心(BIOPIC)研究员高歌提到,细胞水平的基因表达研究已有六七十年的历史,近年来人工智能的发展为该领域突破又带来了新的契机。尤其是AlphaFold2和GPT等技术的出现,为解析细胞调控图谱提供了新的思路和技术手段。
同时,单细胞技术的发展,轻松地获得十万、百万的数据点变得不再遥远,结合人工智能算法,能极大地提高了解析复杂生物系统的可能性。高歌在报告中也提到了遇到的挑战:数据质量与传统方法相比存在差异。
为此,高歌运用生成模型来解决单细胞数据分析中的问题:建立对抗部分,通过优化目标函数实现对批次效应(batch effect)的预测。传统方法往往只关注数据集之间的差异,而这种方法可以轻松处理数据集内部的差异,为单细胞数据分析带来了质的变化。
在报告中,高歌讨论了如何跨组学整合数据,为了将不同层次、不同尺度的数据整合在一起。他们的解决方案是借用生物学的先验知识,利用图形表示法将这些知识嵌入到整合过程中。高歌认为,如果模型设计得足够好,就有可能从描述数据转向预测数据,因此,他们团队的长期目标是开发一个基于生成模型的框架来理解细胞调控图谱,从而实现对细胞调控语言的建模。
专家问答
图注:从左到右的嘉宾为:谢晓亮、高毅勤、唐建、许田、高歌、叶启威
谢晓亮·问:AI用核磁数据来补充MSA(多重序列比对 ,Multiple Sequence Alignment)的不足,这种方法有什么优势?
高毅勤·答:该方法不仅适用于核磁共振,还可以用于许多其他实验数据很少的情况。由于核磁等实验方法提供的信息不够丰富,特别是区分氨基酸的信号困难,这在获取具体的氨基酸信息时导致了困难。然而,借助人工智能,我们可以更好地预测和分析这些数据。
人工智能模型,如AlphaFold2,虽然在预测结构时并不总是完全准确,但通过将实验数据作为"bias",引入模型,它可以优化和校正结构预测。此过程包括迭代过滤和校正信号,确保模糊或不准确的预测得到修正,每一步迭代都会带来更准确的结果。
因此,结合少量的实验数据和人工智能模型自身学习到的知识,AI系统比人类更快速提供准确的结果。
唐建·问:在解复合物结构领域有何帮助?利用实验快速获取信息,结合AI设计,仅解析表位部分就能加速抗原抗体研究进展?
高毅勤·答:实际上已经有研究人员结合实验方法和AI技术(如AlphaFold2),解析了抗体与抗原之间的相互作用。虽然AlphaFold2未能预测全部20个约束位点,但结合实验方法后,研究人员迅速确认了其中18或19个位点。这种方法不仅能够揭示相互作用界面,还可以提供正确的结构信息。同样的道理也适用于蛋白质与小分子之间的相互作用研究。
许田·问:生物学研究者关心分子的结构与功能。过去,通过晶体学方法(如X射线晶体学)解析蛋白质结构,而现代AI技术(如AlphaFold2)也基于类似数据。然而,生物学者对分子在液体环境中的结构变化更感兴趣,因为这在生物体内起着关键作用。AI技术在解决液体环境中分子结构问题上是否有帮助?
高毅勤·答:通过已有的核磁共振数据,他们可以得到蛋白质的多构象信息。此外,通过迭代方法,研究者可以计算每个构象的相对比例。当某些数据无法仅通过一个结构解释时,可以通过分析多个构象来满足所有数据。这样,可以得到多个构象及其在溶液中的相对比例,从而更好地理解蛋白质的结构和功能。
高歌·问:蛋白质具有很多动态性。其他大分子,如 RNA 和 DNA,也具有动态性和复杂性。虽然目前已经有很多关于蛋白质的研究,但 RNA 和 DNA 等大分子的研究相对较少。所以,研究少的主要困难是否是因为现有的基础数据不足?
高毅勤·答:主要有两方面原因:
一个是 RNA 本身的构象不稳定,尽管有些具有催化活性的 RNA 二级和三级结构相对稳定,但这些情况较少,更多关注的是短 RNA。另一个问题是相关数据非常少,其实,蛋白质与 DNA 的晶体结构数据在数据库中也不多。
大型语言模型在这方面有潜力发挥作用,在预测蛋白与 RNA 是否有相互作用方面,可以得到较高的准确率。例如我本科生做的简单模型,预测准确率已经达到 80% 或 90%。
尽管 RNA 的结构不稳定,但其序列决定了与哪些分子相互作用,因此从这个角度看,研究 RNA 具有很大价值。
许田·问:预测蛋白质与 RNA 之间的相互作用对药物研发具有很大的价值,因为这有助于开发新类别的药物。请问预测准确率高的原理是什么?
高毅勤·答:在预测蛋白质与 RNA 之间的相互作用时,尽管数据量较少,但预测准确率仍然较高。有三点原因:
1.相互作用模式实际上并不多,例如,剪接只有四种模式。这使得现有数据库中的数据能够较好地展现这些差别。
2.从生物学角度来看,蛋白质与 RNA 相互作用时,或者 RNA 形成应激颗粒(stress granules)时,它们的序列偏好性非常明显。这可能暗示在物理层面上存在较简单的原理。
3.对于简单情况,即使数据量不多,模型可能仍然能够学习到相互作用的规律。然而,对于复杂情况,如 RNA 聚合酶等涉及较长序列的相互作用,现有方法可能仍然难以学习到相关规律,需要更多的数据。
叶启威:我补充一下。我们发布的Open Complex 模型,在 RNA 和蛋白质复合物预测方面有不错的成果。当时我们也面临了数据量较少的问题,我们尝试了从蛋白质的成型模式上延伸、迁移到 RNA 结构预测上。由于力和化学性质是相似,所以这种方式是可行的。
我想问一个数据驱动和物理驱动方法结合的问题:
在实践中,数据驱动方法可能会遇到很多冲突,因为序列决定结构的假设可能过于简化。例如,蛋白质在镁离子溶液和钾离子溶液中的结构可能完全不同,在建模过程中可能存在许多潜在变量,而这些变量并不在序列中。请问各位老师有什么经验处理这些问题。
高毅勤·答:首先,辅助实验方法尤为重要,通过闭环实验可以指导补充数据。
其次,绕过结构可能带来更好的效果。这是因为复杂因素在隐藏层中被过滤掉,从而减少搜索空间,提高搜索效率。
最后,许多任务在做中间任务时可能不太成功,而在做端到端任务时可能会更成功,因为自然进化已经进行了一定程度的选择。
谢晓亮·问:关于酶设计,Arieh Warshel的方法是筛选,且取得了很好的效果。那么,用机器学习是否可以找到更好的设计策略?
唐建:酶设计我涉猎较少。从报告中得知,Arieh Warshel更多地是从数据出发,采用理性设计(rational design)和进化方法。而不是从头开始(denovo),通过挖掘多序列比对(MSA)和进化信息,试图找到一些规律并预测新结构。 在较小的蛋白质分子研究和设计中,用机器学习的方法从头开始,取得了较大的成功率。
许田·问:如何用人工智能设计一种针对特定蛋白质的抗体,即治疗性抗体(therapeutic antibody)?是否在未来五年内投入资金就能取得显著进展?
唐建·答:我们在蛋白质设计领域取得了一定成功 ,并非完全依赖于人工智能(AI),需要和实验相结合。在进行蛋白质设计时,我们会基于大规模的库进行筛选,可能设计几十万甚至上百万种结构。
高毅勤·答:目前的方法是尽可能理解抗体序列分布中的概率信息,并利用这些概率来寻找实验方法,这意味着需要实验和AI计算相互推进。针对特定的抗原,特别是数据丰富的情况下,在未来3到5年内有很大希望取得显著进展。
高歌·问:蛋白质设计(protein design)和蛋白质结构预测(protein structure prediction)两个不同的领域有很多共性。如何打通这两个领域?
唐建·答:蛋白质设计和蛋白质结构预测虽然被看作两个不同的领域,但它们实际上具有很多共性。要将这两个领域打通,关键在于理解它们之间的联系。
许田·问:基因研究领域,整合更多数据会增加数据量和计算复杂度。所以,通过整合数据,能提高多少研究效果?
高歌·答:我进行过评估。通过比较一个组学、两个组学、三个组学的影响,发现除了转录组之外,最重要的是开放染色质(open chromatin),因为它直接决定了哪些区域会被激活。如果去掉开放染色质数据,整个研究的准确率将下降约40%。另一个重要的组学是甲基化(methylation),因为它决定了基因在什么时候关闭。相对来说,甲基化比较稳定,影响范围性,其影响大约为1/5。当然,还有其他因素,如细胞发育过程中的变化等,但从大尺度来看,数据整合的效果大致如此。
叶启威·问:与当前大型语言模型(如1亿至2亿个token)相比,处理单细胞数据的计算量可能更大。是否对这种计算压力进行过评估,以及这种压力可能达到什么规模。
高歌·答:尽管GPT模型在回答问题和推理方面越来越强大,但在预测生物信息方面的任务与GPT的关注点有所不同。我们更希望理解基因过程并预测每个基因的影响。目前的粗略估计,处理单细胞数据的计算压力可能不需要达到GPT的训练级别。
观众问答
观众A:针对蛋白质抗原的设计,是否可以用于设计高效的荧光酶或荧光蛋白。
高毅勤:可行,有前景的方向。有工作表明,设计的酶的效率比天然酶要高很多。如果能结合经验知识,AI生成模型大有可为。
观众B:请对主动学习在生物医药领域中的具体应用流程和数据选择方法进行解释。
高毅勤:生物医药领域中的主动学习与视觉学习相似,关键在于选择哪些缺失的样本进行补充。通过学习数据并提取特征,可以了解当前数据中缺失的部分,并主动补充这些缺失。
此外,可以根据学习得到的效果来调整学习强度。类似于优化过程中的步长调整,当接近最优解时,步长减小,空间中的采样点更密集。在生物医药领域中,可以根据很多特征来进行主动学习,特别是针对关心的系统,根据这些特征进行增强式采样。
观众C:中药配伍使用可能抵消中药毒性,那么如果确定某种药物具有毒性,是否会影响到它在实际应用中的正确使用?此外,请解释产地和环境因素对中药的影响。
许田 :药物配伍使用时能降低毒性,但这种情况在实际操作中实现的可能性较低。毒性成分在大多数情况下仍然具有损害作用。
不同植物在不同环境中可能产生不同的分子,但大多数有效分子可以通过标准化培养实现。与其强调特殊环境下的中药种植,不如先实现中药的标准化生产。中药应与时俱进,与现代生物医药相结合,才能造福更多的人。
观众D:生成模型中的选择,普遍使用扩散模型(diffusion model)。对于生物模型而言,扩散模型是否为最佳选择?有其他理想模型么?
唐建:扩散模型是很好的选择。早期扩散模型以高斯分布为假设。许多最近的研究进展已经逐渐弱化了这个假设,基本上不再对数据分布做特定的假设,使其更符合实际场景。
观众E:生命系统非常复杂,是否可以用计算机数字模型进行建模?多模态预训练大模型能否解决这些异质性、复杂性?
高歌:首先,我不认为现在的现有模型足够。但一方面,以深度学习模型为代表的计算方法正在快速演进,另一方面,以单细胞为代表的新一代高精度生命数据也在快速积累。因此,即使数字模拟生命现在技术无法达到,我对未来5-10年这个尺度上还是乐观的。
高毅勤:现实世界中的复杂问题难解决有两个原因:一是问题本身很高维;二是高维空间中的信息不连通。
深度学习发挥作用的地方也是这两点:一是扩散生成模型等生成式模型可以在更高维度中将不连通的对象连接起来;二是深度学习能降维,有助于我们抽取知识。因此,深度学习并不能一下子解决所有问题,但它是通向解决问题的一个途径。
唐建:深度学习发展到今天,对大部分问题而言,只要有足够的数据,基本上都能解决。生命系统的最大难点在于获取体内的环境数据,这方面的数据较少。随着生物技术的发展,体外建立类似器官的模型,能获取更多的数据,问题容易被解决。
- 点击“查看原文” ,观看完整大会视频回放 -
具身智能与强化学习前沿进展丨2023智源大会精彩回顾
大模型与人类的未来丨基于认知神经科学的大模型论坛精彩回顾