名噪一时的AlphaFold 2背后,是蓄势待发的计算生物学。
但,计算生物学究竟是什么?目前进展如何,又蕴藏了怎样的未来机遇?
AI制药、疾病研究、AI for Science、21世纪最伟大的科学发明…
这些都不足以概括这一领域。
过去的两周,量子位对撞派推出了「计算生物学」专题,先后邀请到了专注蛋白质组学的西湖欧米、专注分子模拟的深势科技,和AI领域的头部研究院微软亚洲研究院,从不同角度和我们直播探讨了计算生物学。
在这一系列对谈中,我们谈到了计算生物学的定义、现状、应用潜力、底层含义、技术瓶颈、发展细节等等…..
这个领域比我们想象的更加复杂,潜力也更加可观。
精华版文字内容在此,快来听听业内人士怎么说~(文末还有彩蛋)
西湖欧米是专注于AI赋能的微观世界数据公司。致力于以蛋白质组大数据技术创新为驱动力,联合多模态大数据,助力精准医学和药物研发。
对谈嘉宾:
郭天南(右):西湖欧米创始人,西湖大学生命科学院特聘研究员
陈 义(左):西湖欧米首席AI科学家,中国科学院软件研究所博士
Q1:Alphafold的最大意义是什么?
A1:我们可以用两条线,把世界分为四个维度——宏观和不借助设备看不到的微观;生命和非生命。
在Alphafold2之前, AI 实际上一直都没有真正进入微观的生命的世界。而这个部分其实对我们的生命健康有重大意义,比如病毒的侵入扩增、抗体免疫,都属于其中的蛋白质世界。
此外,AlphaFold2是给AI从业者打开的一个新的窗口。因为科研可以分为发现问题、定义问题,还有探索解决方案这么多环节。AlphaFold2证明了AI 在探索解决方案的环节未来可以是人类的一个好帮手。
Q2:蛋白质的重要性是怎样的?基于蛋白质的改变,有哪些领域和应用会发生改变呢?
A2:根据生物学的中心法则,DNA 转录成 RNA ,RNA必须要翻译成蛋白质才会起作用。
对于蛋白质组学,一方面是疾病治疗。
以电影《我不是药神》里,在白血病细胞中靶向融合蛋白BCR-ABL,进而控制细胞增殖的神药为例,如果不从蛋白质角度出发,无论是问切、血细胞计数、CT、心电图等,这些检测都不可能达到这样一个效果。现在的很多生物制药、靶向治疗、免疫治疗等等都是基于蛋白质完成的,对于精准医疗也有意义。
另外一个层面是疾病诊断。
比如甲状腺结节到底是良性还是恶性?有一部分人是处于无法判断结节良恶性的灰色地带的。无论你做什么检测,CT、B超,甚至基因检测都无法准确地判断。而通过蛋白质,加上一些 AI 的模型后,判断能够达到 90% 左右的准确度。
现在几乎所有的领域都会有基因测序,但一个人从出生到死亡,或是在不同的器官里,它的基因组都是差不多是一样的,所以每个人做一次基因测序就够了。
但是我们今天跟明天,生病后跟治疗后它的蛋白质组是不一样的。由于时间维度和空间维度都不同,蛋白质组能更充分地反映疾病的变化。
如果我们能够对蛋白质在各个时间各个空间进行消费级的测量,拥有大量细胞水平的微观世界的数据,我们对生命的理解、对健康的管控会处于一个完全不一样的境界。
Q3:您觉得AlphaFold2现在在蛋白质的结构和功能预测上是否已经比较完善了?他距离蛋白质这个领域中的终极真理还遥远吗?
A3:从我的理解来看,我觉得现在的AlphaFold2肯定还有改进的空间。AlphaFold2带来的象征意义,也许比它的实际意义会更大。AI 的科学家们当知道有这样的数据和问题时,就会涌进来,然后快速迭代,然后不断地发现新的解决方案。
现在蛋白质结构上面还有很多问题,因为在真实的场景下面,蛋白质是会在不同环境里相互作用的。我们在做药物、理解生物学、诊断疾病的时候,肯定不能只单独地看某一个蛋白质内部的解剖。我觉得我们还是要在真实场景中采集蛋白质,观察它在真实的细胞里面、体液里面是一个什么样的状态。从而进行结构和功能的分析,这样会更有价值。
Q4:对于更为动态,变化也更为丰富的这个蛋白质组织领域,我们在利用 AI 去对它做一些预测和分析的时候,从 AI 的角度来看,会觉得它有额外的难度吗?会在建模上造成一些其他的困难吗?
A4:在蛋白这种领域,虽然它动态,但是我觉得这不是问题。在宏观世界,我们产生的数据给我们非常大的便利,我们可以预测春运,我们可以知道新冠的流行的状态。
相对于问题的复杂度和对应的算法,缺乏足够的数据是一个更大的问题。
虽然这十几年来蛋白质测量的成本一直在降低,但还是零点几美金才可以测一个蛋白质,而我们有数以千计万计的蛋白质,还需要进一步的改进。这也是我们欧米在努力的,我们希望他的成本尽可能低到比基因组还要低,这样的话我们就可以非常快地高效地产生足够的数据。然后一定会有足够好的 AI 的算法去解决这些问题。
Q5:我们了解到蛋白质是可以作为一种更为动态和直接的生物标记物的。它是怎样如何和 AI 具体结合起来,进行疾病判断的呢?
A5:第一个核心,整个流程的背后是蛋白质组分析的核心技术,就是怎么从少量的样品,肉眼都看不到的组织里面提取数以千计、数以万计的蛋白。
然后第二个核心,就是我们怎么样建立一个与之相适应的 AI 模型,从数千万的蛋白中挑出那么 10 来个左右的蛋白进行诊断。
第三个就是产品化,我们怎么样让这个这测量这十几个蛋白成本尽可能的低,达到消费级要低于每个蛋白 0.1 美金以下,希望是越低越好,这样越低我们就可以更广泛的使用。
Q6:对于整个计算生物学来说,这个领域现在大概发展到了什么程度?
A6:目前计算生物学实际上是高度依赖数据的,因为文本的数据多,因为图像的数据多,因为基因组的数据多,所以大家的主要的这个关注度在这个方面。
然后现在我们可以非常有信心的说这个蛋白质组的数据会也会越来越多。AlphaFold2的出现就是这样一个突破。作为最重要的一个分子,蛋白质组会在结构、动态、功能、网络等方面都被进一步开发。
深势科技致力于以新一代分子模拟技术解决微尺度工业设计难题。以打造切实服务于药企、材料商和科研机构的模拟研发平台为主要业务方向,以解放研发工作者的生产力为主要业务目标。
对谈嘉宾:
孙伟杰(左一):深势科技创始人,首席执行官
张林峰(左二):深势科技创始人,首席科学家
Q1:AlphaFold2 对于整个学科领域来说究竟意味着什么呢?
A1:更宏观来看,AlphaFold2是一种将AI极致地与前沿科学的数据相结合,解决前沿科学问题的新的范式。
无论是在大的分子结构预测、药物筛选,还是材料、化工等别的学科上,这样的机会是广泛存在的。
将 AI 与 Science 相结合,这其实也是 AlphaFold2 所给我们带来的一个系列性的、涉及所有的 Science 行业的一个可能性。
AlphaFold2 的出现是一个捅破窗户纸的,让大家意识到原来我们的 AI 计算真正产生了一个可以和实验精度去媲美的这样的一套算法工具。
而我们的计算真正能够和实验对比,是所有的计算发展的一个很重要的里程碑和目标,用计算去替代一部分实验,也是我们最终的研发的目的和终点。
我愿意把它定义成这是我们计算生物学的大航海时代的开端。这个时代才刚刚开始。
Q2:在过去的一年,包括AlphaFold2、RosettaFold、以及RNA结构预测在内,计算生物学领域到了一个爆发的节点。有哪些利好的因素导致了这一波突破呢?
A2:从技术的角度去看,很多技术发展包括AI本身,突然的巨变性的变化,往往是因为有多个要素的组合。数据、算力和算法的组合之下,突然这层窗户纸捅破了,就会有很多的结果涌现。现在这三点的结合最终到了一个所谓的奇点(critical point),就会爆发。
所以我想一方面恰好发生于去年,另一方面这三条线的发展也是经历了一个相当于符合客观规律的过程。
其实我觉得整个领域从2016年就具备这样的基础。但是这个领域相比于大家能直观认知的下围棋的 AlphaGo ,还有互联网的一些应用,还是相对小众,并且需要的知识门槛是更高的。所以说它的实际突破的出现,肯定相对来说会更晚。
但是晚到什么程度呢?
从技术发展的趋势上,我觉得是一个十年之内肯定会发生的事情,毕竟所有的要素其实都是具备的。所以说我觉得从2016年到2026年之间,肯定会出现技术的突破,只是说或早或晚,那取决于它的问题有多被行业需要,取决于相关的这些要素有没有被有机的整合到一起。
至于说2021年这个时间点,我觉得在这十年之间,就算 DeepMind 没有在去年做出 AlphaFold2,可能今年、明年像我们这样的玩家,像RosatteFold, 可能也会产生这样的突破,因为刚才所说技术的积淀已经到这样了。
Q3:深势科技也推出了一个中国版的 AlphaFold2 就是我们的 Uni-Fold, 那当时咱们是出于怎么样的动机或者说观察来决定完成这一项工作的呢?
A3:其实我们面临的一个系统性的机会,以及我们希望做到的事情,本质上是用计算替代实验。
在医药、材料、化工等这些领域,面临的问题本质上抽象出来是一样的,大家关注的都是在微观层面怎么样设计出一个有用的分子。
我们抽象的在微观层面上想做的微尺度工业平台,本质上就是三个物理问题:结构、能量和动力学。而结构就像是一个起点或者milestone,对于算法矩阵和商业落地都是至关重要的。
Uni-Fold还有很大潜力可以挖掘,我们也不会止步于此。比如说对蛋白聚合体的结构预测,蛋白和分子结合的结构预测,当然很多比较大的蛋白现在还没有做得很准,我们也可以提升它的精度。
我们还有一系列的比如说强化分子动力学的算法,来和Uni-Fold形成完整的对蛋白结构进行预测、乃至对动态结构进行预测的算法体系,以及这些计算的方法怎样和实验联动,去提升实验的效率,或者是做一些实验上很难做的事情。
所以说我们是要在整个结构生物学领域深刻地去布局前沿的算法,然后最终达到替代不必要的实验,并且让必要进行的实验也能高效稳定地进行,这是我们想达到的最终目的。
Q4:在计算生物学里面,我们会把我们能解决的问题会做一个怎样的分类,或者说我们大概有一个怎样去攻克的一个规划和理解吗。
A4:科学问题普遍上都遵循两种范式。
第一种范式,可被完善地定义成一个物理或者化学问题,意味着可以找到相应的物理模型去很完备地描述它,这种我们就称之为叫规则驱动,或者叫物理驱动的问题。那这种问题最好的办法就是我们精准的求解物理模型。
另一种问题就是很难定义为一个物理问题。也就是所谓数据驱动的。
这两种范式上发展出来算法也很不一样。
Q5:我们认为哪些场景是计算生物学能够最快落地,或者发挥最大潜能的?
A5:我觉得可能的突破口还是会从两个地方出现。
一个是理解生命体运作的机制。我们无论是做药物还是做疗法、做任何的东西,第一个前提就是我们要知道我们到底是怎么样运行的,疾病的产生与治愈是怎样的一个微观的过程。那第二,在充分理解生物体运作机制的前提下,我们就会确定一些药物的靶标和疾病之间的关系。那再往下其实就是药物的设计。之后,就是这些相应疗法在人体内作用的预测等相关的这件事情。
这部分的突破,我认为会比较快地出现在两个方向上:1. 能更明确地能定义为物理问题和化学问题的方向,比如蛋白质尺度的结构和药物计。2. 实验技术进步能够带来大量高质量标准化数据,且问题相对不是那么高维。也就是数据的积累会对算法产生非常大帮助的领域。
第二个方面就是逆向问题。我们在理解了生物体的运作机制之后,去反向生成。比如说像合成生物学,我们通过编程的方式去创造生命,那这是解反问题。
可能还有一个维度其实是计算生物学的解决方案和专家的关系。将原来专家的经验知识转化成了一个模型或者可执行的一个工具,更好地赋能下游的科学家和工作人员。
Q6: 那如果我们用百分比来衡量的话,今天比如说以Alphafold2 为一个代表,我们会觉得它大概到了一个怎么样的进度?
A6:我觉得遵循着一个指数发展的规律。当前的一系列技术的积累,其实是刚刚捅破了这层窗户纸,也可能是黎明前的黑暗到往上走的关键时期。所以说当下的这个点或许是还比较少的,甚至可能不一定到1%。
如果借鉴AI的图片识别和语音识别发展历程,我想它还是一个快速增长的时期。它的导数可能非常的大。
比如说以AlphaFold2的话,它分为两种层面,一种是已知的未知,比如说对人类的蛋白组的预测可能接近60%,都预测的相对比较靠谱。那剩下 40% 预测的不靠谱的部分,至少也能给出一个大致的置信区间。这意味着算法是初步可用了。
更大的其实是未知的未知。科学家们普遍都认为我们对可见宇宙或者已知宇宙的认知肯定是不超过 5% ,更何况还有很大的未知的宇宙。我觉得在蛋白质结构预测这个领域也是同样的。我们可见的包括这些预测不准的 40%, 主要是一些大蛋白、膜蛋白、蛋白复合物等等。就可见部分而言,我觉得可能只完成了 10% 到 20。我们其实并不知道分母有多大。
这是计算生物学领域大航海时代的开始,这个真正的竞争或者真正的突破才刚刚开始。整个的技术发展肯定是非线性的,出现了一个突破可能一下就提升了一大截,大家也可以密切地关注这个领域的进展,这里面也可能获得很多非线性的回报机会。
微软亚洲研究院是微软在美国本土以外规模最大的研究机构,世界一流的计算机基础及应用研究机构。致力于推动整个计算机科学领域的前沿技术发展,将最新研究成果快速转化到微软的关键产品中,着眼于下一代革命性技术的研究和孵化。
对谈嘉宾:
刘铁岩(左二):微软亚洲研究院副院长
邵 斌(右二):微软亚洲研究院首席研究员
王 童(右一):微软亚洲研究院主管研究员
Q1:AlphaFold2的最大意义是什么?
A1:这个看似突破性的进展,其实是技术演进的必然结果。
此外,如果我们换个视角来看待这个问题,蛋白质结构预测仅仅是计算生物学这个大门类里面一个相对来说定义得比较清晰(well-defined)的问题。还有很多比蛋白质结构预测更加复杂也更有挑战性的问题,等着我们用人工智能的手段去推进。
Q2:我们认为应该如何去定义计算生物学这一个学科,它里面又会有哪些细分的领域和维度呢?
A2:从研究对象的角度,有宏观的,也有微观的。从微观的角度,可以小到一个蛋白、DNA 或者是一个单细胞。从宏观的角度,可以大到人类或者说生物体的组织、器官、个体甚至是群体。
从研究手段来讲,既有传统的生物实验,也有包括计算手段在内的数学建模、数值仿真、数据分析或者是机器学习。
从应用门类来讲,几乎和我们平时生活或者科学发展的方方面面都有关系,它既有在基础科学方面的潜力,也在制药诊疗方面有着巨大价值。
Q3:2021 年,微软亚洲研究院首次针对新冠病毒中的 NTD 提出了对应的楔型模型,并鉴定了潜在的药物靶点。能否介绍一下这项工作是怎么基于计算生物学完成的呢?
A3: 之前科学家们发现,新冠感染人体的物质叫 S 蛋白。我们可以把它想象成一个英文字母 Y,有两个枝杈,还有一个中轴。S蛋白的中轴会固定在病毒的表面,而伸出的这两个枝杈(RBD和NTD),其中的RBD会和我们的受体蛋白发生识别,然后进入人体。
我们的研究主要围绕着机理还未明确的NTD展开。我们和清华大学计算生物学的老师通力合作,利用分子动力学模拟技术对整个S 蛋白,全构象是百万级原子的巨大体系,进行了数十亿步的动力学平衡模拟。通过分子动力学,我们发现NTD就像一个开关,可以去控制另一个枝杈RBD是否能和人体的蛋白发生识别、结合。而NTD和RBD两者结合的界面,就自然形成了药物和疫苗设计的一个潜在靶点。
Q4:计算生物学算是一门交叉性非常强的学科,一方面是生物知识和人工智能的交叉,也就是所谓的 BT+IT。另一方面,也是干实验和湿实验的一种交叉。那请问几位老师是如何看待这两种强的交叉关系的?
A4: 计算生物学是一个非常典型的交叉学科。这个交叉二字其实有几个不同的层次。
首先是知识层面上,有生物学、医学、药学、计算机科学,包括人工智能这些不同的知识门类的交叉。
还有一个研究方法的交叉,比如说传统生物学的生物实验,就是“湿实验”。计算机的模拟或者人工智能的手段,我们通常称为“干实验”。
更重要的其实是人才的交叉。因为在这个过程中会涉及到计算机的人才、生物学的人才。而最有趣的是,每个人其实都是有自己的个性的,甚至是有一些偏见的。当我们面对着一个新的课题或者一个新的事物的时候,通常会带入我们固有的一些思维。所以想要让交叉学科发展得非常好,我们就需要一个开放、包容、多元化的环境,让不同的知识做交融,让不同类型的人才去做碰撞,让不同的研究手段去进行互补或者形成某种闭环。
Q5: 是否存在哪些明显的瓶颈?
A5:高质量数据。尽管过去我们在生物学领域积累了大量的数据,但是高质量的数据仍然十分短缺。
从技术上来说,在做计算生物学的过程中,我们还是碰到了非常多的挑战。比如说,真正的蛋白质其实是处在一个非常复杂的细胞环境中的,这种微环境使得计算机的建模难度非常大。比如说在NTD的分子动力模拟中,就需要考虑到这个蛋白在人体内真正的环境是什么样的?是不是处在一个水溶液的环境里?是不是会有一些离子?在计算生物学的研究中,我们也要尽量地去仿照人体中真实的微环境,这可能是一个比较大的挑战。
那还有一个挑战是什么呢?在做计算免疫学的时候,其实每个人内在的免疫环境都是千差万别的。我们做一个AI模型,如果想在每个人身上都适用,取得很好的效果,也是很大的一个挑战。这也就是为什么我们要对每个人有一个更个性化的建模过程和解决方案。
还有动态变化的问题。
生命科学很特别的一点,就是它的研究对象是活的。比如说,人体每天应对着我们所在的环境,包括各种病源的侵扰,我们是不断地在进化、在变化中去抵抗它们的。所以当我们使用传统的机器学习或人工智能的手段去做了分析建模,很可能这个模型未来要使用的对象已经发生了变化。
所以当我们用人工智能的手段去解决这些生物问题的时候,怎么能够做更好的泛化外推,能够去解决和应对生物体本身的变化,这是一个非常有趣的问题,它不仅仅是对计算生物学有意义,对人工智能、对机器学习都是一个新的挑战。
Q6:那我们是如何看待AI for Science这种形式的?
A6:当我们用人工智能跟自然科学进行交叉的时候,其实有两个视角。
一个是我们已经知道了自然科学的规律,也产生了很多的数据,我们怎么用人工智能从里面学到某种模型去加速这个过程。
另一分支就是当我们能够有那么多的观测数据,这些数据可能是科学家们用肉眼分析不过来的。如果我们有很好的人工智能技术,我们能不能去通过大量的高通量数据分析,总结出一些现有的科学家还没有发现的科学规律,这个科学发现的价值可能比加速的价值更高。
Q7:在AI for Science,这个具体的融合过程中,有没有什么经验和大家分享?
A7:人工智能带来了科学研究范式的转型。因为从计算机科学的视角看,现在很多的问题求解不再单纯依赖于人工的算法设计,而更多的是转成以数据驱动的模型构建。
此外,从基础科学研究的视角去看,传统基础科学研究更多是一种提出科学假设,然后验证科学假设的研究范式。随着大数据和人工智能的发展、普及和成熟,我们观察到越来越多的科学研究从假设推动的范式,走向了利用大数据和计算机技术挖掘科学洞见的这种数据驱动的科学研究范式。
从生物科学的角度出发,我们之前更多是基于专业领域知识(domain knowledge)的触发来做研究。通俗来讲,AI其实只是作为一种计算手段扮演了配角的作用。更多是在有大量的生物学数据和生物领域知识的前提下,用一种非常简单的统计模型或者是机器学习来做简单的拟合。
但伴随着AI技术的发展和深化,AI在AI for Science里逐渐变成了主角。它并不是只去对生物数据做简单的拟合,而是从 AI 入手去认识科学问题,即为科学问题量身定制一套AI的算法与开发。
但从另一方面来说,传统计算生物学的研究,更多是为了提升性能,也就是追求更高的数字。现在的 AI for Science 并不是这样。以AI+药物设计研发为例,我们并不像之前一样只关注准确率,而更关注可解释性。比如说在药物虚拟筛选里,是潜在药物的哪些原子和我们的受体蛋白的哪一些残基、哪一些原子能发生相互作用,这个模型能否提供更好的解释性等等。
传统的自然科学领域有一个研究范式,就是科学家们受到实验数据的启发,然后大胆假说提出一套科学理论,再通过设计实验去进一步地验证这些理论或者推论。人工智能其实就是使传统科学家做研究的这种过程变得自动化、规模化、并行化。所以,如果我们说传统的自然科学的发展严重依赖于少数顶级科学家的智慧的话,在未来,有了人工智能技术的加持,我们相信有更多的科学工作者可以以更高的通量去做更了不起的研究。
错过了直播的小伙伴可以点击我们的直播回看视频,了解更多技术细节和问题详解~
第一期:西湖欧米—从蛋白质组学看计算生物学
https://www.bilibili.com/video/BV1Fb4y1n7VA/
第二期:深势科技—分子模拟与计算生物学的交叉
https://www.bilibili.com/video/BV1D5411f78A/
第三期:微软亚洲研究院—从AI从业者的角度看计算生物学和AI for Science
https://www.bilibili.com/video/BV1r44y1s77i/
在计算生物学领域,智库后续还会推出深度报告与解读视频。欢迎扫码添加小助手,进入生物科技垂直社群。
如果您深耕于计算生物学相关领域,欢迎扫码添加分析师进行深度讨论与交流。
量子位旗下科技创新产业链接平台,致力于提供前沿科技和技术创新领域产学研体系化研究(如前沿AI&计算机,生命科学,量子技术及新型半导体等)。通过媒体,社群和线下活动,基于专题技术报道及报告、专项交流会等形式,帮助决策者更早掌握创新风向。
量子位智库旗下的高端圆桌栏目。
对撞派致力于邀请前沿科技领域的专业人士,如创业公司CEO及CTO、资深科学家、专业投资人等,对特定趋势进行深度讨论及解读。从业内与专业的角度,帮助读者更为准确地把握未来科技动向。