噱头,还是未来?这是大家面对AI制药经常提出的问题,但这却不是AI制药面临的问题。
DeepMind团队以AlphaFold 2算法在Nature 杂志发表的文章给行业投下重磅炸弹,这篇文章报道了35万个预测的大分子蛋白质结构,理论上包含了人类98.5%的蛋白质数量。柯洁说人工智能让围棋比赛失去魅力,根本原因是竞争已经不在同一层次,现在的AI制药,就像这篇文章发布的前一个晚上一样,积蓄势能,在未来为我们揭晓答案。
但是未来还有多远?科学家们给出的回答是脚踏实地只争朝夕,成绩并不能掩盖问题,解决问题才能够让科学走出实验室,实现科技照进产业,达到服务人类的目的。
5月19日,【魔方的朋友们】直播间,北鲲云计算创始人&CEO冯建新先生对话普美瑞生物首席科学顾问常珊博士和瑞士Demiurge CSO&CTO任志攀先生,在近2小时时间里直面了AI制药面临的现状和挑战等尖锐问题,并提出了他们的解决方案,篇幅有限,下面仅整理了各位嘉宾的部分精彩观点,完整回放请至视频版观看。、
AI制药未来已来
冯建新先生:作为IT背景的从业者,从IT的角度看待AlphaFold 2的结果,蛋白质是生物体内一切功能的执行者,结构决定了它的功能,打破了只能通过实验的方式发现蛋白结构的步骤。并且极大地提高了效率,所以通过AI计算的方式预测蛋白结构,不光光是效率方面的提升,而是可以做到原来不可能做到的事情。
但是这些蛋白结构是不是都是准确的,还需要通过实验手段去验证,而且除了人类之外,还有大量的其他大分子也需要去做一些解析,这时候现有的算法是否合适?另外大量的结构对计算资源的需求也非常非常高,成本也需要考虑。另外,Alpha Fold 2的算法在长序列方面也是有一些限制的,我们与新加坡国立大学课题组主导开发的算法,可以把单一序列的预测分发到多个GPU上面去,这样就限制了这个长序列对高GPU线程的依赖,极大地提高了现有硬件的可用性。
常珊博士:AlphaFold 2在结构预测上取得了这样的突破,是有利于我们药物筛选,因为基于受体靶点的药物筛选里面很重要的就是受体靶点的结构。但是同时也存在一些问题,其中只有4成的蛋白质结构可信度是比较高的,还有六成的准确度不太高,不能直接拿来做药物筛选,准确度上还有一个比较大的空间去提升;另外,目前的算法主要是针对蛋白质,其他的生物大分子,多糖、其聚合物,算法还无法完全覆盖。
最重要的是蛋白在不同环境中的表现,有人提出有质疑,同样序列的预测结构是基本上是唯一的,而在真正的不同环境中,蛋白的结构可能不一样,有不同的功能状态,最新版的算法已经开始增加了这类的功能,这些新的挑战都跟我们制药行业有一些关联。
任志攀先生:DeepMind的AlphaFold 2 在Nature 杂志发表的文章,是临床前阶段能够带来实际价值的一个很重要的突破。DeepMind团队继而成立Isomorphic Labs,开始探索从蛋白质的结构预测到蛋白质的功能预测的更重要的跨越。
对于药企来说,确定更多蛋白质的功能,比确定更多的蛋白质结构更重要。进一步讲,药企对于蛋白质功能在开发新药的要求上是非常高的。在我们看来要满足三个级别的功能:第一级别是一个蛋白质在正常的细胞环境下的功能;第二级别是需要能够实现活性功能,我们也叫做算法级的功能,这个算法级的功能能够非常精准地判断蛋白质,它是在单个细胞内,还是在多个细胞甚至在不同的组织之间,不同的细胞类型之间相互影响的情况下,它的具体的功能是什么;第三个级别,叫做临床级的功能,蛋白质不光在正常细胞环境下,而且要在临床也就是在异常环境下,也能够解释它的功能,如果都足以实现的话,会对新药的早期开发起到极其巨大的作用。
突破数据瓶颈共建研究平台
常珊博士:国际主流结构库,大概有数亿个化物分子,国内差距并没有想象中大,上海国家新药筛选中心,建立了国家化合物数据库。价格很便宜,数量也达到了数百万的量级,并且在持续增加,国家是在考虑这个事情的,但是仍有待优化的地方,比如数据的共享或者标准化方面还有很多的工作要去做,比如国内做化学合成,药物开发的课题组很多,是否能共享给国家的样本库,这方面要想办法鼓励相关单位的积极性,相关机制有待进一步健全。
任志攀先生:对于被寄予厚望去实现逆转新药临床成功率不断下降的反摩尔定律(Eroom’s law)的医药AI来说,数据是至关重要,这点是大家的共识。但是数据到底多少算足够多?其实有两种声音。一种声音认为我们的数据还是不够的,另外一种观点认为,数据够不够是一方面,另外一方面是从现有的数据中提取出来的新药开发的线索的质量跟数量是不足的,这也是触发了另外一个方向的探索就是如何在基于现有的数据情况下,提高数据挖掘的能力来增加有效的新知识提取的质量。
我们只利用公开的生命科学数据,建立精准的衰老模型和疾病模型,再利用模型直接做全球首个大规模的、公开的、前瞻性的临床实验结果的预测。经过这样的严苛验证,我们发现现有疾病模型其实已经可以把大部分疾病种类的新药临床成功率提升10倍。这个结果表明在数据标注和知识提取方面,仍旧有大量的潜力可以挖掘,这完全提供了一个弯道超车的可能性,如何进一步提升现有公开数据的临床标注和知识提取。
冯建新先生:通过跟一些行业专家的交流。我们确实发现国内制药企业,目前在大数据方面储备比较欠缺,一方面我们必须要承认,目前制药行业的信息化和欧美比起来确实发展地比较晚。积累比较少一些;另外一方面,各大制药公司,虽然在发展的过程中沉淀了一些数据,但这些数据很多都是原始数据。并没有经过系统化的清洗整理,直接使用很难产生大的价值。大家也不知道怎么样把这数据给利用起来;第三方面就是这些制药企业的数据,是企业很多年积累的,花了大量的人力物力财力,所以很多大的制药企业不太愿意把这些珍贵的数据共享出来,这些原因就客观上形成了数据壁垒。
随着AI技术在行业发挥越来越重要的作用,大数据的瓶颈就显示出来,想要实现突破,可能会需要两个大的数据平台。一个大数据平台是纯科研的,非商业化的数据平台,通过官方的一些科研机构可以来推动,像我们的细胞库基因库一样,把各科研机构高校的课题组积累的数据贡献出来,通过这个共享平台来进行数据分享;另外一个平台是一个纯商业化的平台,需要一些大的制药公司牵头去建立一个数据联盟,在数据分享层面需要制定一套标准化的规范。包括商业规范和技术规范,通过一个完整的接口把各方的数据统一利用起来,这样的话,各制药公司不用担心数据的泄露,同时也能够把数据分享出来,同时也可以通过分享的数据来进行变现。有一个这个平台生态的话,在大数据方面的价值是非常巨大的。
今天我们可以看到确实有一些政府层面的努力在推动数据平台建设,比如福建医科大学在福建当地建设的医疗大数据平台。结合医院的数据,开始尝试做件事情,但是商业层面的商业化的平台。谁来主导推动这件事情,至少目前我们还没有看到比较成熟的探索方案,期待这方面能尽快有所突破。
产学研生态化打造超车机遇
任志攀先生:创新药和互联网本质上是高度相似的(重视下重注创新,重视用户端数据,重视产品迭代)。从针对单一衰老相关疾病的治疗性新药,到针对所有衰老相关疾病的预防性新药,是全球创新药从单一垂直领域到聚合型平台的行业大趋势。AI和基因疗法、核酸药物、基因编辑等一样是诸多新技术中的一种。药企自然会沿用对于其他新技术评估的一整套成熟标准,那就是要得到临床验证。从临床实验的角度来看,如果用AI的方式发现新的靶点,系统性成批量地开发出来新的药物,使得未满足的临床需求成功率有所提高,就是完成了一个完整的临床验证。利用每年全球300多个创新药物的在研关键临床试验,不但可以像CASP挑战(Critical Assessment of Techniques for Protein Structure Prediction)评估AlphaFold 2一样,准确评估医药AI在提前预测新药的临床药效和安全性的真实水平,而且可以把临床验证的成本从数十亿美元降低到了数百万美元,临床验证的时间从10年减少到1年。这样AI才会迎来真正的井喷。所以是要用到我们真正互联网的优势,加快迭代速度,降低迭代成本,获得互联网的速度和效率,就真正解决了传统药企拥抱AI的最大瓶颈。
常珊博士:AI公司大部分还处于亏钱的阶段。传统医药企业基本上处于观望的阶段。互联网企业因为有一些技术储备和充足的资金,热情比较高,更愿意在这方面做一些投入。但要带动中国制药跨越式发展,还是需要传统药企参与。除了保守的态度之外,还由于AI目前还主要用于药物发现的早期阶段,但这一部分对于制药公司的成本来说是最小的,所以行业的发展目前还是任重道远的,AI技术如何参与到药物全流程的加速过程,点燃传统药企热情,是现阶段我们面临的主要课题之一。
冯建新先生:AI制药这几年是一个非常热的赛道,说明大家是非常看好这件事情的,也是认同这个方向的,所以在大方向上大家是不怀疑的,是明确的。但是这也给人们一些不太切合实际的期待,今天的AI制药其实还在发展的早期。还没有完全进入到关键临床阶段;另外一个比较大的问题是。这个过程是通过一些偶发性发现的,还是一个可复制的过程?今天也没有到验证。
但从大环境上来看,中国目前对AI制药的发展还是非常有利的,一方面大量的民间资本涌入,所以这个行业是不缺钱的。另外从政策层面,国家现在也在鼓励引导创新药,而创新药的药物发现环节其实是重度依赖AI技术的,我们完全有机会在AIDD领域去实现这种跨越式的发展,在不久的将来赶上甚至超越,但是时间周期我们需要有正确的心理预期。
以上是我们为您总结的本次直播精华内容,更多干货请观看视频版回放。