来源|wandb.ai
翻译|刘畅
随着新药研发难度越来越大,机器学习成为了该领域的重要破局工具。2020年年底,在国际蛋白质结构预测赛中,DeepMind公司研发的AlphaFold 2摘得桂冠,并破解了蛋白质折叠这个困扰人类50年的难题,轰动一时,新药研发也成为热点话题。不过,这个领域早有不少开拓者。
2018年2月,AI新药研发公司Insitro成立,2021年完成C轮融资后累积资金额达7.43亿美元。该公司致力于利用大数据、机器学习以及生命科学领域的融合创新技术,重新构建药物设计过程,他们希望以一种新范式改变这一领域。创始人兼首席执行官Daphne Koller称“数字生物学”将成为下一个科学新时代的大机遇。
作为AI领域的知名学者,Daphne Koller在18岁就从耶路撒冷希伯来大学获得硕士学位,26岁成为斯坦福大学计算机系助理教授,曾获麦克阿瑟“天才奖”,是美国工程院院士、美国艺术与科学院院士,并在Science、Cell等顶尖学术期刊发表论文200多篇,H因子高达145。想必很多机器学习从业者应该读过她的概率图模型经典著作《Probabilistic Graphical Models: Principles and Techniques》。
不止于此,在2012年,Daphne与吴恩达共同创立了世界上最大的在线教育平台之一Coursera,目前市值超30亿美元。2020年,她还创立了高等教育数字学习平台Engageli。
在机器学习节目Gradient Dissent中,Lukas Biewald与他这位曾经的斯坦福大学老师聊了聊由“数字生物学”开启的科学新纪元,以及机器学习在药物发现中的作用及其面临的挑战。
以下为对话内容,OneFlow社区做了不改变原意的编译。
1
倒摩尔定律、机器学习与新药研发
Lukas:很激动再一次和你交流,我最想跟你聊的是Insitro,它看起来非常有趣且激动人心。
Daphne: Insitro是一家药物研发公司。如果你在过去50年里一直关注药物发现,会发现我们为东北亚地区的患者提供药物方面取得了巨大进步。但与此同时,根据 “倒摩尔定律”(Eroom's Law,摩尔定律的扩展),药物研发的生产率呈指数级下降。这是因为发现和研发药物的过程非常复杂和漫长。实际研发时,可能需要数月甚至数年的时间,以及耗费数百万美元甚至数千万美元才能意识到我们走错了方向。
因此,我们所要做的是使用机器学习的方式来构建公司,毕竟,这是帮助我们在其它许多领域做出真正有效地预测的技术,并将其作为一种在完全不同的基础上构建药物发现和开发过程的方法。这就是我们真正想要做的,给患者带来更好的药物,并且更快地完成研发。
Lukas:高水平的药物发现标准过程是什么?机器学习的适用性或可改进的地方有哪些?
Daphne: 我不知道人们是否真的可以谈论出一个标准的过程,因为在过去几年里,这是一个不断发展的过程。药物发现的研究在学术中心进行,它是一系列生物学方面的研究,旨在揭示与疾病有关的基因和生物学机制、途径。然后有人提出了一个假设,如果对基因进行干预,它可能会治愈或至少有助于疾病治疗,而治愈是一个非常宽泛且雄心勃勃的词,我们治愈了一些罕见疾病,这也有助于治疗其他某些疾病。
首先,你必须确认目标。通常是用动物实验来模拟疾病的某些方面。对于我们今天所患的许多疾病来说,动物并不是自然患病的。所以你必须在动物身上制造疾病,然后尝试在动物身上解决它。通常情况下,你所解决的并不是真正的疾病,因为有些模拟非常不精确,有时甚至是完全错误的。
然后,一旦有了目标,通常会寻找一种帮助调节目标的化学物质。它有不同的治疗方式,也就是不同的干预方式。不管怎样,30、40年前我们的主要治疗方式是使用小分子。然后出现了生物制品,它们是更大的分子。现在基本上是蛋白质和抗体,抗体也是一种蛋白质,它在许多情况下更有用,但目标范围更窄且更难实现。
随着时间的推移,过去两年中出现了更多的治疗方式,帮助干预身体和其他类型的机理。在人们都在谈论基因治疗的情况下,我们可以介入并干预DNA本身。目前为止,只有很少的领域得到了批准,但这是一个不断发展的领域。如今使用的COVID-19疫苗,人们谈论的RNA治疗是对RNA级别的DNA和蛋白质进行干预。
因此,所有这些方法都是在扩大对人体进行智能干预的能力,从而对疾病过程进行干预。 通常情况下,它失败的地方在于一开始我们根本不了解生物学。因此,我们在干预目标时的识别能力,对临床的益处实际上非常有限。很多时候,我们猜错了。有时,我们也无法理解干预特定目标可能带来的所有其他影响,比如特定基因在身体里做了其它预料不到的事情,如果我们以一种想象上可能有益于身体的方式进行干预,反而可能是有害的。
这就是我们做出有效预测能力比较欠缺的地方,也是很多药物失败的原因。现在,失败率在90到95%之间,它取决于你把什么当做分母,就像你开始计算什么时候把项目作为一个药物项目。也就是说,每20种药物中只有1种到10种药物中会被批准,而实际上最终对患者产生真正影响的药物甚至更少。
如何才能更好地做出预测,这就是我们想要解决的问题。首先,对于特定患者群体的既定疾病,你希望干预的目标是什么?然后,如果想在这个目标上进行干预,加入什么样的化学物质的副作用更小,可能会有更好的类药特性(drug-like properties)?合适的患者群体有哪些?我认为,我们今天遇到的很多失败都是出于试图去追求更广泛或错误的患者群体。
因此,随着时间的推移,我认为在这个过程中的很多问题,机器学习可以进行干预,比如目标、药物、患者群体以及能告诉我们药物何时起作用的生物标识物,以便我们可以缩短时间。如果没起作用,则将患者转向另一种药物。所有这些都是我认为机器学习可以发挥作用的领域。
Lukas:那机器学习是否试图模拟真实的物理场景?它是否忽略了这一点,而只是回顾过去已经尝试过的实验?
Daphne: 我想这些人们都试过了。正如我们在其他应用了机器学习的案例中所看到的那样,整合大量关于世界的先验知识有一些好处,但随着时间推移,这也是局限性所在。 所以我以前在计算机视觉领域工作时,那时人们仍然试图创建光如何从表面折射的模型,并为计算机视觉构建几何模型,以及消除模型等等。我们现在不再这样做了。
我们现在要做的是创建非常庞大的训练集,为计算机提供足够的数据,使其在无需了解很多关于世界结构的信息下,就能够学习其中的模式。在大多数生物学问题上,我们还没有达到临界点,因为现有数据还不够充分。 所以在很多情况下,整合了我们对生物学的更多理解的模型实际上比信息较少的模型表现得更好。
但在我看来,在过去一年中,一个真正的亮点成就就是DeepMind的AlphaFold算法取得了惊人的成功。该算法使用了与AlphaGo类似的机器学习工具,基本上用来解决蛋白质折叠的问题,也就是,我们已知一个表示蛋白质的氨基酸序列,需要预测它在3D空间中的样子。
在过去多年里,已经有多个小组构建了计算机工具。他们结合了机器学习,但肯定都融合了大量的物理、化学、电子等方面的先验知识,去探索折叠的蛋白质是什么样子。它们都达到了一定的合理的性能水平,但暂时还不可用。
顺便说一句,每两年举办一次的CASP竞赛是为机器学习模型设计的最好的盲盒测试比赛,而且无法作弊。在这种情况下,实验室通过生成特定蛋白质的晶体结构(即3D结构)来对其进行实验,他们会将序列提交给CASP竞赛,并且在竞赛结束之前,他们不会放出已解决的结构模型。所以在CASP比赛中,你可以看到性能有些停滞不前,而去年,DeepMind突破了这个瓶颈,并取得了一项可用于解决实际生物问题的性能。
他们做到这一点的方法是,不在模型中加入很多关于物理和化学以及各种化学键的先验知识,而是给机器学习模型足够多的序列和软结构(soft structures)来训练。这表明我们需要认真思考如何为生物或化学问题生成足够的数据,这样就可以让机器学习突破上限并提高性能。
这就是我们在Insitro所要做的,也就是在我们关心的问题上建立大规模数据生产能力,以便能够根据需求生成足够高质量和足够大的数据,这样就可以训练机器学习模型来解决药物发现过程中想要解决的问题。
Lukas:2004年,你在研究机器学习和生物学的应用,其中一些听起来和你在Insitro所说的非常相似。那么,当你在将近20年后创办这家公司时,是生物学有进展,还是机器学习方法或者数据有所改进?使Inistro成为可能关键因素的是什么?
Daphne: 实际上,这是三者结合后的结果。首先是拥有了比以前更多的数据量。因此,在过去十年左右的时间里,在有利于数据创建的生物工具方面取得了巨大的进步,包括DNA、RNA测序可行性的提升,显微镜的吞吐量和性能都有了巨大的提升。在化学方面,DNA编码库可以在一个试管中混合数亿个分子,微流控技术可以让你在微小的液滴中进行实验,可以实现空间分离和扩展。所有这些技术都是十年前不存在的。
当然,不要忘记CRISPR技术,现在可以开始以一种非常精细且快速的方式编辑基因组,然后探索以一种特定的方式编辑基因组时,细胞会发生什么变化,这是我在做的事情。此外,现在机器在图像识别、在测序数据中识别生物模式等方面,机器明显好于人类。
Lukas:在你看来,2004年至2018年间的主要洞察是什么?真正具有变革性的事是什么?
Daphne: 我认为那是三件事的结合。首先,我们有更好的机器学习模型。 我们不只关注简单的模型,而是愿意咬紧牙关地对待非凸模型,它不仅仅是一个单一优化的问题,而是很大程度上依赖于你如何优化它们。
其次是存在足够大的数据集。 尽管空间很复杂,但人们可以训练这样的模型,并且不会从根本上发生过拟合。我认为,像ImageNet和其他网站在这些方面做了足够贡献,它们真的创造了足够大的数据集,这样人们就可以开始训练这些模型,数据集和模型本身一样重要。
最后是按下按钮就能进行计算。 我现在感觉自己真的老了,以前,当我们不得不做需要大量计算的事情时,只能用本地IP人员精心维护的本地计算集群,花六个月的时间来跑结果,并且祈祷没有内存泄漏,因为你一点都不想再冒险去做一次。现在,有了云计算后可以在10000台机器上完成这项工作,一天之内就会有结果。对我来说,这比其他任何事情都更具变革性。
由于我们能够做到这一点,再加上PyTorch和TensorFlow这样的平台,或使用Adam让我们能够更快地编程。 我们现在能在迭代循环中试验和改进模型,这是以前从未能做到的。所以,即使我们让初始模型迭代第二次、第三次、第五次,甚至第二十次,并使其变得更好,而模型它也会随着时间的推移变得越来越好
因此,更好的软件加上更好工具的结合,使得快速的迭代周期成为可能,坦率地说,这比其他任何东西都更具变革性。
Lukas:像视觉数据集那样,生物学中是否也有类似可用的数据集?我猜,那可能有更多的专有数据。
Daphne: 至少从我所做的工作来看,其中一个最具变革性的数据集是英国生物库(UK biobank),它有50万人的基因数据,有临床结果,包括纵向临床结果,以及非常深层的表型(phenotyping),涵盖不同类型的成像、血液生物标志物、尿液生物标志物以及一系列其他协变量,比如环境因素。
这一数据集本身就具有真正的变革性,无论是在新方法的开发方面,还是在它给我们提供的关于人类生物学的见解方面。还有其他一些数据集也非常重要。我认为,它们的数据没有那么大或精的,但仍然相当重要。
还有TCGA,它代表着癌症基因组图谱,这是一个相当大的癌症数据集,涵盖不同的肿瘤类型。还有GTEX数据集,它涉及了不同组织和不同个体的不同基因表达,因此你可以查看个体内不同组织的基因表达差异,也可以查看个体间相同组织的基因表达差异。还有其他比如EndCode,代表不同细胞类型的DNA标记。
数据集是一个挑战,因为生物学中的噪声比其它许多领域中的噪声更重要。 这就是为什么我们要以这样的方式构建Insitro,因为我们有一个重要的组成部分就是生物实验室,其主要目的是生成大量数据,以便我们能够以正确的方式训练模型。
Lukas:在这一领域中,是否有迁移学习的概念,其方式与视觉中的应用是否相同?
Daphne: 我认为存在迁移学习,甚至在图像中,也有这样的例子,人们在网络上的图像上训练相应的模型,然后迁移到显微镜图像上。
如果你训练显微镜图像,我希望它会更好。人们已经做了相当多的工作,尤其最近在大量化合物化学结构的图神经网络模型的预训练方面,使用这种类型的编码作为你有较少训练数据领域的预训练模型,比如化合物的具体性质。因此,如何利用那些可能较少监督信息的大型数据集,作为一种能够在小型数据集上构建有用的模型方法,我认为这实际上是未来几年将变得重要的一个大方向。
Lukas:你怎么看蛋白质折叠在药物发现中的重要性?
Daphne: 蛋白质折叠是否是药物发现的关键并不是那么重要。它可能是个问题,但肯定不是阻碍药物发现的核心。人们试图用一系列其他方法来解决问题,但机器学习出现后,有了正确类型的模型数据,才能够突破这个问题。对我来说,这才是真正的经验,而不是我们改变了药物发现。
Lukas:你们的抱负应该不是只制造一种药物,而是建立一种制造大量药物的机制,如果看一下“命中率”,在运作企业时压力应该非常大。
Daphne: 压力太大了。尤其是目前每个实验至少花费数千万,甚至数亿美元的时候。我们经常思考该走哪条路,如何使这个过程更快?如何使它成本更少?如何更快试错,这样就不会在即将失败的事情上花费数亿美元?如何更早地认识到某些事情是错误的?这实际上就是机器学习想要做的事情。如何确保有足够的资金?从而在初期不成功的情况下,给自己更多的机会。
2
线上教学:Coursera、Engageli的源起
Lukas:我想问一下你的其它工作。关于Coursera和教学,你不再教书了是吗?
Daphne: 是的,我不再是斯坦福大学的教授了,现在是一名兼职教授。
Lukas:我觉得很难过,我只是想说,你是一位非常棒的老师。虽然你不是那种最热情的老师,但过了16年或17年后,会让人很难忘。我觉得我很快就从你那里学到了很多东西,当我做你的助教时,我看到你有多在乎教学,而我所在的数学系却不怎么在乎。就好像有人在这里,真的很想花点时间好好教学,这种感觉真的很好,我真的很感激。所以我对你后来开了一家以教学为中心的公司并不感到惊讶,我想听听关于它早期发生的事情。
Daphne: 教学一直是我的激情所在。作为像斯坦福这样顶尖学术机构、顶尖研究机构的研究人员,在教学上投入太多精力并不必要,但我想在这件事上花点时间。
我一直认为教育只是一个机会之门,而不仅仅只是教学。 如果你在能让学生在相对还很年轻的时候走上正确的道路,教师使学生能够学习并成为他们能成为的人,而他们必须做出投资并想要得到它。教师不用学习别人,而他们却必须学习。这是一个不可思议的驱动因素。
在我的家庭中,我的父母都有接受高等教育的机会,这为我创造了很多其他人没有的机会。我也一直尝试着教育我的孩子们,对我们这些享有如此多机会的人来说,我们有责任回报社会。
在这一点上,我的回馈方式是通过教学。事实上,这也是我最终离开斯坦福大学的原因。因为我觉得,通过创建Coursera,开放教育的人数比我在斯坦福大学教的人数多得多,我有机会以更大规模回报给全世界。
事实上,这也是我之所以选择创办Insitro的原因。我觉得现在是一个不可思议的时刻,能以一种可以彻底改变世界的方式将两种学科结合在一起。这是我义不容辞的责任,如果我能做到的话,实现这一点几乎是道德上的当务之急。 这不是很多其他人能做到的。
Lukas:我看到你还创办过另一家公司Engageli,那似乎是一个教学工具。这是你之前希望Coursera要做的事情吗?
Daphne: 从某种意义上说,这是由我们在这次疫情中观察的结果所驱动的,当时,我有两个十几岁的孩子开始在Zoom上上课,他们在学业上表现很好,也很勤奋。在某个时刻,我正看着他们,注意到老二在开课几分钟后,确保老师看到她,就会关掉相机和麦克风,用剩下的时间去完善她的模拟人生游戏(Sims game),而老大则会花时间在Netflix上看剧。
我想到,如果这是我的孩子们正在做的事情,是因为他们有这些机会,而其他那些没有同样条件的孩子会发生什么,他们在学校的班级要大得多,老师们花在视频教学上的时间要更少。所以这真的是其中很重要的一部分。
但说实话,当我在斯坦福教学时,最初的目的也不仅是教知识,同时也在努力让斯坦福的教学变得更好。因为我觉得,我至少每周都要花三个小时在课堂上为你这样的人上课。
如果我们利用那段时间,只是站在全班同学面前,对着你们唠叨,重复讲述了一次与我一年前在课堂上没什么不同的一堂课,这真的是利用课堂时间的最佳方式吗?或者我们可以把时间花在参与和互动上做到真正的学习?这是一种积极的努力,而不仅仅是坐在那里看着教授对你说话。
这才是促使我创建这个项目的原因,它最终也成了在Coursera中构建的功能,可以让人们一起学习,即使他们不在同一个地方。
我们发现,无论是否身处同一间教室,网上教学实际上效果更好。 现在的教学方式是,一群人坐在音响效果不太好的大礼堂里,所有人都面朝前坐在固定的座位上看着老师。而线上教学能够灵活地让你与所在团队的人聊天,作为一个团队一起工作。
真正创造一种环境,去促进主动学习是一件非常难做到的事。 我希望,我们正在经历的这场可怕疫情带来的少数好处之一是,虽然我们不能真正回到疫情之前的教学方式,但我们会有更好的教学方法。
3
机器学习的最大挑战与数字生物学
Lukas:当我几年前还是你的学生时,我记得你对概率图模型非常感兴趣,它存在某种因果关系。你似乎可以在数据中发现这一点,这真的很酷,也很令人惊讶。这个领域的发展现在发展怎么样了?我已经没听过什么消息了。
Daphne: 在过去几年里有很多关于深度学习的讨论,因为深度学习能够做的所有重大变革,是因为我们能够摆脱特征工程,而这在我们处理的大多数任务中都是一个痛点。我认为,仍然非常有必要去理解因果关系。
我想到我们在药物发现方面所做的工作,一个基本问题是,如果我对人类进行这种干预,那会带来临床上的变化吗?对人类有益吗?这是一个介入性问题。如果你把这个问题和观察性问题混为一谈,你很容易就会陷入相关性不同于因果关系的各种陷阱,而且从因果关系的角度来看,很多相关性完全朝着错误的方向发展。所以你会发现自己干预了与基本疾病过程无关的症状或后遗症。
我认为,即使在更广泛的机器学习领域,人们也越来越认识到,因果关系是让机器学习进入下一个阶段的一个尚未解决的大问题。 我之前参加NeurIPS会议时,Yoshua Bengio强调,这是一个尚未解决的主要问题,不仅在于其内在的重要性,而且也关乎理解因果关系和使你能够用更稀疏的数据进行学习的因果过程,因为你有一个更结构化的表示。我认为可能发生的事情是,钟摆已经转向了深度学习方面,它有巨大的优势,这两条道路正在交汇,在这方面我们将看到有很多有趣的工作。
Lukas:你们正在尝试使用机器学习来发现新药,要实现这一目标,日常挑战是什么?
Daphne: 我要强调两个方面:一是生物学真的很难。 你处理的是活体,它们有很多变量,取决于房间里的确切温度,取决于技术人员,很多你通常不会想到的事情,以及在更精确的科学中我们不需要处理的事。那么,如何创建足够健壮的数据集和稳健的实验程序,以便噪声不会“压倒”信号,变异性不会“压倒”信号?
二是为了做我们正在做的工作,需要创造一种真正独特的文化,至少在一定程度上,使人们能够与不同学科的人交流。 这是我们在机器学习的许多其他应用中不需要做的事,如果你在为网络推荐的机器学习应用,不需要深入了解亚马逊网站上的商品目录,就可以编写推荐算法。但生物学不是这样的,你需要有足够的理解,才能与生物学家或化学家进行有意义的对话。
因此,要招募具备跨专业技能或愿意学习足够知识的人进行有意义的对话,并作为真正跨职能团队的一部分与其他学科的人一起工作。 我们没有培训出足够多的这样的人才,我认为用这样的人才和正确文化来创建公司是我一直在考虑的事情。到目前为止,我们在Insitro的工作做得非常出色,但这肯定是一项持续性工作。
Lukas:机器学习中被低估的议题是什么?如果你有更多时间,会研究什么新事物?
Daphne: 在纯机器学习前沿,我们之前讨论的一个基本问题是,我们如何利用大量有监督、无监督的数据来学习一种表征,使我们能够非常有效地从更小的数据集学习。当然,人们会说,“好吧,我们已经在ResNet中学到的任何图像表示,还有word2vec等等”,但我不认为我们真的把这个领域推到了极致,如何将这些不同类型的数据集结合在一起?组合目标函数的正确方式是什么?我认为,随着时间的推移,在如何学习和完善一种表征形式方面,将会有很多有趣的进展。
如果从机器学习中拓展一下,问一下真正的大机会在哪里,那就是生物学和数据科学,也许还有工程学的融合。 如果你看一下科学史,历史上有过这样一个时代,那就是一个领域在相对较短的时间内真正起飞并对世界产生了巨大影响。在19世纪末,化学与元素周期表有关,然后在20世纪初,物理学与理解物质和能量在空间和时间之间的联系有关。在20世纪50年代,计算机技术和硅晶片的使用成为真正能进行计算的一种方式,甚至能做人都做不到的事情。
然后在20世纪90年代和21世纪初,出现了分叉。数据作为一个领域,它来自计算,也来自运筹学、统计学和神经科学。另一个是我所说的定量生物学,开始以一个非常强大的、可重复的、定量的方法测量生物系统的各个方面。这就有了测序和显微镜以及我之前提到的所有东西。
下一个科学的新纪元将要出现的大机遇是我称之为“数字生物学”的领域。 对我来说,它有以逼真的尺度来测量生物学的能力,使用机器学习和数据科学来解释我们得到的测量结果,然后使用生物工程技术回去干预生物,让它做一些本来不会做的事。这对人类健康会产生影响,对生物材料、农业技术、环境科学和能源科学也有影响。
(本文已获得编译授权,原文:
https://wandb.ai/wandb_fc/gra...)
OneFlow v0.7.0最新版本已发布,欢迎下载体验: