提前恭喜RoseTTAFold又获奖了

不搞生物信息学的小伙伴可能不太知道RoseTTAFold,但它可是个神器,能够准确预测蛋白质的结构,是2021年Science杂质的年度科学突破奖第一名!直接竞争对手还包括Merck的新冠药以及火星观测等,可见影响力之巨大,突破之神奇。但是,为什么要说“又”呢?因为还有个重磅科技网站GeeKWire(科学极客网)马上就要揭晓生命领域创新奖了,RoseTTAFold位列最后五绝,不出意外的话大概率还是它夺冠。于是就想反正我也囫囵吞枣地了解过一些,顺带写下来,也方便自己日后回忆参考。

RoseTTAFold预测的白介素12跟受体结合图

估计每个人都多多少少知道AlphaGO(阿尔法狗)吧,它是谷歌旗下的DeepMind公司开发出来的围棋对弈AI,核心技术的就是“深度学习”,人类起手下一盘,它下一百盘,还不吃不喝不休息,这么搞个一段时间(名为“训练”),谁能干的过它。一年后AlphaGO的二代兄弟AlphaGo Zero就已经横扫棋坛,0封人脑,实现不败。未来指望哪个不世出天才击败它也是不可能的,除非跟它改打麻将。有点扯远了,DeepMind这家公司野心肯定不是仅在围棋上,人家CEO说了,围棋只是试探功力,最终是发展AI技术帮助人类。首当其冲就是医疗领域,哪个方向呢?蛋白质结构预测。

蛋白质结构

蛋白质是构成生命的基础物质,根据基本法则“结构决定性能”,想要研究蛋白质的性能,肯定是绕不过去蛋白质结构。然而说起来容易做起来难,这货的结构就参看上图,一根或者多根长长卷卷的肽链盘绕起来,像一大团揉碎的纸,但还不是一张纸完事儿,还可能好几个蛋白相互交错相互作用共同构成分子机器发挥功能,然后上面再连着各种非肽链构成的枝丫横生化合物,剪不断理还乱。但要说蛋白质结构没有规律那也不对,真要是没有规律也就没有生命了,特定的蛋白质有特定的功能,因此它一定是有特定的结构规律的。传统的结构生物学怎么做呢?最直接的——上仪器!什么X射线、核磁共振、分子光谱、非变性质谱统统上上,大家都测一个蛋白质,然后找各种能够说的通的理论来描述跟推测它是个啥结构。尤其是万众瞩目的冷冻电镜技术,我直接给你照相!马上看!但是,问题也来了——太贵看不起~  

冷冻电镜,FEI公司出品,现属于赛默飞世尔

看到上面几个货没?动辄上千万,国内而言也就清华北大西湖大学中科院等为数不多的几家单位有,但是蛋白质有多少个?知乎大神告诉我们,有确切实证的仅仅十几万个;确切知道存在的五十多万个;根据证据推测的,有1亿3千多万个!这天文数字可以说上冷冻电镜,肯定没戏。但人是活的啊,大力出奇迹的方法走不通,那就试试四两拨千斤。开头不是说了么,上AI!二十一世纪可不仅仅是生物技术的时代,也是网络科技时代。显卡内存都上到多少G了,移动硬盘都弄出多少T了,咱费点电,让AlphaGO干

就这么着,DeepMind玩起了这个,开发出的专门预测蛋白质结构的AI,叫AlphaFold,Fold就是折叠的意思,还挺贴切。

还是从“训练”开始,跟围棋相似,AlphaFold先输入此前人类得到的准确的蛋白质结构数据,结合组成蛋白质的氨基酸序列,开始找规律,一遍遍地找,优化自己的预测思路,然后给出它认为最合理最符合所有已知纪律的结构,哎?就成了!当然也不是绝对准确,但可以讲八九不离十(严谨起见,仅仅是说目前就它预测出的结果来说)。这事儿闹的,有些辛辛苦苦折腾X射线结晶跟冷冻电镜技术的小伙伴还有些郁闷——这也行??不仅学界,一些仪器厂家也惊出一身冷汗,此是后话。

历年比拼蛋白质结构预测竞赛冠军得分

说了半天也没说到主题,今天讲的是RoseTTAFold(罗塞塔折叠AI),怎么还不到?马上就来了。DeepMind的AlphaFold也有缺点,除了必须依靠大量实测数据进行训练提升功力境界之外,还有一点值得注意——这是一家公司,不是来搞奉献的,不赚钱怎么可能?而且人家用那电脑都快赶上银河计算机了,就算给你软件你都跑不起,那这事儿就对世界上绝大多数人不友好了。于是,自有理想主义的救世主登场,也就是今天的主角,RoseTTAFold。

跑AI的实验室机房

RoseTTAFold是美国华盛顿大学的David Baker团队开发的,同样是基于深度学习,但是采用了不同的算法策略,当然我不是这个专业的细节就完全看不懂了。直接提最最关键的是,RoseTTAFold完全免费的,全世界随便下载。而且,不知道是不是我理解错误,RoseTTAFold是众包形式的,啥情况呢? 就是你连上网,跑Rosetta,OK;你不跑的时候,电脑可不闲着,用算力替别人跑。大家都在圈里,大家共享算力,大家共同受益!我的小破电脑不行,没关系,众人拾材火焰高啊! 这招儿太高明了,读到这儿的时候我心里喊啥大伙儿都知道。不过后续还有说法是BakerLab是拿出自己的服务器让大伙儿在上面跑,这也行啊,左右用RoseTTAFold代价极小……RoseTTAFold等于是给生物学界乃至医学制药界开了一扇天窗,基本上可以说颠覆了以往所有认知。当然RoseTTAFold预测的准确度也是可以的,跟AlphaFold不相上下,不然也不会有这么多吹捧。这事儿还有后续,自打RoseTTAFold免费开放之后,DeepMind也坐不住了,好嘛你个老头子坏滴很,搞偷袭~ 于是紧跟着也开放了AlphaFold的源代码,等于说现在两大AI都免费了,无论如何是一件幸事。

Baker教授在实验室

现在呢,David Baker正在把AlphaFold 2代跟RoseTTAFold相结合,并成功预测了更多蛋白质-蛋白质复合物的结构,反正也都免费了嘛。于是又喜提Science文章一篇。业内也对David Baker拿到诺贝尔普遍持有相当积极的态度。当然此人也不是横空出世,此前玩了几十年的蛋白质结构预测AI了,当时的名字就是Rosetta,跟那个彗星探测器一个名儿。老外命名自己的小作品总爱搞点宗教哲学神秘主义。

Baker教授2011年底在Science上发表的文章

最后呢,也得把话说回来,AI再牛,有俩个大山越不过去:一是创造性。它只能从以往的确切的结果里面找规律去预测,如果没见过,那就废。不管是AlphaFold也好RoseTTAFold也罢,都有这个问题,见过的预测的就准,没见过的预测结果极差。二是算法。算法也不是从地里长出来的,是人类的大脑辛辛苦苦地想出来推出来的。就好像有一些物理学理论啊公式啊,虽然暂时看上去怎么测试都对,但还是不可能包罗万象穷极一切,不然,杨振宁怎么得的诺贝尔奖。

总之呢,这是科学界一巨大突破,提前恭喜RoseTTAFold又获奖了!

本文所有素材取自互联网,如果侵权请留言。喜欢请点赞支持哦,作者能有动力写出更多更有意思的小文儿~

你可能感兴趣的:(提前恭喜RoseTTAFold又获奖了)