近日,阿里云对外宣布其容器服务调度GPU云服务器启动加速计算,最快只需60秒即可完成新冠病毒的核酸对比工作;同时将向医疗科研机构、疾控中心等一线病毒研究机构免费开放基因计算服务,技术可大幅提升宏基因组测序、疫苗研发相关的处理效率。
基于此,晶少专程采访了阿里云基因计算服务AGS负责人、高级技术专家李鹏,集中呈现针对GPU和容器技术大幅提升核酸比对速度的有关细节以及关于阿里云基因计算服务(AGS)的诸多信息。
据晶少了解,本次阿里云基因计算服务AGS病毒比对能力-mNGS宏基因组比对从设计、研发、验证到最终上线只用了短短20几天,但李鹏所在团队却每天肩负着艰苦卓绝的工作。很关键的一个出发点在于,除了提供针对新冠肺炎病毒中mNGS宏基因组测序数据的快速比对能力之外,更重要的是让研究机构更专注业务创新,而不是数据本身的重复处理工作,这其中就涉及到了生物类型计算解决方案所具有的鲜明特殊性。
晶少:生物计算解决方案有一定的特殊性,相比其他类型的技术解决方案有何不同?
阿里云基因计算服务AGS负责人、高级技术专家李鹏:不同于常规的计算,基因计算对海量数据计算和存储能力有很高的要求,主要通过容器计算的自动伸缩特性和阿里云ECS自动伸缩能力的打通,这才能让AGS具备大规模调度云上计算资源的能力。具体来说通过特定算法对基因数据进行合理切分后,可实现大规模的并行计算以及处理TB级别的样本数据。
过去的基因计算服务以集群化,混合云,弹性为主的AGS工作流服务。但在走过的两年时间里,阿里云提供了基于容器混合云的基因计算方案,整体技术是混合云架构下的云原生容器,达成云上云下资源一体,跨地域集群统一管理。2020年,在以往技术沉淀基础上,阿里云升级了AGS的能力,用公共云API化服务做到即开即用、用完即走,以这次的病毒检测为例,在提供了自定义病毒库灵活性的基础上又使得调用的无服务化,一次调用即能产出比对的最终数据结果并返给用户。
实时荧光定量PCR(RT-PCR)和病原宏基因测序(mNGS)是最早用于确诊新冠病毒感染的方法。由于两项技术各有优劣,联合使用方能实现互补。
RT-PCR是目前新冠病毒的核酸检测主流方法,成本较低,操作简便。现已有众多新冠病毒RT-PCR试剂盒可选,但由于病毒浓度和试剂盒质量问题,其结果出现假阴性较高,导致医生和患者往往需要重复多次检测和长时间等待检测结果。
mNGS的技术优势可通过一次检测便能排查所有已知的病原体,有效避免重复采样的麻烦操作,以及多次检测筛查所需大量样本难以实现的问题。当病毒经过数代传播,还会产生变异,mNGS也是较为有效的追踪方案,配合病毒库可精准确定病毒的代际关系,甚至找到病毒源发地。基于mNGS基因序列比对的分析方式,一旦病原体的基因组已知,通过更新数据库,就可实现高效准确检测出相似病毒的功能,同时对新型病毒以外的其他病原及混合感染进行综合鉴定。但mNGS的缺点是成本较高,需要测序仪和专业的生信分析,并且操作复杂、检测时间相对较长,因此无法实现大范围推广和快速诊断。
如今通过使用阿里云容器服务,科研人员只需在阿里云上通过命令行AGS rna-mapping API 启动比对过程,随即阿里云容器服务调度GPU云服务器启动加速计算,60秒内即可得到高质量匹配reads的数据和初步质量报告,为多种病原体检测和进一步的新冠病毒蛋白质研究及变异研究提供快速准确的数据支撑。
基于此我们发现,本次阿里云方面提供的云服务与以往显著不同,“全套”思想贯穿其中,也就是说所使用的机构不再需要购买额外计算资源,更不用关心如何搭建集群以及考虑算法和网络等诸多问题,只需将数据放入对象存储中并上传,等待授权完成后即可调用云服务来处理数据,产出结果并生成有关报告,“既开即用、用完即走”的特质表现突出。
另外AGS在处理测序仪下机数据的比对、排序、变异检测等环节拥有目前云上最快的加速比,可以达到普通CPU处理速度的百倍,同时又保持了BWA/GATK等主流金标准软件的精度和召回率,大幅度降低了计算的成本,性价比十分可观,也足见其技术探索的功底深厚,但究竟是何种机缘促成了容器技术与基因计算间的火花迸发?
晶少:何时何种契机开始针对容器技术加速基因计算做有关探索的?这种API调用更多意味着什么?
阿里云基因计算服务AGS负责人、高级技术专家李鹏:我们观察到,容器技术一方面在数据分拆、质量控制、Call 变异提供了标准化流程化、加速、弹性、鉴权、观测、度量等能力;另一方面,高价值挖掘需要借助容器化的机器学习平台和并行框架完成大规模线性代数计算建立模型,实现精准医疗。过去的两年中,AGS一直在行业里通过集群化、混合云,弹性为主的AGS工作流服务方式帮助大型的基因测序企业完成当日处理100TB以上的数据的,1年数十PB数据的处理任务,成果显著。
而这种API化的尝试确实能够有效帮助用户摆脱集群的复杂性,资源创建和维护的代价,以极少的存储成本就可以完成任意数量的按需计算需求,成本支出只需要按照处理的数据量和计算量来支付, 实现真正的无服务化和Pay as you go。
有消息表明,阿里云其实早在疫情严峻阶段就宣布向新冠疫苗研发科研机构免费提供一切AI算力,目前已收到了包括浙江大学医学院、GHDDI全球健康药物研发中心、清华大学医学院、北京大学医学院等国内外数十家权威科研机构的申请,第一批申请的算力资源已部署上线、不断为疫苗研发提速加码,但个中情况具体如何呢?
晶少:目前对外申请算力部署的整体情况如何?效果怎样?后续的服务支持有哪些具体方面?未来在助力疫苗药品研制方向有何规划?
阿里云基因计算服务AGS负责人、高级技术专家李鹏:目前AGS已经开通了国内的多个地区的服务,特别是北京、深圳、杭州等都有大型基因公司开始生产使用;另外国外的多个地区也开通了服务,例如法兰克福等疫情重灾区也可以访问到AGS服务。
晶少:新冠状病毒疫情发生后,为了帮助抗攻击疫情,阿里云免费向全球公共科研机构提供高性能计算、SCC 超级计算集群和 CPU/GPU 机器、云超算及 AI 等技术,包括助力在E-HPC云超算上进行药物研发等,这与AGS关系如何?AGS在阿里云技术的对外输出中占据了何种位置或者扮演了怎样的角色?
阿里云基因计算服务AGS负责人、高级技术专家李鹏:AGS主要定位于公有云的开箱即用的Serverless服务,提供给各个生态伙伴,例如基因公司、研究机构、学校等PaaS服务,是可以被集成在各种云端SaaS应用中来实现效率的百倍提升和成本的大幅缩减。当然E-HPC也是阿里云中很有优势的产品线,主要面向科研机构做高分子分析等高性能计算,当然科研机构、疾控中心可以同时使用AGS和E-HPC来形成科研项目互补,并不冲突。
采访接近尾声,可以想见的一点,未来AGS基因计算会继续朝着Serverless与按量付费、按需弹性的持续被集成的路线发展,有幸提供各种人类基因组、动植物以及病毒等基因的加速处理云服务。总体来看随着测序成本、计算成本以及分析成本的持续下降,人们有理由相信基因测序和精准医疗在不远的将来将进入到普通人的常规健康服务列表中,人类对自身基因认知的深入必然推动寿命提升以及战胜各种疾病的可能,云计算服务AGS会推动国内乃至世界范围内普惠精准医疗早日到来。
战疫之下,究竟还有哪些黑科技亟待被发掘?我们更多只需拭目以待!