(IBM最新推出的芯片内加速型人工处理器Telum)
IBM是当今世界为数不多的具备CPU芯片设计与制造能力的公司之一,也是企业级混合云与AI的领导厂商之一。作为IT产业唯一一家具有百年历史的高科技企业,IBM始终以制造下一代“商业机器”为己任。早在1960年4月,在一份给IBM管理者的备忘录中,当时的首席执行官小沃森谈及IBM面临的问题是制造“会思考的机器”。如今,60多年过去了,聚集于企业市场的IBM在“会思考的商业机器”方面,创造了历史性的进步。
2021年8月23日,IBM在年度Hot Chip Conference大会上,推出了历时大约三年研发的带有片内AI加速器的7纳米处理器Telum,将CPU计算核与AI计算核集成到一个芯片上,可以同时处理传统企业计算以及AI计算任务,例如在处理金融交易的同时进行实时防欺诈AI推理计算,让银行、零售商、保险商等能够实时拦截恶意欺诈而不是在事后追回。要知道,仅美国消费者在2020年就因欺诈而损失高达33亿美元,而在2019年才为18亿美元。
IBM表示,基于Telum芯片的商用硬件系统将在2022年上半年推出。在预热沟通会上,IBM Z & LinuxONE产品管理副总裁Barry Baker介绍,阿提米斯是希腊神话中的狩猎女神,而Telum即为阿提米斯手中的长矛名称,因此Telum的命名即希望激发对“向前移动、速度和精准”的思考。
笔者认为,考虑到IBM z14已经实现一台z14即一个企业混合云数据中心,那么基于Telum的IBM商用硬件系统无疑将重塑企业混合云与AI战略。
Telum芯片并不是IBM凭空想像而创造出来的黑科技。金融业务一直是被誉为企业级市场的“皇冠”,传统银行已经是国民经济的支柱之一,而现代数字金融又已经融入到了众多行业企业的业务流程,在线保险、在线零售、在线医疗等等几乎所有数字化转型的企业和机构都会涉及到在线交易。凡涉及到在线交易,就有金融欺诈的可能。AI人工智能在给企业带来全新反金融欺诈技术的同时,又迫切需要从事后处理转到实时处理,才能带来更高商业价值。
(IBM Telum用于实时AI推理计算)
把AI用于实时反金融欺诈,面临着三大挑战。首先,以深度神经网络为代表的AI算法正在向需要更大模型、更大计算量、更大功耗的方向发展,这让AI计算很难嵌入到实时的业务交易处理中;其次,目前已有的AI算法软件,需要将数据从CPU芯片传输到片外的其它地方,有时甚至要通过互联网或企业网传输到远处的数据中心进行AI计算后,再返回到数据源头,这会导致由于数据传输延时而无法及时处理可能的欺诈行为;第三,即使将数据从CPU芯片传输到同一硬件系统里的独立AI加速卡,也会导致安全风险。
IBM院士、IBM研究院加速器架构和机器学习高级主管Kailash Gopalakrishnan表示,实时AI计算的挑战带来了每10年到30年才会发生一次的重大企业计算架构变迁。上一次重大企业计算架构变迁,以IBM Z主机和Power服务器为代表;而本次推出的Telum,其对企业计算的影响力和影响程度绝不亚于Z主机和Power服务器。
笔者认为,随着Telum以及基于Telum的商用硬件系统的推出,AI在以混合云为代表的下一代企业计算中将真正无处不在——这才是“狩猎女神”的“猎物”。
Telum芯片设计是IBM全栈式系统设计的最新成果,结合了芯片设计、硬件系统、系统驱动和固件、操作系统和中间件等全栈的联合优化,而这一整套的全栈系统设计是为了满足企业的关键业务计算需求。Telum作为下一代IBM微处理器芯片,可处理每秒钟数以万笔计的交易业务,同时实时完成AI推理计算,也就是说新的芯片在一个数据流中、在毫秒级响应时间内同时完成传统及AI两种计算任务,而不用把数据传送到CPU以外的地方。
(IBM Telum可到32个芯片互联的系统)
Telum是IBM耗费三年的最新研究成果,是IBM研究院AI硬件中心首个研究成果的商用转化产品,是IBM研究院、IBM Z产品部门以及产业生态伙伴(三星是7纳米制程结点技术7nm EUV的产业合作伙伴)的联合努力成果,也是CPU和AI加速器领域的最新黑科技。IBM Telum采用7纳米制程结点工艺,这是当今服务器芯片领域最先进的制造工艺,尽管IBM研究院于今年5月发布了全球首个2纳米芯片制造工艺,但距离量产仍有相当的距离。
7纳米工艺的最大好处,就是可以在同样尺寸的芯片上集成更多的晶体管,从而完成更多的计算任务。Telum芯片就包括了220亿个晶体管,17层金属层的线路总长达到19英里。这样,Telum芯片就可以在同样功耗甚至更低功耗下,容纳更多的计算任务,其中就包括了实时AI推理计算。
(IBM研究院AI硬件中心成立时的愿景)
Telum的研发工作,相当一大部分源自IBM研究院的努力。2019年2月,IBM研究院专门成立了AI硬件中心,当时就鉴于AI模型越来越大、计算量需求越来越大、功耗越来越高的现状,试图从半导体芯片设计开始彻底解决这一问题。成立之初,IBM研究院AI硬件中心的目标就设定为将人工智能系统效率在未来十年提升千倍。具体说来,基于当时技术的深度学习计算在2020年左右达到1TFlops/W,基于数字AI内核技术深度学习计算在2022年左右达到接近10TFlops/W,而今年2月IBM研究院在ISSCC国际会议上发布的7纳米4核AI加速芯片原型的能效比最高达到3.5TFlops/W、整数计算能效比最高达16.5TOPs/W,远高于业内水平。随后,Telum芯片的单片AI计算能力则达到6TFlops/W。
“Flops/W”代表的是每瓦功耗所产生的算力,显然增加单位面积晶体管数量并不能完全达成更高能效比的目标。为此,IBM研究院从2017年开始着手研究提升AI芯片的能效比,也就是每年提升AI硬件计算能效比2.5倍,十年后提升千倍。除了芯片的制造工艺外,为了提升AI计算能效比,IBM从简化AI算法入手,这就是超低精度AI算法。实际上,与传统CPU的高精度浮点计算不同的是,AI计算是整数计算和矩阵计算的结合,因此用低精度浮点运算取代高精度浮点运算的同时保持AI模型的高质量结果,就成为一个算法优化方向。在2021 ISSCC大会上展示的IBM高能效7纳米4核AI芯片原型,就采用了混合8位超低精度AI算法,即8位精度浮点计算用于AI训练和4位精度浮点计算用于AI推理。
除了超低混合精度AI算法、更低纳米制造工艺外,Telum芯片还有很多创新之处,包括完全重新设计的缓存和片内互联技术,实现了CPU计算核心和AI计算核心的片内高速超低时延数据共享。其中,每个Telum计算核有32MB的L2缓存,这些L2缓存互联形成256MB共享虚拟L3缓存以及每8个Telumn芯片形成2GB的共享虚拟L4缓存,这是能够实现片内AI实时计算的关键之处。
简而言之,三年打造的“狩猎女神之矛”,是多项IBM黑科技的集大成之作,将撬动企业混合云与AI平台市场。
Telum加速器将成为下一代高性能计算系统的核心。IBM Z处理器历来有嵌入各种专项加速器的历史,从而提升加密、压缩等通用计算任务的性能。而Telum集成了多达6TFlops片内AI算力,每个计算核都能够动态利用整个片内的计算资源,以最小化AI推理计算时延。基于Telum的下一代IBM Z系统,可支持高达200TFLops的系统内AI算力。由于采用了集成的加速器架构并直接连接到片上缓存体系,Telum适用于企业关键业务。
为什么说IBM Telum是下一代企业级混合云与AI平台呢?简单理解,目前的IBM Z和LinuxOne主机已经能够实现一台主机即一个企业云数据中心,而IBM收购了Red Hat软件资产后进一步将Red Hat Openshift开放混合云软件与IBM主机结合,从而将IBM主机承载企业混合云的关键工作负载,也可以理解为成为企业混合云的“计算中心”。企业可以通过IBM主机管理外部的多云资源,同时用IBM主机的普遍加密技术处理企业敏感数据和应用,并通过IBM主机完成混合云的安全保障。
除了极强的嵌入实时AI算力外,IBM Telum也具备极强的故障恢复和安全保护能力。Telum的安全执行模式,改进了Hyper Protected Virtual Server的性能与可用性,提升了开发人员在可信计算环境中的云原生应用开发能力。Hyper Protected Virtual Server是 IBM Secure Service Container for IBM Cloud Private的技术演进,让开发人员能够使用熟悉的工具和自动化的持续软件交付管道,在私有、公有或混合云中进行开发,并提供整个云原生应用开发生命周期的安全性。而IBM还为Telum重新设计了8通道内存接口,可以允许通道或DIMM在失效的时候,以透明的方式恢复数据,而不影响计算响应时间。
高度安全可信的IBM Telum系统,让企业可以更好地利用实时AI推理计算能力,在高速交易结果没有完成之前就完成诸如欺诈分析的计算,从而及时拦截恶意交易。例如,今天的一家国际银行用IBM Z系统的AI计算能力对信用卡授权流程进行处理,而不用使用远程的AI推理应用,就能在信用卡交易授权过程中检测到欺诈行为;未来,该银行需要在毫秒级别的交易响应时间内利用复杂的深度学习AI模型,实现每秒10万笔交易、也就是今天交易量的十倍以上规模,同时还要达到低于毫秒级时延的每笔交易欺诈检测,这就是Telum的设计目的——大规模高速运行关键业务交易与AI处理结合的计算。
Barry在预沟通中还介绍了Telum的其它潜在应用场景。除了金融欺诈外,在零售领域由零售品牌商提供的积分奖励计划就有可能被零售店员或消费者利用获利,这是零售行业的潜在欺诈行为。另一个零售行业的应用场景是寻找销售增长机会,也就是在消费者扫描商品并结算付费的过程中,零售商如何针对消费者个人的购买行为和已购商品,实时提供个性化的促销,从而扩大消费者每次的“购买篮子”。
全文总结:嵌入了AI加速器的IBM Telum芯片,是开创性的企业计算架构。由于将实时AI推理计算集成到了CPU处理器中,企业可以达到毫秒级同时处理传统业务交易和AI推理计算,这种集成了传统关键计算任务与新型AI计算任务的微处理器架构和毫秒级处理能力,将为混合云时代的企业带来全新商业价值,也将开创每10-30年才出现一次的企业计算架构革新。(文/宁川)