npu算力如何计算_当主流架构纷纷针对AI计算优化,第三方NPU未来生存空间何在?...

如果把AI计算区分为四个不同的象限,分别是云端训练、云端推理,边缘训练以及边缘推理。

边缘训练目前几乎没有厂商实做,只要是因为终端等边缘计算架构要收集足够大量的数据来形成模型有其困难度,而云端训练几乎是GPU的天下,超过九成使用的是NVIDIA的方案,云端推理方案则是以CPU加FPGA为主,这方面英特尔享有绝大多数的市场。而终端推理,几乎都集中在Arm架构生态上。

npu算力如何计算_当主流架构纷纷针对AI计算优化,第三方NPU未来生存空间何在?..._第1张图片
  • AI推动第一波计算架构变革,但GPU仍是最终赢家

在过去,GPU引爆了第一波AI训练革命,CPU和FPGA则是很好的满足了云端推理的需求,但这些架构昂贵不说,能耗表现也并不是那么尽如人意。而起于智能终端的边缘推理计算,其实最初表现也并不理想,因此,华为及苹果等具备芯片设计能力的厂商开始在移动芯片中加入NPU计算单元,华为麒麟使用了来自寒武纪设计的IP,而苹果则是自行研发。

NPU很好的在功耗预算限制下解决最初移动设备上的AI应用性能问题。

另一方面,面向Google Tensor Flow加速的TPU架构横空出世,冲击了业界的既有观点:基于ASIC的独立AI计算卡在很多方面比起GPU计算架构更有优势,而这种计算架构使用脉动镇列(systolic array)这种古老的技术概念,芯片设计厂商,甚至云服务商都发觉,实现这种架构其实很简单,也没有专利限制,因此,各种AI计算卡也都纷纷出笼,各自取了个亮眼的名称,并标榜着比GPU更好的功耗和性能表现。

但随着时间过去,这些各行其是的AI计算架构并没有在市场上取得太好的成绩,毕竟软件生态已经被NVIDIA所掌握,计算不只要考虑硬件,也要配合软件,而当NVIDIA也在自己的GPU中引入类似脉动架构的Tensor Core,但拥有更好的粒度与精度,配合GPU的高度可编程设计以及既有的软件生态优势,用起来更方便,性能表现也更好,而如此一来,新进挑战者的产品诉求也就更弱了。

在AI浪潮下,NVIDIA让GPU进化了,并成功挡下云计算领域挑战者,但其他主流厂商的通用计算架构也没有闲着。

  • 通用计算架构演化,第三方NPU非主流地位难改变

ARM在Computex 2019发布了最新的Cortex-A77,除了在通用计算尚有了极大的改进之外,最大的特色在于持续推动Project Trillium,通过其与Mali GPU及Arm ML所组成的异质计算架构,极大的改进在Arm生态上的AI计算效率,同时又尽可能维持低功耗需求。

npu算力如何计算_当主流架构纷纷针对AI计算优化,第三方NPU未来生存空间何在?..._第2张图片

另一方面,去年底的英特尔技术日中揭露的Sunny Cove核心,同样也是在架构中引入针对机器学习优化的计算单元设计,而这个核心未来也将成为主流CPU的基础,助力英特尔在包含云端与终端的机器学习性能输出。另一方面,英特尔也积极布局GPU计算,意图覆盖全场景的AI应用计算工作。

作为X86处理器第二把交椅,AMD也同样没有放过在AI计算产业的耕耘,虽然表面上AMD仍专注于标准CPU和GPU的设计,但实际上核心架构都已经开始针对AI计算优化,APU产品结合CPU与GPU,满足终端异质计算需求。在云端方面,EPYC服务器CPU要攻进云计算推理应用中。而其GPU架构在训练相关的计算性能方面也有不逊于NVIDIA的表现。

包含在处理器本身,或者是通过异质算力结合的AI计算架构已经成为这些计算架构大厂的共同发展方向,而目标市场不只在云端,也要普及到终端。

npu算力如何计算_当主流架构纷纷针对AI计算优化,第三方NPU未来生存空间何在?..._第3张图片

除了主流的CPU、FPGA与GPU外,前段时间非常火热的NPU计算架构,比如说麒麟及苹果芯片中的NPU,以及华为的升腾计算架构,这些ASIC芯片或IP技术都依靠着强大的AI算力与能耗比抢尽了众人的眼光。

然而,作为独立的架构,NPU在终端要面临的对手是Arm与英特尔这两个各自在终端与云端计算领域拥有接近于寡占地位的厂商。

若以包含手机在内的所有智能终端数量统计,使用到NPU的架构仅占不到10%。而值得注意的是,NPU所强调的高能效其实领先幅度已经逐渐缩小。诸如Arm所推出的Project Trillium,或者是高通的异质计算架构,都能达到相近的效能与能耗表现。

如果未来芯片厂或方案商只要通过同一套授权,或者是一次性的采购,其所获得的基础计算架构就能覆盖绝大部分AI计算应用的性能需求,那又何必再去授权/采购额外的NPU架构?而这也就成为包括寒武纪在内的第三方NPU IP供应商面临的最大困境。

npu算力如何计算_当主流架构纷纷针对AI计算优化,第三方NPU未来生存空间何在?..._第4张图片

图源:21数据新闻实验室

而在云端,不论是训练或推理,NPU也要受到英特尔、NVIDIA两家大厂的的夹击。由于缺乏足够强大的生态与应用软件支持,诸如百度、阿里巴巴等云计算大厂虽也会引进非主流的NPU计算架构,但多半只是作为技术验证与或者是备援之用,而不是作为计算主力。

过去AI计算是显学,从芯片、算法,到应用,在市场与需求快速成长之下,不同的方案乍看之下都有其生存空间。但随着时间过去,高速成长的期间已经结束,当进入收敛期时,就会回归到生态经营本身,主流因生态蓬勃而越主流,非主流则是期望通过创造自有生态,并从现有环境中找到市场缺口填补上去,借以存活下去。但随着计算大环境的发展,缺口只会越来越小,NPU应该如何自我定位?

基于ASIC的NPU所具备的最大优势就是性能功耗比,而这件事情通常在小型终端上更容易实现,如果场景变换到大型云端计算环境中,就未必能够维持下去。尤其在几大计算架构主导厂商架构为了增加竞争力,更新速度不断加快,往后不论是制程工艺,或者是核心架构的迭代,可能每年都会有新方案推出,甚至架构本身就会具备一定的延展性,能够很快的往上堆栈性能,且能耗也可维持在一定的程度。若是独立NPU架构,一来市场规模本来就不够大,获利有限的情况下,架构革新的脚步就很难跟上主流厂商。

  • 计算架构的商用需要多元层次思考,而非单看书面规格

不过有些例外状况。若芯片设计业者本身也拥有云计算服务,比如说华为,其推出的计算架构可自产自销,若计算服务规模够大,以自有架构取代有利可图的情况下,的确就可以维持下去,甚至形成服务的特色,定制化的NPU计算架构可以达成更特殊的。但这毕竟是少数,目前台面上的纯NPU设计,若撇除自家使用的需求,客源都相当有限,难以形成稳定的获利模式,更不用说创造生态。

这并不是说NPU这个产品或技术没有价值,而是不论在移动市场,或者是云计算领域,主流技术架构的大者恒大通常代表了很多层次的竞争优势,当一家厂商从供应链到系统生态,组成了难以被突破的闭环,并成功占有多数市场,也代表这些厂商更有资源进行计算架构的演化与发展。

在AI计算中,推出亮眼架构打一波的心态在市场上其实并不能带来太多实效,毕竟市场看的是架构延续性,以及和生态的配合能力,更重要的是,周边供应环节是否能够配合上,仅仅强调架构本身在这个时间点的性能优势,可能很难说服市场。

你可能感兴趣的:(npu算力如何计算)