芯东西(ID:aichip001)文:心缘
导语:AI 芯片正走过落地元年,云端 AI 芯片成为玩家集中入局的火热细分战场。国际半导体巨头仍是通用市场主宰者,国内外云计算巨头积极跨界打造专用最强芯,一批自主 AI 芯片创企也陆续秀出创新成果,意欲颠覆市场格局。
芯东西团队特发起云上“芯”战事—云端 AI 芯片系列报道,聚焦云端 AI 芯片全产业链,进行深度追踪报道。本文为系列报道之一。
芯东西 12 月 11 日消息,“腾讯系”AI 芯片创企燧原科技今天推出首款云端 AI 训练芯片邃思 DTU及加速卡云燧 T10。邃思 DTU 采用格罗方德 12nm FinFET工艺,480 平方毫米主芯片上承载141 亿个晶体管,实现 2.5D高级立体封装,据称单卡单精度算力为业界第一,达20TFLOPS,首次支持混合精度,半精度及混合精度下算力达80TFLOPS,最大功耗仅225W,将于 2020 年第一季度上市。
同时,燧原科技发布首款计算及编程平台“驭算”,当前完全支持 TensorFlow,下一阶段支持 PyTorch、MXNet、ONNX 等业界主流框架,零迁移成本,并为深度开发者提供 SDK 和定制化方案。
从去年夏天作为腾讯投资的第一家国内 AI 芯片创企,到成立不足一年半,就完成超过 6.6 亿人民币的累计融资,这家年轻的创企自进入大众视野以来就持续引起行业的关注。
经过 1 年半的悄然打磨,这家刚问世就笼罩上腾讯“光环”的创企,终于官宣其核心产品、技术和落地策略,它的产品发展方向也首度公开。
燧原科技 PCIe 加速卡云燧 T10 和 OCP 标准的 OAM 云燧 T11
燧原科技 CEO 赵立东表示,目前燧原已同腾讯针对通用 AI 应用场景项目展开密切合作,未来也将会扩展到更多 AI 应用场景。
清华大学微电子所所长魏少军教授也来到现场,称燧原的芯片在他看来“是非常了不起的”、“能在全球引起高度关注的芯片”。
他说,做芯片不难,但要做一颗比别人好很多的芯片非常难,燧原团队在短短一年半间,打造出媲美主流器件的芯片,非常不容易。
01
AMD 紫光老兵创业,首款云端芯一次性点亮
燧原科技的创始团队有深厚的芯片研发和落地经验。其 CEO 赵立东和 COO 张亚林都是在芯片界摸爬滚打近二十年的行业老兵。
赵立东的本科和硕士分别毕业于清华大学电子工程系和美国犹他州立大学电子与计算机系,曾于 2007 年至 2014 年在 AMD 工作,历任计算事业部高级总监、产品工程部高级总监,负责 CPU/GPU/APU 及多个相关核心 IP 的研发,团队规模超过千人,并参与成立中国研发中心。
2014 年 12 月,他加入紫光通信科技集团任副总裁,2015 年 3 月兼任紫光集团旗下锐迪科微电子公司总裁,2017 年 3 月任紫光集团副总裁。
张亚林本科毕业于复旦大学电子工程系,于 2008 年加入 AMD,历任资深芯片经理、技术总监,曾在 AMD 上海研发中心领导开发并量产微软 XBOX-ONE 系列主芯片、融合芯片 APU 等多款世界级芯片。
2018 年 3 月 19 日,赵立东和张亚林在上海创办 AI 芯片公司燧原科技。
燧,源自中国古老神话——燧人氏钻木取火,开启了人工取火时代,点燃了文明的火种。
燧原希望在 AI 超算领域点燃智慧火种,使得芯火可以燎原,这代表燧原的初心:“做大芯片,拼硬科技”,以国产自主创新的核心技术和解决方案,为数据中心打造云端 AI 训练和推理的加速平台。
成立仅 1 个月,燧原科技就完成 2400 万人民币种子轮融资,并启动第一颗云端训练芯片的研发。同年 7 月,该公司完成 3.4 亿人民币 Pre-A 轮融资,由腾讯战略领投。
今年 5 月,它又完成 3 亿人民币A轮融资,由红点创投中国基金领投,海松资本、云和资本、腾讯等跟投。
同样在 5 月,其云端训练芯片按计划准时流片,封装好的芯片在 9 月回到燧原上海实验室,一次性全部点亮,开始软硬件联调。就在 11 月,该芯片完成了工程样片和样卡的功能性能测试,并已向首个客户送样。
赵立东表示,目前燧原科技已经实现燧原 1.0:即建设顶级工程化团队,完成产品研发和量产;实现产品热启动,加速产品落地;完成首个 AI 训练平台的商业化落地。
云端训练芯片六大特点,满足E级数据中心部署需求
燧原科技旨在开发具有自主知识产权的通用型云端训练和推理芯片及软件栈,算子级、芯片级、板级均可定制。
燧原的首款云端训练芯片采用格罗方德 12nm FinFET 工艺打造和2. 5D高级立体封装技术,480 平方毫米主芯片包含141 亿个晶体管,具备可编程、可拓展、高性能、高能效、强互联、支持多种训练算法、支持主流 AI 框架的特点。
相比之下,NVIDIA Tesla V100 采用的是台积电 12nm FinFET 工艺,在 815 平方毫米芯片面积中集成了 210 亿个晶体管,单精度性能是 15TFLOPS。
(1)算力:单精度(FP32)下算力达到20TFLOPS,半精度及混合精度(BF16/FP16)下算力达80TFLOPS,最大功耗仅225W,能效比领先。张亚林称这是国内第一款支持 BF16 精度的 AI 芯片。
(2)可编程:基于可重构芯片的设计理念,实现完全通用可编程。张亚林表示,该微架构设计完全自研,基于燧原自主指令集,未曾参考任何 CPU、GPU 架构。
其计算核心包含 32 个通用可扩展神经元处理器(SIP),每 8 个 SIP 组合成 4 个可扩展智能计算群(SIC)。SIC 间通过 HBM 实现高速互联,通过片上调度算法,数据在搬迁中完成计算,从而最大化 SIP 利用率。
(3)通用性:支持 CNN、RNN、LSTM、BERT 等常用 AI 训练模型,可用于图像、数据流、语音等训练场景。
(4)接口兼容:第四代标准 PCIe 接口,支持 16 条链路,每条链路速率为 16Gbps,提供双向 64GB 的接口带宽,广泛兼容主流 AI 服务器。据说目前英特尔都还没有支持第四代 PCIe 接口。
(5)生态开放:打造计算及编程平台“驭算”,针对邃思芯片进行特定优化,完全支持 TensorFlow,下一阶段将支持 PyTorch、MXNet、ONNX 等主流深度学习框架,提供完整的编译、调试、调优工具链,并在硬件层开放 SDK,为深度开发者提供细粒度算力编程接口。
(6)高速互联:针对 BERT 等复杂模型集群训练,提供分布式调度系统,并采用燧原 200GB 双向 ESL 互联技术进行优化,实现 25GB 双向背板互联方案,满足E级数据中心规模部署需求。
在 1024 节点集群规模下,训练线性度加速比达86%。在相同互联带宽下,相比 InfiniBand 组网,能较大幅度降低组网的复杂度和成本。
基于 AI 训练芯片邃思,燧原科技打造了一款面向云端数据中心的 AI 训练加速卡云燧 T10,双槽位标卡,支持 PCIe 4.0,单卡单精度(FP32)算力达到20TFLOPS,支持单精度 FP32 和半精度 BF16 的混合精度计算。
据悉,云燧 T10 的理论峰值性能和能效比均高于友商旗舰,用 ResNet-50 进行模型训练的速度也明显比友商旗舰产品快。
燧原科技经过对规模、性能、成本的综合考量,为大中小型数据中心提供单节点模式(标准 PCIe 卡)、单机柜模式(整个机柜)、集群模式(ESL 高速片间互连)3 种互联方案,以满足不同客户对深度学习的训练需求。
据张亚林透露,其贴片卡云燧 T11 明年5-6 月发布,是 OCP 标准的 OAM,尺寸比云燧 T10 更小,能适配抽屉型服务器,算力达22TOPS。
人工智能训练 Box,包括 8 个云燧 T11(OAM 模组),通过 OCP 标准专用接口与 CPU 服务器相连赵立东表示,以此为开端,燧原将提供更多具有高性价比、高能效比、开源开放的完整解决方案,也可针对不同应用场景的差异化需求,提供软硬件定制化的支持与服务。
挑战云端训练市场四大痛点,燧原的三大信心来源
赵立东表示,当前云端训练加速市场主要面临如下四大痛点:
(1)CPU、GPU 等通用芯片并非专为 AI 设计,无法满足爆发式增长的数据、算法模型所带来的算力需求,市场需要专为 AI 设计的芯片架构。
(2)云端训练市场被国际头部企业垄断,致使相关云端 AI 加速产品价格居高不下,制约 AI 市场规模化发展和行业产业链的形成与发展。
(3)闭源导致整个生态封闭,软件栈升级和维护、性能优化等依赖性大,限制了应用落地的效率和差异化的实现;
(4)技术支持完全依赖供应商,缺乏为客户优化、定制化的能力,国内技术支持水平严重不足,无法满足市场差异化需求。
面对 NVIDIA GPU 一家独大的云端训练芯片市场格局,多数创企选择不“硬碰硬”,而是先从应用需求丰富的终端芯片着手。
那么燧原科技为什么一开始就选择去啃云端芯片这块儿硬骨头呢,它的信心究竟何来?
赵立东认为,燧原科技的信心源自拥有天时、地利、人和。
(1)天时:CPU、GPU 生态成熟,切入困难,但深度学习爆发式发展仅有 7 年的时间,这是一个更加开放的战场,有更大的发展空间。另外 AI 算法创新使得架构创新,为提供赶超机会。
(2)地利:这是做 AI 高端芯片的黄金时代,中国有广泛应用、人口红利、海量数据、市场机会,既有国家政策引领,也有资本给予支持,这使得创企有足够的钱把高端人才、设备、工具聚合在一起,打造高端芯片。
(3)人和:一方面,上海近 20 年在集成电路领域储备了大量的集成电路人才,在输出具有丰富技术实力和实战经验的人才团队方面颇具优势,这也是燧原选择背靠上海的重要原因。
另一方面,上海通过在 AI 领域的发展,可提供成熟算法、软件、架构人才,使得燧原在 AI 和芯片的交叉赛道将人才聚集。除此之外,很多芯片人才希望将过去十几年的经验和智慧发挥出来,而燧原恰恰提供了这样的平台。
三大业务方向,战略资本政策多方助推燧原科技的战略业务面向三大方向:腾讯云服务商(公有云、私有云、混合云);行业服务商(安防、金融、游戏、医疗等);AI 超算中心和政务云(安全可靠)。
在 AI 和集成电路双赛道的国家战略指引,以及政府出台的多项产业政策支持,都为 AI 芯片发展提供了更好的发展空间和市场机遇。
在战略和资本双轮驱动下,燧原的市场策略聚焦在如下四点:首先其芯片获腾讯战略支持,产品热启动;其次其芯片拥有高能效比、高利用率和满足算力需求的高性价比,吸收软件迁移成本;第三,燧原拟寻求建立广泛的开源软件生态系统联盟,走开放路线;最后,燧原希望与第三方合作,通过定制化满足客户的差异化需求。张亚林认为,算力是 AI 基础,高效的算力能降低算力成本,开放的算力能降低迁移成本,可控的算力将降低运营成本,从而为客户提供满足高性能需求同时拥有高性价比的产品。
结语:发展芯片硬核科技,冷静看待当下成绩
在芯片国产化浪潮中,AI 芯片新势力面临着巨大的机遇,同时也面临着市场的大考。
2019 年作为 AI 芯片落地元年,陆续迎来多个国内终端、边缘、云端 AI 芯片的官宣落地。
终端 AI 芯片主要面临市场碎片化和算法迭代快的风险,云端训练芯片的主要挑战是核心技术以及国外巨头已经构筑坚固的生态。
在魏少军教授看来,国内 1700 多家集成电流设计公司中,像燧原这样的公司少之又少。他表示,我们的企业要牢牢记住,发展芯片的硬核科技、真本事在哪儿。
他认为,燧原能取得第一步成功,有几个关键原因。芯片不是搭草台班子就能做好的,需要具备团队完整性,而且不能仅靠激情,还要靠实力,方法对、时机对、方向对、产品对,天时地利人和都集于一体。同时,上海政府以及多家股东的支持也对燧原的发展产生了积极的影响。
魏教授表示,在造芯热潮中,此次发布会让很多人理解发展 IC 需要什么样的条件和特质。同时,我们不应过度炒热国产化造芯,万里长征第一步,要冷静看待当下的成绩。