2019-12-11 19:14:59
导语:AI芯片正走过落地元年,云端AI芯片成为玩家集中入局的火热细分战场。国际半导体巨头仍是通用市场主宰者,国内外云计算巨头积极跨界打造专用最强芯,一批自主AI芯片创企也陆续秀出创新成果,意欲颠覆市场格局。
智东西团队特发起云上“芯”战事—云端AI芯片系列报道,聚焦云端AI芯片全产业链,进行深度追踪报道。本文为系列报道之一。
智东西12月11日消息,AI芯片创企燧原科技今天推出首款云端AI训练芯片邃思DTU及加速卡云燧T10。
邃思DTU采用格罗方德12nm FinFET工艺,480平方毫米主芯片上承载141亿个晶体管,实现2.5D高级立体封装,据称单卡单精度算力为业界第一,达20TFLOPS,首次支持混合精度,半精度及混合精度下算力达80TFLOPS,最大功耗仅225W,将于2020年第一季度上市。
▲燧原科技首款云端AI训练芯片邃思DTU
同时,燧原科技发布首款计算及编程平台“驭算”,当前完全支持TensorFlow,下一阶段支持PyTorch、MXNet、ONNX等业界主流框架,零迁移成本,并为深度开发者提供SDK和定制化方案。
从去年夏天作为腾讯投资的第一家国内AI芯片创企,到成立不足一年半,就完成超过6.6亿人民币的累计融资,这家年轻的创企自进入大众视野以来就持续引起行业的关注。
经过1年半的悄然打磨,这家刚问世就笼罩上腾讯“光环”的创企,终于官宣其核心产品、技术和落地策略,它的产品发展方向也首度公开。
▲燧原科技PCIe加速卡云燧T10和OCP标准的OAM云燧T11
燧原科技CEO赵立东表示,目前燧原已同腾讯针对通用AI应用场景项目展开密切合作,未来也将会扩展到更多AI应用场景。
清华大学微电子所所长魏少军教授也来到现场,称燧原的芯片在他看来“是非常了不起的”、“能在全球引起高度关注的芯片”。
他说,做芯片不难,但要做一颗比别人好很多的芯片非常难,燧原团队在短短一年半间,打造出媲美主流器件的芯片,非常不容易。
燧原科技的创始团队有深厚的芯片研发和落地经验。其CEO赵立东和COO张亚林都是在芯片界摸爬滚打近二十年的行业老兵。
赵立东的本科和硕士分别毕业于清华大学电子工程系和美国犹他州立大学电子与计算机系,曾于2007年至2014年在AMD工作,历任计算事业部高级总监、产品工程部高级总监,负责CPU/GPU/APU及多个相关核心IP的研发,团队规模超过千人,并参与成立中国研发中心。
2014年12月,他加入紫光通信科技集团任副总裁,2015年3月兼任紫光集团旗下锐迪科微电子公司总裁,2017年3月任紫光集团副总裁。
▲燧原科技CEO赵立东展示云燧T10
张亚林本科毕业于复旦大学电子工程系,于2008年加入AMD,历任资深芯片经理、技术总监,曾在AMD上海研发中心领导开发并量产微软XBOX-ONE系列主芯片、融合芯片APU等多款世界级芯片。
2018年3月19日,赵立东和张亚林在上海创办AI芯片公司燧原科技。
燧,源自中国古老神话——燧人氏钻木取火,开启了人工取火时代,点燃了文明的火种。
燧原希望在AI超算领域点燃智慧火种,使得芯火可以燎原,这代表燧原的初心:“做大芯片,拼硬科技”,以国产自主创新的核心技术和解决方案,为数据中心打造云端AI训练和推理的加速平台。
成立仅1个月,燧原科技就完成2400万人民币种子轮融资,并启动第一颗云端训练芯片的研发。同年7月,该公司完成3.4亿人民币Pre-A轮融资,由腾讯战略领投。
今年5月,它又完成3亿人民币A轮融资,由红点创投中国基金领投,海松资本、云和资本、腾讯等跟投。
同样在5月,其云端训练芯片按计划准时流片,封装好的芯片在9月回到燧原上海实验室,一次性全部点亮,开始软硬件联调。
就在11月,该芯片完成了工程样片和样卡的功能性能测试,并已向首个客户送样。
赵立东表示,目前燧原科技已经实现燧原1.0:即建设顶级工程化团队,完成产品研发和量产;实现产品热启动,加速产品落地;完成首个AI训练平台的商业化落地。
下一步,燧原将向2.0跃升,在市场销售及服务支持体系建设、产品解决方案完善、引进高端人才和构建生态等方面发力。
燧原科技旨在开发具有自主知识产权的通用型云端训练和推理芯片及软件栈,算子级、芯片级、板级均可定制。
燧原的首款云端训练芯片采用格罗方德12nm FinFET工艺打造和2.5D高级立体封装技术,480平方毫米主芯片包含141亿个晶体管,具备可编程、可拓展、高性能、高能效、强互联、支持多种训练算法、支持主流AI框架的特点。
相比之下,NVIDIA Tesla V100采用的是台积电12nm FinFET工艺,在815平方毫米芯片面积中集成了210亿个晶体管,单精度性能是15TFLOPS。
(1)算力:单精度(FP32)下算力达到20TFLOPS,半精度及混合精度(BF16/FP16)下算力达80TFLOPS,最大功耗仅225W,能效比领先。张亚林称这是国内第一款支持BF16精度的AI芯片。
(2)可编程:基于可重构芯片的设计理念,实现完全通用可编程。张亚林表示,该微架构设计完全自研,基于燧原自主指令集,未曾参考任何CPU、GPU架构。
其计算核心包含32个通用可扩展神经元处理器(SIP),每8个SIP组合成4个可扩展智能计算群(SIC)。SIC间通过HBM实现高速互联,通过片上调度算法,数据在搬迁中完成计算,从而最大化SIP利用率。
(3)通用性:支持CNN、RNN、LSTM、BERT等常用AI训练模型,可用于图像、数据流、语音等训练场景。
(4)接口兼容:第四代标准PCIe接口,支持16条链路,每条链路速率为16Gbps,提供双向64GB的接口带宽,广泛兼容主流AI服务器。据说目前英特尔都还没有支持第四代PCIe接口。
(5)生态开放:打造计算及编程平台“驭算”,针对邃思芯片进行特定优化,完全支持TensorFlow,下一阶段将支持PyTorch、MXNet、ONNX等主流深度学习框架,提供完整的编译、调试、调优工具链,并在硬件层开放SDK,为深度开发者提供细粒度算力编程接口。
(6)高速互联:针对BERT等复杂模型集群训练,提供分布式调度系统,并采用燧原200GB双向ESL互联技术进行优化,实现25GB双向背板互联方案,满足E级数据中心规模部署需求。
在1024节点集群规模下,训练线性度加速比达86%。在相同互联带宽下,相比InfiniBand组网,能较大幅度降低组网的复杂度和成本。
基于AI训练芯片邃思,燧原科技打造了一款面向云端数据中心的AI训练加速卡云燧T10,双槽位标卡,支持PCIe 4.0,单卡单精度(FP32)算力达到20TFLOPS,支持单精度FP32和半精度BF16的混合精度计算。
据悉,云燧T10的理论峰值性能和能效比均高于友商旗舰,用ResNet-50进行模型训练的速度也明显比友商旗舰产品快。
燧原科技经过对规模、性能、成本的综合考量,为大中小型数据中心提供单节点模式(标准PCIe卡)、单机柜模式(整个机柜)、集群模式(ESL高速片间互连)3种互联方案,以满足不同客户对深度学习的训练需求。
其创新架构、互联方案、分布式计算及编程平台,可广泛应用于云数据中心、超算中心、互联网、金融及服务等多种AI场景。
据张亚林透露,其贴片卡云燧T11明年5-6月发布,是OCP标准的OAM,尺寸比云燧T10更小,能适配抽屉型服务器,算力达22TOPS。
▲人工智能训练Box,包括8个云燧T11(OAM模组),通过OCP标准专用接口与CPU服务器相连
赵立东表示,以此为开端,燧原将提供更多具有高性价比、高能效比、开源开放的完整解决方案,也可针对不同应用场景的差异化需求,提供软硬件定制化的支持与服务。
赵立东表示,当前云端训练加速市场主要面临如下四大痛点:
(1)CPU、GPU等通用芯片并非专为AI设计,无法满足爆发式增长的数据、算法模型所带来的算力需求,市场需要专为AI设计的芯片架构。
(2)云端训练市场被国际头部企业垄断,致使相关云端AI加速产品价格居高不下,制约AI市场规模化发展和行业产业链的形成与发展。
(3)闭源导致整个生态封闭,软件栈升级和维护、性能优化等依赖性大,限制了应用落地的效率和差异化的实现;
(4)技术支持完全依赖供应商,缺乏为客户优化、定制化的能力,国内技术支持水平严重不足,无法满足市场差异化需求。
面对NVIDIA GPU一家独大的云端训练芯片市场格局,多数创企选择不“硬碰硬”,而是先从应用需求丰富的终端芯片着手。
那么燧原科技为什么一开始就选择去啃云端芯片这块儿硬骨头呢,它的信心究竟何来?
赵立东认为,燧原科技的信心源自拥有天时、地利、人和。
(1)天时:CPU、GPU生态成熟,切入困难,但深度学习爆发式发展仅有7年的时间,这是一个更加开放的战场,有更大的发展空间。另外AI算法创新使得架构创新,为提供 赶超机会。
(2)地利:这是做AI高端芯片的黄金时代,中国有广泛应用、人口红利、海量数据、市场机会,既有国家政策引领,也有资本给予支持,这使得创企有足够的钱把高端人才、设备、工具聚合在一起,打造高端芯片。
(3)人和:一方面,上海近20年在集成电路领域储备了大量的集成电路人才,在输出具有丰富技术实力和实战经验的人才团队方面颇具优势,这也是燧原选择背靠上海的重要原因。
另一方面,上海通过在AI领域的发展,可提供成熟算法、软件、架构人才,使得燧原在AI和芯片的交叉赛道将人才聚集。除此之外,很多芯片人才希望将过去十几年的经验和智慧发挥出来,而燧原恰恰提供了这样的平台。
燧原科技的战略业务面向三大方向:
云服务商(公有云、私有云、混合云);
行业服务商(交通、金融、游戏、医疗等);
AI超算中心和智慧城市。
在AI和集成电路双赛道的国家政策指引,以及政府出台的多项产业政策支持,都为AI芯片发展提供了更好的发展空间和市场机遇。
在战略和资本双轮驱动下,燧原的市场策略聚焦在如下四点:
首先其芯片获腾讯支持,产品热启动;
其次其芯片拥有高能效比、高利用率和满足算力需求的高性价比,吸收软件迁移成本;
第三,燧原拟寻求建立广泛的开源软件生态系统联盟,走开放路线;
最后,燧原希望与第三方合作,通过定制化满足客户的差异化需求。
张亚林认为,算力是AI基础,高效的算力能降低算力成本,开放的算力能降低迁移成本,可控的算力将降低运营成本,从而为客户提供满足高性能需求同时拥有高性价比的产品。
在芯片国产化浪潮中,AI芯片新势力面临着巨大的机遇,同时也面临着市场的大考。
2019年作为AI芯片落地元年,陆续迎来多个国内终端、边缘、云端AI芯片的官宣落地。
终端AI芯片主要面临市场碎片化和算法迭代快的风险,云端训练芯片的主要挑战是核心技术以及国外巨头已经构筑坚固的生态。
在魏少军教授看来,国内1700多家集成电流设计公司中,像燧原这样的公司少之又少。他表示,我们的企业要牢牢记住,发展芯片的硬核科技、真本事在哪儿。
他认为,燧原能取得第一步成功,有几个关键原因。芯片不是搭草台班子就能做好的,需要具备团队完整性,而且不能仅靠激情,还要靠实力,方法对、时机对、方向对、产品对,天时地利人和都集于一体。同时,上海政府以及多家股东的支持也对燧原的发展产生了积极的影响。
魏教授表示,在造芯热潮中,此次发布会让很多人理解发展IC需要什么样的条件和特质。同时,我们不应过度炒热国产化造芯,万里长征第一步,要冷静看待当下的成绩。