https://zhuanlan.zhihu.com/p/36462032
今天,市场研究顾问公司Compass Intelligence公布了全球100家AI芯片企业排名,其中,排名第22位的正好是来自中国的中科寒武纪。前三名为英伟达(Nvidia)、英特尔(Intel)以及恩智浦(NXP)。
在过去一年间,随着AI芯片话题的逐渐兴起、寒武纪AI芯片IP在华为海思麒麟970芯片上的应用,以及最近关于“中国芯”的热烈讨论,让这家成立仅仅2年的创企盖上了“民族芯片希望”的光环,各种赞誉不断,融资和估值也水涨船高。就在昨天,寒武纪在上海发布了三款从端到云的芯片产品,分别为一款7nm的处理器IP 1M,以及一款云端智能芯片MLU100,还有搭载MLU100的云服务器板卡,毫不掩饰要叫板英伟达的野心。
那么,寒武纪芯片目前的市场反响如何?这家成立仅仅2年的创企又是靠什么获得一众资本亲睐?在这个日益激烈的市场竞争中,寒武纪想要成为“中国芯”逆袭力量的代表,又还需要迈过几道坎呢?本文将为你一一解答。
在某次媒体采访中,寒武纪执行董事罗韬曾经介绍,寒武纪设立了三条产品线:
1、智能终端处理器IP授权,比如1A、1H、以及昨天推出的1M,可以集成到手机、安防、汽车、可穿戴等终端芯片中。
2、智能云服务器芯片,比如昨天发布的MLU100,作为PCIE加速卡插在云服务器上;
3、家用智能服务机器人芯片,这条产品线暂时没有产品发布。
我们先来说说昨天发布的处理器IP Cambricon 1M,这是寒武纪第一条产品线中的第三代IP产品,将采用台积电7nm工艺打造。据业内人士透露,这款芯片制造代工成本高昂,寒武纪需要投入上亿美元规模的资金用于1M的流片,据传已经签约打造。
在去年年底的发布会上,寒武纪曾经预告过这款名为“1M”的IP产品,宣称与1A相比性能提高了10倍以上。不过那时预告的1M处理器IP主打的是智能驾驶领域,昨天推出的1M则将应用领域拓宽到了智能手机、智能音箱、摄像头、自动驾驶等方面。
此外,根据寒武纪官方数据,1M的int 8(8位运算)效能比高达达5Tops/watt(每瓦5万亿次运算),并且提供了2Tops、4Tops、8Tops三种尺寸的处理器内核,以满足不同需求。1M还将支持CNN、RNN、SVM、k-NN等多种深度学习模型与机器学习算法的加速,能够完成视觉、语音、自然语言处理等任务。
寒武纪的第一代处理器IP:Cambricon 1A可以说是目前最早量产的、出货量最多的AI芯片IP了。去年,华为海思的第一款人工智能手机芯片麒麟970上就集成了寒武纪的1A处理器IP,成为SoC上的NPU神经网络处理单元。目前麒麟970已经搭载了在华为Mate 10、P20、荣耀V10这三系列手机产品上,累计出货量已到了数千万台。
不过相关人士向智东西透露,华为海思在下半年即将发布的下一代产品(可能是7nm的麒麟980)可能不会采用寒武纪的IP,尚不清楚是自研还是选择别家。原因是寒武纪这款IP配套的工具链和支持算子不够成熟,给上层应用的AI开发带来了难度,某些AI功能(比如直播/短视频应用中的背景分割)需要数月才能在应用中部署完成。
不过,1M并不是昨天寒武纪发布会的主角,寒武纪首款云端智能芯片Cambricon MLU100才是重点。
同样是在去年年底的发布会上,寒武纪也曾经预告过这款名为MLU100产品,与它一同出现的还有另一款名为MLU200的云服务器处理芯片,前者偏重推理(inference),后者偏重训练(training)。不过在昨天的发布会上寒武纪并没有推出MLU200。
▲寒武纪MLU100参数
▲左:英伟达2016年发布的Tesla P4参数,右:英伟达2017年发布的Tesla V100参数
MLU100给出的参数比较详细,不过可能是因为不主打训练,寒武纪并没有给出32位浮点运算的参数。寒武纪在发布会现场公布了在R-CNN算法下MLU100与英伟达Tesla V100和英伟达Tesla P4的计算延迟对比,但如果仅从参数上来看,这款芯片对标的主要还是Tesla P4。Tesla P4是英伟达于2016年推出的GPU,专门面向企业级高性能计算,主打机器学习和云服务市场;Tesla V100则是英伟达在去年推出的同一系列GPU。
总体来说,MLU100的功耗、纯计算峰值性能等方面表现比较优秀,不过内存接口带宽稍低(MLU100为102.4GB/s,Tesla P4为192GB/s,内存带宽过小会影响运行时的计算性能),是一款完成度比较高的云端智能芯片。一位资深芯片技术高管称,“虽然称不上‘吊打英伟达’,但也跟英伟达目前的产品处在同一时代。”
推出了三款产品后,寒武纪CEO陈天石在昨天发出的一封公开信中这样说道:“期待与全球范围内的客户通力合作,将智能播撒到每一台终端,让整个地球都变得智能。”
上文提到,寒武纪设立了三条产品线:智能终端处理器IP授权、智能云服务器芯片、以及家用智能服务机器人芯片。
据媒体现场报道,陈天石在发布会上表示,“MLU100的功耗仅为是英伟达同类产品的几分之一,将会树立新的行业标杆。”那么,创业两年的寒武纪凭什么叫板英伟达呢?
这要从寒武纪的渊源说起。寒武纪,全名中科寒武纪科技有限公司,是中科院计算所孵化的企业。寒武纪的公司CEO & 联合创始人为陈天石,另一位联合创始人为陈云霁,他是陈天石的哥哥,两人都是少年天才,从小考进中科大少年班,二十出头就博士毕业,在中科院计算所当研究员。
两位陈博士的导师是胡伟武教授,他是龙芯中科总裁,也被称为“龙芯之父”。陈云霁从2002年开始跟随胡伟武做龙芯CPU,一干就是12年。有趣的是,现在寒武纪“三年入侵10亿终端”的口号与当年龙芯的宣传口号非常相似。龙芯CPU是中国第一代国产CPU,其意义可以上升到国家战略层面。根据胡伟武教授介绍,目前使用龙芯CPU芯片客户有500多家。
随后在2012年,法国国家信息与自动化研究所(Inria)的Olivier Temam教授第一次提出了AI加速器的概念,接着启动了Olivier Temam教授与两位陈博士的合作项目DianNao,这也是寒武纪的技术来源。在陈天石昨天的公开信中也特别提到了与Inria和Olivier Temam教授的合作。
在2013-2015年期间,DianNao项目一共发布了四篇与AI加速器有关论文,包括:深度学习处理器、多片版本的深度学习处理器、摄像头智能识别处理器、以及通用机器学习处理器。这四篇论文采用的都是专用逻辑加速的方向,可以理解为针对特定AI算法逻辑进行加速计算,一旦机器学习的算法逻辑改变时,加速器就有可能无法支持。
为了补足这一点,在随后的2016年,两位陈博士推出了神经网络通用指令集DianNaoYu,这也是寒武纪自主研发的神经网络专用指令集Cambricon ISA的前身。
我们先来科普一下指令集,指令集是一个编码集合,指的是用一些代码表达读、写等操作,命令计算机做各种运算的一套命令标准。
神经网络专用指令集能够针对AI算法提取更细粒度、更底层的编码集合,比如针对神经网络计算任务中的某些高频操作,可以直接提供硬件指令集编码;与此同时,减少对AI算法性能影响不大的缓存(Cache)体系,提升芯片的性能功耗比等等。
简单来说,就是把AI计算中的高层功能板块(比如卷积)分解成低层功能板块(比如点乘),让加速器更加灵活地支持不同类型的神经网络。
2016年3月,北京中科寒武纪科技有限公司注册成立,陈天石为公司法人,中科院注资1000万元作为天使轮启动资金。基于DianNao项目技术框架,寒武纪又陆续推出了“寒武纪1号”芯片、寒武纪1A处理器IP等产品。
不过注意,这些芯片都是专用指令集处理器(ASIP),比较适合用于人工智能算法的加速计算,不能替代CPU作为中控芯片,需要和CPU等硬件协同合作。
目前除了寒武纪之外,国内还有一大批创业公司涌入AI芯片领域,包括深鉴科技、地平线、异构智能等。他们中既有做专用逻辑加速器(ASIC)的,也有做专用指令集处理器(ASIP)的,前者功耗更低、性能更强、但是不够灵活泛化;后者更加灵活、能支持多种不同神经网络,但是在性能功耗比上会受到一定限制。
目前,寒武纪在AI芯片市场遇到的对手已经不只是跟它处在同一起跑线的国内外AI芯片创业公司了,各类芯片巨头也纷纷入局。比如在服务器市场称霸多年的英特尔、比如在AI时代一骑绝尘的英伟达、比如来势汹汹的高通与赛灵思、又比如推出人工智能项目Trillium的ARM(英伟达开源的DLA深度学习加速器项目将集成到Trillium框架中,让厂商能够打造自己的AI芯片)。
一款芯片产品光看参数,也许都很漂亮,但是围绕其打造的生态系统却不是一朝一夕能够完成的事情,需要大量的技术、人力、财力投入,以及时间的积累。
简而言之,芯片设计只是开始,可芯片从设计到落地应用是一条漫长的产业链,里面布满了“坑”。至少有这样几个关键环节:
1、从PPT到流片。从寒武纪本次发布的几款芯片来看,云端芯片MLU100选择了台积电工艺相对成熟的台积电16nm制程工艺,量产应该不成问题。从现场展示的板卡产品来看,应该已经完成了这个过程。不过1M处理器IP需要7nm制程工艺,目前市面上还没有终端SoC芯片使用。目前全球主流先进的移动终端SoC先进工艺在10nm水平上,下一代有望迈进7nm,但真正有能力做到的也就是苹果、三星、华为海思这几家。如果1M不能和华为继续IP授权合作,应用落地将会是挺大难题。
2、芯片全产业链把控。对于寒武纪这类创业公司来说,与芯片巨头相比弱势的往往不是AI技术、或是AI芯片产品设计,而是围绕芯片所衍生的一系列软硬件的开发维护,包括指令集定义、芯片微架构设计、芯片整体设计、相应软件与工具链的开发与维护、芯片运行的操作系统、丰富的函数库、以及应用程度等等。
3、时间与市场的验证,这款芯片还需要得到大量用户的认可才能真正在市场中站住脚,一旦大多数人们认可某款芯片架构、某个指令集,那么用户迁移成本就很高,这就是为什么历史上曾经有多次“x86革命”想取代x86架构,但都因为得不到广泛的支持最终以失败告终,英特尔能够称霸PC和服务器市场多年。
最后,我们来说说融资和估值。寒武纪公司CEO & 联合创始人 & 实际控制人陈天石是5间与“寒武纪”有关的企业的法人,包括:北京中科寒武纪、上海寒武纪半导体、雄安寒武纪科技、上海寒武纪信息科技北京分公司、以及上海涵武信息科技(2015年成立,已注销);此外,陈天石还是苏州寒武纪信息科技的股东(天眼查显示投资比例0.1%)以及上海寒武纪信息科技的经理。这些企业基本都是北京中科寒武纪的全资子公司。
近日有媒体报道称寒武纪已经接近完成新一轮融资,融后估值20亿美元。业内人士向智东西透露,寒武纪本轮融资已经接近结束,融资共25亿人民币,融后估值24亿美元,国家队背景基金投资入股。
根据公开数据,在2017年年中,寒武纪完成1亿美元A轮融资,估值10亿美元,国投创业领投,阿里巴巴、联想创投、国科投资、中科图灵、元禾原点和涌铧投资等参投。
以下是目前北京中科寒武纪的占股名单,其中“国投(上海)科技成果转化创业投资基金企业”和“北京国科瑞华战略新兴产业投资基金”为2018年1月15日新增的。
中科寒武纪的学术背景、两位陈博士的导师背景、以及其背后的一系列政策资本关系,都决定了我们不能仅从市场经济这个单一的角度去解读这家公司。寒武纪的一众合作伙伴们,华为、科大讯飞、中科曙光、联想等等,都或多或少与寒武纪共享着相同的基因。
在中美贸易关系及中兴案例再次刺痛“缺芯”软肋的当下,中科寒武纪已经成为了我国AI芯片领域一支不可多得的强大力量,与此同时这股力量还在不断快速发展当中。不过,在成为“中国芯”逆袭代表之前,本文中提到的这些“坎儿”,还是要逐步迈过,才能稳健发展。
发布于 2018-05-05