作者:胥崟涛
【TechWeb】人工智能的应用浪潮推动了国产芯片的替代进程。为打破垄断,国内头部及传统的 IC 制造商试图绕过被英伟达垄断的 GPU 框架,集体转向设计并研制专用计算芯片(ASIC)、FPGA 及融合型异构处理器,以满足人工智能市场广泛需求的云端训练及终端推理作业。
一、楼阁坍塌
2016 年至今,中国人工智能产业蓬勃发展,一连出现了如商汤、旷视、科大讯飞、云从等独角兽公司。时至 2019 年,这一现象达到高潮。
2017 年,广州市政府向云从科技注资 3.01 亿美元,同年国有资本风险投资基金向旷视科技投入 4.6 亿美元资金。2017 年,中国人工智能初创企业股权融资额占全球总量的 48%,高出美国 10 个百分点。截止 2018 年底,中国人工智能企业获得风险投资总额接近 1100 亿元,超过美国同期的 932 亿美元;2019 年 10 月,北京市海淀区政府为响应人工智能发展政策,提出愿为重点项目提供最高 3000 万的资金支持···
然而,一切高歌猛进在复杂的中美摩擦中戛然而止。
2019 年 5 月,华为公司及其在分布在国内外的百家机构被美列入实体名单,大批量半导体断货。
6 月 21 日,中科曙光、天津海光、成都海光集成电路等五家机构被列入实体名单。
10 月 7 日,“黑色”恐怖相继蔓延,海康威视、大华科技、科大讯飞、旷视科技、商汤科技、美亚柏科、颐信科技和依图科技等 28 家中国与人工智能技术相关的机构和公司集体被列入实体名单,被限制从美国购买零部件。
面对突如其来的“制裁”,AI 公司们能做的只有谴责。
科大讯飞表示,列入黑名单不会影响其日常运营。
美亚柏科表示,海外收入不足总收入1%、货源大多来自国内。
大华则在股东会议上表示,主营产品的多数组件可获得替代。
然而正如一位业内人士所说,一项超速发展的下游产业,很难不被缓慢进步的上游产业的缺口所牵制。
8 家 AI 公司表面说没事,实则暗地流血。
数据统计,海康威视 500 亿元人民币(合 70 亿美元)的收入中有近 30% 来自海外;2019Q3 财报显示,海康威视存货金额由年初的 57 亿增长到 98 亿,浮动 +71.96%;外币借贷额增势更明显,由年初 4.4 亿增长到期末 45 亿,同比增长 +929.69%,显然,海康的资本重心发生了大角度转变。
为避免带有情绪的股民集体抛售,海康、大华在名单公布当日一早,宣布了临时停盘。
一位接近旷视科技的人士称,“名单对公司上市进程影响很大···为绕开敏感 GPU 供应商,不得不把产品分成软件、硬件两标投。然而,一边合作方将硬件加价挂牌出售,套走大笔利润;另一边,客户以名单为由,坐地压价甚至重新招标···”
由于 AI 公司普遍采用的美国产的半导体,此次事件对于 8 家 AI 公司影响颇大,并险些陷入此前与中兴相似的境遇。若无自主可控的 AI 芯片,业务定位很难逃离微笑曲线谷底。
楼阁已塌。
据统计,在中国使用的半导体中,只有 16% 是国内生产的,而这其中又仅有不到一半是由中国公司自主设计的。工业和信息化部科技司司长胡燕认为,人工智能的发展不能再走“沙滩建高楼”的模式,若芯片、操作系统等顶层基础不突破,我们的人工智能产业,就是空中阁楼、是为别人做嫁衣。
AI 公司受芯片牵制久已。由于抵挡不住“抽芯”压力,人工智能产业迫切的需要国产芯片的一臂之力。而时至 2019 年底,这一产业的国产化替代趋势初露头角。
二、寻找最优技术路线
为理解这个趋势,需要从基础技术谈起。
首先,如何抽象人工智能?简单来讲,软件通过对现有信息进行自动化分析并得到规律,利用规律对未知数据进行预测,便是人工智能最基本的工作流。
即便有了学术界数十年探索,工业界通过大量实践得出一项共识:面对确定性问题,AI 有着得天独厚的优势;而面对不确定的问题,AI 和人脑(动物脑)之间仍存在难以逾越的鸿沟。人脑善于线性推理,AI 反之,善于高精度、大规模运算。人工智能的分支中的“强化学习”,就是在填补这个条鸿沟。
而在人类社会中,智力相较于劳动力,有着更高溢价范畴。
2012~2016 年,巅峰时期的互联网经济回归基本面,一部分互联网公司、AI 初创解决方案商看到智能服务的缺口,人工智能创业浪潮随之涌现。其中不乏涉及人脸识别、自动驾驶、机器学习等分支技术,并落地于金融、安防、工业、农业、教育等领域。这些领域受数据隐私、商业机密限制,依赖高性能运算同时,对运算属性需求独立分散且灵活。
AI 运算包含大量矩阵、卷积、积分等并行运算,我们熟知的 CPU 并不适用。为满足不同环境下的 AI 运算,业界普遍采用 GPU(图形显示卡)、FPGA(现场可编程逻辑门阵列)、ASIC(专用集成电路),亦或是在 SoC 内封装 NPU(神经网络处理器)、IPU(图像处理单元)等技术路线,以满足 AI 的训练(train)和推理(inference)。
云端训练芯片市场,英伟达(Nvidia)一家独大,主推 GPU 单卡或多卡集成主机方案。其 GPU 产品线覆盖不同程度算力、不同数据类型的训练需求,且编程环境成熟,产品支持市场上主要的开发框架和语言。然而由于成本等因素,GPU 并不适用于 AI 推理端。国内 AI 芯片厂也有着统一共识:绝不走纯 GPU 路线,尝试其他技术路线“绕道超车”。
FPGA,适用于高净值的「推理端」,例如自动驾驶,工控集成,成本略高,优势在于定制性强、设计周期短,然而 FPGA 的设计人才难聘。同时,近些年来看,其高昂成本仍难以绕开。当然也有声音称,国内某家智能驾驶公司与赛灵思合作,将进口单片成本降至 2000 元,配给主机厂做 L2 套件。
从经济角度讲,FPGA 具备“暂时性”替代 ASIC 芯片地位,可弥补 ASIC 长研发周期、流片周期的时间缺口,是目前少有能兼顾训练和推理的高性能芯片。然则全球仅四家公司具备 FPGA 的生产能力:Xilinx(美)、Altera(被 intel 收购)、Lattice(美)、Microsemi,先有英特尔、IBM、德州仪器,再有摩托罗拉、飞利浦、东芝等公司成立独立部门投入 FPGA 研发,均无疾而终。
ASIC(专用集成电路),研发-流片周期长,成本却可降至 FPGA 十分之一水平。Google 独家技术的 TPU(张量处理器)及英伟达 DLA(Deep Learning Accelerator,深度学习加速器)即采用 ASIC 技术路线。国内华为海思、寒武纪、比特大陆、嘉楠智耘等几大芯片厂商,主要产品同样采用该技术路线,目前已实现一定规模的量产。相比 FPGA 这类刚刚起步的技术路线,ASIC 是国内芯片生产商唯一能够在短期获得盈利的半导体产品。
面对残酷的历史教训,传统芯片厂也好,新晋半导体设计公司也好,量产推理端芯片,ASIC 是最优解。
三、云端训练
AI 芯片的供需主要分为两类:云端训练,终端推理。
AI 训练阶端,主流云端训练采用 GPU + CPU、FPGA + CPU 等形式。Google 则采用自研 TPU(一种 ASIC)+ CPU。
刚刚提到,云端 GPU 英伟达一家独大,市场近乎垄断,国产翻身很难。是因为 GPU 在并行计算方面具有天然优势。而 FPGA 的定制化能够补足 GPU 的部分劣势。普华永道预测,云端芯片中 FPGA 将与 GPU 共存很长一端时间。
由于云端训练芯片的研发投入大、流产风险高,国内仅有少数公司能够进入该领域。目前有,华为海思昇腾系列(SoC),阿里含光,依图 QuestCore,燧原,景嘉微(GPU)等。
华为昇腾系列:
2018 年 10 月 10 日,华为正式在 2018 全联接大会上发布昇腾 310 和昇腾 910 两款 AI 芯片。昇腾系列可以看做华为 AI 芯片的拼图,这张拼图一共 5 块:Max,Mini,Lite,Tiny 和 Nano。昇腾 910 属于 Max 那块,一经发布就直奔 310W 的 TDP,算力达 256TFOPS。华为自称 910 是目前单芯片计算密度最大的芯片,计算力甚至远超谷歌(TPU)及英伟达(GPU)。
而昇腾 310 占据 Mini 板块,最大功耗仅 8W,是极致高效计算低功耗 AI 芯片,用于推理端。推理端芯片之后会讲到。
时至 2019 年 8 月 23 日,昇腾 910(Ascend 910)的商用版本才在深圳正式发布。
关于昇腾 910 的性能,徐直军表示,昇腾 910 技术表现超预期,配合 MindSpore(华为推出的自主可控的 AI 计算平台),在 ResNet50 网络的训练中,效果超现有主流训练单卡配合 TensorFlow 两倍提升之多。
面对昇腾强大性能,「互联网周刊」甚至在《2019 人工智能服务器 TOP25》榜单中把该系列芯片排在了第一位,而服务器市场占有率超 51% 的浪潮科技仅仅名列第6。
然而,昇腾目前最大问题是,来自对于主流 AI 开发框架的支持程度未知,如 TensorFlow、PyTorch 等,徐直军在发布会上一直未提及。MindSpore 并不一定能完全取代上述几种开源 AI 框架,这是一个伏笔,华为想把 MindSpore 做出成绩来尚需一端时间。
整体来看,昇腾 910 已经准备好了进入商业化初期阶端,对于自主可控要求较高的云服务商、AI 服务商值得期待下。
以上这些 AI 训练芯片并非无懈可击。其入市前遇到的矛盾甚至比昇腾 910 还多,普遍缺少类似 Nvidia 公司 CUDA 软件层,所以还是那个观点:在推出稳定的开发接口上,培养足够量级的开发者仍有待时日。
昇腾 910 首次亮相披露的合作伙伴有四维图新、用友网络、浪潮信息、长亮科技、超图软件、东方通、东方国信、华宇软件等。
国产 GPU 景嘉微:
11 月 28 日,国产 GPU 厂商景嘉微与国内高性能计算机厂商长城科技签署了 10 万块 GPU 采购协议(拟采购)。
景嘉微,可能很多人不太了解,甚至都没听说过,A股股民一定熟悉:这是国内唯一一家上市、并能够生产自主可控的图形显示卡制造商。
近年,景嘉微先后推出的 JM5400、JM7200 型号显卡整体带动国产 GPU 实力提升一大截。刚刚说的 10 万块采购协议,便是最新型号 JM7200 显卡。
此前有消息称,景嘉微将于 2020 年也就是明年将推出 JM9 系列显卡,有网络媒体把这块显卡参数与英伟达产品线的产品进行对比,发现 JM9 系列堪比同等性能、功耗更低的 GTX1080。
回到供货长城一事。此前,景嘉微业务限制于军工、航天,并无介入商用、消费市场。甚至这几公司的 2018 年报显示,全年应收账款的 86.06% 来自中航工业。
目前来看,景嘉微业务线可能会在 2019 年发生转变。先是国产芯片市场的缺口越裂越大,然后是供货长城一事。尤其在国内相关科技公司被美国列入出口管制实体名单后,云计算芯片国产替代需求大增,JM 系列虽然和英伟达技术差距4、5 年,但自主可控的缺口已到来,供不应求,明年的 JM9 系列很有潜力进入商用云计算领域,或是与国产 CPU 一同出现在政务办公整机、工控机、高端机床等。
燧原科技:
燧原科技是少有自主研发云端 AI 芯片的初创企业。这里说它初创,一是公司成立时间短,二是采用的芯片架构非常新(DTU),没有得到市场验证。
2019 年 12 月,燧原科技发布两款训练卡:T10,T11。两张卡搭载燧原自研芯片“邃思”,最大功耗分别是 225W 及 300W。其中云端训练卡 T10 半精度及混合精度下算力达 80TFLOPS。
燧原从成立到两款板卡推出,时间上仅用了 21 个月,按照公司发布会上的说法,T10、T11 将在 2020 年第一季度出货。届时,市场反馈值得期待。
数据显示,燧原 COO 张亚林持股 27.4%,CEO 赵立东对等持股 27.4%,而背后另一大股东是来自互联网巨头:腾讯(23.2%)。此外,曾带头作出国内第一颗移动高速存储芯片、兆易创新创始人朱一明也通过投资关系占股 0.35%。
外界猜测,按照创始人前职务来看,邃思大概率采用内置 CPU、GPU、NPU 等模块的融合型异构框架,这也是 AMD 最具代表性的处理器技术路线之一(APU)。总之,值得期待。
四、终端推理
推理端芯片近乎空白。
根据移动互联网发展经验,消费电子、基础设施等推理端产品的芯片需求量及增长速度将远超训练端市场。而刚刚提到的 GPU 芯片并不适用推理。
无论是中国还是美国,AI 推理芯片的发展仍处于早期。
广证恒生分析师认为,AI 芯片竞争格局未定,即便在云端 AI 芯片英伟达一家独大的情况下,国产边缘端(推理)芯片,国产化有广阔的应用场景和市场空间。
在此基础上,多家不同技术路线的 AI 芯片厂商涌现。
首先是 FPGA。国产 FPGA 并不是没有公司做,而是大多和军工、卫星项目挂钩,难以供给民用端。存储芯片龙头紫光国徽,分支业务线中也推出了国内较为稀缺的自主可控 FPGA,并计划 2020 年推出 28nm 制程的相关产品。华微电子研制出国内首个自主可控的宇航用 FPGA 芯片,目前被报道是华为二级供应商。
FGPA 技术路线具有几大特点:性价比,低功耗,可编程。通过定制,可以适应深度学习、机器学习等在云端做的模型训练。但横向来看,国内外利用 FGPA 的部署 AI 服务器的量还不能与 GPU 相提并论,主要原因就是:太贵。
开发框架也没有开源,IP 闭锁。FGPA 是一种趋势,未来 BAT 或许会更多采用 FGPA 集成 AI 算法。CPU 头部的英特尔最先注意到现阶端 FGPA 与 GPU 的差距,急忙忙一连收购了多家 FPGA 创业公司。
IoT 也好,AIoT 也好,单纯做推理,搭载 ASIC 是不错的选择。根据不同需求,衍生两条思路:IoT 网联后做边缘运算,搭载于边缘服务器;或直接搭载于终端设备。这里值得强调:由于数据隐私,ASIC 暂无法被云端推理 +5G 取代。
嘉楠耘智就是一家 ASIC 芯片设计公司。嘉楠创办初期,2014 年成功量产 55nm 芯片、2015 年 28nm、2016 年 16nm,2018 年直接突破 7nm。流片良品率放在一边,单纯看 7nm 工艺,不得不说里面的噱头占比较高。例如,最高每秒 50TH 算力、主机大小的阿瓦隆 1066 矿机中塞下了 342 枚 16nm 制程 A3205 芯片。工艺难度越高、集成电路体积越小的流片,即便良品率被低,成本仍在可接受范围。所以,芯片做小非常讨巧。只不过 2018 年嘉楠 7nm 概念被疯炒后又被实锤,为嘉楠当时的赴美上市计划带来了负面影响。直到 2019 年下半年,区块链概念才被普遍关注,嘉楠逮住机会再次赴美上市、拿下了国产“区块链 +AI+ 芯片”第一股的称号。
嘉楠耘智转向 AI 芯片的动因很简单:比特币挖矿的生意越来越难做。2017 到 2018 年,嘉楠靠出售矿机营收增幅 106%,而净利润逆势下滑 67.4%,截至 2018 年 6 月 30 日的 6 个月里,嘉楠的总收入为 19.471 亿元人民币;但在截至 2019 年 6 月 30 日的 6 个月里,嘉楠的总收入仅为 2.888 亿元人民币(合 4210 万美元),降幅为 85.2%。
到了 2019 年,伴随着比特币 10 万元神话跌落,嘉楠矿机的毛利润率又一次被腰斩。
挖矿潮退烧,嘉楠需另寻出路。
此消彼长。嘉楠沿袭制造矿机的思路,拟量产适用于边缘计算服务器的勘智 K210 等系列 ASIC 芯片。按照目前能够找到的资料显示,这块指甲盖大小的芯片能够在定制版卡上流畅地跑人脸识别算法。
拼条命去搭的人工智能市场的首班车。嘉楠在招股书里不断强调勘智 K210 的各种优点,并提及另一款名为 K510 的芯片将于 2020 问世。当然,K系列芯片有没有人买单就是另一回事了,至少嘉楠是少量拥有完整制造 ASIC 经验的 IC 设计厂商之一。
为产品可靠性考虑,目前主流的视频、语音推理端芯片还仍围绕 ARM、英伟达 Xavier(SoC)、海思。这里提一下华为海思,虽然在业内,海思多款芯片被各路吐槽、贴吧论坛里流传着各路黑,但不管怎么说海思是目前能够唯一一家能覆盖视频处理、手机、显示器、机顶盒等基本生活家电的芯片厂,我们有理由相信,海思的产品更适合中国市场,并且上下游供应链成熟,稳定供货有底气。
定义上讲,寒武纪科技是全球第一个成功流片并拥有成熟产品的 AI 芯片公司,2016 做起了推理端 AI 处理器 IP 和云端 AI 加速卡两条产品线。
2016 年,寒武纪发布了首款 10nm 工艺的 1A 处理器(Cambricon-1A),当时这款芯片反响很大,特别是因为 2016 年,10nm 工艺刚刚进入工业市场,台积电刚刚宣布能够支持 10nm 工艺,这家初创公司便向台积电下放了订单,并在 2018 流片成功。在芯片发布同时,寒武纪给出了完整配套开发环境:Cambricon NeuWare SDK。
2017 年,华为麒麟 970 搭载寒武纪 NPU 上线。与华为合作的招牌成功为寒武纪带来巨额热钱,公司在 2017、2018 之间不足一年的时间里,依靠两次上亿元美金的投资,估值直接飙升至 25 亿美金。相比同时期成立的 AI 芯片设计商,寒武纪在还没有对等的实际收入前提下,已经在资本市场占有一席。
五、底层重建 or 拥抱全球分工?
一种关于未来趋势的说法是,技术领域将逐步走向两个平行系统,以方面多多少少倚靠美国,一方面完全摆脱美国。后者里面,台积电(TSMC)和 ARM 便是很好案例。
而一些 AI 细分领域,如智能语音,国内的全志、海思、Amlogic(晶晨半导体)等已处于领先地位。
然而,一项产业的建设一日建成的可能。以国产数据库为例,前不久,一家国产数据库厂商的高管表示,即便企业不用 Hadoop 一类软件,主流国产数据库的代码量还只是几千万行量级,Oracle 几年前就达到了 1 亿行,追是可以追,但追上还要花“点”时间。
想想几年前阿里提出的“去 IOE”化,实现难度并不是一家企业、集团能够赤手一搏的。国产芯替代的进程也注定不会顺风顺水。另外一些矛盾在于,企业为生存为利润会更愿拥抱全球分工。半导体产业的国产化,大量底层技术的起步无异于重建,投入与资本风险不能小觑。
所以,是从最底层开始重建一遍,还是继续拥抱全球分工?
如果以眼下世界芯片格局来看,中国大概率会从今年起,通过刺激资本,将技术流向转移到以芯片制造业为主导的产业推进。什么是供给侧改革?这便是。
历史上,每一代半导体新巨头和新兴地区的出现都伴随着终端迁移:PC 市场成就了英特尔;移动市场成就了 ARM、高通、三星、台积电;而在 AIoT 的普及趋势中,中国 IC 厂商很可能脱颖而出。眼下,中国已是 AI 公司、芯片公司创业和发展最旺盛的时期,而全球范围来看,中国目前已经是传统产业智能化需求最旺盛的市场。
2019 可以说是国产半导体产业转折性的一年。截至发稿,中证全指半导体指数半年涨幅超 98%,动态市盈率(TTM)超 85。国联安半导体基金指数也已经在 2019 后半年与沪深 300 指数拉开明显差距。
眼下,以 AI 芯片为导向的半导体产业路线逐渐明晰,而背后的芯片代工及封测等工艺接收到订单需求也逐渐增多,或许在未来 10 年,我们可以看到一批在 AI 市场中幸存下来的独角兽,也或许可以亲眼目睹半导体基础技术的飞速发展。