【嵌牛导读】:FPGA市场现状和未来前景
【嵌牛鼻子】:FPGA市场
【嵌牛提问】:FPGA行业的现状及前景如何?
【嵌牛正文】:
FPGA国内现状
目前中国IC厂商在FPGA这个细分领域和国外巨头的差距远远比其他领域要大。
FPGA技术门槛非常高,核心技术只掌握在及其少数的公司手上,而且xilinx和atlera手头握有6000多项专利,对后进者形成很高的技术壁垒,国内厂商要么和国外巨头专利交叉授权,要么花钱买专利,但当前我们并没有多少专利可以和xilinx和altera进行交叉许可,购买难度更大,这不仅仅是资金的问题。从canyon bridge收购lattice被美国否决来看,凡涉及到美国国家安全的高新技术公司,我国是不可能通过收购来获得的,lattice在行业内充其量是第二团队尚且如此,业界领先的企业我国更难获得。
国内FPGA的发展只能靠自主,虽然这个过程可能会很漫长,但除此之外没有更好的选择。芯片的自主设计是实现信息安全的最底层保障。这也是为什么与信息处理相关的基础芯片(手机芯片、PC处理器等)需要实现自制的原因。在目前FPGA的技术和供给几乎全部来源于美国,包括欧洲和日本等技术强国也没有掌握到核心技术。
对于中国而言,国家促进集成电路发展已经提升至国家战略。同时特殊的应用场景(军工、导弹、航天航空)的要求的FPGA,国外对中国是禁运的,这也从另一方面促成国内FPGA自制的契机。目前,国内生产的FPGA主要用于军工、通讯、航空航天等领域。
在民用领域,国内是FPGA需求最大的市场,现在Xilinx、Altera最大的客户就在中国,通讯市场华为中兴烽火包揽了全国60%以上的量。中国FPGA的发展红利在于需求市场足够大,有需求就要有相应产品来支持。这对于国内厂家就是机会,目前,同方国芯片已经和华为中兴合作,想实现一部分的国产替代。
最后,从技术角度来说,我们已经不像10年前基本不懂核心技术。国内半导体产业链的不断成熟完善,以及芯片设计能力的不断加强,我们自己可以自主设计和流片ARM架构的手机CPU(海思麒麟、大唐联芯),并成功实现商业化,这在10年前都不敢相信。在我们在过去积累的技术沉淀和创新能力,已经使得我们在FPGA的特定应用领域(军工、通讯)实现一定程度上的自我供给。未来也可能类似于CPU+FPGA用于云数据中心节中,这些应用领域都是信息高度敏高的地方,使用自主设计的芯片更能实现安全可控。
人才需求
中国每年对于FPGA设计人才的需求缺口巨大,FPGA设计人才的薪水也是行业内最高的。目前,美国已有FPGA人才40多万,中国台湾地区也有7万多,而中国内地仅有1万左右,可见中国渴望有更多的FPGA人才涌现出来。
四、FPGA的未来
作为一种可编程逻辑器件,FPGA在短短二十多年中从电子设计的外围器件逐渐演变为数字系统的核心。伴随半导体工艺技术的进步,FPGA器件的设计技术取得了飞跃发展及突破。通过FPGA器件的发展历程来看,今后仍将朝下以下几个方向发展:
· 高密度、高速度、宽频带、高保密;
· 低电压、低功耗、低成本、低价格;
· IP软/硬核复用、系统集成;
· 动态可重构以及单片集群;
· 紧密结合应用需求,多元化发展。
此外,集成了FPGA 架构、硬核CPU 子系统(ARM/MIPS/MCU)及其他硬核IP 的芯片已经发展到了一个“关键点”,它将在今后数十年中得到广泛应用,为系统设计人员提供更多的选择。例如,以应用为导向,在受专利保护的FPGA平台架构上无缝集成特定功能模块,以形成具备行业竞争优势(高性价比)的独特产品。
从技术上来看,GPU、FPGA 和 ASIC 都各有千秋。从实际应用来看,GPU 拥有最完善的生态系统支撑,具有较大的先发优势。
人工智能在推理环节应用刚起步,云端要比前端设备发展速度更快。下面我们将重点讲述一下云端数据中心的应用。在数据中心,FPGA 使用日益广泛,而 ASIC 路线风险太高,目前仅有谷歌批量部署了 TPU。
FPGA 已在全球七大数据中心实际部署
FPGA 最大的优点是动态可重配、性能功耗比高,非常适合在云端数据中心部署。
当在数据中心部署之后,FPGA 可以根据业务形态来配臵不同的逻辑实现不同的硬件加速功能。以腾讯云为例,当前服务器上的 FPGA 板卡部署的是图片压缩逻辑,服务于 QQ 业务;而此时广告实时预估需要扩容获得更多的 FPGA 计算资源,通过简单的 FPGA 重配流程,FPGA 板卡即可以变身成“新”硬件来服务广告实时预估,非常适合批量部署。
FPGA 的性能功耗比显著高于 GPU。以普遍使用在服务器中的 FPGA型号 A10GX660 为例,性能/功耗能达到 45GFLOPS/W,而对应的 GPU 型号 M4,性能/功耗能达到29GFLOPS/W。依次测算 FPGA 性能功耗比要高 50%。
近两年,全球七大超级云计算数据中心包括 IBM、Facebook、微软、AWS 以及 BAT都采用了 FPGA 服务器。在这方面,中国和美国处以同一起跑线。
大超级数据中心都采用了 FPGA
行业发展趋势:FPGA 大有可为
比使用现状更重要的是未来的技术和产业发展趋势。从行业发展趋势来看,FPGA 潜力被低估了,未来大有可为。具体如下:
算法正在快速迭代中
人工智能算法正处于快速迭代中。虽然 ASIC 芯片可以获得最优的性能,即面积利用率高、速度快、功耗低;但是 AISC 开发风险极大,需要有足够大的市场来保证成本价格,而且从研发到市场的时间周期很长,不适合例如深度学习 CNN 等算法正在快速迭代的领域。因此,推出 ASIC 芯片风险非常高,且成本太高,只有谷歌等极少数公司敢于尝试。
更重要的是,当前人工智能算法模型的发展趋势是从训练环节向推理环节走,这个过程非常有利于 FPGA 未来的发展。人工智能算法模型从训练环节走向推理环节并不是简单搬运过去。训练出来的算法模型往往规模太大,复杂度太高,无法直接部署实际应用。现在,人工智能算法模型研究的重要趋势就是将训练后的模型再进行压缩,在基本不损失模型精度的情况下,将模型压缩到原来的几十分之一,再应用到推理环节。
模型压缩是从训练环节走向推理环节的必要过程
以深鉴科技的研究成果为例,公司发布的论文《ESE: Efficient Speech Recognition Engine with Sparse LSTM on FPGA》指出,长短期记忆网络(LSTM)被广泛用于语音识别领域。为实现更高的预测精度,机器学习研究者们构建了越来越大的模型。然而这样的模型十分耗费计算和存储资源。部署此类笨重的模型会给数据中心带来很高的功耗,从而带来很高的总拥有成本(TCO)。
公司提出了一种可以在几乎没有预测精度损失的情况下将 LSTM 模型的尺寸压缩 20 倍(10 倍来自剪枝和 2 倍来自量化)的负载平衡感知剪枝(load-balance-aware pruning)方法。
最后,它们设计了一种可以直接在这种压缩模型上工作的硬件框架—Efficient Speech Recognition Engine (ESE)。该框架使用了运行频率为 200MHz 的 Xilinx XCKU060 FPGA,具有以 282 GOPS 的速度直接运行压缩 LSTM 网络的性能,相当于在未压缩 LSTM 网络上 2.52TOPS 的速度;此外,该框架执行一个用于语音识别任务的全 LSTM 仅需 41W 功耗。在基于 LSTM 的语音基准测试中,ESE 的速度为英特尔 Core i7 5930k CPU 的 43 倍,英伟达 Pascal Titan X GPU 的 3 倍。它的能量效率分别为以上两种处理器的 40 倍和 11.5 倍。
芯片 NRE 费用在指数级上升
集成电路行业的特点是赢家通吃,像 CPU 处理器,只有英特尔一家独大,门槛极高。而随着芯片制程工艺的提升,芯片 NRE 费用呈现指数级上升。这样导致的结果是需要收回成本的芯片销售规模门槛越来越高。市场上能够满足如此大市场规模要求的单品是非常少的。
因此,随着芯片 NRE 费用指数级上升,越来越多的 ASIC 芯片将由于达不到规模经济而被迫放弃,从而转向直接基于 FPGA 开发设计。而 FPGA 可以受益于指数级成本上升带来的规模效应。