摩尔定律落幕,云平台兴起,5G带动将让互联网上流转更多高清视频,边缘计算也成为海量数据下的必然产物。海量流媒体数据需要编码、转码,ASIC将扮演越来越重要的角色。本文由LiveVideoStack对NETINT Co-founder & COO刘伟的采访整理而成。
文 / 刘伟
策划 / LiveVideoStack
LiveVideoStack:刘伟你好,简单介绍下自己的工作经历,以及在NETINT负责的工作内容和专注的领域。
刘伟:我在NETINT任COO一职,主要负责公司的运营、Product Management以及市场和销售部分。在此之前,是在PMC-Sierra从事企业存储芯片的研发项目的项目管理工作。在NETINT现在有两个关注点,一是如何推动现有的Codesnity系列视频转码芯片和PCIe 4.0 NVMe SSD在全球市场的推广。另一方面,是如何构筑一个北美和中国的协同开发、支持体系,为今后的发展奠定一个结实的基础。
LiveVideoStack:我们知道芯片设计有非常高的门槛,资金投入大,回报周期长,不过一旦成功,回报亦很大。您怎么看待芯片设计行业的这一特点?又是什么支持您坚守这一领域的这么久的?
刘伟:芯片行业的确有非常高的门槛,尤其是我们所在SoC领域,一个项目动辄投资几千万美金甚至上亿美金。项目的周期也非常长,从设计、验证、流片、到系统完备需要几年的时间。 设计复杂的SoC需要一个完整的团队,在一个典型系统之中,包含有多个不同的子系统和功能模块,每一个模块都需要有积累足够深厚、能够高质量完成设计和验证的团队,少了谁都不行。在这方面,我们有一个近80人的成建制的研发团队,并且有多年的经验积累,我们的架构师都有20年以上的企业级芯片设计经验,工程师平均也有17年以上的专业工作经验。
芯片行业经历过几次高潮和低潮,随着摩尔定律的落幕以及大型云平台的兴起,现在又进入了一个(初创)芯片企业的黄金时期。在很长一段时间内,芯片业竞争的重点是比谁先进入下一个技术节点,65nm, 40nm, 28nm一路到16nm甚至7nm。随着接近物理的极限,进一步缩小技术节点的难度越来越大,成本也越来越高。 另一方面,随着大型云服务平台的兴起, 很多应用在云平台有很高的服务密度,通用计算的能力远远没法满足需求,必须要采用专用芯片进行加速;另一方面由于需求密度之高,对于一个云平台而言,通过设计/采用专用芯片来提高效率,在成本上也开始变得有利可图。在这个背景下,很多芯片初创企业开始涌现。AI由于市场话题热度比较高,可能大家听到的AI芯片初创公司会比较多。我们则独辟蹊径,定位在了Computational Storage和视频编解码领域。相对于被热捧的AI,我们更关注如何在可预期的时间内,为客户赋能,踏踏实实的为客户真正带来更多的价值,毕竟,这才是一个企业存在的价值。
我们的努力已经开始得到了回报,我们已经北美、欧洲、中国的云数据中心、电信运营商、广播电视公司、视频平台、视频监控等领域开始了广泛的合作。我们也很荣幸的获得了NAB 2019年度产品的提名。如果有LiveVideoStack的朋友准备到Las Vegas参加这届NAB Show的话,我也很希望能够借这次机会能够认识更多的朋友,做更为深入的交流。
LiveVideoStack:ASIC拥有最好的性能,但灵活性最差。只有当市场预期足够大时,ASIC的优势才能得以发挥。您和您的团队如何判断服务端视频编码市场的?ASIC将占据多少份额?
刘伟:IP视频市场近些年来在经历一个蓬勃发展的时期,Cisco Visual Networking Index (VNI)报告中指出,IP视频已经占到了整个互联网视频流量的79%,并还在不断增加。到2021年,超高清(Ultra HD)将会在IP视频流量中占到20.7%的比重。从2016年到2021年,Internet上视频监控流量会增加7倍。根据世界经济论坛2017年9月的预测,沉浸式媒体,包括AR和VR,在2025年将成长为一个950亿美金的市场。与此同时,还有很多新的服务在不断涌现出来,比如现在大热的Cloud Gaming市场。 这些都不可避免的要求高效率的服务器端视频编码。而传统的软件编码方式,已经无法应对这些需求带来的爆炸式的算力需求增长。专用的ASIC解决方案是一个必然的选择。
还有一个非常适合的领域是边缘计算场景下的应用。视频,尤其是高清和沉浸式媒体(AR及VR)是5G的一个典型应用。从客户体验上来说,为了减少Latency并提供接近实时的反应速度,大量的视频加工、分析、编码在需要放到EDGE端来进行。从经济效益角度分析,在5G环境下,由于终端节点众多,在终端节点进行处理,从而避免数据洪流大量回传到主干网络中,是最为合理的一个选择。在具体设计实施时,MEC(移动边缘计算)的设计在空间、功耗、空调需求、甚至重量上都有很多的限制。因此亟需一个高性能、低功耗、小尺寸、易维护的方案。 在边缘计算场景下使用专用芯片设计,尤其是像NETINT Codensity这一类具备Computational Storage架构优点的芯片就是一个非常好的选择。
ASIC方案有最好的性能,这个毋庸置疑,但谈到灵活性最差,其实是从过去时代遗留到现在的一个误解。过去常见的编解码芯片是集成到consumer client端设备当中的,比如摄像头、机顶盒、智能电视中。这样的芯片仅能处理video in,video out,灵活性很差,与现在数据中心客户广泛采用的其他系统之间无法直接交互。 与此不同的是,我们的芯片在设计之初就是为了在云数据中心、服务器端采用的。为此,做了很多创新的设计。从芯片架构的层次,我们在全球率先采用了先进的Computational Storage架构,视频编解码全部通过标准的NVMe interface来处理,硬件上采用存储产品中广泛采用U.2 formfactor。这样做的好处是不用任何特殊设计的服务器,也不用更新Linux kernel,不用装特殊的驱动,基本上做到了即插即用。这样极大的降低了运维人员安装和维护的难度,可以在云数据中快速的广泛使用。
当我们在全球最先推出数据中心级视频编解码ASIC时,确实很多人还在犹豫ASIC编码与软件编码的选择。但进入到2019年后,我们现在看到越来越多的头部互联网公司开始在转型到ASIC编码上来了。相信大家会陆续看到更多这方面的新闻发布。
LiveVideoStack:一般认为,硬件编码虽然效率高,但是画质低于软件编码,NETINT如何提升编码画质的?
刘伟:这个和刚才谈到的问题也有关系。刚才提到的传统上的client端编码芯片由于使用场景的限制,为了平衡性能、质量和所需的计算资源,很多的编码流程中的工具/选项没有集成进去,因此视频处理的能力、画质有限。并且由于应用场景比较固定,普遍采用video in、video out的设计,视频数据缺乏再加工的潜力。 而我们的芯片从设计之初就是针对云数据中心和视频平台的高视频质量、高throughput、高稳定性以及可拓展性要求而设计的。NETINT Codensity转码芯片以非常高质量的编码引擎作为基础,非常深入的集成了多种画质增强工具,可以向客户提供了和x264/x265相当,而且多达200多个编码参数供选择。 用户可以针对不同的使用场景和用途,选择灵活的编码策略,达到最优的效果。
不仅如此,我们称这个产品为转码卡,其实严格的来说应该说是视频编解码卡,解码单元和编码单元是独立的。解码单元、编码单元以及Host之见可以直接处理YUV格式视频。以AWS为例,这样的大型云服务提供商有着完整的视频加工工具和流程,为了避免重复编解码,视频在系统当中是以视频原始YUV格式流动的。我们可以把解码后的视频流以YUV的格式给到host,进行画质增强、人工智能处理、服务器端广告集成等多种处理。处理后的YUV流可以再次给到我们的编码单元,然后在编码单元内实时编码为多种分辨率、码率的多个码流,然后通过服务器和CDN以ABR形式分发出去。 上述的功能特点,不仅仅在视频质量方面可以满足客户的要求,更可以作为客户Production flow上重要的一个环节,为客户带来更多的价值。
LiveVideoStack:现在还有厂家在开发基于FPGA的编码方案,您是怎么看待FPGA NETINT ASIC对比的优缺点呢?
刘伟:FPGA由于其相对于软件方案的高性能和相对于ASIC的更高的可编程性,在开发新产品时,确实有其独有的优势。然而,FPGA也带有它多个先天的劣势。首先,FPGA的成本非常高,一块较高性能的FPGA的成本,轻轻松松要几千美金、甚至上万美金一块。 而且即使是高端的FPGA可用来编程的LUTs也是一个非常有限的数目。因此纯粹用FPGA的LUTs来进行编码器设计的话,throughput非常有限。在这方面可以举一个我们自己的例子。我们在设计现在这款芯片时,花费巨资,采购了四十多套最高档的FPGA来作为仿真测试的平台。但即使是当时最高档的FPGA,也只能模拟我们芯片局部blocks的一部分功能,因此,不得不将各个block分拆开来在FPGA进行模拟测试。为了测试1-2个channel的E2E的功能,我们需要将2块FPGA甚至4块FPGA拼在一起才有可能。即使是这样,也仅仅能模拟我们芯片大约1/10 throughput的工作。由此可见,FPGA的throughput、功耗和ASIC之间,还是存在一个非常巨大的鸿沟。
当然,现在有的FPGA设计比较讨巧,在其中集成了视频编码“硬加速”模块来提高性能,并且缩小了LUTs来节约成本,不过在这种情况下,FPGA仅仅是作为一个ASIC来使用,并不是本来意义上的“Field-programmable”了,而是一个借着FPGA名字的ASIC方案,这种方案在性能、价格和功耗上并无多少竞争力。
还有一点很多人没有意识到,与通常的软件编程不同,FPGA编程想要做的好,需要对HDL和protocols有很深的认识,难度很大。维护和升级的成本很高。 因此,FPGA不仅仅是初始采购成本高,维护和升级的TCO更高。
当然,FPGA还是有它的独特优点,当使用数量非常有限、作为Prototype平台使用时,是一个很好的选择。但对于大规模使用的场景,还是应该很好的衡量一下再做决定。有兴趣的同学可以看一下在SSD领域,相似的争论几年前也出现过。当时也有基于FPGA的主控方案,但现在毫无意外的,都已经全部升级为专用ASIC的方案了。相信在不远的将来,在AI尤其是Inference应用方面,大家很快也会看到同样的变化。
LiveVideoStack:为什么选择H.264/HEVC作为编码标准?是否考虑或计划提供其他标准的编码格式?看看哪些编码标准的未来,H.266/AV1/AVS2/AVS3?
刘伟:在市场调查中我们发现,H.264作为一个成熟的Codec,在整个streaming市场有约80%的占有率,ecosystem非常完备。而HEVC作为更新一代的Codec,在视频压缩效率方面有将近30-50%的提升。而其他多种codec由于种种原因,或是未在市场中形成一个有效的体系,或是在成熟度方面还有所欠缺,因此当时选用H.264/HEVC就成了我们在设计这款产品时一个非常自然的选择。 当然,包括H.266/AV1/AVS3在内的新的codec技术也还在不断的演化、进步,我们也在积极的关注着这方面新技术的发展。其实我们已经有下一代产品在设计当中了,具体包含哪些新的codec,目前还是公司机密不能披露。相信新产品出来时,一定会在市场有相当的冲击力。
LiveVideoStack:我注意到NETINT的产品除了提供高性能的编码能力,还融入了存储控制能力。这样的产品面向哪些应用场景呢?
刘伟:NETINT是一个有很强创新基因的芯片公司。我们的产品可以看作是多种思想相互碰撞、升华、融合的产物。这里90%的员工是工程师,而且这些员工来自很多不同的领域。在公司中既有很多来自企业级存储芯片领域有着20多年经验的资深架构师,也有在视频编码/DSP领域有着30多年经验的资深设计师,也有很多人曾经参与开发了Snapdragon这类被广为采用的芯片。这么多有才华、有激情的工程师聚在一起,每天都会产生了很多奇妙的构思。这也是在NETINT公司工作最大的乐趣之一。
我们在全球最早采用Computational Storage架构设计芯片,并设计出了全球唯一一款Computation Storage架构的Video Processing SoC。我们现在还在积极的参与SNIA Computational Storage TWG的活动,希望能够激励更多的公司能够参与到这个TWG的建设,为客户带来更新颖、高效的解决方案。
采用Computational Storage架构,在云数据中心和边缘计算场景下都有这广阔的应用前景。 存储系统是云数据中心设计最为严谨的系统之一,所有的系统、接口都经过了各个客户、厂家严谨的论证和设计,并在实际应用当中经历了严苛的考验。我们采用这样成熟的存储架构为基础,可以将我们的视频编解码系统的成熟性直接提高到了顶级的企业级应用水平。由于采用标准的PCIe NVMe驱动,以及标准的U.2 formfactor,客户无需采购、qualify新的服务器,也不要安装任何私有的驱动,无需重装Linux kernel,把我们的转码卡插到U.2 slot当中就可以使用。这对于系统设计和运维团队来说,大大简化了集成复杂度和维护难度。 当需要scale out时,只需要在现有系统中插入更多的转码卡,就可以实现编解码能力的线性增长。
另一个主要的使用场景就是在EDGE Computing场景当中。我们采用的是ASIC解决方案,效率相对于软件解决方案来说,有着巨大的提高。提供高处理能力的同时,还有着极低的功耗,每张卡在全速工作时,功耗只有6W。 转码卡的尺寸也非常小,就是一块普通2.5”SSD硬盘的大小。客户可以轻易的把这个产品集成到MEC当中。并且转码卡和SSD共用同一种接口,用户可以自由的进行存储单元和转码单元性能的互相调剂。 未来我们还会提供Fusion系列产品,将转码卡和SSD合二为一,用户可以为边缘计算场景设计兼具性能、功耗、体积、成本的全能冠军型新一代边缘计算服务器。其实针对边缘计算的场景,结合这款产品的独特能力,我们预见到还会有很多可能性可以挖掘,我们也十分愿意与客户来共同开发这些应用。
LiveVideoStack:NETINT是否考虑提供更丰富的能力选择给用户?
刘伟:是的,前面提到我们的产品有200多项编码参数可供用户选择,并还在不断再增加。上个月我们刚刚开放了ROI功能给客户,这样在极低的网络条件下,客户可以结合他们已有的AI功能, 识别最终用户感兴趣的区域,动态分配更多的码率。这样在有限的带宽条件下,可以实现用户满意度的最大化。 我们的产品能够跟FFmpeg无缝结合,用户负责自由的创新,只需要把艰难的视频编码计算留给我们就好。 我们已经在着手设计下一代产品,到时无论是能力的种类还是深度,我们都会给客户更多的选择。
LiveVideoStack:NETINT最大的(潜在)竞争对手是?NETINT的优势是?
刘伟:坦白的说,作为一个高科技start-up公司,从一开始我们就不打算陷入到低水平的竞争当中,我们更愿意进行高度的创新,在另外一个维度上获得发展的空间。就这款产品而言,我们在全球最先在SSD中实现了PCIe 4.0接口,实现了全球首款computational storage架构编解码ASIC,(正在)设计世界唯一一款Fusion系列SSD…我们与包括软件编码方式在内的多种解决方案,共同构成了一个丰富的编码工具体系。客户依据他们的应用特点和约束条件,可以选择多种方式来满足他们的业务需求。
对NETINT而言,我们擅长的场景是高并发、极低时延、高稳定性、易拓展的使用场景,各类直播是典型的应用之一。另外一个擅长的场景是高效率、低功耗、体积小、高融合的边缘计算场景。当然,还有一类是对超高分辨率、极低时延有要求的新兴应用场景,比如AR、VR、云游戏平台等,这方面我们也可以大展身手。因此,我想说我们没有严格意义上的竞争对手。
作为一个创新公司,我们领先于其他公司设计出了这款有着众多创新的突破性产品,享受到了技术领先带来的红利。在这方面,时间是我们的朋友。另一方面,作为一家创新公司,我们公司只有较短的历史,在市场上没有足够的时间积累,没有被人广为所知,会错失很多的机会。在这个方面,很不幸,时间站在我们的对立面。在这里,也希望LiveVideoStack的朋友们多了解我们,我们一同为客户带来更多高效、新颖的解决方案,促进这个行业更快的向前发展。
点击【阅读原文】或扫描图中二维码了解更多LiveVideoStackCon 2019 上海 音视频技术大会 日程信息。