每年的Hot Chips大会都会对半导体行业的各个发展方向加以追踪,而今年的大会则显示各厂商开始将主要精力放大机器学习、智能车辆以及新型传感器领域。
移动行业在大会上亦有所表现,不过其工作进展似乎仍以增量式推进为主。微处理器作为以往大会中的重点,目前则由英特尔Skylake、IBM Power 9以及AMD的Zen x86核心作为主要载体。
激烈的云计算竞争则继续为芯片发展提供动力。作为老牌劲旅,英特尔公司展示了其如何利用收购成果加速产品垂直一体化发展。而作为后起之秀,中国的飞腾亦加入竞逐。
也许最令人振奋的消息在于,本次大会上出现了大量由年轻从业者及新兴学术带头人担任的主讲者。他们的智慧与冲劲亦为半导体行业的未来带来光明与希望。
在为机器学习技术打造更为完善的神经元网络方案之前,大家首先需要实现可承受的能源使用效率,Movidius公司首席技术官David Moloney表示。他在题为《这一切到底值不值得?》的演讲中展示了以上图片,并指出准确率的提升会同时带来更高的每瓦性能成本。
目前对于神经元网络的高度关注催生出众多包含大量GPU的低能耗服务器方案,Facebook最近亦推出了相关方案。Moloney已经在多种用例当中引入这一思路,旨在利用Movidius等参考引擎提供的出色性能、延迟与功耗收益——这里多提一句,Movidius芯片位于网络边界处,接近传感器装置。
很明显,他呼吁各企业采取相关举措,从而确保机器学习技术在快速发展的同时,不会受到半导体元件功耗问题的拖累。
两年之前,百度公司首席架构师欧阳健曾做出主题演讲,探讨FPGA如何提供出色性能,从而以低于GPU的功耗水平加快机器学习相关任务处理。今年,他再次回归并表示,中国网络巨头百度公司目前已经在使用上万套此类单元。
这套软件定义加速器(简称SDA,如上图所示)基于一块采用20纳米Xilinx KU115 FPGA与8到32 GB内存的八通道PCIe 3.0卡。其能够将SQL构造解析为FPGA可以接受的五种硬件处理元素类型,从而将应用的执行速度提升8到55倍。
他将SDA描述为一种通用型加速机制,且在排序方面的性能表现要超过GPU——特别是在复杂数据类型情况之下。这些PCIe卡具备C++ API以利用RTL流进行编程,他表示这是因为OpenCL在处理大量搜索表时存在着时间难以收敛的问题。
总体而言,“CPU的发展速度要远低于大数据规模的增长速度,因此我们需要利用加速技术以弥合这一差距,”欧阳健解释称,他同时展示了一份应用提速表格(如下所示)。
刚刚获得学士学位的宋耀(音译)来到Hot Chips会场,介绍一种利用FPGS运行机器学习算法的创新型方案。他展示的基板(如上图所示)配合由他创办的初创企业DeePhi Technology公司打造的自动化编译工具,旨在冲击令深度学习专家及RTL工程师们头痛的技术难题。
这家初创企业的工具作为一套备选方案,能够生成相关操作并将OpenCL需要耗时一个月的工作量在不了解RTL的算法设计师手中压缩为一分钟,同时提供更高性能与执行效率,宋耀解释称。
神经元网络算法仍在迅速发展,因此DeePhi公司正着手推出卷积神经网络与成像应用,外加长短期记忆网络,专注针对语音识别等用例方向。
这位年轻的联合创始人兼首席执行官宣称,该基板将于今年10月开始出售,同时亦将在今年晚些时候发布新一代CNN产品。他提出,在深度学习方面,FPGA能够提供较GPU更为出色的性能水平与功耗表现(如下图所示)。
而在自动驾驶车辆中的机器学习领域,谷歌公司认为芯片处理速度确实需要再上一个台阶。在主题演讲中,谷歌公司自动驾驶车辆计算团队负责人Daniel L. Rosenband表示,一块14/16纳米处理器应该能够完成每秒5万亿次16位浮点运算。
“这是一个引人注目的数字,”他向与会者们表示。“CPU仍然是其中最为重要的一环……我们一直努力为软件团队提供更多计算资源以完成工作……所以我们使用能够获取到的最强大的芯片——最大程度提升性能仍是我们的主要目标,”他解释称。
截至目前,谷歌公司已经为其测试车辆开发出了至少三代电子元件,其中最新一代能够以公文包大小的体积接入车辆(如上图所示)。不过与密闭装置类似,曾效力于Sandburst与MetaRAM等初创企业的Rosenband拒绝透露其中放置了怎样的仪器。
该团队目前打造的版本预计于明年推出,其处理速度可达2012年设备的50倍——后者当初只能应对缓慢行驶道路且看起来与家用台式机大小相当。而到2015年,车辆已经能够应对城市道路状况(如下图所示),即“需要一套机架将各组件整合在一起,但调试起来仍然很有难度,”他开玩笑称。
就目前来讲,谷歌公司认为承载有大量昂贵芯片的庞大设备作为原型设计还是颇有可取之处的。但展望未来,他们还需要将设备体积进一步压缩并降低实际产品交付时的芯片使用成本,他解释道。
雷达与激光遥感器则是智能车辆必不可少的另外两大组件。“目前有多家企业正在努力研发智能图片检测方案,用于生成图像点阵,”他表示。
以实时方式持续生成可用的360度3D图像在计算机视觉实现工作中难度极高。截至目前,谷歌公司的车辆已经在高速公路、城市道路以及测试路段上行驶了近200万英里,其中部分路况甚至超出了人眼的处理能力。
“对于已经发现的每个对象,我们都会通过视觉方式判断其移动方式,同时据此规划车辆的最佳行进方向,”他指出。
作为在自动驾驶车辆领域表现最为积极的厂商之一,英伟达公司展示了其Parker系统芯片(如下图所示)。作为接入其Drive PX 2基板的解决方案,这款芯片封装有大量最新Pascal GPU、2个定制化64位ARM核心以及4个ARM A57核心。其源自Tegra产品线,此产品线最初专门面向移动手机设计,但如今已经转向车辆范畴,且适用于以太网AVB以及双CAN总线机制。
Hot Chips大会上的车辆主题还迎来了初创企业Clear Motion公司带来的初创演讲。其GenShock主动减震器(如下图所示)采用电控执行器,能够推动汽车底盘上升以抵消颠簸状况。该公司的秘密武器全部依靠软件、现成传感器以及一套32位控制器实现。
初创企业Sentons公司则公布了一款初创触探传感器(如上图所示),其采用广泛存在于智能手机及其它设备上的500 kHz无线电波。其利用柔性电路嵌入活动区的任一侧,负责创建一套RF传感场。
一块19.4平方毫米的65纳米制程芯片利用许可微控制器外加Tensilica DSP以同时计算x、y与z力坐标。其在玻璃、金属以及塑料平面上的起效距离为12英寸——也包括各类水下设备。
这套传感器易于制造且使用成本低于目前各类主流智能手机上使用的电容触控传感器,特别是相对于苹果公司最近在其iPhone 6S中使用的压感传感器,首席执行官Samuel Sheng表示。
他同时展示了自己的传感器如何操作幻灯片,以及在智能手机中的实际表现。
“如果大家希望进行自拍,那么只需要用力捏一下手机,而不再找寻特定按钮——这是目前其最实际的用例,”他解释称。
初创企业InVisage Technologies公司在过去十年当中一直致力于打造一款高质量图像传感器,其使用量子点以取代目前主流的CMOS传感器。该公司坚信,其QUantumFilm已经做好了登陆无人机、VR头佩设备、自动驾驶车辆以及其它多种系统的准备。
该公司同时采用了一套包含正面照度与轻薄量子点覆膜的实现方案,能够确保成像装置厚度低于现有成像器(如上图所示)。高度敏感的量子点能够提供更广的动态区域且可配合更为多样的光谱采集区间,该公司工程技术副总裁Emanuele Mandelli在演讲中表示。
在如此漫长的开发周期当中,他们克服了众多障碍。该公司需要找到合适的材料,制造符合量子点流体旋涂标准的台积电晶圆并为各量子点创建起一套受保护但又具备电子可读取能力的涂层。
“整个过程耗费了大量的时间与资金,但我们如今已经解决了全部技术难题,”他指出。
三星公司公布了其Exynos M1(如上图所示),其首款定制化ARM核心,运行在2.6 GHz主频之下,采用14纳米制程且功耗低于3瓦。这款智能手机芯片据称脱胎自此前曾被放弃的ARM服务器项目,其知识产权被移交至移动部门手中。
“新一代方案相较于ARM A57做出了一系列重要改进,但作为最关键的核心,我们得以在下一代手机当中获得了重要的竞争优势,”该芯片总架构师Brad Burgess表示。“我们并没有坐吃老本——而是着力打造更多惊喜,”Burgess表示。他同时亦曾为三大游戏主机与火星好奇好项目进行过芯片设计。
在另一方面,ARM公司公布了其下一代Mali GPU核心,希望在去年发货7.5亿计算核心基础之上将业务推向更高水平。G71将成为新一代Bifrost GPU(如下图所示)家族的第一位新成员,其采用新的指令集架构外加ALU与CPU到GPU缓存结构。
“我们已经将旧有架构的优势进行了充分发掘,同时在新一代核心中加入了众多新特性,确保其具备更出色的可扩展性以及足以应对未来多年需求的新型GPU架构——其能源效率更优,传输带宽更高且芯片空间利用率更出色,”ARM公司研究员兼技术副总裁Jem Davies表示。
英特尔公司介绍了其Omnipath系统(如上图所示),这是其经过一系列网络技术收购之后面向高性能计算领域打造出的新方案。这套系统囊括了交换机ASIC,其可为高密度阵列提供每秒100 Gbit连接,且延迟水平在最高20U规模的主控级系统中可低至100纳秒。
就在英特尔公司发布演讲的同一步,其竞争对手Infiniband Trade Association也公布了其长期发展路线图(如下图所示),计划在2018年迭出00G HDR链接并制定出下三代方案的技术概念。与英特尔类似,Infiniband支持方Mellanox公司也同样通过收购EZChip等一系列网络处理器相关交易利用垂直厂商构建自身网络芯片与系统。
双方皆面临着下一代系统的重要转型,其将由28 Gb每秒升级至56 Gbit每秒。新的延迟敏感型负载将需要大量预先纠错控制功能,这也迫使工程师们必须拿出更为理想的解决方案。
就在首次公布大规模64核心ARM服务器处理器的一年之后,初创企业广州飞腾公司来到Hot Chips大会并发布了其2 GHz Mars芯片(如上图所示)。该公司希望采用28纳米台积电制造工艺的该款芯片能够在今年年底之前正式投放市场。
这家初创企业之前一年已经开始发售分别面向Linux台式机与笔记本设备的4核心与16核心Earth系列芯片。截至目前,其销售总量仍未突破五位数,不过该公司希望麒麟Linux以及相关生产力应用的流行能够帮助其更快为市场所接纳,而中国政府全面转向自有计算机设备的政策也将为其提供重要助力。
飞腾公司的200名工程师正全力以赴投入工作。Earth芯片在性能上远低于英特尔Haswell以及Skylage处理器,因此其必须着眼于下一代计算核心。与此同时,该公司亦有为其下一代Mars产品构建对称多处理技术——事实上,Mars目前仅支持单插槽系统。Mars-2还需要集成当前外部内存控制器以及三级缓存。
服务器处理器则更为偏重安全性领域。AMD、IBM、英特尔以及甲骨文等厂商都在这方面做出了尝试,并希望将各项功能集成在芯片上的一小块区域当中。
甲骨文的Sparc M7(上图右侧)采用硬件与系统调用以将内存中的各类数据填充以14种“色彩”之一。各数据只能由色彩与之对应的指针进行访问。
此举属于甲骨文数据库堆栈硬件内普适性加速方案的组成部分,同时亦源自甲骨文方面收购芯片与系统构建商Sun Microsystems获得技术资产。M7还支持对原生甲骨文代码之内以及通过API对第三方程序中的SQL与压缩功能进行加速。
在这方面,英特尔公司公布了其新的Skylake安全保护扩展,用于保护内存区免受高权限软件与恶意软件的影响。IBM公司的Power 9将提供新的硬件强制信任执行功能,不过其并未透露更多具体信息。AMD的Zen将包含2套AES单元,用于提升加密性能水平。
另有两个学术性项目显示出了新鲜的设计思路以及扎实的工程技术功底,其中一套即将推出的微处理器架构方案来自普林斯顿大学Michael McKeown的Piton项目(如上图所示)。
Piton是一款25核心芯片,设计目标在于构建起最多包含8000块芯片的阵列,同时在各芯片之间采用灵活的连续区域。“我们希望对数据中心进行扁平化改造,从而确保通信不再需要经由以太网或者InfiniBand——而是由芯片内互连机制实现,”McKeown表示。
这项研究芯片基于OpenSParc T1核心,且目前采用32纳米IBM SOI制程。在4.6亿晶体管规模之下,其已经成为目前可供开源代码运行的规模最大的学术芯片之一。
另外,加州大学载维斯分校的学生们还建立起一块1000核心芯片,他们宣称其是目前核心数量最高的处理器。这款名为KiloCore的处理器将作为协处理器并可在运行时中实现编程。
该芯片的创新设计在于,每个计算核心都能够处理一条仅占128个词内存空间的微任务,这无疑会让编程工作变得更为复杂。具体来讲,这套架构带来了惊人的运行指标(如下图所示),其中包括40瓦功率下每秒最高执行1.78万亿条指令。
也许更值得注意的是,这支年轻的队伍在研究了32纳米IBM制程之后,仅用了2个月就设计出了这款高灵活性方案。
主讲人Brent Bohnenstiehl表示,他在起始阶段只拥有一款“玩具处理器”,相当于仅利用20%的既定资源定义一个计算核心。这支物理设计团队则克服种种压力,在极短时间内通过图书馆查阅了大量资料,并最终只用了34天即完成了芯片设计。