重磅 | 人加司眸®第三代4.5K双目视觉感知引擎架构全球首发

2020年 1 月,人加公司正式发布司眸®第三代双目视觉感知引擎架构,最高可支持 4.5K 分辨率(4608*2560)20FPS 实时处理。在此之前,世界顶级光学企业日本理光于 2018 年 10 月推出 4K 分辨率的双目立体视觉摄像头产品。

人加公司本次发布的司眸®第三代架构,是目前全球范围内可支持最高分辨率的双目视觉感知引擎架构。该架构整体性能相较于上一代有了较大幅度的提升,其中作为核心参数的分辨率指标提升了近 12 倍。



技术痛点

一直以来,在人工智能3D视觉感知领域,双目立体视觉技术因为算法复杂度高、算力需求大而常常让人又爱又恨,但双目立体视觉技术作为 3D 传感领域的重要组成部分,因其测量距离能远能近、室内室外可兼顾等多种优点,也被不少行业应用者看好。

双目立体视觉技术是利用三角测量原理,通过两台相对位置固定的相机同时对场景进行成像,根据成像中的视差来计算深度,典型计算方法如下:

其中,f为相机焦距,b 为基线,d 为视差,Z 为深度值,在此理论框架的基础上可以得出,双目立体视觉的测量精度会随测量距离的增大而严重衰减,这也是当下双目视觉系统存在的较大痛点之一。与此同时,为提升系统的覆盖面积,需增大相机视场角,由此,将进一步减小焦距 f,进而进一步增大 Z 向精度随距离增大的衰减程度。

因此,一个双目立体视觉系统想要实现既能「看得远」又能「看得清」,在现有的主流分辨率(1280*800)和系统体积(基线通常在 12cm 以下)约束下难以实现。

综上,提升双目视觉系统的分辨率是当下实现技术突破的唯一直接方式,同时也顺应了当下CMOS图像传感器分辨率不断变大的发展趋势。

然而,想要提升双目分辨率,将对算力和存储带宽的需求带来倍级速度的增长,这对于现代计算机存储计算架构将会是一个很大的挑战,在传统CPU或 GPU 的架构下实现代价非常高(在 KITTI 双目测评排名中,4 核、2.6Ghz CPU 仅运行匹配算法 rSGM 需要的时间长达 0.2 秒),且很难达到理想运算效率和功耗/成本之间的平衡。

综合以上分析,人加司眸®第三代双目视觉感知引擎架构在设计上仍然延续了上一代的逻辑单元(FPGA)+ CPU 的异构计算架构,新架构采用 DDR4 64 位存储架构,内存存储带宽相对于上一代提升了 4 倍,经过一系列的算法加速设计创新,达到横向分辨率提升近 4 倍,整体分辨率实现了近 12 倍的性能提升。

人加方案

第三代架构延续了上一代逻辑单元+ CPU的异构设计方式,在上一代的基础上重点突破了分辨率提升带来的内存带宽技术瓶颈和片上存储资源技术瓶颈,概要设计图如下:

系统采用DDR4作为存储单元,提升了逻辑单元和外部存储单元之间的数据交互效率,设计带宽高达 16.5GB/s。同时系统各核心单元之间延续流水线设计,最大限度降低了计算产生的延迟,设计上满足从数据输入至数据输出延迟小于 1 图像帧时间。同时,系统也可支持各单元更细颗粒度的并行处理,对于实时性要求更高的场景可快速支持以空间换时间的设计,最大限度地降低了系统延迟。

第三代架构的详细性能参数如下表所示:

最终,人加公司在Xilinx Zynq UltraScale+ ZCU102 Evaluation Board平台上对该架构进行了完整实践,资源消耗情况如下表所示:

在Xilinx工具集 Vivado 2018.3 的实践如下图所示:


技术突破

为了突破分辨率大幅提升带来的存储资源和计算资源瓶颈,人加智能工程师做了一系列创新设计,以其中三个重点为例,概要介绍如下:

(1)采用动态校正参数压缩技术倍级优化内存带宽资源。

双目立体校正采用逆向映射和双线性插值的方式,一个目标像素的产生需对应一组二维坐标值和双线性插值所用比例值。以分辨率4608x2560@20fps设计为例,一个像素所需 4.5 字节的信息,所需 DDR 读速率达 1GB/s,对于两幅图像的同时校正,整体带宽速率占用高达 2GB/s。人加智能根据校正所需数据的分布特征,提出了一种面向校正数据的压缩与解压缩方式,其中压缩是在 CPU 下离线完成,解压缩部分为逻辑资源实时计算。最终采用的压缩方式可达到 2:1 的压缩比,同时解压缩单元占用的资源仅 200 余个 LUT、0.5 个 BRAM,详情如下:

(2)采用动态分片校正技术将片上内存使用空间缩减至 1/3。

横向分辨率的增加带来了行缓存宽度的增加,因此对于实时计算缓存图像数据的存储空间需求增加了近4倍(相对于上一代),为了应对片上 Block RAM 资源紧张的问题,人加智能设计了一种可动态分片校正的框架,典型设定可将图像横向分为 3 块,可将片上存储的空间需求缩减到 1/3,同时在 BRAM 资源更紧张的场景下,也支持更多分片或分区的设定,以满足场景对于 BRAM 资源的需求。

(3)Block to Block 分块立体匹配设计。

该架构中的立体匹配部分仍延用了上一代SGM/BM的设计算法,在保证设计性能的基础上,人加智能采用了分块匹配的思想,将左右图像分为可拆分的两部分,分别独立进行匹配,在设计上进一步将 BRAM 资源使用量缩减至 1/2。

应用前景

本次双目立体视觉处理架构的升级是在当下场景应用对于双目视觉系统提出更大视场角和更高精度的双重要求下完成的,升级后将会给人加智能的实体消费行为分析应用带来以下益处:

(1)单个双目视觉系统所能覆盖的范围增大。

通过增大相机视场角至130°-150°(上一代设计指标为 100°),单个双目视觉系统的覆盖面积可达百平米,可以减少相机使用数量,从而降低系统维护成本,增强系统稳定性。

(2)空间定位更精准。

更高的深度图分辨率将带来更高的测量精度,使得空间定位更加精准。

(3)图像细节更丰富,识别更精准。

通过本次升级,人加智能双目视觉系统可提供高达1200万像素的原始图像,这将大大提高图像识别等应用的精度。

(4)深度算法支持迭代升级优化,增大场景适应性。

第三代架构延用了FPGA SOC设计,实现了硬件加速级算法的可升级,可维护,可根据具体场景进行相应的配置和优化。

同时,本次升级也为市场带来了双目立体视觉技术应用的新的想象空间,当分辨率提升至1200万像素时,系统可测距范围便能提升至千米级,可以想象,对于一些大范围测量领域(例如自动驾驶、智能安防等领域)也将提供一种全新方案选择。

「关于人加智能」

人加智能(www.humanplus.ai)是一家以智能视觉传感与人体行为识别为核心技术的人工智能公司,现专注于为零售品牌商与零售商提供实体消费行为分析服务(Customer Behavior Analytics),包括客流量分析、销售转化分析、客流动线分析、人货互动分析等,助力品牌零售的决策、执行过程实现「数据驱动」与「人机协同」。


原文链接:https://mp.weixin.qq.com/s/VFp5tZC0dTRIsot4UtTm2A

你可能感兴趣的:(重磅 | 人加司眸®第三代4.5K双目视觉感知引擎架构全球首发)