华为诺亚方舟加拿大实验室提出BANet,双向视觉注意力机制用于单目相机深度估计

华为诺亚方舟加拿大实验室提出BANet,双向视觉注意力机制用于单目相机深度估计

道翰天琼认知智能机器人平台API接口大脑为您揭秘。本文解读的是论文《Bidirectional Attention Network for Monocular Depth Estimation》,论文作者来自华为加拿大诺亚方舟实验室。该论文解读首发于“AI算法修炼营”。

这是一篇将双向注意力机制用于弹幕深度估计的工作。主要的创新点在视觉注意力机制的基础上引入了前向和后向注意力模块,这些模块可以有效地整合局部和全局信息,以此来消除歧义。这篇文章又扩展了视觉注意力机制的应用范围,值得学习。
1

前言

在本文中,提出了双向注意力网络(BANet),这是一种用于单目相机深度估计的端到端框架,它解决了在卷积神经网络中整合局部信息和全局信息的局限性。该机制的结构源于神经机器翻译的强大概念基础,并提出了一种类似于循环神经网络的动态特性的轻量级的自适应计算控制机制。引入了双向注意模块,这些模块利用前馈特征图并结合了全局上下文来过滤模糊性。大量实验揭示了双向注意力模型在前馈基线和其他先进方法上表现出的高度能力,可用于在两个具有挑战性的数据集KITTI和DIODE上进行单目深度估计。我们表明,我们提出的方法在性能上优于或至少与最先进的单眼深度估计方法相当,但具有较少的内存和计算复杂性。
2

简介

深度估计的最新方法(例如《Deepordinal regression network for monocular depth estimation》、《High quality monocular depth estimationvia transfer learning》、《From  big  to  small:Multi-scale  local  planar  guidance  for  monocular  depth  estimation》)都是建立在全卷积网络(FCN)的基础上,以端到端的方式从单个图像估计连续深度图。受FCN成功的启发,有关单目相机深度估计( Monocular  Depth  Estimation,MDE)的最新工作已显示出通过对FCN结构进行更高容量的架构增强而得到的改进。经典的计算机视觉方法采用多视图立体几何相关算法进行深度估计。随着近来基于深度学习的方法将MDE公式化为密集的,像素级的连续回归问题。当前,最先进的单目深度估计MDE模型由以下模块构成:基于预训练的卷积神经骨干网络与上采样和跳跃连接模块,全局上下文模块和用于有序回归的对数离散化模块,用于上采样与局部平面假设的系数学习器模块。所有这些设计的选择都直接或间接地受制于骨干架构中的空间下采样操作,这一点在像素级任务中已经有所体现。由于MDE是一个单plane估计(即单通道输出)问题,基于此,本文的方法加入了深度到空间( depth-to-space,D2S)变换的思想,作为解码阶段下采样操作的补救措施。然而,直接对最终特征图进行 D2S 变换可能会因为缺乏可靠估计所需的场景全局上下文而受到影响。因此,本文的方法还在D2S变换后的单通道特征图上为每个阶段的骨干模型注入全局上下文信息。 此外,还通过双向注意模块(图2所示)有效地收集了骨干模型所有阶段的信息。对于MDE方法中出现的突出问题,本文提出了一种新颖而有效的从单幅图像中估计连续深度图的方法(见图1)——双向注意网络(Bidirectional Attention Network,BANet)。虽然本文的架构比SOTA包含了更多的连接,但由于大部分的交互作用是在D2S变换的单通道特征上计算的,因此计算复杂度和参数数量都低于最近的其他模型方法。图1:在KITTI 验证集上进行BANet预测的示例。BANet通过生成每个阶段的注意力权重并减少网络内的歧义来改善总体深度估计本文的主要贡献:1、本文是将双向注意力机制的概念用于单目相机深度估计任务的第一项工作。本文方法可以与任何现有CNN合并。2、进一步引入了前向和后向注意力模块,这些模块有效地整合了局部信息和全局信息以消除歧义。3、在两个不同的MDE数据集上进行了广泛的实验结果。实验证明了本文提出的方法在效率和性能上的有效性。同时本文提出的机制的各种变体可以与最近的SOTA网络结构相媲美。本文方法:SNE-RoadSeg1、Bidirectional Attention Network在本文提出的方法中的双向注意力的方法是由神经机器翻译(NMT)领域首先引进的。尽管最近有工作(例如SENet、CBAM等)在CNN中利用通道方向和空间注意力来完成各种计算机视觉任务,但尚未广泛探索以向前和向后方式应用注意力以实现双向RNN的性质的想法。本文提出的方法的总体架构如图2所示。与NMT术语相似,BANet中的阶段性前馈特征(S1,S2,...,S5)类似于原始句子中单独的单词。同时,双向RNN会逐字地对源句进行动态处理,从而固有地生成前向和后向隐藏状态。由于CNN在输入图像上具有静态性质,因此本文的方法引入了两个不同的注意力模块,分别表示为前向和后向注意力子模块。双向注意力模块将阶段性特征图作为输入,以通过合并全局上下文来过滤模糊性。2、Bidirectional  Attention  Modules由于MDE的任务是一个单平面估计问题(即输出包含单通道),作者用一个1×1卷积将各stage特征图(si其中i= 1,2,...,5)调整到所需的空间分辨率,然后进行高效且无参数的深度到空间(depth-to-space,D2S)操作。网络的前向和后向注意力操作可以表示化为:其中,上标f和b分别表示与向前和向后注意力有关的操作,下标i表示主干特征图的关联stage。表示前向注意力的9x9卷积可以访问到第i个stage的特征,并且从第i个stage开始接受表示后向注意力的9x9卷积的特征表示;因此,模拟了双向RNN的前向和后向注意力机制。接下来,将所有前向和后向注意图在通道上进行级联,并通过一个3×3卷积和softmax(φ)函数进行处理,以生成每层像素级别的注意权重A(见图3)。使用D2S模块从阶段性特征图Si计算特征表示fi的过程可以表示为:然后,使用Hadamard点乘(element-wise)和 pixel-wise 求和操作,从并联的特征F和注意力特征图A中计算出非线性预测值。最后,用σ函数生成归一化预测值。这些操作可以表示为:3、Global  Context  Aggregation在D2S模块中,可以通过应用比较大的卷积核进行平均池化,然后进行全连接层和双线性上采样操作,将全局上下文结合起来。这套操作将像素级、局部(查询query)信息与图像级、全局(关键key)信息相结合,从整个图像中提取更好的单目线索。D2S模块中全局上下文的这种聚合有助于解决更薄的物体在更有挑战性的情况下(即非常明亮或黑暗的背景)的模糊性(见图4和5)。此外,还提供了所提出的架构的几个备选实现的细节,如下:BANet-Full:这是架构的完整实现,如图2所示。BANet-Vanilla:仅包含主干,后跟1×1卷积,单个D2S操作和Sigmoid,以生成最终深度预测。这与用于单目3D检测的RefinedMPL网络中用于深度预测的模型非常相似。BANet-Forward:此设置中缺少BANet的后向注意模块。BANet-backward:BANet的Forward模块不在此处。BANet-Markov:这是遵循马尔可夫假设的,即每个时间步长(或阶段)的特征仅取决于前一步(向前注意)或后继(后向注意)的特征。因此,除了图2中9×9卷积的紧接的前(向前)和后(后)进入边以外,所有其他边都是在此构造中已停用。BANet-Local:这用一个9×9卷积代替了全局上下文聚合部分。另外,还通过简单地一次将不同的阶段特征和相似的后处理串联在一起,进行了无时间依赖性结构的实验。但是,这种幼稚的实现方式比上面提到的提出的依赖时间的实现方式差很多。因此,从进一步的实验分析中排除了这种直接的部署。
3

实验与结果

数据集:KITTI and DIODE评价指标:在MDE文献中,准确度(越高越好)和误差(越低越好)这两个指标被用来衡量不同的方法。然而,不同的数据集所使用的度量指标之间缺乏一致性。在这项工作中,采用了一套统一的指标,跨越所有不同数据集的子集用于实验。 对于误差度量,主要遵循KITTI leadearboard中的度量方法(SILog、SqRel、AbsRel、MAE、RMSE、iRMSE)。另外,由于传统的准确度指标是一个区间内相对预测的阈值测量,作者对准确度指标进行了修改,以达到更严格的测量目的。具体扩展了这套指标,将更多的阈值置于同一区间内的低端和现有的最低阈值之间(式4)。k的取值为:{5,10,15,25,56,95}。如此严格的指标扩展为自动驾驶应用提供了更好的见解,其中深度估算的高精度至关重要。1、定量对比分析

 

 

道翰天琼认知智能未来机器人接口API简介介绍

  • 认知智能是计算机科学的一个分支科学,是智能科学发展的高级阶段,它以人类认知体系为基础,以模仿人类核心能力为目标,以信息的理解、存储、应用为研究方向,以感知信息的深度理解和自然语言信息的深度理解为突破口,以跨学科理论体系为指导,从而形成的新一代理论、技术及应用系统的技术科学。 认知智能的核心研究范畴包括:1.宇宙、信息、大脑三者关系;2.人类大脑结构、功能、机制;3.哲学体系、文科体系、理科体系;4.认知融通、智慧融通、双脑(人脑和电脑)融通等核心体系。 认知智能四步走:1.认知宇宙世界。支撑理论体系有三体(宇宙、信息、大脑)论、易道论、存在论、本体论、认知论、融智学、HNC 等理论体系;2.清楚人脑结构、功能、机制。支撑学科有脑科学、心理学、逻辑学、情感学、生物学、化学等学科。3.清楚信息内涵规律规则。支撑学科有符号学、语言学、认知语言学、形式语言学等学科。4.系统落地能力。支撑学科有计算机科学、数学等学科。
    认知智能CI机器人是杭州道翰天琼智能科技有限公司旗下产品。认知智能机器人是依托道翰天琼10年研发的认知智能CI体系为核心而打造的认知智能机器人大脑,是全球第一个认知智能机器人大脑。具有突破性,创新性,领航性。是新一代智能认知智能的最好的产品支撑。 认知智能机器人技术体系更加先进,更加智能,是新一代智能,认知智能领域世界范围内唯一的认知智能机器人。 认知智能机器人是新时代的产物,是新一代智能认知智能的产物。代表了新一代智能认知智能最核心的优势。和人工智能机器人大脑相比,优势非常明显。智能度高,客户粘性大,客户满意度高,易于推广和传播等核心特点。 依托认知智能机器人平台提供的机器人大脑服务,可以赋能各个行业,各个领域的智能设备,各类需要人机互动的领域等。认知智能机器人平台网址:www.weilaitec.com,www.citec.top。欢迎注册使用,走进更智能机器人世界。
    认知智能和人工智能的优劣势对比主要可以分为四大方面: 第一:时代发展不同。人工智能是智能时代发展的第二个阶段,认知智能是智能时代发展的第三个阶段。时代发展上决定了认知智能更显具有时代领先性。 第二:基础理论体系不同。人工智能的基础理论体系以数学为基础,以统计概率体系为基础。认知智能基础理论体系以交叉许可理论体系为基础。包含古今中外哲学体系,心理学体系,逻辑学体系,语言学体系,符号学体系,数学体系等学科。其基础理论体系更加具有创新性,突破性和领先性。且交叉学科理论体系的研究也是未来智能发展的大方向。其具体理论体系,还包含三体论(宇宙,信息,大脑三者关系),融智学,和HNC等。 第三:技术体系不同。人工智能的核心技术体系主要是算法,机器学习,深度学习,知识图谱等。其主要功用在感知智能。感知智能其核心主要是在模仿人类的感知能力。认知智能的核心技术体系是以交叉学科理论体系而衍生出来的。具体包含三大核心技术体系,认知维度,类脑模型和万维图谱。认知智能的技术体系核心以类脑的认知体系为基础。以全方位模仿类脑能力为目标。人工智能以感知智能为基础的体系,只能作为认知智能中的类脑模型技术体系中的感知层技术体系。类脑模型大致包含,感知层,记忆层,学习层,理解层,认知层,逻辑层,情感层,沟通层,意识层等9大核心技术层。因此人工智能的核心只是作为认知智能类脑模型中的感知层。因此在技术体系上,人工智能和认知智能基本上没有太多的可比性。 第四:智能度成本等方面的不同:人工智能产品的综合智能程度,普遍在2-3岁左右的智力水平。认知智能产品其智能程度大致在5-8岁左右。认知智能体系构建的机器人更加智能。且更省时间,更省人力和资金。优势非常多。具体请看下列的逐项对比。

 

 

 

你可能感兴趣的:(华为诺亚方舟加拿大实验室提出BANet,双向视觉注意力机制用于单目相机深度估计)