【20190430】论文推介

今天在网上看到了清华大学开发的DeepHash库。这个库实现了最先进的深度哈希/量化算法。重点推介下面三个算法:

  • DVSQ: Deep Visual-Semantic Quantization for Efficient Image Retrieval(用于高效图像检索的深度视觉语义量化), Yue Cao, Mingsheng Long, Jianmin Wang, Shichen Liu, IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017
  • DCH: Deep Cauchy Hashing for Hamming Space Retrieval(用于汉明空间检索的深度柯西哈希) ,Yue Cao, Mingsheng Long, Bin Liu, Jianmin Wang, IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2018
  • DTQ: Deep Triplet Quantization(深度三元量化), Bin Liu, Yue Cao, Mingsheng Long, Jianmin Wang, Jingdong Wang, ACM Multimedia (ACMMM), 2018

今天还看到有意思的论文包括:

论文1: 清华大学Yue Cao的论文:GCNet: Non-local Networks Meet Squeeze-Excitation Networks and Beyond
non-local方法通过考虑全局信息,提供了视觉检与分析的新方法。然而,在实验中,作者发现由non-local建模的全局上下文对于图像内的不同查询位置几乎相同。因此,作者基于这一现象创建了global context (GC) block,如下图所示:
【20190430】论文推介_第1张图片
从图中可以看出,在SENet中是通过全局池化来实现context modeling。但GC block 是把简化的 non-local block 用来做 context modeling。

论文2:A Simple Pooling-Based Design for Real-Time Salient Object Detection

这是南开大学在CVPR2019上的一个工作,通过简单的pooling 模块提升了显著性检测的性能。
【20190430】论文推介_第2张图片

论文3:Attention Augmented Convolutional Networks

2014 年,Bahdanau 等人针对机器翻译任务提出了注意模型,已成为一种常用的神经网络方法。谷歌大脑提出使用注意机制增强卷积以加强获取全局相关性的能力,在图像分类和目标检测上的实验表明这种方法确实有效。CNN中卷积层的设计需要通过受限的感受野来确保局部性(locality),以及通过权重共享来确保平移等效性(translation equivariance)。研究表明,这两种属性是设计图像处理模型时关键的归纳偏置。但是,卷积核固有的局部性使它无法得到图像中的全局语境;而为了更好地识别图像中的对象,全局语境必不可少。

自注意力(self-attention)机制的关键思路是求取隐藏单元计算出值的加权平均。不同于池化或卷积算子,用在加权平均运算中的权重是通过隐藏单元之间的相似度函数动态地得到的。由此,输入信号之间的交互就取决于信号本身,而不是由它们的相对位置预先确定。

这篇论文研究了将自注意(用作卷积的替代)用于判别式视觉任务的问题。研究者开发了一种全新的二维相对自注意机制,能够在纳入相对位置信息的同时维持平移等效性,这使得其非常适用于图像。研究表明,这种自注意方案非常有竞争力,足以完全替代卷积。尽管如此,对照实验表明,将自注意与卷积两者结合起来得到的结果最佳。因此,完全摈弃卷积思想是不妥的,而应该使用这种自注意机制来增强卷积。

【20190430】论文推介_第3张图片

注意增强型卷积:对于每个空间位置 (h, w),都根据查询和键值在图像上计算出 N_h 个注意图(attention map)。这些注意图被用于计算 N_h 个这些值的加权平均 V。然后将所得结果连接起来,再重新调整形状以匹配原来的体空间维度并与一个逐点卷积混合。多头注意是以并行的方式应用于标准的卷积运算,输出再连接到一起。

你可能感兴趣的:(深度学习)