这篇论文被 ICCV 2019 接收为 oral presentation。之前我们主要研究物体检测(例如 Hybrid Task Cascade,Guided Anchoring,Libra R-CNN 和 Prime Sample Attention),这次尝试跳出单纯的物体检测框架,解决一些通用模块和算子的问题。上采样操作是各种网络结构里广泛使用的运算之一,我们提出了一个轻量级的通用上采样算子 CARAFE(音[kə'ræf]),相对最近邻和双线性等上采样算子,在不同任务中都取得了显著的提升,同时只引入很少的参数量和计算代价.
介绍
特征上采样是许多中的关键操作
现代卷积网络架构,例如,特征
金字塔。其设计对于密集预测任务至关重要
例如对象检测和语义/实例分割。在这项工作中,我们提出了Content-Aware ReAssembly
特征(CARAFE),通用,轻量级和高度
有效的运营商来实现这一目标。CARAFE有几个
吸引人的特性:
(1)大视野。不同于之前仅利用的作品(例如双线性插值)
在亚像素邻域中,CARAFE可以在大的感知领域内聚合上下文信息。
(2)Contentaware处理。而不是为所有人使用固定的内核样本(例如解卷积),CARAFE启用实例特定的内容感知处理,其产生自适应内核即时。
(3)重量轻,计算速度快。
CARAFE引入的计算开销很小,而且可以
很容易融入现代网络架构。
我们对对象检测,实例/语义分割中的标准基准进行全面评估
和修复。CARAFE表现出一致和实质性
所有任务(分别为1.2%,1.3%,1.8%,1.1db)的计算开销可以忽略不计。
上采样操作可以表示为每个位置的上采样核心的点积和输入特征图中相应邻域的像素,我们称之为特征重组。我们提出的上采样操作CARAFE在重组过程中可以有一个大的感受场,并将根据输入特性指导重组过程,而整个操作员相对轻量级。具体来说,我们首先使用输入特征映射来预测上采样内核,每个位置的上采样内核是不同的,然后基于预测的上采样内核执行特征重组。在不同的任务中,CARAFE仅通过一小部分额外参数和计算工作就取得了显着的进步。
上采样表示
我们将特征图的上采样操作视为特征重组的过程。对于输出特征图中的每个像素点L',我们可以在输入特征图L,L'中找到其对应的位置。该点的值可以表示为输入特征映射中以L为中心的邻域。像素和上采样核的点积(加权和)。以双线性上采样为例,输出特征映射中的每个像素可以被认为是输入签名中2x2上采样内核和2x2邻域的点积。在下图中,上采样核心的四个值均为0.5。
Motivation
最近邻或双线性上采样仅通过像素的空间位置来确定上采样内核,并且不利用特征图的语义信息。它可以被视为一种“均匀”的上采样,感知域通常非常小(最近邻1x1,双线性2x2)。Deconvolution运算符的上采样内核不是通过像素之间的距离来计算的,而是通过网络获知的。然而,对于特征地图的每个位置,应用相同的上采样内核,并且不能捕获特征地图内容的信息。引入了大量参数和计算,特别是当上采样核心的大小很大时。动态过滤器为特征图的每个位置预测一组不同的上采样内核,但参数的数量和计算量更具爆炸性,并且通常很难学习。
然后我们希望上采样运算符具有以下特征。
大的感受野:为了更好地利用周围的信息,必须有一个大的感受野。
内容感知:上采样核心应与特征图的语义信息相关,并根据输入进行上采样。
轻量级:不能引入太多参数和计算,需要保持轻量级。
正如您可以从FEAME的全称Content-Aware ReAssembly中看到的那样,CARAFE是具有这些功能的上采样运算符。
CARAFE 分为两个主要模块,分别是上采样核预测模块和特征重组模块。假设上采样倍率为 ,给定一个形状为 的输入特征图,我们首先利用上采样核预测模块预测上采样核,然后利用特征重组模块完成上采样,得到形状为 的输出特征图。
上采样核预测模块
1.特征图通道压缩
对于形状为 的输入特征图,我们首先用一个 卷积将它的通道数压缩到 ,这一步的主要目的是减小后续步骤的计算量。
2. 内容编码及上采样核预测
假设上采样核尺寸为 (越大的上采样核意味着更大的感受野和更大的计算量),如果我们希望对输出特征图的每个位置使用不同的上采样核,那么我们需要预测的上采样核形状为 。
对于第一步中压缩后的输入特征图,我们利用一个 的卷积层来预测上采样核,输入通道数为 ,输出通道数为 ,然后我们将通道维在空间维展开,得到形状为 的上采样核。
3. 上采样核归一化
我们对第二步中得到的上采样核利用 softmax 进行归一化,使得卷积核权重和为 1。
特征重组模块
对于输出要素图中的每个位置,我们将其映射回输入要素图,将[公式]的区域置于其中心,并绘制预测的上采样内核的点积以获得输出值。同一位置的不同通道共享相同的上采样核心。
实验结果
我们用CARAFE替换FPN中的上采样操作,并可视化上采样区域和权重。对于高级特征图中的不同点,我们显示CARAFE经过多次采样后具有较大权重的样本内核,可以看到样本点将集中在对象区域并忽略背景区域来实现 内容感知效果。
以更快的R-CNN w / FPN为例,我们将CARAFE和其他上采样算子的性能与参数量和计算量进行比较。 在性能明显优于其他运营商的情况下,CARAFE通过少量参数和计算保持轻量级功能。
我们将CARAFE应用于不同的任务,例如对象检测,语义分割和图像修复,所有这些都有很好的结果。
物体检测
在物体检测任务中,对于更快的R-CNN和掩模R-CNN,CARAFE已经实现了一点或更多的改进。
语义分割
在语义分段任务中,我们使用UperNet(使用UperNet,因为易于使用的开源代码)作为基线,并用CARAFE取代了上采样操作,从而实现了显着的改进。
图像修复
我们还试图将CARAFE应用于图像修复等低级任务,这也取得了很大的进步并刷新了SOTA。
总结
轻量级通用上采样算子
论文以及源码:关注微信公众号:“图像算法”或者微信搜索imalg_cn 获取