K-Net NeurIPS2021
论文链接: https://arxiv.org/abs/2106.14855
目前的语义分割方法直接学习一系列的预定好类别的卷积核(semantic kernels),然后使用这些卷积核进行像素分类。然而,鉴于图像中实例数量的变化,将这一概念扩展到实例分割并非易事。
在语义分割中,每个卷积核负责查找图像中相似类别的所有像素。而在实例分割中,每个像素组对应一个对象。然而,以前的方法通过额外的步骤而不是卷积核来分隔实例。
作者提出了一个框架(K-Net),通过kernels,把看起来不一样的图像分割任务(semantic, instance, and panoptic)联系起来。一开始一系列的卷积核都是随机初始化的,然后根据分割目标,即语义类别的语义核和实例标识的实例核,学习这些卷积核。一个简单的语义核和实例核的组合,能够获得panoptic segmentation。
K-Net有两个设计:
作者把不同的分割任务放在卷积核层面进行考虑。提出的K-Net使用一系列的卷积核来对每个像素进行判定,是否是instance类别还是semantic类别。 为了加强卷积核的可判别性,通过在分区像素组中的内容,更新固定的卷积核。 采用bipartite matching strategy,训练instance kernels。
因为所有的分割任务就是把每个像素赋值到每个预定义的groups上,且每个图片上,groups的数量是有限的,作者就定义了一个分割任务的最大group number为 N N N。 因此,可以使用 N N N个kernels將图片分割成 N N N个groups。,也就是每个卷积核负责去找出像素对应于哪个group。
具体来说,就是给定一个特征图 F ∈ R B × C × H × W F \in \R^{B \times C \times H \times W} F∈RB×C×H×W, 我们只需要 N N N个卷积核 K ∈ R N × C K \in \R^{N \times C} K∈RN×C对 F F F进行卷积,获得相对应的分割输出 M ∈ R B × N × H × W M \in \R^{B \times N \times H \times W} M∈RB×N×H×W
M = σ ( K ∗ F ) M = \sigma (K * F) M=σ(K∗F)
其中如果是想每个像素对应于一个kernerls(通常用在语义分割)), σ \sigma σ是softmax function。如果一个像素对应于多个masks,则 σ \sigma σ是Sigmoid function,然后通过设定阈值,获得 N N N个binary masks(通常用在实例分割)。
实例分割的卷积核比固定的卷积核需要更强大的判别能力。为了克服这个挑战,作者通过一个卷积核更新的head,卷积核是基于它相对应的像素组的。
卷积核更新头 f i f_i fi包括了三个步骤:
首先group feature assembling,使用mask prediction M i − 1 M_{i-1} Mi−1与输入特征 F F F进行相乘,得到 F K F^K FK。
F K = ∑ u H ∑ v W M i − 1 ( u , v ) ⋅ F ( u , v ) , F K ∈ R B × N × C F^K = \sum_u^H \sum_v^W M_{i-1}(u, v) \cdot F(u, v), F^K \in \R^{B \times N \times C} FK=u∑Hv∑WMi−1(u,v)⋅F(u,v),FK∈RB×N×C
其中, B B B是Batch size, N N N是卷积核的数量, C C C是通道的数量。
第二步是adaptive feature update。也就是使用融合后的特征 F K F^K FK,更新之前的卷积核 K i − 1 K_{i-1} Ki−1,输出 K ~ i \tilde{K}_i K~i。因为mask M i − 1 M_{i-1} Mi−1不精确,每组的特征也包括噪声。为了减少这个影响,采用了adaptive kernel update strategy。
首先进行element-wsie multiplication
F G = ϕ 1 ( F K ) ⊗ ϕ 2 ( K i − 1 ) , F G ∈ R B × N × C F^G = \phi_1(F^K) \otimes \phi_2(K_{i-1}), F^G \in \R^{B \times N \times C} FG=ϕ1(FK)⊗ϕ2(Ki−1),FG∈RB×N×C
其中 ϕ 1 , ϕ 2 \phi_1, \phi_2 ϕ1,ϕ2是线性变换。
然后学习两个gates, G F , G K G^F, G^K GF,GK,能够调整 F K F^K FK和 K i − 1 K_{i-1} Ki−1的贡献,来更新kernel K ~ \tilde{K} K~
G K = σ ( ψ 1 ( F G ) ) , G F = σ ( ψ 2 ( F G ) ) G^K = \sigma(\psi_1 (F^G) ), G^F = \sigma( \psi_2 (F^G) ) GK=σ(ψ1(FG)),GF=σ(ψ2(FG))
K ~ = G F ⊗ ψ 3 ( F K ) + G K ⊗ ψ 4 ( K i − 1 ) \tilde{K} = G^F \otimes \psi_3(F^K) + G^K \otimes \psi_4(K_{i-1}) K~=GF⊗ψ3(FK)+GK⊗ψ4(Ki−1)
其中 ψ n , n = 1 , . . . , 4 \psi_n,n=1,...,4 ψn,n=1,...,4是不同的全连接层,后面接着LayerNorm(LN)和 σ \sigma σ是Sigmoid function。
第三步是Kernel Interaction, 卷积核之间的交互对于向每个卷积核提供来自其他组的上下文信息非常重要。 使用的是Multi-Head Attention和Feed-Forward Neural Network。输入 K ~ \tilde{K} K~,输出 K i K_i Ki。然后输出的 K i K_i Ki用来生成新的掩膜 M i = g i ( K i ) ∗ F M_i=g_i(K_i) * F Mi=gi(Ki)∗F,其中 g i g_i gi是FC-LN-ReLU。 K i K_i Ki也用来预测实例分割和全景分割的分类置信度。
虽然可以将每个语义卷积核分配给一个固定的语义类别,但缺少一个明确的规则来将不同数量的目标分配给实例卷积核。因此作者采用了二分匹配策略(bipartite matching strategy),并设置了预测损失。
L K = λ c l s L c l s + λ c e L c e + λ d i c e L d i c e L_K = \lambda_{cls} L_{cls} + \lambda_{ce} L_{ce} + \lambda_{dice} L_{dice} LK=λclsLcls+λceLce+λdiceLdice
其中, L c l s L_{cls} LclsFocal Loss, L c e L_{ce} Lce是CrossEntropy Loss和 L d i c e L_{dice} Ldice是Dice Loss。 由于每个实例只占据图像中的一个小区域,CrossEntropy Loss不足以处理掩模的高度不平衡学习目标。因此,我们应用Dice Loss解决这个问题。
使用匈牙利算法进行目标匹配,从而以end-to-end的方式训练K-Net/
性能表现:
作者提出了一个NMS-free和Box-free的框架,通过探索卷积核,来进行实例分割,语义分割和全景分割。性能优于Cascade Mask R-CNN,UPSNet和SegFormer。