金字塔移植网络(PGNet
):Encoder-Decoder架构,在Encoder中建立两条分支(Swin-Transformer及ResNet-18)提取特征,提出基于注意力的跨模型移植模块(CMGM
)结合两条分支的特征,设计注意力引导损失(AGL
)监督CMGM
模块的注意力矩阵,矫正特征融合。
超高分辨率显着性检测数据集 UHRSD
:包含5,920 张 4K-8K 分辨率的图像,是高分辨率 SOD 任务在数量和分辨率上最大的数据集。
由于大多数低分辨率的 SOD 网络都是以 Encoder-Decoder 风格设计的,随着输入分辨率的增加,提取的特征大小增加,但网络确定的感受野是固定的,使得相对感受野较小(占据图像的比例越小,获取的全局信息就更少,特征就更趋向局部细节)
PGNet
,交错捕获连续语义和丰富的细节建立CNN
和Transformer
分支以提取特征,引入CMGM
模块将信息从Tansformer分支传输到CNN分支,提出AGL
矫正特征嫁接。
对比本文建立的数据集 UHRSD
与HRSOD
相比,图像的边缘象素与图像大小都更大,且注释水平更高。
两个Encoder+一个Decoder
Swin-Transformer+Resnet-18
F.interpolate
),获取低分辨率图像(大小224 × 224),传入Swin-Transformer中分为三个阶段:
CMGM
模块:将Swin-Transformer分支的特征移植到Resnet-18分支) s4_,_ = DB1(s4)
s3_,_ = DB2(s3,s4_)
graft_feature_r5,cam = Grafting(r5_,s2_)
graft_feature_r5_,_=DB2(graft_feature_r5,s3_)
graft_feature_r4,_=DB3(s1,r4,graft_feature_r5_)
r3_,_ = DB2(r3,graft_feature_r4)
r2_,_ = DB2(r2,r3_)
17个卷积层+1个全连接层
分为5个阶段,生成5个特征图,使用后四个特征图 { R i ∣ i = 2 , 3 , 4 , 5 } \{R_i|i=2,3,4,5\} {Ri∣i=2,3,4,5}
用以验证Transformer可以用作网络通用骨干的模型,使用了滑动窗口的Transformer
Vision-Transformer在每一级都是16倍下采样率,对于多尺度特征把控不好,但是对于大多数视觉任务多尺度特征是至关重要的
Vision-Transformer在整张图片上进行自注意力操作,因此复杂度是平方倍增长的,全局建模浪费资源
借鉴卷积的池化层(增大感受野):将相邻的小patch合成大patch(patch merging,隔几个采样点采样合成大patch,大patch在通道维度合并,经过 1 × 1 1\times 1 1×1卷积将通道数减半),增大感受野,获取多尺度层级信息
借鉴卷积局部性先验知识:相比于全局建模,Swin-Transformer在小窗口内进行自注意力机制,因此整张图片复杂度与窗口数量呈线性关系
以patch为最小单位,引入滑动窗口(在每个窗口中进行自注意力机制),使得窗口间可以进行互动,每个patch也能得到其他patch的信息,达到全局自注意力的效果
如果原图像有4个窗口,窗口整体滑动后,会将整张图片分成9块(数量增加且大小不一)
经由Swin-Transformer分支,生成4个特征 { S i ∣ i = 1 , 2 , 3 , 4 } \{S_i|i=1,2,3,4\} {Si∣i=1,2,3,4}
提出跨模型移植模块(CMGM
) 融合两个编码器提取的特征 f R 5 f_{R_5} fR5和 f S 2 f_{S_2} fS2
其中 f S 2 f_{S_2} fS2包含丰富的全局语义信息, f R 5 f_{R_5} fR5包含丰富的细节,但是由于特征大小和感受野间的矛盾, f R 5 f_{R_5} fR5中背景会有很大噪声。
不同特征的融合结果有三种:1)都对;2)一部分正确;3)都错
特征融合多采用通道相乘或相加的操作,得到的结果大多是前两种情况。
但是通道相乘和相加的操作只关注有限的局部信息,导致融合方法难以弥补特征对应的错误。
重新计算 Resnet -18特征和Swin- Transformer 特征之间的逐点关系,将全局语义信息从 Transformer 分支转移到 Resnet 分支,以纠正错误
计算误差图: E = ∣ G − P ∣ ∈ [ 0.1 ] E=|G-P|\in[0.1] E=∣G−P∣∈[0.1],其中 G G G是ground truth, P P P是不同分支或CMGM
的结果
来自两个分支的特征 f R 5 ∈ ν H × W × C f_{R_5}\in \nu^{H\times W\times C} fR5∈νH×W×C和 f S 2 ∈ ν H × W × C f_{S_2}\in \nu^{H\times W\times C} fS2∈νH×W×C
将其展平为 f R ′ ∈ ν 1 × C × H W f'_R\in \nu^{1\times C\times HW} fR′∈ν1×C×HW和 f S ′ ∈ ν 1 × C × H W f'_S\in \nu^{1\times C\times HW} fS′∈ν1×C×HW
受到多头自注意力机制的启发,对其进行层归一化和线性投影,得到 f R q f^q_R fRq、 f R v f^v_R fRv和 f S k f^k_S fSk,通过矩阵乘法得到 Z Z Z,公式表征:
Y = s o f t m a x ( f R q × f S k T ) Y=softmax(f^q_R \times {f^k_S}^T ) Y=softmax(fRq×fSkT)
Z = Y × f R v Z=Y\times f^v_R Z=Y×fRv
Z Z Z通过线性投影层,重塑大小为 ν H × W × C \nu^{H\times W\times C} νH×W×C,经过两次shortcut
(快捷连接)
同时,在交叉注意过程中,基于 Y 生成交叉注意矩阵:
C A M = R e L U ( B N ( C o n v ( Y + Y T ) ) ) CAM = ReLU(BN(Conv(Y + Y^ T))) CAM=ReLU(BN(Conv(Y+YT)))
为了更好地将Swin-Transformer的信息移植到Resnet-18,设计了注意力引导损失AGL
CMGM
的交叉注意矩阵,应该与由ground truth生成的注意力矩阵一致,即点积的值更大
有一个大小 H × W H\times W H×W的显著图 M M M,将其平展为 1 × H W 1\times HW 1×HW的 M ′ M' M′,做矩阵相乘得注意力矩阵 M a M^a Ma,公式表征:
M x y a = M x ′ T × M y M^a_{xy} = M^{'T}_x\times M_y Mxya=Mx′T×My
通过上述步骤构建 G a G^a Ga、 R P a RP^a RPa和 S P a SP^a SPa
提出基于 加权二元交叉熵 (wBCE) 的注意力引导损失(AGL
)来监督从CMGM
生成的交叉注意力矩阵 C A M CAM CAM,公式表征:
其中, P x y P_{xy} Pxy 是特征嫁接的注意力矩阵, G x y G_{xy} Gxy 是ground truth的注意力矩阵,都在 [ 0 , 1 ] [0,1] [0,1]范围内, β \beta β是调节权重 ω i j \omega _{ij} ωij的超参数,当 β = 0 \beta =0 β=0,公式6就会变成二元交叉熵损失 ι b c e \iota _{bce} ιbce
其中, ι b + i = ι b c e + ι i o u \iota _{b+i}=\iota _{bce}+\iota _{iou} ιb+i=ιbce+ιiou, ι b + i a u x i l i a r y \iota ^{auxiliary}_{b+i} ιb+iauxiliary是由 R P RP RP和 S P SP SP获得的。
UHRSD-TR + HRSOD-TR