Bi-Modal Learning With Channel-Wise Attention for Multi-Label Image Classification

方法

Bi-Modal Learning With Channel-Wise Attention for Multi-Label Image Classification_第1张图片
视觉特征生成:
\quad 第i个注意力部分的attention M i _i i=sigmoid( ∑ j = 1 c \sum_{j=1}^c j=1cd j _j j[W ∗ \ast X] j _j j),其中 c c c是通道数,d j _j j是标量,[ ∙ \bullet ] j _j j是一个矩阵
最终的特征表征P i _i i(X)= ∑ j = 1 c \sum_{j=1}^c j=1c([W ∗ \ast X] j ⋅ _j\cdot jM i _i i)
接着预测注意力部分的标签Y i _i i=V ( P i ( X ) ) (P_i(X)) (Pi(X)),其中V是预训练的CNN预测器。如图4所示,具有较高输出值的注意部分将被选取,其他冗余部分会被省略
Bi-Modal Learning With Channel-Wise Attention for Multi-Label Image Classification_第2张图片
将视觉特征与标签嵌入输入特征对齐模块后,得到的输出送入LSTM cell
作者还对通道分组网络和跨模态对齐编码器进行了2组可替代的训练,示意图如下:Bi-Modal Learning With Channel-Wise Attention for Multi-Label Image Classification_第3张图片

体会

这篇文章创新性不强且作者不公布代码

你可能感兴趣的:(多标签图像分类,机器学习,深度学习,人工智能)