《SCA-CNN:Spatial and Channel-wise Attention in Convolutional Networks for Image Captioning》论文笔记
1.前言视觉上的attention已经被成功运用在了结构预测任务中。例如,visualcaptioning与questionanswering。现有的视觉attention模型都是基于空间的,既是重新加权最后一个卷积层的featuremap。其原理如下图所示,但是这样的或许并不能会很好符合attention的机制。文章中指出,基于CNN的原理,其所提取的featuremap具有spatial、ch