Grounding Image or Referring Image by caption

(ECCV 2016) Grounding of Textual Phrases in Images by Reconstruction

这篇文章做的是通过一段描述(Textual Phrase)在图片中标出
Bounding Box。做法是通过 Selective Search 或者 Edge Box 在图片中提出 proposals,然后对每个 proposal region 计算 attention。对所有 proposal region 通过 attention 加权取均值得到一个图像特征。图像特征使用 LSTM 生成 caption(作者称之为 Reconstruction ),Loss即是 caption 和给的描述做交叉熵损失 。
其中又分为无监督、半监督和全监督的过程。上一段的描述是无监督的,没有 Bounding Box 的 Ground Truth。半监督的是拥有 attention 的 ground-truth,加强对 attention 的学习过程。而全监督没有 Reconstruction 的过程,只有 attention 的 Loss。

(ICCV 2017)Recurrent Multimodal Interaction for Referring Image Segmentation

这篇文章是通过 caption 的描述来做 Image Segmentation。传统的做法中(baseline),是图像用 FCN 提取特征,文字用 LSTM 提取特征,二者 concat 之后经过卷积和反卷积,得到分割图。Loss是所有像素分割的正确性。这篇文章增加了一个 mLSTM,每次将 Language LSTM 的 hidden state 和 word embedding 拼接,Tile 之后再和图像进行 Concat, 送入 mLSTM 中做融合。把融合的特征进行卷积和反卷积去计算所有像素的 Loss。

你可能感兴趣的:(Grounding Image or Referring Image by caption)