Deep Visual-Semantic Alignments for Generating Image Descriptions阅读笔记

论文主要内容:自动对图像生成描述,并标注描述片段对应的图片区域
  1. 图像检测,利用Region Convolutional Neural Network (RCNN),引用论文:Rich fea-ture hierarchies for accurate object detection and semanticsegmentation. In CVPR, 2014.
  2. 图像表示: 选择top19个RCNN检测的区域和原图,每个都用cnn映射到4096维的向量。再通过一个矩阵W,转化成一个矩阵v,来表示图像(v是h*20;h是1000-1600维)。  即:v = Wm[CNNθc (Ib)] + bm              (v的维度  h*20)
  3. 句子表示:输入N个词,使用BRNN
    1. 每个词进行word2vect转化为300维向量(论文表示,随机初始化向量,对效果也没太大影响)
    2. 隐层神经元个数300-600
    3. 输出层维度h*t,h和上面相同,t是句子单词个数
    4. 激活函数使用 Relu, x max(0, x)
  4. 图像和句子的match,lose-function 
    1. 相似度用向量点积(dot product)表示
    2. 图像和句子相似度公式,k是子图像个数,小写L是句子单词个数
    3. 整体lost-function:其中k=L表示训练集中图片和句子匹配
    4. 其他
  5. 文本片段和图像区域的对齐,利用 Markov Random Field (MRF),考虑相邻单词的联系。利用动态规划求解最优对齐
  6. 图像描述自动生成,利用 Multimodal RNN
    1. 输入图像Cnn最后一层表示(只在t=1的时候加入), +  图像中间表示向量Xt
    2. 隐藏层神经元512个,
    3. 输出层,softmax,生成(每个单词+结束符)的概率
    4. 训练部分:
      1. 隐层h0设置为0,输入X1是个特别的START向量,输出Y1是样本对应句子的第一个单词
      2. 最后Xt对应最后一个输入单词,Yt是特别的END向量
      3. cost-function,最大化预测概率,log probability
    5. 预测部分
      1. 首先得到图像的表示向量Bv,隐层h0设置为0,X1是START向量。得到Y1向量(候选词概率分布)
      2. 然后选Y1向量中某个词,用其word-embeding作为X2的输入,如此下去,知道输出END
    6. 其他
  7. 配置&优化
    1. 对齐模型: 100样本的batch的SGD,0.9的动量
    2. 每层都dropout(除了rnn循环层,Recurrent neural network regularization.,2014.)  clip gradients elementwise at 5
    3. 调整梯度更新:RMSprop( Dividethe gradient by a running average of its recent magnitude.,2012.)

  8. 评估方法
    1. 数据集:Flickr8K,Flickr30K,MSCOCO (数据量:8k,31k,123k,每张图有5个标注句子)
    2. 数据处理:转小写字母,去字符。过滤训练集词频<5的单词

  9. 实验结果
  10. 其他

你可能感兴趣的:(论文阅读笔记)