Where To Look: Focus Regions for Visual Question Answering——CVPR2016

Where To Look: Focus Regions for Visual Question Answering——CVPR2016

文章链接:
https://arxiv.org/pdf/1511.07394.pdf

Where To Look: Focus Regions for Visual Question Answering
概括:个人感觉where to look 的地位有点相当于VQA 方向attention的始祖 第一次提出了基于QA的图像region attention 因为文章为2015的比较早 因此使用方法还存在不少瑕疵:具体做法为该网络只适用于mc类型的VQA 输入QA对儿 并置提取特征 图像过边缘检测得100分区 过cnn得特征 将每个region的向量与QA特征向量作内积得attention系数权值 最后与文本特征并置加权求和得weighted average features 然后过两个层得score 训练时的loss 用的 hinge loss
方法:
网络结构图
Where To Look: Focus Regions for Visual Question Answering——CVPR2016_第1张图片

  1. Image features:通过edge boxes(边缘检测)预训练网络得到top99 region,然后全图算第100个region 注意:其中联合重叠阈值设定决定了区域的大小 本task region稍微小点好 作者猜测增加region number可能能够提升性能 用的VGG 取的最后一个隐藏层4096d和前一个softmax层1000d并置共5096d 因为1000那个包含物体类别信息
  2. Language representation:首先将每个word通过Google News dataset进行预训练的w2v得到单词representation(相同词有相近的向量特征是open-ended前提)之后通过4个Bin得到四种question sentence representation(而不是LSTM)
    Bin1:问题前两个词特征的平均
    Bin2:主语名词特征
    Bin3:其他所有名词特征的平均
    Bin4:去掉限定词和冠词之后的剩余词特征的平均
    Bin1+Bin2+Bin3+Bin4+answer representation = 1500维 这就是整个的representation
  3. Image特征和QA特征都FC降维到900 然后点积后softmax成region probability sj:
    Where To Look: Focus Regions for Visual Question Answering——CVPR2016_第2张图片
    然后
    之后attention*并置向量 在这里插入图片描述
  4. 最后的向量z过一个两层的fc后输出一个score 然后利用Hingeloss返回梯度 在这里插入图片描述

收获:
1. 该方法因为输入要有QA pair 所以只能选择mc类型问题 因为open-ended类型问题没有answer
2. Hinge loss:基于margin的loss 简单来说就是两个结果之间的距离最少要大于一个值margin(此处为正确答案的得分和得分最高的错误答案之间的得分差) loss为这个值与训练时得到的margin值的差 在这里插入图片描述
3. 它的灵感来源于caption中的attention 因此之后的灵感发觉可多从其他类似任务考虑
4. 该方法提出了一种新的表征QA的方式:bin5 即从4个方面对Q进行300维的表征 最后接个answer的300维特征 然后concatenation(具体见方法)
5. Edge Boxes方法可获得image region 其中的联合重叠阈值可决定region的大小
6. 相似词有相似的representation是open-ended VQA 的前提 但是对于本文类型的打分网络不需要(因为没有多个词的比较)
7. 点积的前提是两向量维度相等
8. 点积加权啊求和的形式优于取最值salient
9. Vgg最后一个隐藏层是4096维 之前的一个softmax是1000维 含有直接表达类别的信息
10. 取region和不取region的区别在于所有region并不能代表全图;
11. 需要精准定位的问题类型该方法优势较大;需要技术或全局关系的使用全图最好(包含于论文方法中);需要更多先验知识的基于文本更好
Q:
1.为什么这里bow比lstm好?
2.bin的方式为什么是前两个词?

你可能感兴趣的:(Where To Look: Focus Regions for Visual Question Answering——CVPR2016)