读论文,衣物检索:Clothing Retrieval with Visual Attention Model(2017.10.31)

Clothing Retrieval with Visual Attention Model(2017.10.31)

创新点

VAM不需要强监督训练信息的landmark;

提出了Impdrop方法,是将Dropout应用于feature层面

 

困难:

同样是双域问题

Landmark所对应的多属性的细粒度标注信息的 处理方式。

 

相关研究

1.       Wh方法是为了学习不同域的相似度度量《Where to buy it: Matching street clothing photos in online shops (2015)》

2.       部分参数共享方法parameterpartial-sharing method 是处理不同域的影像是共享部分参数《A parameter partial-sharing cnn architecture for cross-domain clothing retrieval(2016)》。

 

处理图像中的扰动信息

按顺序->

1.       之前的数据增广data augmentation方法有利于神经网络的训练;

2.       但是数据本身的扰动信息,如相同物体的背景或者遮挡,处理手段目前有限,

3.       作者认为使用事先标注的位置框,可以直接让网络“看到”目标,算是一种处理这种信息扰动形式的方式,具体的是指FashionNet在识别衣服的不同款式时,使用人工标注的landmark指示出了诸如领子/袖子等部位。

4.       作者给出的方法就是attention architecture——让神经网络自动学习一种可寻找目标的attention机制。

 

具体的实现(attention机制)

1.       首先,训练一个FCN网络,得到attention maps。

2.       然后,attention map和中间结果组合,得到特征向量,用来检索衣物。其中,组合的实施方式是Impdrop connection结构,消除了背景。

3.       最后,由此所得到的loss,既训练主网络又训练VAM

读论文,衣物检索:Clothing Retrieval with Visual Attention Model(2017.10.31)_第1张图片

1.       图片同时输入到两个分支里面,具体按照图片中说明的方式得出相应的结果。

2.       其中,feature maps/attention map和attention feature maps有相同的宽高,除attention map外,剩余两个有相同的channel。这儿和DropOut没太多关系,也没有借鉴关系,其实就是简单相称。

3.       Upper layers A/B有相同的网络结构和网络参数。

至于为嘛FCN不和原图片组合(就是抠出来):

1.       图片尺寸,FCN的输出尺寸小于原图。

2.       与原图组合的话,产生额外的假边缘。

3.       产生当前中间层的feature map在上面所说的假边缘的地方,感受野是会跨过这条边缘线的。

 

为嘛叫Impdrop

1.       Attention map和Feature maps组合,将重要的部分抠出来,就是使用点乘的方式。

2.        这么做的副作用是overfitting on small datasets,小数据集会过拟合。这就想到了DropOut方法,生成一个同channel的列表,这个列表最终获得有效的channel数目。但是这个列表不是完全随机的,是和attenion map中数值相关的。
读论文,衣物检索:Clothing Retrieval with Visual Attention Model(2017.10.31)_第2张图片

 

你可能感兴趣的:(深度学习)