End-to-end comparative attention networks for person re-identification

End-to-end comparative attention networks for person re-identification

该论文中简单的总结一下关于attention的部分

整体网络架构如下:

End-to-end comparative attention networks for person re-identification_第1张图片
CNN部分采用截断的预训练VGG Net,去除最后三层全连接层,得到特征X
H为网络的输出向量(具体如何得到,后文有解释)
注意网络分支共享参数
使用端到端的学习方式,优化下面提到的多任务loss函数
多重任务loss函数:
三元loss函数:
在这里插入图片描述
在这里插入图片描述
分类的softmax loss函数:
在这里插入图片描述
在这里插入图片描述
多任务loss函数:
在这里插入图片描述

Attention组件部分:

单个时间步的LSTM单元:
End-to-end comparative attention networks for person re-identification_第2张图片
X_t表示时间步为t的特征图,但是每一个时间步的X_t采用的是相同的特征图X,即从CNN中直接得到的特征图
l_(t-1)表示根据h_(t-1)产生的attention map,W_(i,h)表示权值参数,和LSTM的参数采用端到端的训练方式一起学习。
在这里插入图片描述
上下文向量:
在这里插入图片描述
包含多个时间步的LSTM网络的attention组件:
End-to-end comparative attention networks for person re-identification_第3张图片
(其中h_0和c_0采用两层感知机预初始化)
End-to-end comparative attention networks for person re-identification_第4张图片
Concatenation层选取m个隐状态h_i整合
在这里插入图片描述
由于整个网络比较复杂,loss函数波动较大,最后对R采用L2规则化

在这里插入图片描述

目前不理解的部分:

1)既然网络分支共享参数,那么如何解决三张图片关注的区域物理位置不同?(根据文章中的图片,没有这样的问题,应该是我没有理解)


感谢 Liu H, Feng J, Qi M, et al. End-to-end comparative attention networks for person re-identification[J]. IEEE Transactions on Image Processing, 2017, 26(7): 3492-3506.

你可能感兴趣的:(Paper阅读)