点击我爱计算机视觉标星,更快获取CVML新技术
今天跟大家分享一份ICCV 2019 上新出的关于注意力模型的工作Mixed High-Order Attention Network for Person Re-Identification,来自北京邮电大学的学者提出一种高阶注意力模型,并将其应用于行人重识别建模,显著改进了现有SOTA模型的精度。
这种新出的注意力模型,很显然也可以适用于其他视觉问题建模,作者已于近日开源了代码,非常值得参考。
论文作者信息:
作者均来自北京邮电大学。
什么是注意力模型?
在视觉问题建模中,注意力模型是让算法能对那些对最终结果产生更大影响的图像或特征图的局部进行建模,让模型学习一个01掩膜,与1对应的图像或特征块,就是注意力区域,也就是在视觉问题中,模型应该重点关注的区域。
这在很多实际问题中,是非常有意义的。
比如前几天我们分享了一篇有关GAN的论文:登顶Github趋势榜,非监督GAN算法U-GAT-IT大幅改进图像转换效果,作者引入注意力模型使得生成和鉴别模型能对最终结果产生更大影响的区域“更加关注”,显著改进了图像转换的效果。
而CVPR 2019 图像压缩比赛的冠军方案图鸭科技包揽 CVPR 2019 图像压缩大赛四项指标全部冠军!,同样在图像压缩中引入注意力机制,也取得了更好的效果。
作者认为通常的注意力模型往往只关注图像或者特征图内部注意力区域或通道,不能很好建模不同区域对最终结果共同作用产生的结果。作者称这样的注意力模型为一阶注意力机制。
作者提出高阶注意力机制,希望模型对图像或特征图不同部分共同作用机制进行注意力建模。
想像一下,这其实是很有道理的。比如在行人重识别中,人体各个部分当然对最终结果的影响不同,所以可以引入注意力机制建模,但各个部分之间对最终结果也会有协同影响。
下图展示了,作者提出的高阶注意力机制与空间注意力机制Spatial Attention、通道级注意力机制Channel Attntion的比较。
高阶注意力机制,主要是为了建模注意力模块之间的相互影响。
高阶注意力建模
下图展示了在CNN网络中作者提出的一阶和三阶注意力建模的过程:
R代表阶数,代表张量的Hadamard Product。
将高阶注意力模块嵌入行人重识别算法流程中:
R=1,R=2,R=3,代表图中嵌入了1、2、3阶注意力模型。作者称这种结构为混合高阶注意力网络Mixed High-Order Attention Network(MHN)。
值得注意的是,这种网络结构是与模型解偶的,所以该模块可与任何行人重识别网络结合。
实验结果
作者在行人重识别多个主流数据集上进行了实验。
下图展示了,在Market-1501数据集上,PCB算法上加上MHN建模,在各种评价指标下均取得了一致性的精度提高。相比以往的SOTA算法,也取得了最好的结果。
下图展示了在DukeMTMC-ReID数据集上同样获得了显著精度提升,且大幅领先第二名!
在CUHK03-NP数据集上依然有大幅提高!显著领先之前的SOTA!
作者研究了注意力阶数对最终结果的影响,,由下表可知,阶数越高,最终的结果越好。
去与他注意力机制夹持的ReID算法相比较的结果:
可见,该文提出的高阶注意力模型是在ReID问题中更好的注意力建模方法。
值得注意的是,注意力机制在视觉任务中被广泛使用,该文提出的方法对其他任务是否也有比价好的改进效果?非常期待有更多的结果出来。
最后,感谢作者的开源~
论文地址:
https://arxiv.org/abs/1908.05819
代码链接:
https://github.com/chenbinghui1/MHN
在我爱计算机视觉公众号对话界面回复“MHNReID”(建议复制),即可收到论文及代码国内下载地址。
行人重识别交流群
关注最新最前沿的行人重识别、行人检测等技术,欢迎加入专属交流群,扫码添加CV君拉你入群,(如已为CV君好友请直接私信)
(请务必注明:ReID)
喜欢在QQ交流的童鞋,可以加52CV官方QQ群:805388940。
(不会时时在线,如果没能及时通过验证还请见谅)
长按关注我爱计算机视觉