基于视频的ReID

Region-based Quality Estimation Network for Large-scale Person Re-identification

最近集中刷一波视频分析的文章。

基于视频的ReID_第1张图片

又是各帧的叠加,为了修补质量低的帧(从而由视频来获得对一个人更完整的印象或记忆?)。联想京东猪识别竞赛–

基于视频的ReID_第2张图片

第二路将人体分区域。u, m, l represent the upper part, middle part and the lower part of images(能否在video-based person re-identification中结合AlignedReID对齐的思路来处理质量低的帧?):
基于视频的ReID_第3张图片

图2最终输出是video level的行人特征表示。其中Region-based Quality Predictor就是我们一直提到的先验或者启发式结构,得到的质量得分就是不同帧的特征的权重。回想SENet,虽然结构不一样,但是这里质量得分也类似是给不同的通道赋予权重。

基于视频的ReID_第4张图片

联合训练(由于video level的特征是基于frame level的,这地方的softmax其实类似一种intermediate supervision ?)。

其他思考:
- video-based person re-identification似乎也兼容用视频训练,用图片query的情形?(这样图片可以看做视频长度只有1帧的特殊情况)

你可能感兴趣的:(深度学习与机器学习)