CV文章浅读_not_everday
- 0x1105.CAViT for video object re-id 2022_中科院
-
- [Code](https://github.com/KimWu1994/CAViT )
- 0x1106.Batch Normalization_GoogLeNet-V2_2015
-
这个月主要是要学习pytorch和一些CV baseline的复现,搞搞毕设雏形
以后还是把笔记写纸上要么写博客,不放本地了
网页版小绿鲸zen好用
0x1105.CAViT for video object re-id 2022_中科院
Code
-
reID关键是如何充分利用时空相互作用来提取更准确的表示,但是目前:
- 3D解决方案对时空相互作用进行建模经常受到相邻帧未对准的困扰
- 2D解决方案针对未对准采取分而治之策略,但不能利用时空相互作用
-
上下文对准视觉Transformer,CAViT,用于与2D solution进行时空交互:
- MPE,多形状补丁嵌入.保留空间语义信息,防止由于姿势、遮挡或检测错误而导致的未对齐;
- TSA,时间转移注意力.实现上下文空间语义特征对齐,代替transformer的self-attention机制;
- RPE,残差位置嵌入,来指导TSA在连续帧之间聚焦于时间显著性信息.
-
在LSVID实现89.3%rank1的性能,在PRID2011实现 了95.7%rank1的性能
- 在视频行人重识别的datasets证明了CAViT的优越性,
- 对视频车辆重识别有效.
0x1106.Batch Normalization_GoogLeNet-V2_2015
背景
BN层的优点
没有广泛应用,只是对于GoogLeNet_V1作出一点改进
实验结果