ReadingTime-十一月

CV文章浅读_not_everday

  • 0x1105.CAViT for video object re-id 2022_中科院
    • [Code](https://github.com/KimWu1994/CAViT )
  • 0x1106.Batch Normalization_GoogLeNet-V2_2015
    • 背景
    • BN层的优点
    • 实验结果

这个月主要是要学习pytorch和一些CV baseline的复现,搞搞毕设雏形
以后还是把笔记写纸上要么写博客,不放本地了
网页版小绿鲸zen好用


0x1105.CAViT for video object re-id 2022_中科院

ReadingTime-十一月_第1张图片

Code

  • reID关键是如何充分利用时空相互作用来提取更准确的表示,但是目前:

    • 3D解决方案对时空相互作用进行建模经常受到相邻帧未对准的困扰
    • 2D解决方案针对未对准采取分而治之策略,但不能利用时空相互作用
  • 上下文对准视觉Transformer,CAViT,用于与2D solution进行时空交互:

    • MPE,多形状补丁嵌入.保留空间语义信息,防止由于姿势、遮挡或检测错误而导致的未对齐;
    • TSA,时间转移注意力.实现上下文空间语义特征对齐,代替transformer的self-attention机制;
    • RPE,残差位置嵌入,来指导TSA在连续帧之间聚焦于时间显著性信息.
  • 在LSVID实现89.3%rank1的性能,在PRID2011实现 了95.7%rank1的性能

    • 在视频行人重识别的datasets证明了CAViT的优越性,
    • 对视频车辆重识别有效.

0x1106.Batch Normalization_GoogLeNet-V2_2015

ReadingTime-十一月_第2张图片

背景

ReadingTime-十一月_第3张图片

BN层的优点

ReadingTime-十一月_第4张图片没有广泛应用,只是对于GoogLeNet_V1作出一点改进
ReadingTime-十一月_第5张图片

实验结果

ReadingTime-十一月_第6张图片

你可能感兴趣的:(计算机视觉,计算机视觉,人工智能)