经典/最新计算机视觉论文及代码推荐

今日推荐几篇最新/经典计算机视觉方向的论文,涉及诸多方面,都是CVPR2022录用的文章,具体内容详见论文原文和代码链接。

简单、新颖、高效的基本算子TVConv

-  论文题目:TVConv: Efficient Translation Variant Convolution for Layout-aware Visual Processing

- 论文链接:https://arxiv.org/abs/2203.10489

-  代码链接:https://github.com/JierunChen/TVConv

人脸识别和医学图像分割的一篇论文,数据集都没见过。主要提出了个对空间Dynamic,对数据却Static的,动态又感觉不那么动态的动态卷积。用了一个Affinity Map喂给Weight Genrate模块来生成权重,这个过程类似非线性的矩阵分解。Affinity Map是包含了该数据集图片的一定共性的,比如鼻子眼睛在上嘴巴在下,因此能够很好地提取不同空间位置的信息。TVConv可以无缝集成到各种神经架构中。此外,学习到的Affinity Map可以为网络可视化和解释提供了额外的空间。

经典/最新计算机视觉论文及代码推荐_第1张图片

移位不变注意力机制层QnA

  • 论文题目:Learned Queries for Efficient Local Attention

  • 论文链接:https://arxiv.org/abs/2112.11435

  • 代码链接:https://github.com/moabarar/qna

经典/最新计算机视觉论文及代码推荐_第2张图片

Vision Transformers(ViT)作为强大的视觉模型,与前些年主导视觉研究的卷积神经网络不同,Vision Transformers 享有捕捉数据中长距离依赖关系的能力。然而,任何 Transformers 架构的一个组成部分,即自关注机制,存在着高延迟和低效率的内存利用,使其不太适合高分辨率的输入图像。

在本文中,提出一个新的移位不变的局部注意力层,query and attend(QnA),它以重叠的方式在局部聚集输入,很像卷积。QnA的关键思想是引入学习查询,这允许快速和有效的实施。通过将其纳入一个分层的 Vision Transformers 模型来验证层的有效性。以及展示在速度和内存复杂性方面的改进,同时实现了与最先进的模型相媲美的准确性。最后,该层随着窗口大小的变化扩展得特别好,需要的内存比现有方法少10倍,而速度却快5倍。

经典/最新计算机视觉论文及代码推荐_第3张图片

RepMLP:具有重新参数化局部性的分层视觉 MLP

  • 论文题目:RepMLPNet: Hierarchical Vision MLP with Re-parameterized Locality

  • 论文链接:https://arxiv.org/abs/2112.11081

  • 代码链接:https://github.com/DingXiaoH/RepMLP

与卷积层相比,全连接 (FC) 层在建模远程依赖关系方面更好,但在捕获局部模式方面较差,因此通常不太适合图像识别。在本文中,我们提出了一种方法,Locality Injection,通过将并行卷积核的训练参数合并到 FC 内核中,将局部先验合并到 FC 层中。局部注入可以被视为一种新的结构重新参数化方法,因为它通过参数转换等效地转换结构。基于此,我们提出了一个名为 RepMLP Block 的多层感知器 (MLP) 块,它使用三个 FC 层来提取特征,以及一种名为 RepMLPNet 的新型架构。分层设计将 RepMLPNet 与其他同时提出的视觉 MLP 区分开来。由于它生成不同级别的特征图,因此它有资格作为语义分割等下游任务的主干模型。我们的结果表明:1)局部注入是 MLP 模型的通用方法;2) RepMLPNet 与其他 MLP 相比具有良好的准确性-效率权衡;3) RepMLPNet 是第一个无缝转移到 Cityscapes 语义分割的 MLP。

经典/最新计算机视觉论文及代码推荐_第4张图片

后续

下一期最新/经典视觉cvpr顶会论文敬请期待!

你可能感兴趣的:(计算机视觉论文及代码推荐,计算机视觉,深度学习,人工智能)