-
CVPR 2022|Self-Attention和CNN的优雅集成!清华大学等提出ACmix,性能速度全面提升! ⭐️⭐️
- Abstract: 清华大学等提出ACmix,Self-Attention和CNN的优雅集成,性能速度全面提升
- Paper: On the Integration of Self-Attention and Convolution
- Code: https://github.com/Panxuran/ACmix
- Tips: 清华大学等提出了一个混合模型ACmix:它既兼顾Self-Attention和Convolution的优点,同时与Convolution或Self-Attention对应的模型相比,具有更小的计算开销。实验表明,本文方法在图像识别和下游任务上取得了持续改进的结果
-
CVPR 2022 Oral | MetaFormer:证明Transformer的威力源自其整体架构!颜水成团队工作! ⭐️⭐️
- Abstract: MetaFormer:证明Transformer的威力源自其整体架构
- Paper: MetaFormer is Actually What You Need for Vision
- Code: https://github.com/sail-sg/poolformer
- Tips: 作者认为
MetaFormer
是为最近的Transformer和类似MLP的视觉任务模型获得优越结果的关键。这项工作需要更多的未来研究,致力于改进MetaFormer
,而不是专注于token mixer module
。此外,作者提出的PoolFormer可以作为未来MetaFormer
设计的Baseline。
-
视频生成无需GAN、VAE,谷歌用扩散模型联合训练视频、图像,实现新SOTA ⭐️⭐️
- Abstract: 谷歌用扩散模型联合训练视频、图像,实现新SOTA
- Paper: Video Diffusion Models
- Code: https://video-diffusion.github.io/
- Tips: : 首先谷歌展示了使用扩散模型生成视频的首个结果,包括无条件和有条件设置。其次该研究表明,可以通过高斯扩散模型的标准公式来生成高质量的视频,除了直接的架构更改以适应深度学习加速器的内存限制外,几乎不需要其他修改。
-
CVPR | 浙大小姐姐提出了秃头生成器,完美保留五官,让程序员简历大加分? ⭐️⭐️
- Abstract: 浙大小姐姐提出了秃头生成器,完美保留五官
- Paper: HairMapper: Removing Hair from Portraits Using GANs
- Code: https://github.com/oneThousand1000/non-hair-FFHQ
- Tips: HairMapper的原理一共分为三步,生成秃头→保留五官→合并头像。首先,作者们利用StyleGAN,做出一个与原头型相近的秃头效果;接下来,就是利用InterFaceGAN,抠出一个头发以外的脸型和五官形象,同时也保留四周的风景;最后,将前两步生成的效果合成,就做出了一个完美的“光头”。
-
CVPR 2022 | 南大提出:Structured Sparse R-CNN:单阶段端到端场景图生成器 ⭐️⭐️
- Abstract: 南大提出:Structured Sparse R-CNN:单阶段端到端场景图生成器
- Paper: Structured Sparse R-CNN for Direct Scene Graph Generation
- Code: https://github.com/MCG-NJU/Structured-Sparse-RCNN
- Tips: 本工作将端到端稀疏目标检测器引入场景图生成领域,并提出了相应的关系建模组件和训练策略。该模型在 Visual Genome, Open Image V4/V6 数据集上取得了 SOTA 效果。
-
CVPR 2022|打破传统的跟踪范式!南大开源MixFormer:端到端目标检测新模型 ⭐️⭐️
- Abstract: 打破传统的跟踪范式!南大开源MixFormer:端到端目标检测新模型
- Paper: MixFormer: End-to-End Tracking with Iterative Mixed Attention
- Code: https://github.com/MCG-NJU/MixFormer
- Tips: 本文介绍了一篇单目标跟踪(VOT)领域的新工作-基于 transformer 的简洁的端到端模型 MixFormer,该工作已经被CVPR 2022收录。该工作打破了传统的跟踪范式,通过模板与测试样本混合的backbone加上一个简单的回归头直接出跟踪结果,并且不使用框的后处理、多尺度特征融合策略等。