-
MUCNetV2:内存瓶颈和计算负载问题一举突破?分类&检测都有较高性能(附源代码下载) ⭐️⭐️
- Abstract: MUCNetV2:内存瓶颈和计算负载问题一举突破?分类&检测都有较高性能(附源代码下载)
- Paper: MCUNetV2: Memory-Efficient Patch-based Inference for Tiny Deep Learning
- Code: https://mcunet.mit.edu
- Tips: 研究者提出一种patch-based inference机制打破初始层的内存瓶颈问题,极大程度上解决了TinyDL的内存瓶颈问题,为图像分类之外的其他视觉应用铺平了道路 。
-
一举打败16个同类模型,视频超分比赛冠军算法入选CVPR 2022,来自商汤&南洋理工大学 ⭐️⭐️
- Abstract: 来自商汤&南洋理工大学视频超分比赛冠军算法BasicVSR++
- Paper: BasicVSR++: Improving Video Super-Resolution with Enhanced Propagation and Alignment
- Code: https://github.com/ckkelvinchan/RealBasicVSR
- Tips: 加强版的BasicVSR++在传播和对齐方面进行了重新改造,采用了二阶网格传播(second-order grid propagation) 和光流引导可变形对齐 (flow-guided deformable alignment)的设计来改善网络中的信息聚合能力,提升遮挡区域的鲁棒性和有效性。
-
CVPR 2022 | 即插即用!助力自监督涨点的ContrastiveCrop开源了! ⭐️⭐️
- Abstract: 即插即用!助力自监督涨点的ContrastiveCrop开源了!
- Paper: Crafting Better Contrastive Views for Siamese Representation Learning
- Code: https://github.com/xyupeng/ContrastiveCrop
- Tips: ContrastiveCrop旨在确保大部分正样本对语义一致的前提下,加大样本之间的差异性,从而通过最小化对比损失学习到更泛化的特征。ContrastiveCrop完全即插即用,且理论上适用于任何孪生网络架构。
-
女娲算法,杀疯了! ⭐️⭐️
- Abstract: 多模态算法NÜWA(女娲)
- Paper: NÜWA: Visual Synthesis Pre-training for Neural visUal World creAtion
- Code: https://github.com/microsoft/NUWA
- Tips: NÜWA模型的整体架构包含一个支持多种条件的 adaptive 编码器和一个预训练的解码器,能够同时使图像和视频的信息。对于图像补全、视频预测、图像处理和视频处理任务,将输入的部分图像或视频直接送入解码器即可。
-
ICRA 2022 | 基于多模态变分自编码器的任意时刻三维物体重建 ⭐️⭐️
- Abstract: 基于多模态变分自编码器的任意时刻三维物体重建
- Paper: Anytime3D Object Reconstruction Using Multi-Modal Variational Autoencoder
- Tips: 为了实现类别级的插补和完整的三维形状重建,研究人员利用了潜在空间的多模态先验分布思想。与普通VAE不同,该方法中的每个模态都是在训练时自动确定的,并且包含特定类别的信息。利用这种先验分布,研究人员仅利用潜在空间中的传输元素来确定潜在变量的模式。通过从所选模型中输入采样变量,研究人员可以稳健地实现潜在向量检索和三维形状重建。
-
基于大尺寸图像的小目标检测竞赛经验总结 ⭐️⭐️
- Abstract: 基于大尺寸图像的小目标检测竞赛经验总结
- Tips: 本文为作者参加目标检测比赛总结的数据分析,比赛思路、模型、Tricks以及分享的一些相关资料。附有详细的模型总结以及anchor的设置总结图。