公众号内容拓展学习笔记(2022.5.19)

公众号内容拓展学习笔记(2022.5.19)


今日要点

  1. CVPR 2022 | 在星空下起舞,伯克利联合Intel Labs提出极弱光环境下的视频降噪方案 ⭐️⭐️

    • Abstract: 伯克利联合Intel Labs提出极弱光环境下的视频降噪方案
    • Paper: Dancing under the stars: video denoising in starlight
    • Code: https://github.com/monakhova/starlight_denoising
    • Tips: 本文针对极弱光环境下的图像和视频降噪问题发起了挑战,通过结合相机硬件本身涵盖的物理参数和基于深度学习的图像噪声建模手段提出了一种物理启发的噪声生成器,并根据该生成器构建了一系列具有特殊用途的数据集,有力的推动了后续视频降噪网络的训练。
  2. CVPR 2022 Oral | 回归标签不平衡? 试试Balanced MSE ⭐️⭐️

    • Abstract: 回归标签不平衡? 试试Balanced MSE
    • Paper: Balanced MSE for Imbalanced Visual Regression
    • Code: https://github.com/jiawei-ren/BalancedMSE
    • Tips: 为了填补不平衡回归方法的空白,作者提出了Balanced MSE损失函数,从统计的视角解决标签的不平衡。
  3. CVPR2022《BridgeFormer》港大&腾讯&伯克利提出带有多项选择任务的视频文本检索模型,性能SOTA! ⭐️⭐️

    • Abstract: 港大&腾讯&伯克利提出带有多项选择任务的视频文本检索模型,性能SOTA!
    • Paper: Bridging Video-text Retrieval with Multiple Choice Questions
    • Code: https://github.com/TencentARC/MCQ
    • Tips: 作者为视频文本预训练引入了一种新的借口任务——多项选择题(MCQ),它加强了局部视频和文本特征之间的细粒度语义关联,同时保持了较高的检索效率。参数化模块BridgeFormer经过训练,能够通过借助视频特征来回答由文本特征构建的问题,并且可以很容易地在下游任务中移除。
  4. 全新数据增强方式KeepAugment,简单高效提升模型精度! ⭐️⭐️

    • Abstract: 全新数据增强方式KeepAugment,简单高效提升模型精度!
    • Paper: KeepAugment: A Simple Information-Preserving Data Augmentation Approach
    • Tips: 本文提出了一种简单有效的增强方式,KeepAugment,控制数据增强的保真度,从而减少干扰因素的错误信息。在图像分类、半监督图像分类、多视点多摄像机跟踪和目标检测等方面,都取得了不错的效果。
  5. 视频P图新SOTA:推理速度快近15倍,任意分辨率均可上演人像消失大法,来自南开大学|CVPR 2022 ⭐️⭐️

    • Abstract: 视频P图新SOTA:推理速度快近15倍,任意分辨率均可上演人像消失大法
    • Paper: Towards An End-to-End Framework for Flow-Guided Video Inpainting
    • Code: https://github.com/MCG-NKU/E2FGVI
    • Tips: 研究人员设计了三个可训练模块,分别为流完成 (flow completion)、特征传播 (feature propagation)和内容幻想(content hallucination),提出了一个流引导(flow-guided)的端到端视频修复框架:E2FGVI
  6. CVPR 2022 Oral | 南洋理工大学S-Lab等提出基于GPT的3D舞蹈生成框架Bailando ⭐️⭐️

    • Abstract: 南洋理工大学S-Lab等提出基于GPT的3D舞蹈生成框架Bailando
    • Paper: Bailando: 3D Dance Generation by Actor-Critic GPT with Choreographic Memory
    • Code: https://github.com/lisiyao21/Bailando
    • Tips: “两阶段”的编舞框架Bailando:在第一阶段,我们利用量化自编码器(VQ-VAE)将符合空间标准的舞姿编码和量化到一个名为“舞蹈记忆”的编码本中;在第二阶段,我们利用生成预训练Transformer(GPT)将音乐转换为视觉上令人满意的舞蹈。

Others

  • 由于图片权限问题,GitHub是完整版,可以点点 star
  • 星标的数量是与个人相关程度,不代表文章内容的好坏
  • 关注我的个人网站
  • 关注我的CSDN博客
  • 关注我的哔哩哔哩
  • 关注我的公众号CV伴读社

你可能感兴趣的:(公众号学习日记,学习,深度学习,计算机视觉)