大淘宝技术CVPR 2022 论文解读合集(含直播预告)

作为计算机视觉领域的三大顶级会议之一,CVPR是每年学术界的重要事件之一。CVPR全称为The Conference on Computer Vision and Pattern Recognition,即计算机视觉与模式识别会议,是由IEEE主办的国际最高级别的学术会议。该会议每年在世界范围内召开一次,讨论内容涵盖了与图像或视频模式提取或识别相关的广泛主题,常见主题包括对象识别、目标检测、图像分割、图像恢复和图像增强等。今年的CVPR会议接收了来自世界各地总计8,161份的有效论文投稿,经过会议主席和众多审稿人的努力,共计2,067份论文投稿被会议接收,总接收率约为25.33%。

阿里巴巴大淘宝技术有多篇论文被国际顶级会议CVPR 2022接收,全部代码及模型均已开源。我们分享其中六篇论文的解读,链接如下——

  1. 大淘宝技术斩获NTIRE视频增强和超分比赛冠军(内含夺冠方案)

    视频恢复是一个具有广泛应用场景的问题,循环神经网络(Recurrent Neural Network, RNN)和全自注意力网络(Transformer)具有很好的序列建模特性,近年来在视频恢复领域受到广泛关注。然而两者的训练开销巨大,训练过程中容易出现梯度消失和梯度爆炸问题,导致模型难以收敛。针对这些问题,我们提出一个包含多帧RNN和单帧Transformer的两阶段网络,同时使用迁移学习和预训练来缩短训练时间,利用渐进式训练方法进一步提升模型性能。

  2. CVPR2022 | 开源:基于间距自适应查找表的实时图像增强方法

    本文首次提出了通过深度学习对输入图像自适应地学习具有非均匀布局的三维颜色查找表,从而对输入图像进行高效色彩增强的创新性技术,并在学术界公开仿真数据集上取得了最优客观指标(PSNR)的同时做到了当前运行速度最快。文中提到的色彩增强技术具有效果优、速度快的特点,可做到对4K视频的实现高效处理并提升其色彩饱和度对比度,故而适用于实时流媒体场景,可用较普惠化的方式帮助改善直播间的画质呈现。

  3. CVPR 2022 | GEN-VLKT:基于预训练知识迁移的HOI检测方法

    人物交互关系检测存在两个核心问题:人-物关联和关系理解。我们分别在这两个核心问题上设计方案。本文在业界首次将大规模预训练模型的海量数据中蕴含的丰富信息知识迁移到HOI检测任务,单模型刷新了通用(Regular)和零样本(Zero-Shot)双任务的SOTA指标。

  4. CVPR 2022 | 逆渲染中的⾼效间接光照建模

    我们提出了在逆渲染过程中对间接光照进⾏建模的有效办法。我们的核⼼思路是间接光照不需要和BRDF参数以及环境光联合优化,⽽是从场景的出射辐射场得到,⽽出射辐射场可以从多视⻆图像中使⽤现成的神经场景表示⽅法重建。这样在优化其他未知数时,可以直接查询间接光照,使得逆渲染问题更容易求解。

  5. CVPR 2022 | 神经辐射场几何编辑方法NeRF-Editing

    基于二维图像监督的网格优化往往易于陷入局部最优,并且在优化过程中无法改变网格的拓扑结构。神经辐射场 (NeRF)是目前解决这一问题的有力工具,但作为一种隐式建模方法,神经辐射场网络很难让用户交互式地编辑或修改场景对象。因此,基于神经辐射场等隐式表示的新视角合成能力,进一步研究如何编辑隐式表征已成为一个新的探索方向。针对这些问题,来自中科院计算所和阿里巴巴大淘宝技术部的研究人员提出了一种允许用户自由编辑神经辐射场几何内容的方法。

  6. CVPR 2022 | 鲁棒的神经辐射场重建

    在新视角合成领域,神经辐射场(NeRF)已经成为重要的方法之一。我们提出了一种鲁棒的神经辐射场表征方案,解决了新视角与训练视角差距较大时效果较差的问题。目前,此技术已被应用于Object Drawer项目中,用于支持淘宝商品的建模业务。

欢迎观看我们的直播,获得更详细的论文解读。点击预约↓↓↓

✿  拓展阅读 

大淘宝技术CVPR 2022 论文解读合集(含直播预告)_第1张图片

大淘宝技术CVPR 2022 论文解读合集(含直播预告)_第2张图片

作者|大淘宝技术

编辑|橙子君

大淘宝技术CVPR 2022 论文解读合集(含直播预告)_第3张图片

你可能感兴趣的:(人工智能,深度学习,机器学习,计算机视觉,python)