CVPR 2021 大会将于6月19日至 25日线上举行。为促进同行之间的交流与合作,智源社区近期举办了系列CVPR 2021预讲报告,其中实验室系列将汇聚国内顶尖高校和企业实验室的研究人员为大家分享其最新研究成果。
在本届CVPR会议中,旷视研究院共有22篇文章入选,研究领域涵盖激活函数、神经网络、神经网络架构搜索、光流估计、无监督学习、人体姿态估计、目标检测等。智源社区特此邀请旷视研究院分享当中6篇工作的具体细节(包括两篇oral paper)。
活动主题:CVPR预讲 · 旷视专场
活动时间:
上半场:2021年3月30日(周二)晚7点;
下半场:2021年3月31日(周三)晚7点
形式:线上直播(Zoom + 智源社区Hub + 智源社区B站)
活动议程:
报告内容详细介绍
上半场-3月30日晚7点
开场嘉宾:刘帅成 旷视成都研究院负责人
介绍主题:手机超画质算法的研究与应用
报告主题 :降噪子空间学习与投影
讲者:程深 旷视成都研究院研究员
论文标题:NBNet: Noise Basis Learning for Image Denoising with Subspace Projection
报告简介:NBNet 是一种解决图像降噪问题的框架。我们以一种新颖的观点来解决这个问题:图像自适应的投影。具体来说,我们学习一组特征空间上的子空间,图像降噪可以通过选择合适的信号子空间并往该子空间上投影来完成。相比于以往一卷到底的网络结构,NBNet通过投影,能自然且更高效地提取和利用图像中的结构信息,特别是弱纹理区域,以此来帮助我们复原图像。通过这样简单的方式,NBNet以更少的计算量在DND和SIDD两个benchmark上拿到了SOTA。
论文链接:arxiv.org/abs/2012.15028
报告主题:FFB6D: RGBD表征学习新框架及其6D位姿估计应用
讲者:何益升 香港科技大学博士
论文标题:FFB6D: A Full Flow Bidirectional Fusion Network for 6D Pose Estimation(Oral论文)
报告简介:RGB图像中的外观信息和点云中的几何信息是两种互补的数据源,然而如何充分利用这两种信息源进行表征学习用于下游预测任务还是一个不显然的问题。在此报告中,我们先介绍RGBD表征学习其中一个下游预测任务——物品6D位姿估计,回顾已有的RGBD表征学习方式,然后介绍我们CVPR2021 oral的工作——FFB6D,一种全流双向稠密融合的RGBD表征学习网络框架及其在6D位姿估计问题上的应用。具体而言,我们提出一种点到像素及像素到点的双向稠密融合模块并将其应用到CNN和点云网络的每个编码解码层,这种机制让两个网络在两种数据源上提取的局部和全局特征得以共享从而获得更丰富的表征,从而使下游预测任务获得显著的提升。
论文链接:arxiv.org/abs/2103.02242
开源代码:github.com/ethnhe/FFB6D
报告主题:RepVGG: Making VGG-style ConvNets Great Again
讲者:丁霄汉 清华大学博士
报告简介:提出一种“复兴”VGG的单路极简卷积网络架构,只包含3x3卷积和ReLU,不包含分支结构。在ImageNet上达到SOTA的速度和性能,超过80%正确率。这一架构是通过一种“结构重参数化”实现的,这一方法的核心是通过参数之间的等价转换实现网络结构的等价转换。
论文链接:arxiv.org/abs/2101.03697
下半场-3月31日晚7点
开场嘉宾:王剑锋 旷视研究院研究员
介绍主题:从工业视角探索目标检测
报告主题:重新思考自底向上人体姿态估计中的热力图回归
讲者:罗正雄 中科院自动化所智能感知与计算中心博士
论文标题:Rethinking the Heatmap Regression for Bottom-up Human Pose Estimation
报告简介:目前人体姿态估计算法都是使用的热力图回归来得到最后的关节点。这些方法通常使用固定标准差的二维高斯核覆盖所有骨架关键点来构造真实热力图,并使用真实热力图来监督模型。由于不同人的关节点的真实热力图都是使用同一高斯核来构造,所以这一方法没有考虑不同人的尺度区别,会造成标签的歧义性,影响模型效果。本论文提出了一种尺度自适应热力图回归,可以根据人体大小自适应生成构造标签所需的标准差,从而使得模型对不同尺度的人体更加鲁棒;并提出权重自适应回归平衡正负样本,进一步挖掘尺度自适应热力图回归效果。本论文最终在自底向上人体姿态估计中取得了目前最先进性能。
论文链接:arxiv.org/abs/2012.15175
报告主题:General Instance Distillation for Object Detection
讲者:姜泽仁 北京航空航天大学
报告简介:GID提出了一种基于检测任务的新型蒸馏方法。通过从teacher和studnet中分别提取general instance (GI),并提出GISM模块自适应选择差异大的instance进行feature-based、relation-based以及response-based蒸馏。本方法首次将关系型知识蒸馏应用于检测框架,且将蒸馏目标从独立考虑的正负样本蒸馏统一为更本质GI蒸馏,过程中不依赖于GT,且达到SOTA。
论文链接:arxiv.org/abs/2103.02340
报告主题:Fully Convolutional Networks for Panoptic Segmentation
讲者:李彦玮 香港中文大学博士
报告简介:近年来,视觉场景分割从实例和语义层级拓展到更加综合的全景分割。相对于独立的实例和语义分割任务来说,全景分割的主要难点在于物体和环境的个体差异及语义一致性难以在网络中同时满足。因此,如何使用全卷积形式统一表达和准确预测物体和周边环境困扰着我们。本次报告主要分为三个部分,即全景分割任务的发展和难点、基于全卷积的全景分割网络、以及目前存在的问题和下一步的探究方向。
论文链接:arxiv.org/pdf/2012.00720.pdf
观看方式:
智源社区Hub直播:
上半场报名及直播
下半场报名及直播
(社区报名,可收到短信定时提醒)
Zoom 观看:https://zoom.com.cn/j/6011507040(无密码)
B站直播:https://live.bilibili.com/21484823
欢迎加入智源CVPR兴趣组
(加入CVPR兴趣组,共同讨论最新进展)
CVPR 研究组成员招募
智源社区作为一个以构建高度合作为目的的人工智能社区,为了推动人工智能领域,特别是计算机视觉领域研究者和从业者之间的交流和合作,我们将组织「CVPR 兴趣研究组」(以下简称“CVPR研究组”),以在线合作的方式来推动CVPR的交流工作。
CVPR研究组将以在读硕博为主要群体,围绕「CVPR」会议做(但不限于)以下工作,包括撰写论文解读文章、邀请并主持CVPR论文报告、专题讨论及领域进展分析等,以期促进大家的研究工作,并激发研究灵感,做出创新研究。
本研究组采用申请入组机制:
详情可点击「阅读原文」查看
报名请扫描二维码
(申请加入「CVPR 研究组」)