在2月24日,CVPR 2020 公布接收论文结果公布,从 6656 篇有效投稿中录取了 1470 篇论文,录取率约为 22%。3月13日,CVPR Oral结果公布了。有大佬已经分享了自己的工作,本文整理了已中Oral的论文,持续更新,分享给大家阅读。
论文地址:PolarMask: Single Shot Instance Segmentation with Polar Representation
代码:https://github.com/xieenze/PolarMask
来自作者本人的详细解读:
Johnny ez:(CVPR20’Oral) PolarMask: 一阶段实例分割新思路
PolarMask基于FCOS,把实例分割统一到了FCN的框架下。FCOS本质上是一种FCN的dense prediction的检测框架,可以在性能上不输anchor based的目标检测方法,让行业看到了anchor free方法的潜力。本工作最大的贡献在于:把更复杂的实例分割问题,转化成在网络设计和计算量复杂度上和物体检测一样复杂的任务,把对实例分割的建模变得简单和高效。
两种实例分割的建模方式:
实验结果:
论文链接:Unbiased Scene Graph Generation from Biased Training
论文代码:https://github.com/KaihuaTang/Scene-Graph-Benchmark.pytorch
来自作者本人的详细解读:
CVPR2020 | 最新最完善的场景图生成 (SGG)开源框架,集成目前最全metrics,已开源
本文提出了一种基于因果推理的新颖SGG框架。选择2019年热门框架facebookresearch/maskrcnn-benchmark作为基础,在其基础上搭建了Scene-Graph-Benchmark.pytorch。该代码不仅兼容了maskrcnn-benchmark所支持的所有detector模型,且得益于facebookresearch优秀的代码功底,更大大增加了SGG部分的可读性和可操作性。
Recall:
论文地址:Learning to Shade Hand-drawn Sketches
代码:https://github.com/qyzdao/ShadeSketch
本文提供了一种全自动方法,可以从成对的线描草图和照明方向生成详细而准确的艺术阴影。还提供了一个新的数据集,其中包含了用照明方向标记的成对的线描和阴影的一千个示例。值得一提的是,生成的阴影可以快速传达草绘场景的基础3D结构。因此,本文的方法产生的阴影是可以直接使用的。本文生成的阴影尊重手绘线和基础3D空间,并包含复杂且准确的细节,例如自阴影效果。此外,生成的阴影还包含艺术效果,例如边缘照明或背光产生的光晕,这也是传统3D渲染方法可以实现的。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-4iA4D6CK-1584415938966)(http://bbs.cvmart.net/uploads/images/202003/17/11/QzX3cfsHq9.gif?imageView2/2/w/1240/h/0)]
生成的阴影手绘草图
论文地址:http://s.anhnguyen.me/sam_cvpr2020.pdf
代码:https://github.com/anguyen8/sam
本文中对现有归因方法的敏感性进行了透彻的实证研究,发现了一个趋势:许多方法对它们共同的超参数的变化高度敏感,例如即使更改随机种子也会产生不同的解释!有趣的是,这种敏感性没有反映在文献中通常报道的数据集的average explanation accuracy scores 中。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-j3pmCOII-1584415938967)(http://bbs.cvmart.net/uploads/images/202003/17/11/PtG0BOSsE9.png?imageView2/2/w/1240/h/0)]
论文地址:High Frequency Component Helps Explain the Generalization of Convolutional Neural Networks
本文研究了图像数据的频谱与卷积神经网络(CNN)的泛化之间的关系。我们首先注意到CNN捕获图像高频分量的能力。这些高频分量几乎是人类无法察觉的。因此,观察结果导致了与CNN泛化相关的多种假设,包括对对抗性示例的潜在解释,对CNN鲁棒性和准确性之间的权衡的讨论,以及在理解训练启发式方法方面的一些证据。
论文地址:Reinforced Feature Points: Optimizing Feature Detection and Description for a High-Level Task
本文解决了计算机视觉的核心问题之一:用于图像匹配的2D特征点的检测和描述。长期以来,像SIFT这样的算法在准确性和效率上都是无与伦比的。近年来,出现了使用神经网络来实现检测和描述学习型特征检测器,但用于训练这些网络low-level matching scores的改进并不一定会在高级视觉任务中有着更好的性能。本文提出了一种新的训练方法,该方法将特征检测器嵌入完整的视觉管道中,并以端到端的方式训练可学习的参数。并利用这一方法解决了一对图像之间的姿态估计任务。该训练方法几乎没有学习任务的限制,并且适用于预测key point heat maps以及descriptors for key point locations。
论文地址:AdderNet: Do We Really Need Multiplications in Deep Learning?
代码:https://github.com/huawei-noah/AdderNet
没有乘法的神经网络,你敢想象吗?去年年底,来自北京大学、华为诺亚方舟实验室、鹏城实验室的研究人员将这一想法付诸实践,他们提出了一种只用加法的神经网络AdderNet(加法器网络)。一作是华为诺亚方舟实习生,正在北大读博三。
在加法器网络的新定义下,AdderNet的特征可视化以及特征向量的空间分布也和CNN有很大的不同。
在CIFAR-10的图像分类任务中,AdderNet相比当初Bengio等人提出的加法神经网络BNN性能有大幅提升,并且已经接近了传统CNN的结果。在ImageNet的图像分类任务中,AdderNets可以达到74.9%的top-1正确率和91.7%的top-5正确率,与CNN接近。
论文地址:http://www.weixiushen.com/publication/cvpr20_BBN.pdf
代码:Megvii-Nanjing/BBN
旷视 魏秀参 团队的paper,主要关注视觉识别任务中普遍存在的长尾问题。
详细的可以看作者本人的解读: https://www.zhihu.com/question/379109637/answer/1080076071
论文地址:Cascade Cost Volume for High-Resolution Multi-View Stereo and Stereo Matching
代码:alibaba/cascade-stereo
主要解决问题:目前基于Deep learning的方法构建的3D Cost Volume需要3D卷积来做cost aggregation消耗显存非常大,为了节省内存一般最终输出的depth/disparity map限制为输入的1/4。
详细的可以看作者本人的解读: https://www.zhihu.com/question/379109637/answer/1083127862
论文地址:RandLA-Net: Efficient Semantic Segmentation of Large-Scale Point Clouds
代码:QingyongHu/RandLA-Net
提出了一种针对大规模三维点云场景的轻量级、高效点云语义分割算法RandLA-Net。通过对现有的采样策略进行全面综合的分析,我们采用简单高效的随机采样来显著地减少计算量以及内存消耗,并且引入了局部特征聚合模块持续地增大每个点有效的感受野,保留大多数有效的信息。在Semantic3D,S3DIS以及SemanticKITTI等多个数据集上都取得了不错的效果,而且相比于现有的处理大规模点云的算法SPG在速度上有近200倍的提升。
详细的可以看作者本人的解读:
Qingyong Hu:[CVPR 2020 Oral] RandLA-Net:大场景三维点云语义分割新框架(已开源)