五月第二周,推荐本周新出的 20 篇 CV 论文,其中 1 篇最新综述,含虚拟现实、自动驾驶、行人检测与计数、人脸检测与恢复等方向,部分有对应代码也把地址列出了,希望对大家有帮助。
虚拟现实数据集
[1].OpenEDS2020: Open Eyes Dataset
Facebook的OpenEDS数据集发布第二版,OpenEDS2020,使用VR头盔采集,包含视线预测数据集 550400幅眼睛图像与相应的视线矢量,和眼睛分割数据集,29500幅图像其中5%含有语义分割标签。不仅数据集公布还举办了与此相关的技术挑战赛。
Facebook希望此数据集的开放促进虚拟现实领域的技术发展。
作者 | Cristina Palmero, Abhishek Sharma, Karsten Behrendt, Kapil Krishnakumar, Oleg V. Komogortsev, Sachin S. Talathi
单位 | Facebook
论文 | https://arxiv.org/abs/2005.03876
数据集 | http://research.fb.com/programs/openeds-2020-challenge/
(因ZZ原因,China 被禁止参加这个比赛。。。)
图像检索
CVPR 2020 Workshop
[2].Structured Query-Based Image Retrieval Using Scene Graphs
该文使用场景图嵌入进行结构化查询的图像检索,在COCO-stuff数据集上即使是出现中低频的目标也可以得到很高的召回率。
作者 | Brigit Schroeder, Subarna Tripathi
单位 | 英特尔实验室;加州大学
论文 | https://arxiv.org/abs/2005.06653
代码 | 尚未开源。
图像去噪
[3].NTIRE 2020 Challenge on Real Image Denoising: Dataset, Methods and Results
CVPR 2020 NTIRE 2020 真实图像去噪挑战赛数据集、模型介绍和比赛结果。
论文 | https://arxiv.org/abs/2005.04117
目标跟踪
[4].Robust Visual Object Tracking with Two-Stream Residual Convolutional Networks
该文指出目前的目标跟踪多仅使用了物体表观信息,该文提出一种双流残差网络同时建模物体表观和运动信息(即光流),进行目标跟踪,在VOT2018、VOT2019和 GOT-10K数据集上,该方法大大好于之前的算法,且速度可达38.1fps。
作者 | Ning Zhang, Jingen Liu, Ke Wang, Dan Zeng, Tao Mei
单位 | 京东,咪咕,上海大学
论文 | https://arxiv.org/abs/2005.06536
代码 | 尚未开源
人脸相关
#口罩人脸检测#
[5].RetinaMask: A Face Mask detector
香港城市大学的学者提出一种口罩人脸检测器,达到SOTA的检测结果,既高精度又高效。
作者 | Mingjie Jiang, Xinqi Fan
单位 | 香港城市大学
论文 | https://arxiv.org/abs/2005.03950
代码 | 未开源
#假脸检测#
[6].Fake Face Detection via Adaptive Residuals Extraction Network
对软件生成的假人脸的检测,该文提出了一种自适应残差提取网络的前处理方法,用于抑制图像正常内容、放大编辑瑕疵,实验结果显示该方法打败了之前的SOTA方法。
作者 | Zhiqing Guo, Gaobo Yang, Jiyou Chen, Xingming Sun
单位 | 湖南大学,南京信息工程大学
论文 | https://arxiv.org/abs/2005.04945
#人脸修复#
[7].HiFaceGAN: Face Renovation via Collaborative Suppression and Replenishment
传统的人脸修复往往假设退化先验或者显式的使用引导标签训练,但真实世界的图像退化往往是多种退化结合的、异质的。该文提出一种更加实用的双盲方法,称之为Face Renovation(人脸翻新),使用在语义引导的生成网络中考虑协同、抑制和补给机制设计了HiFaceGAN。
在真实和合成数据集上均表现出能够应对复杂退化、效果稳固和泛化能力强。
作者 | Lingbo Yang, Chang Liu, Pan Wang, Shanshe Wang, Peiran Ren, Siwei Ma, Wen Gao
单位 | 北大、阿里达摩院、中科院
论文 | https://arxiv.org/abs/2005.05005
自动驾驶、数据生成
#自动驾驶数据生成#
[8].SurfelGAN: Synthesizing Realistic Sensor Data for Autonomous Driving
CVPR 2020 谷歌论文,以往自动驾驶的数据使用渲染引擎生成,不够真实。谷歌提出新方法SurfelGAN,只需要有限的激光雷达和摄像头数据,使用纹理映射曲面有效构建场景。在Waymo Open Dataset 上验证了这种方法对仿真数据可以合成真实感强的摄像头数据。
作者 | Zhenpei Yang, Yuning Chai, Dragomir Anguelov, Yin Zhou, Pei Sun, Dumitru Erhan, Sean Rafferty, Henrik Kretzschmar
单位 | Waymo;谷歌大脑
论文 | https://arxiv.org/abs/2005.03844
OCR
[9].A Gaussian Process Upsampling Model for Improvements in Optical Character Recognition
高斯过程上采样,改进低分辨率文档图像的OCR,实验效果显著。
作者 | Steven I Reeves, Dongwook Lee, Anurag Singh, Kunal Verma
单位 | 企业服务人工智能公司;加州大学
论文 | https://arxiv.org/abs/2005.03780
[10].Large Scale Font Independent Urdu Text Recognition System
大规模乌尔都语标注文本与识别系统
近年来OCR取得了巨大进步,但使用人数较少的语言并未得到学术界的足够关注。乌尔都语是巴基斯坦的国语,该文作者建立了一个大规模乌尔都语标注数据集,并开发了识别系统,获得了平均84.2%的识别精度。
作者 | Atique Ur Rehman, Sibt Ul Hussain
论文 | https://arxiv.org/abs/2005.06752
数据集 | https://github.com/AtiqueUrRehman/qaida
自动驾驶、行人分析
CVPR2020
[11].STINet: Spatio-Temporal-Interactive Network for Pedestrian Detection and Trajectory Prediction
Waymo研究人员提出一种新的时空交互网络用语行人检测与行人轨迹预测,用于自动驾驶环境的环境理解,在Waymo Open Dataset 数据集鸟瞰图上这两项任务君建立了新的SOTA。
作者 | Zhishuai Zhang, Jiyang Gao, Junhua Mao, Yukai Liu, Dragomir Anguelov, Congcong Li
单位 | Waymo LLC;约翰斯·霍普金斯大学
论文 | https://arxiv.org/abs/2005.04255
车辆重识别
[12].Vehicle Re-Identification Based on Complementary Features
CVPR 2020 AI City Challenge 2020 挑战赛车辆重识别(Vehicle ReID)赛道第五名比赛方案。该方案融合了多个不同网络结构模型的特征,每个模型又使用了诸如多损失函数、滤波器嫁接、半监督学习技术等,代码已开源!
作者 | Cunyuan Gao, Yi Hu, Yi Zhang, Rui Yao, Yong Zhou, Jiaqi Zhao
单位 | 中国矿业大学
论文 | https://arxiv.org/abs/2005.04463
代码 | https://github.com/gggcy/AIC2020_ReID
6D姿态估计
[13].Neural Object Learning for 6D Pose Estimation Using a Few Cluttered Images
6D姿态估计最新论文
作者 | Kiru Park, Timothy Patten, Markus Vincze
单位 | 维也纳技术大学
论文 | https://arxiv.org/abs/2005.03717
人群计数
#拥挤人群计数#
[14].Adaptive Mixture Regression Network with Local Counting Map for Crowd Counting
作者发明了新的训练目标Local Counting Map和新的网络架构Adaptive Mixture Regression Network,实现更加精确的人群计数。代码开源。
作者 | Xiyang Liu, Jie Yang, Tieqiang Wang, Wenrui Ding
单位 | 北航、顺丰、中科院自动化所
论文 | https://arxiv.org/abs/2005.05776v1
代码 | https://github.com/xiyang1012/Local-Crowd-Counting
#高效人群计数#
[15].Efficient Crowd Counting via Structured Knowledge Transfer
现有的人群计数模型, 大多都采用重型网络(如VGG), 计算量大速度慢, 部署应用范围受限。
为此,我们提出了一个简单而有效的模型压缩框架, 把现有人群计数模型的结构化知识充分地迁移至轻量化模型。生成的轻量化模型, 参数量和计算量只有原来的6%,在GPU上至少有6.5× 倍的加速, 效果跟原模型差不多、甚至更好,可以真正地运用到实际场景。
作者 | Lingbo Liu, Jiaqi Chen, Hefeng Wu, Tianshui Chen, Guanbin Li, Liang Lin
单位 | 中山大学;DarkMatter AI Research
论文 | https://arxiv.org/abs/2003.10120
代码 | 代码、模型即将开源, 欢迎关注。
点云处理与识别
#点云分类与分割#
[16].Dense-Resolution Network for Point Cloud Classification and Segmentation
密集分辨率网络用于点云分类与分割
作者 | Shi Qiu, Saeed Anwar, Nick Barnes
单位 | 澳大利亚国立大学、Data61
论文 | https://arxiv.org/abs/2005.06734
代码 | https://github.com/ShiQiu0419/DRNet
网络剪枝
[17].PENNI: Pruned Kernel Sharing for Efficient CNN Inference
该文提出一种在卷积层中实现核共享的模型压缩框架,有效实现网络剪枝。实验证明其可以在ResNet18 CIFAR10上剪掉97%的参数和92%的FLOPs而没有精度损失,减少了44%的内存使用和53%的推断延迟。
作者 | Shiyu Li, Edward Hanson, Hai Li, Yiran Chen
单位 | 杜克大学
论文 | https://arxiv.org/abs/2005.07133
代码 | 还未发现有开源
局部特征提取
[18].HDD-Net: Hybrid Detector Descriptor with Mutual Interactive Learning
该文提出一种在训练阶段考虑检测算法与描述算法交互的局部特征提取网络,在图像匹配(HPatches)和3D重建(ETH SfM benchmark)任务中得到了更好的性能。超越传统的SIFT和基于深度学习的SuperPoint(CVPR2018)。
作者 | Axel Barroso-Laguna, Yannick Verdie, Benjamin Busam, Krystian Mikolajczyk
单位 | 帝国理工、华为 、慕尼黑理工
论文 | https://arxiv.org/abs/2005.05777
光场
[19].Generative Models for Generic Light Field Reconstruction
用于光场重建的生成模型
作者 | Paramanand Chandramouli, Kanchana Vaishnavi Gandikota, Andreas Goerlitz, Andreas Kolb, Michael Moeller
单位 | 德国锡根大学
论文 | https://arxiv.org/abs/2005.06508
最新综述
#Deepfakes制作和检测#
[20].The Creation and Detection of Deepfakes: A Survey
包含内容:如何制作和检测deepfakes,这个领域当前的趋势和风险,当前防御策略的短板,该领域还有哪些值得研究和注意。
作者 | Yisroel Mirsky, Wenke Lee
单位 | 佐治亚理工学院
论文 | https://arxiv.org/abs/2004.11138v2
在我爱计算机视觉公众号对话框回复“CVPapers”即可获取以上所有论文下载地址。
推荐阅读:
CV Papers|计算机视觉论文推荐周报20200501期
END
备注如:目标检测
CV细分交流群
专业包括目标检测、目标跟踪、图像增强、强化学习、模型压缩、视频理解、人脸技术、三维视觉、SLAM、GAN、GNN等,
若已为CV君其他账号好友请直接私信。
我爱计算机视觉
微信号:aicvml
QQ群:805388940
微博知乎:@我爱计算机视觉
网站:www.52cv.net
在看,让更多人看到