五月第四周,盘点本周新开源或即将开源的CV代码,涵盖方向广泛,不仅涉及到技术创新,还涉及多种CV应用。
其中Facebook新目标检测框架DETR是本周最热的论文,开辟了目标检测新方向!
鲁汶大学等提出的无监督学习方法,精度已经接近全监督方法,注定要影响深远!
最近新出了好几篇密集目标检测的文章,微软也新提出并开源了HNMS模型,看起来很棒!
哈佛医学院等使用眼动数据推断人搜寻目标的技术则让人不寒而栗!
一定要看到最后,篇篇都精彩。
场景文本识别
#CVPR 2020#
[1].SEED: Semantics Enhanced Encoder-Decoder Framework for Scene Text Recognition
SEED:场景文本识别的语义增强型编码器-解码器框架
作者 | Zhi Qiao, Yu Zhou, Dongbao Yang, Yucan Zhou, Weiping Wang
单位 | 中国科学院大学;中国科学院
论文 | https://arxiv.org/abs/2005.10977
代码 | https://github.com/Pay20Y/SEED(404)
音频识别动作
#CVPR 2020#
[2].Listen to Look: Action Recognition by Previewing Audio
作者 | Ruohan Gao,Tae-Hyun Oh, Kristen Grauman,Lorenzo Torresani 单位 | 得克萨斯大学奥斯汀分校;FAIR
代码 | https://github.com/facebookresearch/
Listen-to-Look
网站 | http://vision.cs.utexas.edu/projects/
listen_to_look/
3D人体形态估计
[3].PIFuHD: Multi-Level Pixel-Aligned Implicit Function for High-Resolution 3D Human Digitization
PIFuHD:用于高分辨率3D人体数字化的多层次像素对齐隐含功能
通过充分利用1k分辨率的输入图像,在单幅图像的人体形状重建上,明显优于现有的最先进的技术。
作者 | Shunsuke Saito,Tomas Simon,Jason Saragih,Hanbyul Joo 单位 | 南加州大学;FAIR
论文 | https://arxiv.org/pdf/2004.00452.pdf
代码 | https://github.com/shunsukesaito/PIFuHD
网站 | https://shunsukesaito.github.io/PIFuHD/
GAN
#CVPR 2020#
[4].Learning to Simulate Dynamic Environments with GameGAN
学习使用GameGAN模拟动态环境
NVIDIA发明了一种新的GAN生成模型:GameGAN,只需要给其观看游戏画面和相应的键盘动作,就能学会生成能玩、能交互的游戏。
而且GameGAN还能分离游戏中的静态背景和动态组件,方便对游戏元素进行替换,生成新的、不存在游戏。
也许将来有一天,下载一个游戏不再几十、上百G的资源,而仅需要一个GameGAN就够了!
NVIDIA:无论你们玩游戏引擎支持的游戏还是GAN生成的游戏,反正都要用我的显卡!
作者 | Seung Wook Kim, Yuhao Zhou, Jonah Philion, Antonio Torralba, Sanja Fidler
单位 | NVIDIA,多伦多大学,Vector Institute,MIT(都是AI重量级单位)
论文 | https://arxiv.org/abs/2005.12126
代码 | https://nv-tlabs.github.io/gameGAN/
视频 | https://www.youtube.com/watch?v=4OzJUNsPx60
网站 | https://nv-tlabs.github.io/gameGAN/
[5].Network Bending: Manipulating The Inner Representations of Deep Generative Models
Network Bending:操纵深层生成模型的内在表征
引入了一个新的框架,用于与深度生成模型交互和操作,称之为Network Bending。在FFHQ数据集上训练的官方预训练的StyleGAN2模型上演示了这些转换。
作者 | Terence Broad, Frederic Fol Leymarie, Mick Grierson
单位 | 伦敦艺术大学;伦敦大学
论文 | https://arxiv.org/abs/2005.12420
代码 | https://github.com/terrybroad/network-bending
目标检测
#CVPR 2020##人员检测#
[6].RAPiD: Rotation-Aware People Detection in Overhead Fisheye Images
RAPiD:高空鱼眼图像中的旋转感知人员检测
波士顿大学提出一种在鱼眼图像中进行人员检测的新方法RAPiD,并开源了代码
RAPiD源代码可用于非商业用途。
作者 | Zhihao Duan, M. Ozan Tezcan, Hayato Nakamura, Prakash Ishwar, Janusz Konrad
单位 | 波士顿大学
论文 | https://arxiv.org/abs/2005.11623
代码 | http://vip.bu.edu/projects/vsns/
cossy/fisheye/rapid/
https://github.com/duanzhiihao/RAPiD
数据集 | http://vip.bu.edu/projects/vsns/cossy/datasets/cepdof/
#ECCV 2020投稿论文# 本周影响最大的CV论文!
[7].End-to-End Object Detection with Transformers
基于Transformers的端到端目标检测
该文提出了一种新的方法,将目标检测看作是一个直接的集预测问题,简化了检测流水线,有效地消除了许多手工设计的组件,如非极大抑制(NMS)过程或anchor的生成,显式编码了对任务的先验知识。
作者 | Nicolas Carion, Francisco Massa, Gabriel Synnaeve, Nicolas Usunier, Alexander Kirillov, Sergey Zagoruyko
单位 | Facebook AI
论文 | https://arxiv.org/abs/2005.12872
代码 | https://github.com/facebookresearch/detr
模型的跨界:我拿Transformer去做目标检测,结果发现效果不错
#YOLO##实例分割##实时检测#
[8].Poly-YOLO: higher speed, more precise detection and instance segmentation for YOLOv3
Poly-YOLO:为YOLOv3提供更高的速度、更精确的检测和实例分割
YOLOv3升级版!
1)减少了参数,提供了精度。与YOLOv3相比,训练参数只有其60%,但mAP却提高了40%!还提出更轻量的Poly-YOLO Lite
2)扩展到实例分割任务上。
作者 | Petr Hurtik, Vojtech Molek, Jan Hula, Marek Vajgl, Pavel Vlasanek, Tomas Nejezchleba
单位 | 奥斯特拉发大学;
论文 | https://arxiv.org/abs/2005.13243
代码 | https://gitlab.com/irafm-ai/poly-yolo
[9].Hashing-based Non-Maximum Suppression for Crowded Object Detection
基于哈希的非极大值抑制拥挤目标检测法
在本文中,提出了一种算法,命名为基于哈希的非最大值抑制(HNMS),以有效地抑制目标检测中的非最大值方块。在CARPK、SKU-110K、CrowdHuman数据集上进行了大量实验,证明了HNMS的效率和效果。
微软出品,必属精品!
作者 | Jianfeng Wang, Xi Yin, Lijuan Wang, Lei Zhang
单位 | 微软
论文 | https://arxiv.org/abs/2005.11426
代码 | https://github.com/microsoft/hnms
#水下目标检测#
[10].Underwater object detection using Invert Multi-Class Adaboost with deep learning
通过设计新算法解决小目标检测和减少噪声的影响,在两个水下机器人拾取竞赛数据集URPC2017和URPC2018进行的实验表明,与几种最先进的目标检测方法相比,提出的SWIPENet+IMA框架在检测精度上取得了较好的性能。
作者 | Long Chen, Zhihua Liu, Lei Tong, Zheheng Jiang, Shengke Wang, Junyu Dong, Huiyu Zhou
论文 | https://arxiv.org/abs/2005.11552
代码 | https://github.com/LongChenCV/SWIPENet
NAS
[11].Noisy Differentiable Architecture Search
NoisyDARTS:含注入噪声的可微分神经网络搜索
本文为基于 FairDARTS 的后续工作。FairDARTS 中提出可微分神经网络搜索( DARTS) 性能崩塌的两个不可或缺的要素:竞争环境和不公平优势。FairDARTS 采取了打破竞争环境的方式,使各操作之间相互协作。本文从不公平优势入手,将跳接操作(skip connection)的输出特征注入噪声进行扰动。
小米在NAS领域不断有新工作,赞????
作者 | Xiangxiang Chu, Bo Zhang, Xudong Li
单位 | 小米; 中国科学院大学
论文 | http://arxiv.org/abs/2005.03566
代码 | https://github.com/xiaomi-automl/NoisyDARTS (即将发布)
人类意图预测
#CVPRW 2020##零样本学习# #视觉搜索#
[12].What am I Searching for: Zero-shot Target Identity Inference in Visual Search
我在找什么?视觉搜索中的零样本目标身份推理
来自哈佛的学者通过解码一个人的眼动行为来破译一个人在寻找什么,给定受试者一幅目标图像,在多个不同的图像中让受试者去找这幅图片,记录眼动数据。尽管受试者在实验中没看到目标图像,但系统自动推断出他要找什么!
这是一个有意思而又有点可怕的实验!在计算机面前以后是不是我们的心思也无处隐藏?
作者 | Mengmi Zhang, Gabriel Kreiman
单位 | 哈佛医学院;Minds and Machines
论文 | https://arxiv.org/abs/2005.12741
代码 | https://github.com/kreimanlab/HumanIntentionInferenceZeroShot(尚未)
视频 | https://www.youtube.com/watch?v=rcWgWTwWDm0&feature=youtu.be
图像分类
#无监督学习#
[13].Learning To Classify Images Without Labels
学习无标签图像分类
该文方法的分类准确率以巨大的幅度超过了最先进的方法,特别是在CIFAR10上的分类准确率为+26.9%,在CIFAR100-20上为+21.5%,在STL10上为+11.7%。
此外,在ImageNet上的结果显示,这是第一个在200个随机选取的类上有很好的扩展性的方法,获得了69.3%的TOP-1和85.5%的TOP-5准确率,与全监督方法相差不到7.5%!!
无监督学习领域最近的重量级工作!代码即将公布。
作者 | Wouter Van Gansbeke, Simon Vandenhende, Stamatios Georgoulis, Marc Proesmans, Luc Van Gool
单位 | 鲁汶大学;苏黎世联邦理工学院
论文 | https://arxiv.org/abs/2005.12320
代码 | https://github.com/wvangansbeke/
Unsupervised-Classification(即将)
目标跟踪
#CVPR 2020 (oral)##3D目标跟踪##点云#
[14].P2B: Point-to-Box Network for 3D Object Tracking in Point Clouds
点云3D目标跟踪的Point-to-Box网络(P2B),1080TI上40FPS
为了实现点云中的3D目标跟踪,提出了一种新型的Point-to-Box网络,称为P2B,以端到端学习的方式来实现。主要想法是首先在三维搜索区域内嵌入目标信息,将潜在的目标中心定位在三维搜索区域内。然后,点驱动的三维目标候选框和验证共同执行。通过这种方式,可以避免耗时的三维详尽搜索。
应用PointNet++作为骨干,在KITTI跟踪数据集上的实验证明了P2B的优越性(比最先进的改进约10%)。值得注意的是,P2B可以在单个NVIDIA 1080Ti GPU上以40FPS运行。
作者 | Haozhe Qi, Chen Feng, Zhiguo Cao, Feng Zhao, Yang Xiao
单位 | 华中科技大学
论文 | https://arxiv.org/abs/2005.13888
代码 | https://github.com/HaozheQi/P2B
四维可视化
#CVPR 2020#
[15].4D Visualization of Dynamic Events from Unconstrained Multi-View Videos
无约束多视角视频动态事件的四维可视化
提出了一种数据驱动的4D时空可视化方法,用于从手持式多摄像头拍摄的视频。该方法的关键是使用特定场景的自监督神经网络来构成事件的静态和动态描述。
作者 | Aayush Bansal, Minh Vo, Yaser Sheikh, Deva Ramanan, Srinivasa Narasimhan
单位 | 卡内基梅隆大学
论文 | https://arxiv.org/abs/2005.13532
代码 | https://github.com/aayushbansal/Open4D
网站 | http://www.cs.cmu.edu/~aayushb/Open4D/
3D神经网络
[16].SurfaceNet+: An End-to-end 3D Neural Network for Very Sparse Multi-view Stereopsis
SurfaceNet+:一种用于非常稀疏的多视角立体视觉的端到端3D神经网络
实验证明了SurfaceNet+比最先进的方法在精度和召回好不少。在两个数据集的极端稀疏-MVS设置下,现有的方法只能返回极少的点,SurfaceNet+在密集的MVS设置下,仍然可以很好地工作。
作者 | Mengqi Ji, Jinzhi Zhang, Qionghai Dai, Lu Fang
单位 | 清华大学
论文 | https://arxiv.org/abs/2005.12690
代码 | https://github.com/mjiUST/SurfaceNet-plus
在我爱计算机视觉公众号对话框回复“CVCode”即可获取以上所有论文下载地址。(网盘位置:Code周报--20200504期)
感谢这些开源技术的开发者,喜欢这样的分享请文末点个“在看”!
往期"精彩阅读"
CV Code|计算机视觉开源周报20200501期
CV Code|计算机视觉开源周报20200502期
CV Code|计算机视觉开源周报20200503期
END
备注如:目标检测
CV细分方向交流群
2D、3D目标检测、图像分割、检索、NAS等最新资讯,
若已为CV君其他账号好友请直接私信。
我爱计算机视觉
微信号:aicvml
QQ群:805388940
微博知乎:@我爱计算机视觉
网站:www.52cv.net
在看,让更多人看到