六月的第一周马上就要过去了,又到了我们盘点开源代码的时候。
谷歌发布的目标检测新算法DetectoRS刷新了沉寂将近一年的COCO数据集的最高精度,是这周最具影响力的工作,同时谷歌还开源了视频质量评价的基准测试数据集UGC-VQA,相信对做相关工作的朋友都会很有价值。
目标重识别领域,京东的FastReID和港中文MMlab提出的跨域ReID都很值得关注。
图像去噪
[1].CNN Denoisers As Non-Local Filters: The Neural Tangent Denoiser
CNN可用于图像的恢复,近来被发现它天然的具有对图像数据的恢复能力,比如从一幅污损的图像中让CNN网络学习去重建它,CNN首先学习重建一幅没有污损的图像。这很有意思,貌似CNN天然知道自然图像是什么样的?
该文作者研究CNN去噪与非局部滤波这种传统算法的关系,又有了一些新发现。
作者 | Julián Tachella, Junqi Tang, Mike Davies
单位 | 爱丁堡大学
论文 | https://arxiv.org/abs/2006.02379
代码 | https://gitlab.com/Tachella/neural_tangent_denoiser
医学影响处理识别
#脑外伤二维图像分割#
[2].A Comparative Study of 2D Image Segmentation Algorithms for Traumatic Brain Lesions Using CT Data from the ProTECTIII Multicenter Clinical Trial
从ProTECTIII Multicenter 临床试验的CT数据中比较研究脑外伤二维图像分割算法
图像分割可以方便实现对医学影像中感兴趣的区域的可视化和量化,因为医学图像的复杂性,其仍然是一项艰巨的任务。
脑外伤后人脑出现的病变包括:硬膜内出血(IPH)、硬膜下血肿(SDH)、硬膜外血肿(EDH)和创伤性挫伤等,本文旨在使用图像分割的方法进行病情的评估。
实验表明在这个问题上 UNet++ 2D + Focal Tversky 损失函数比 UNet 2D + Binary Cross-Entropy 取得了更高的精度。
作者 | Shruti Jadon, Owen P. Leary, Ian Pan, Tyler J. Harder, David W. Wright, Lisa H. Merck, Derek L. Merck
单位 | 布朗大学沃伦阿尔伯特医学院;埃默里大学医学院;佛罗里达大学医学院;布朗大学
论文 | https://arxiv.org/abs/2006.01263
代码 | https://github.com/shruti-jadon/Traumatic-Brain-Lesions-Segmentation
#弱监督病变定位#
[3].Weakly Supervised Lesion Localization With Probabilistic-CAM Pooling
作者 | Wenwu Ye, Jin Yao, Hui Xue, Yi Li
单位 | JF Healthcare(九峰医疗);Greybird Ventures LLC
论文 | https://arxiv.org/abs/2005.14480
代码 | https://github.com/jfhealthcare/Chexpert
机器人
#人机交互#
[4].Object-Independent Human-to-Robot Handovers using Real Time Robotic Vision
使用实时机器人视觉进行人与机器人之间的物体独立交接
该文研究的问题是通过视觉引导,让机器人从人手中抓取物体。代码已开源。
为达到此目的,作者设计了一个通用目标检测器,一个快速的抓取算法,还有具有RGB-D相机的抓取器,不依赖其他外部传感器。机器人通过视觉信号向感兴趣的物体移动,为了实现安全性,感知模块还具有人体部位分割和手/手指分割模块,保证机器人不碰到人类。
抓取选择和感知模块实时同步运行,可以监控进度。
在对13个物体的实验中,机器人能够在81.9%的实验中成功地从人类手中获取物体。
作者 | Patrick Rosenberger, Akansel Cosgun, Rhys Newbury, Jun Kwan, Valerio Ortenzi, Peter Corke, Manfred Grafinger
单位 | 维也纳技术大学;蒙纳士大学;伯明翰大学;昆士兰科技大学;澳大利亚机器人视觉中心
论文 | https://arxiv.org/abs/2006.01797
代码 | https://github.com/patrosAT/h2r_handovers
网站 | https://patrosat.github.io/h2r_handovers/
视频 | https://www.youtube.com/watch?v=SkTx4GLpw9E
图像超分辨率
#CVPR2020#
[5].Image Super-Resolution with Cross-Scale Non-Local Attention and Exhaustive Self-Exemplars Mining
跨尺度非局部注意力模型与穷举自样本挖掘的图像超分辨率
在单幅图像超分辨率领域,使用大量的外部图像数据训练的模型可以学到有用的局部恢复信息,但近来探索图像内部的相似性,也开始引起研究人员的兴趣,比如使用non-local 注意力模型利用低分辨率图像long-range相似性构建的超分辨率算法提高了超分辨率的效果。
但在自然图像中,跨尺度的图像相似性是普遍的,本文使用跨尺度的Non-Local注意力模型,有效挖掘图像内部先验知识,在多个实验中证明所提出的方法在多个SISR基准测试中取得了最先进的性能。
作者 | Yiqun Mei, Yuchen Fan, Yuqian Zhou, Lichao Huang, Thomas S. Huang, Humphrey Shi
单位 | IFP Group, UIUC;地平线机器人;俄勒冈大学
论文 | https://arxiv.org/abs/2006.01424
代码 | https://github.com/SHI-Labs/Cross-Scale-Non-Local-Attention
视频质量评估
[6].UGC-VQA: Benchmarking Blind Video Quality Assessment for User Generated Content
针对用户生成内容的盲视频质量评估
谷歌在视频质量评价领域贡献的大型数据集。
随着视频拍摄设备的普及,用户上传内容在视频网站上也越来越多,业界迫切需要有计算量低准确率高的视频质量评价方法。
谷歌在常用的763个视频统计特征中使用特征选择策略挑选出60个,创建了一种基于融合的BVQA模型(VIDEVAL),有效平衡了性能和效率的权衡。
实验结果显示该方法在相比其他SOTA方法,精度更高、速度更快。谷歌同时也为UGC-VQA问题定义了一个基准测试数据集,有助于该领域算法的评估和发展。
VIDEVAL的代码已开源。
作者 | Zhengzhong Tu, Yilin Wang, Neil Birkbeck, Balu Adsumilli, Alan C. Bovik
单位 | 得克萨斯大学奥斯汀分校;YouTube媒体算法团队,谷歌公司
论文 | https://arxiv.org/abs/2005.14354
代码 | https://github.com/tu184044109/VIDEVAL_release
药丸识别
#CVPR 2020 VL3#
[7].ePillID Dataset: A Low-Shot Fine-Grained Benchmark for Pill Identification
ePillID Dataset:用于药丸识别的少样本细粒度基准
凭借外观识别药丸种类,该文提出了一个大型数据集,由13k张图像组成,代表8184个外观类(4092种药丸的两面)。对于大多数的外观类,只有一个参考图像,这使得它是一个具有挑战性的少样本识别问题。
本文同时介绍了在此实验设置和基准上各种基线模型的评估结果,并且发现现有方法不足以解决此问题。
作者 | Naoto Usuyama, Natalia Larios Delgado, Amanda K. Hall, Jessica Lundin
单位 | 微软医疗
论文 | https://arxiv.org/abs/2005.14288
数据及代码 | https://github.com/usuyama/ePillID-benchmark
目标检测
[8].DetectoRS: Detecting Objects with Recursive Feature Pyramid and Switchable Atrous Convolution
谷歌目标检测的新工作。再一次在主干网上做文章,其在COCO数据集上的单尺度测试精度已经达到53.3mAP(53.3真是一个神奇的数字!),而多尺度测试中 DetectoRS (ResNeXt-101-32x4d, multi-scale) 达到目前所有文献报告的最高精度:54.7mAP!代码已开源。
不仅如此,在COCO数据集上的实例分割和全景分割任务中,DetectoRS 也一举登顶,成为目前目标检测、语义分割、全景分割领域的全能王者!
作者 | Siyuan Qiao, Liang-Chieh Chen, Alan Yuille
单位 | 约翰斯霍普金斯;谷歌
论文 | https://arxiv.org/abs/2006.02334
代码 | https://github.com/joe-siyuan-qiao/DetectoRS
COCO 54.7mAP!DetectoRS目标检测:改进主干网,成就新高度!
GAN
#人脸技术##人像美化#
[9].GAN-Based Facial Attractiveness Enhancement
基于GAN的增强人脸吸引力
本文提出一个基于生成对抗网络(GAN)的框架,在保留脸部特征及高保真的情况下,增强人脸吸引力的技术。
方法流程:以一张人像图像作为输入,应用梯度下降法恢复一个隐藏向量,该生成框架可以利用该隐藏向量合成一个与输入图像相似的图像,基于InterFaceGAN的美颜语义编辑处理,使该框架能够实现人脸图像的美化。
注:InterFaceGAN 是用于人脸语义编辑的GAN框架。
https://github.com/genforce/interfacegan
实验证明,该框架获得了最先进的美化图像结果。
作者 | Yuhongze Zhou, Qinjie Xiao
单位 | 浙大
论文 | https://arxiv.org/abs/2006.02766v1
代码 | https://github.com/zoezhou1999/BeautifyBasedOnGAN
ReID
[10].FastReID: A Pytorch Toolbox for Real-world Person Re-identification
FastReID:一个用于真实人员重识别的Pytorch工具箱
FastReID是京东AI研究院开发的旨在促进ReID研究和开发的开源库。其遵循高度模块化和可扩展的设计,可让相关研究者更容易验证新思路。同时易于管理的系统配置和工程部署功能,也使得它方便的进行产品化。
目前该库已经实现了很多最先进的算法,包括人员重识别(person re-id)、局部重识别(partial re-id)、跨域重识别(cross-domain re-id)和车辆重识别(vehicle re-id),并计划发布在多个基准数据集上的预训练模型。
官方称FastReID是迄今为止最完整的高性能ReID工具箱,支持单台和多台GPU服务器,可以非常容易复现结果。
作者 | Lingxiao He, Xingyu Liao, Wu Liu, Xinchen Liu, Peng Cheng, Tao Mei
单位 | 京东AI研究院
论文 | https://arxiv.org/abs/2006.02631v1
代码 | https://github.com/JDAI-CV/fast-reid
更多详情:
京东发布FastReID:目前最强悍的目标重识别开源库!
#跨域目标重识别#
[11].Self-paced Contrastive Learning with Hybrid Memory for Domain Adaptive Object Re-ID
我们的方法优于最先进的目标重识别的多域适应任务,甚至在没有额外标注的情况下,在源域的性能上也有所提升。
在Market-1501 and DukeMTMC-reID 基准上,我们的无监督人员重识别通用版本以16.2%和14.6%的成绩超过了最先进的算法。
作者 | Yixiao Ge, Dapeng Chen, Feng Zhu, Rui Zhao, Hongsheng Li
单位 | 香港中文大学MMLAB
论文 | https://arxiv.org/abs/2006.02713
代码 | https://github.com/yxgeee/SpCL
图像分割
#CVPR 2020#
[12].Super-BPD: Super Boundary-to-Pixel Direction for Fast Image Segmentation
快速图像分割的super-BPD方法
提出的super-BPD 与 之前方法MCG相比,精度相当或者更优,而却可以达到 25fps,MCG仅 0.07fps。速度更快且有更好的迁移性,可应用于未见的场景。
作者 | Jianqiang Wan, Yang Liu, Donglai Wei, Xiang Bai, Yongchao Xu
单位 | 华中科技大学;哈佛大学
论文 | https://arxiv.org/abs/2006.00303
代码 | https://github.com/JianqiangWan/Super-BPD
在我爱计算机视觉公众号对话框回复“CVCode”即可获取以上所有论文下载地址。(网盘位置:Code周报--20200601期)
往期"精彩阅读"
CV Code|计算机视觉开源周报20200501期
CV Code|计算机视觉开源周报20200502期
CV Code|计算机视觉开源周报20200503期
CV Code|计算机视觉开源周报20200504期
END
备注如:目标检测
细分方向交流群
2D、3D目标检测、图像分割、检索、NAS等最新资讯,若已为CV君其他账号好友请直接私信。
我爱计算机视觉
微信号:aicvml
QQ群:805388940
微博知乎:@我爱计算机视觉
网站:www.52cv.net
在看,让更多人看到