CV_Daily Issue 21

CV_Daily Issue 21

author: xyang
  • [2019 ICCV oral Crowd Counting ]Learning Spatial Awareness to Improve Crowd Counting
    作者: Zhi-Qi Cheng, Jun-Xiu Li, Qi Dai, Xiao Wu, Alexander Hauptmann
    论文地址: https://arxiv.org/abs/1909.07057

人群计数的目的是通过利用行人头部中心位置的注释来估计图像中的人数。随着深度卷积神经网络的普及,已经取得了有希望的进展。现有方法广泛采用欧几里德距离(即L2损失)来优化模型,然而,这有两个主要缺点:(1)由于挣扎,损失难以学习空间意识(即头部的位置)保持密度图中的高频变化,以及(2)损失对人群计数中的各种噪声高度敏感,例如零均值噪声,头部尺寸变化和遮挡。虽然先前提出了超过子阵列(MESA)损失的最大超出量来解决上述问题,但是通过找到其预测密度图与地面实况具有最大差异的矩形子区域,它不能通过梯度下降来解决,因此难以集成进入深度学习框架。在本文中,我们提出了一种称为SPatial Awareness Network(SPANet)的新颖架构,其中包含用于人群计数的空间上下文。通过找到与地面实况具有高度差异的像素级子区域,提出了通过像素的最大超出(MEP)损失来实现这一点。为此,我们设计了一种弱监督学习方案,以生成具有多分支架构的区域。拟议的框架可以整合到现有的深度人群计数方法中,并且是端到端的可训练的。对四个具有挑战性的基准测试的广泛实验表明,我们的方法可以显着提高基线的性能。更值得注意的是,我们的方法在所有基准数据集上都优于最先进的方法。

  • [2019 ICCV oral + NAS ]Understanding the Effects of Pre-Training for Object Detectors via Eigenspectrum
    作者: Yosuke Shinya, Edgar Simo-Serra, Taiji Suzuki
    论文地址: https://arxiv.org/abs/1909.04021

ImageNet预训练被认为是长时间训练精确物体探测器的必要条件。
最近,已经表明,从随机初始化的权重训练的物体检测器可以与从ImageNet预训练模型中微调的物体检测器相提并论。
但是,预训练的效果和训练前的差异仍然没有完全理解。
在本文中,我们分析了物体探测器中每个特征图的协方差矩阵的特征谱动力学。
基于我们对ResNet-50,带有FPN的快速R-CNN和Mask R-CNN的分析,我们表明,使用ImageNet预训练模型训练的物体探测器和从头开始训练的物体探测器的行为彼此不同,即使两个物体探测器都有
类似的准确性
此外,我们提出了一种基于特征谱自动确定物体检测器的宽度(通道数)的方法。
我们使用FPN从随机初始化的权重训练更快的R-CNN,并且表明我们的方法可以减少ResNet-50的约27%的参数而不增加乘法累加运算并且失去准确性。
我们的结果表明,我们应该开发更合适的方法,将知识从图像分类转移到对象检测(或其他任务)。
CV_Daily Issue 21_第1张图片

  • [2019 ICCV oral] Visual Semantic Reasoning for Image-Text Matching

图像文本匹配一直是弥合视觉和语言领域的热门研究课题。
它仍然具有挑战性,因为图像的当前表示通常缺乏全局语义概念,如在其相应的文本标题中。
为了解决这个问题,我们提出了一个简单且可解释的推理模型来生成可视化表示,捕获场景的关键对象和语义概念。
具体来说,我们首先在图像区域之间建立连接,并使用图形卷积网络执行推理,以生成具有语义关系的特征。
然后,我们建议使用门和记忆机制对这些关系增强特征进行全局语义推理,选择判别信息并逐步生成整个场景的表示。
实验验证了我们的方法为MS-COCO和Flickr30K数据集上的图像文本匹配实现了新的最新技术。
它在图像检索方面优于当前最佳方法6.8%,在MS-COCO上相对于字幕检索相对4.8%(使用1K测试集回忆@ 1)。
在Flickr30K上,我们的模型将图像检索相对提高了12.6%,字幕检索相对提高了5.8%(Recall @ 1)

你可能感兴趣的:(3.,深度学习)