今日CS.CV 计算机视觉论文速览
Fri, 26 Apr 2019
Totally 44 papers
?上期速览✈更多精彩请移步主页
?RepPoints and RPDet, 提出了基于代表性点的目标检测方法代替bbox。Rep-Points将检测一系列点来代表目标的特性和语义区域。这种基于丰富表示点的方法不需要锚点来得到初始bbox。达到了65。0的AP50(from 北大 清华 微软亚研)
基于表示点的一些检测结果:
?HAR-Net, 单阶段混合注意力联合学习的目标检测模型 ,将注意力机制充分引入单阶段目标检测中。包括空间注意力、通道注意力和对齐注意力等.其中固定对称比例的堆叠膨胀卷积层用于学习空间注意力、交叉层级的组归一化和序列激活模块用于学习通道注意力、对齐注意力主要由变形滤波器组成,三种机制协同形成了混合注意力知己,并将其嵌入到Retina-Net中,得到高效的混合注意力retina网络,用于单层级的目标检测。实现了45.8%的mAP。(from 清华)
对称堆叠膨胀卷积用于空间注意力,避免了上下采样造成的错误对齐:
金字塔共享的通道结构,包含了L2组归一化和序列激活:
对齐注意力模块:
HAR的基本架构,混合了三种注意力机制:
与现有方法的对比:
?Deep SR-ITM, 联合图像超分辨和色调映射技术将低分辨标准动态范围的图像映射到高分辨高动态范围的图像。 (from )
UHD的映射和映射模型:
模型结构如下图所示,包含了残差块、残差调制modulation块(用于建模更多复杂映射),残差跳接块和残差调制跳接块。输入图像首先利用了引导滤波处理,并与原图相处放入精细分支。
简化版网络和一些色调映射比较:
?Corner-based Building Height Estimation,CBHE, 用于从海量二维数据中估计建筑高度。基于建筑物的角点和屋脊线,并利用BuildingNet对角点和屋脊线分类,最后通过针孔模型计算出建筑物的高度。(from 墨尔本大学)
?动态非刚体场景的深度预测, 通过计算视差图来作为训练的监督,并提出了一种损失函数来学习位置内参和基线时预测深度图。(from CMU)
数据集:Web Stereo Video Dataset (WSVD)
?预测移动镜头下移动个体场景的深度图, 利用大量的网络视频:主体不动但背景多样化、手持镜头拍摄、自然的体态。因为人在静止、可以利用多视角来重建出深度数据作为标签。而预测时则利用运动视差来引导深度预测。(from Google Research)
一些预测结果:
dataset:Mannequin Challenge
?基于U-Net的超声图像分割, (from Concordia University)
?室内微型无人机深度图构建, 基于vSLAM估计好的稀疏点云,并基于深度突变的位置进行分割,并引入了基于片层的局域拟合方法,结合光度连续性和共面性来实现,并利用了面扫描技术来增强。 (from TCS Research & Innovation)
?引导视频分割, 利用前景分割算法作为引导,并与光流、和彩色图的特征进行融合,随后解码后得到分割结果。(from 都柏林城市大学)
相关前景提取算法:
dataset:https://davischallenge.org/davis2016/soa_compare.html
稠密视频目标分割方法VOS:https://davischallenge.org/index.html
GCNet: Non-local Networks Meet Squeeze-Excitation Networks and Beyond Authors Yue Cao, Jiarui Xu, Stephen Lin, Fangyun Wei, Han Hu 非本地网络NLNet通过将查询特定的全局上下文聚合到每个查询位置,提供了捕获远程依赖关系的开创性方法。然而,通过严格的实证分析,我们发现由非本地网络建模的全局上下文对于图像内的不同查询位置几乎相同。在本文中,我们利用这一发现创建了一个基于独立于查询的公式的简化网络,该网络可以保持NLNet的准确性,但计算量却大大减少。我们进一步观察到这种简化设计与Squeeze Excitation Network SENet具有相似的结构。因此,我们将它们统一为全局上下文建模的三步一般框架。在一般框架内,我们设计了一个更好的实例化,称为全局上下文GC块,它是轻量级的,可以有效地模拟全局上下文。轻量级属性允许我们将其应用于骨干网络中的多个层以构建全局上下文网络GCNet,其通常在各种识别任务的主要基准上优于简化的NLNet和SENet。代码和配置发布于 |
Local Relation Networks for Image Recognition Authors Han Hu, Zheng Zhang, Zhenda Xie, Stephen Lin 卷积层多年来一直是计算机视觉中的主要特征提取器。然而,卷积中的空间聚合基本上是模式匹配过程,其应用固定滤波器,其在建模具有变化空间分布的视觉元素时效率低。本文提出了一种新的图像特征提取器,称为局部关系层,它根据局部像素对的组成关系自适应地确定聚合权重。通过这种关系方法,它可以以更有效的方式将视觉元素组合成更高级别的实体,从而有利于语义推理。使用本地关系层构建的网络(称为本地关系网络LR Net)可以提供比在ImageNet分类等大规模识别任务中使用常规卷积构建的对应网络更大的建模能力。 |
RepPoints: Point Set Representation for Object Detection Authors Ze Yang, Shaohui Liu, Han Hu, Liwei Wang, Stephen Lin 现代物体探测器严重依赖于矩形边界框,例如锚点,建议和最终预测,以在各种识别阶段表示物体。边界框使用方便,但仅提供对象的粗略定位,并导致对象特征的相应粗略提取。在本文中,我们提出textbf RepPoints代表点,一个新的更精细的对象表示作为一组有用于本地化和识别的样本点。给定训练的基础事实本地化和识别目标,RepPoints学习自动以限制对象的空间范围的方式自我排列并指示语义上重要的局部区域。此外,它们不需要使用锚来对边界框的空间进行采样。我们表明,基于RepPoints的无锚对象检测器,无需多规模训练和测试即可实现,与COCO测试开发检测基准上的42.8 AP和65.0 AP 50一样有效。 |
Spatial-Temporal Relation Networks for Multi-Object Tracking Authors Jiarui Xu, Yue Cao, Zheng Zhang, Han Hu 多目标跟踪MOT的最新进展表明,强大的相似性得分是跟踪器成功的关键。预期良好的相似性分数将反映多个线索,例如外观,位置和拓扑结构,在很长一段时间内。然而,这些提示是异构的,使得它们难以在统一网络中组合。结果,现有方法通常将它们编码在单独的网络中或者需要复杂的训练方法。在本文中,我们提出了一个统一的相似性测量框架,它可以同时编码各种线索并在空间和时域上进行推理。我们还深入研究了跟踪对象对的特征表示,显示了对特征的正确设计可以很好地为跟踪器提供支持。得到的方法被称为空间时间关系网络STRN。它以前馈方式运行,并可以端到端的方式进行培训。使用公共检测和在线设置在所有MOT15 17基准测试中实现了最先进的精确度。 |
Blurring the Line Between Structure and Learning to Optimize and Adapt Receptive Fields Authors Evan Shelhamer, Dequan Wang, Trevor Darrell 视觉世界是巨大而多样的,但其变化分为结构化和非结构化因素。我们编写自由形式滤波器和结构化高斯滤波器,优化端到端,对深层表示进行分解,并学习局部特征及其局部性。我们的半结构化组合比自由形式过滤更具表现力,其结构化参数的变化需要改变自由形式的体系结构。实际上,这优化了接收场大小和形状,调整数据和任务的位置。动态推断,其中高斯结构随输入而变化,调整感知场大小以补偿局部尺度变化。优化感受野大小可以将Cityscapes的语义分割准确度提高1 2个点,用于强扩张和跳过架构,最多10个点用于次优设计。通过动态高斯结构调整感受野进一步改善了结果,在提高效率的同时等于自由形变的精度。 |
Making Convolutional Networks Shift-Invariant Again Authors Richard Zhang 现代卷积网络不是移位不变的,因为小的输入移位或平移会导致输出的急剧变化。常用的下采样方法,如最大池,跨步卷积和平均池,忽略采样定理。众所周知的信号处理修复是在下采样之前通过低通滤波进行抗混叠。但是,简单地将此模块插入深层网络会导致性能下降,因此今天很少使用它。我们表明,正确集成后,它与现有的体系结构组件兼容,例如max pooling。该技术是通用的,可以跨层类型和应用程序合并,例如图像分类和条件图像生成。除了增加的移位不变性之外,我们还令人惊讶地观察到,抗混叠在几种常用架构中提高了ImageNet分类的准确性。这表明抗混叠用作有效的正则化。我们的结果表明,这种经典的信号处理技术在现代深度网络中一直被忽视。流行网络的代码和反别名版本将在网址上提供 |
Sensor Fusion for Joint 3D Object Detection and Semantic Segmentation Authors Gregory P. Meyer, Jake Charland, Darshan Hegde, Ankit Laddha, Carlos Vallespi Gonzalez 在本文中,我们介绍了LaserNet的扩展,这是一种高效且先进的基于LiDAR的3D物体探测器。我们提出了一种将图像数据与LiDAR数据融合的方法,并表明该传感器融合方法尤其在远距离时提高了模型的检测性能。添加图像数据非常简单,不需要图像标签。此外,除了3D对象检测之外,我们还扩展了模型的功能以执行3D语义分割。在大型基准数据集上,我们证明了我们的方法在对象检测和语义分割方面实现了最先进的性能,同时保持了低运行时间。 |
Holistic Large Scale Video Understanding Authors Ali Diba, Mohsen Fayyaz, Vivek Sharma, Manohar Paluri, Jurgen Gall, Rainer Stiefelhagen, Luc Van Gool 近年来,通过具有丰富注释的基准,行动认可得到了提高。然而,研究仍然主要限于人类行为或运动识别,侧重于高度特定的视频理解任务,因此在描述视频的整体内容方面留下了显着的差距。我们通过展示大型Holistic Video Understanding Dataset HVU来填补这一空白。 HVU在语义分类中被分层组织,其关注于多标签和多任务视频理解,作为包含动态场景中的多个语义方面的识别的综合问题。 HVU包含约。共有577k个视频,13M注释用于培训和验证,涵盖4378个课程。 HVU包含在场景,对象,动作,事件,属性和概念的类别上定义的语义方面,其自然地捕获现实世界场景。 |
DynamoNet: Dynamic Action and Motion Network Authors Ali Diba, Vivek Sharma, Luc Van Gool, Rainer Stiefelhagen 在本文中,我们感兴趣的是使用动态运动滤波器自动监督学习视频中的运动提示,以获得更好的运动表示,特别是最终促进人类动作识别。到目前为止,视觉社区一直专注于使用标准滤波器的时空方法,而我们在此提出动态滤波器,通过预测短期未来帧来自适应地学习视频特定内部运动表示。我们将这种新的运动表示命名为动态运动表示DMR,并作为新层嵌入3D卷积网络内部,通过端到端网络学习捕获整个视频剪辑中的视觉外观和运动动态。同时,我们利用这些运动表示来丰富视频分类。我们将帧预测任务设计为辅助任务,以增强分类问题。基于这些总体目标,为此,我们引入了一种新颖的统一时空3D CNN架构DynamoNet,通过将未来帧预测为多任务学习问题,联合优化视频分类和学习运动表示。我们在挑战人类活动数据集Kinetics 400,UCF101,HMDB51上进行实验。使用拟议的DynamoNet的实验在所有数据集上显示出有希望的结果。 |
Deep Constrained Dominant Sets for Person Re-identification Authors Leulseged Tesfaye Alemu, Mubarak Shah, Marcello Pelillo 在这项工作中,我们提出了一种端到端约束聚类方案来解决人员识别问题。深度神经网络DNN最近被证明在人员识别任务上是有效的。特别地,不是仅仅利用探针库相似性,而是以端到端方式扩散库图像之间的相似性已被证明在产生稳健的探针库亲和力方面是有效的。然而,现有方法不将探测图像应用为约束,并且在相似性扩散过程期间易于噪声传播。为了克服这个问题,我们提出了一种有趣的方案,将人物图像检索问题视为一种受约束的聚类优化问题,称为深度约束优势集DCDS。给定探测和图库图像,我们重新将人员重新定义为寻找约束聚类,其中探测图像被视为约束种子,并且每个聚类对应于对应于同一人的一组图像。通过以端到端方式优化约束聚类,我们自然地利用对应于给定人物图像的一组图像的上下文知识。我们通过在DCDS中集成辅助网络来进一步提高性能,DCDS采用多规模Resnet。为了验证我们方法的有效性,我们在几个基准数据集上进行了实验,并表明所提出的方法可以胜过最先进的方法。 |
Breast Cancer Classification with Ultrasound Images Based on SLIC Authors Zhihao Fang, Wanyi Zhang, He Ma 乳腺肿瘤的超声图像诊断近年来已被广泛使用。然而,它存在一些问题,例如质量差,噪声强烈和回声分布不均匀,这对诊断造成了巨大的障碍。为了克服这些问题,我们提出了一种新方法,即基于SLIC BCCUI的超声图像乳腺癌分类。我们首先利用基于简单线性迭代聚类SLIC算法和区域生长算法的感兴趣区域ROI提取来提取超像素级别的ROI。接下来,提取ROI的特征。此外,应用了支持向量机SVM分类器。计算表明该分段算法的精度达到88.00,算法的灵敏度达到92.05,证明了本文提出的分类器具有一定的研究意义和应用价值。 |
Unsupervised deep learning for Bayesian brain MRI segmentation Authors Adrian V. Dalca, Evan Yu, Polina Golland, Bruce Fischl, Mert R. Sabuncu, Juan Eugenio Iglesias 概率图谱先验已被普遍用于推导自适应和稳健的脑MRI分割算法。广泛使用的神经图像分析管道严重依赖于这些技术,这些技术通常在计算上很昂贵。相比之下,最近出现了一些利用深度学习来实现在测试时计算效率高的分段工具的方法。然而,这些策略中的大多数依赖于从手动注释的图像中学习。因此,这些监督的深度学习方法对训练数据集中的强度分布图敏感。为了开发用于例如具有不同对比度的新图像数据集的基于深度学习的分割模型,通常需要创建新的标记的训练数据集,其可能过于昂贵,或者依赖于次优的自组织适应或增强方法。在本文中,我们提出了一种替代策略,它将传统的基于概率图谱的分割与深度学习相结合,使人们能够训练新的MRI扫描的分割模型,而无需任何手动分割的图像。我们的实验包括数千次脑MRI扫描,并证明所提出的方法对于不同MRI对比的脑MRI分割任务实现了良好的准确性,在GPU上的测试时间仅需要大约15秒。该代码免费提供 |
JPEG XT Image Compression with Hue Compensation for Two-Layer HDR Coding Authors Hiroyuki Kobayashi, Hitoshi Kiya 我们提出了一种新颖的JPEG XT图像压缩,其具有用于两层HDR编码的色调补偿。由JPEG色调映射操作产生的由JPEG XT比特流产生的LDR图像具有一些色调失真。为了抑制颜色失真,我们应用了一种基于最大饱和色的新颖的色调补偿方法。此外,使用所提出的方法生成的比特流与JPEG XT标准完全兼容。在一个实验中,所提出的方法不仅可以产生具有小色调降级的图像,而且还可以根据CIEDE2000中的三种标准TMQI,色调值和恒定色调平面上的最大饱和色度来保持良好的映射亮度。 。 |
Multi-scale Cross-form Pyramid Network for Stereo Matching Authors Zhidong Zhu, Mingyi He, Yuchao Dai, Zhibo Rao, Bo Li 立体匹配在自动驾驶,机器人和3D场景重建中扮演着不可或缺的角色。我们提出了一种新颖的深度学习架构,称为CFP Net,一种十字形金字塔立体匹配网络,用于从整流的一对立体图像中回归差异。该网络由三个模块组成:多尺度2D局部特征提取模块,十字形空间金字塔模块和多尺度3D特征匹配和融合模块。多尺度2D局部特征提取模块可以提取足够的多尺度特征。十字形空间金字塔模块聚合不同比例和位置的上下文信息以形成成本量。此外,它被证明在病态区域比SPP和ASPP更有效。证明了多尺度三维特征匹配和融合模块使用具有两个不同感受野的两个平行3D反卷积结构来规范成本量。我们提出的方法已经在Scene Flow和KITTI数据集上进行了评估。它在KITTI 2012和2015基准测试中实现了最先进的性能。 |
Reducing Anomaly Detection in Images to Detection in Noise Authors Axel Davy, Thibaud Ehret, Jean Michel Morel, Mauricio Delbracio 异常检测器解决了在任意背景图像中自动检测异常的难题。数千人提出了检测方法,因为每个问题都需要不同的背景模型。通过分析现有方法,我们表明该问题可以减少到检测从目标图像中提取的残差图像中的异常,其中噪声和异常占优势。因此,一般和不可能的背景建模问题被更简单的噪声建模所取代,并允许基于相反检测理论计算严格的阈值。因此,我们的方法无人监督,适用于任意图像。 |
LADN: Local Adversarial Disentangling Network for Facial Makeup and De-Makeup Authors Qiao Gu, Guanzhi Wang, Mang Tik Chiu, Yu Wing Tai, Chi Keung Tang 我们建议用于面部化妆和化妆的局部对抗性解开网络LADN。我们的方法的核心是在内容样式解开网络中的多个和重叠的局部对抗性鉴别器,用于实现面部图像之间的局部细节转移,使用不对称损失函数用于具有高频细节的戏剧性化妆风格。现有技术不能证明或不能在全局对抗设置中传输高频细节,或仅训练单个局部鉴别器以确保图像结构一致性,因此仅适用于相对简单的样式。与其他人不同,我们提出的局部对抗性鉴别器可以在无监督设置中区分所生成的局部图像细节是否与给定参考图像中的对应区域一致。结合这些技术贡献,我们不仅实现了传统风格的最新结果,而且还实现了涉及复杂和戏剧风格的新颖结果,其中高频细节覆盖了多个面部特征的大面积区域。精心设计的化妆图像之前和之后的数据集将被发布。 |
On guiding video object segmentation Authors Diego Ortego, Kevin McGuinness, Juan C. SanMiguel, Eric Arazo, Jos M. Mart nez, Noel E. O Connor 本文提出了一种利用引导卷积神经网络在无约束环境中分割运动目标的新方法。该引导过程依赖于来自独立算法的前景掩模,即现有技术的算法,以实现结合前景和背景的空间位置以计算其分离的表示的注意机制。我们的方法最初使用颜色和光流信息为每个帧提取两种特征。这些特征在乘法方案之后组合以从其互补性中受益。稍后处理这些统一的颜色和运动特征以获得分离的前景和背景表示。然后,将两个独立表示连接并解码以执行前景分割。在具有挑战性的DAVIS 2016数据集上进行的实验表明,我们的引导表示不仅优于非引导表示,而且还表现出最近和表现最佳的视频对象分割算法。 |
Pointing Novel Objects in Image Captioning Authors Yehao Li, Ting Yao, Yingwei Pan, Hongyang Chao, Tao Mei 图像字幕在最近的进展中得到了显着的改进,受到了极大的关注。然而,野外图像封装了丰富的知识,并且无法用仅包含域对象的图像标题对构建的模型来充分描述。在本文中,我们建议通过使用对象学习器扩充标准深字幕体系结构来解决该问题。具体来说,我们提出了指向LSTM P的长短期记忆,这种新的体系结构有助于词汇扩展并通过指向机制产生新的对象。从技术上讲,对象学习者最初在可用的对象识别数据上进行预训练。然后,在LSTM P中指向平衡通过LSTM生成单词与在解码器阶段的每个时间步骤从识别的对象复制单词之间的概率。此外,我们的字幕鼓励全文覆盖句子中的对象。对于用于描述新物体的COCO图像字幕和ImageNet数据集都进行了广泛的实验,并且当与现有技术方法进行比较时报告了优异的结果。更值得注意的是,我们在COCO数据集中获得了平均60.9的F1得分。 |
Exploring Object Relation in Mean Teacher for Cross-Domain Detection Authors Qi Cai, Yingwei Pan, Chong Wah Ngo, Xinmei Tian, Lingyu Duan, Ting Yao 近年来,渲染合成数据(例如,3D CAD渲染图像以生成用于在视觉任务中学习深模型的注释)引起了越来越多的关注。然而,简单地应用在合成图像上学习的模型可能由于域移位而导致真实图像上的高泛化误差。为了解决这个问题,跨域识别的最新进展以Mean Teacher为特色,它直接模拟无监督域适应作为半监督学习。因此,域差距自然地与教师学生计划中的一致性正规化相联系。在这项工作中,我们推进这种平均教师范式适用于跨域检测。具体来说,我们通过将对象关系整合到教师和学生模块之间的一致性成本度量中,提出了在更快的R CNN的骨干下新颖地重塑平均教师的平均教师与对象关系MTOR。从技术上讲,MTOR首先学习关系图,分别为教师和学生捕捉区域对之间的相似性。然后优化整个体系结构,具有三个一致性规则化1区域级一致性,以对齐教师和学生之间的区域级别预测,2个图形间一致性,用于匹配教师和学生之间的图形结构,以及3个帧内图形一致性,以增强区域之间的相似性在学生的图表中同一类。对Cityscapes,Foggy Cityscapes和SIM10k的转移进行了大量实验,与现有技术方法相比,报告了优异的结果。更值得注意的是,我们在Syn2Real检测数据集上获得了单模型22.8 mAP的新记录。 |
Unsupervised label noise modeling and loss correction Authors Eric Arazo, Diego Ortego, Paul Albert, Noel E. O Connor, Kevin McGuinness 尽管对于少量标签噪声具有鲁棒性,但已经证明使用随机梯度方法训练的卷积神经网络可以容易地拟合随机标签。当存在正确和错误标记目标的混合时,网络倾向于在后者之前适合前者。这表明使用合适的双组分混合物模型作为训练期间样品损失值的无监督生成模型,以允许在线估计样品被错误标记的概率。具体来说,我们提出了一种β混合物来估计这种概率并通过依赖网络预测来纠正损失,即所谓的自举损失。我们进一步调整混合增强,以进一步推动我们的方法。在CIFAR 10 100和TinyImageNet上的实验证明了对标签噪声的鲁棒性,其基本上优于最近的现有技术水平。源代码可在以下位置获得 |
Transferrable Prototypical Networks for Unsupervised Domain Adaptation Authors Yingwei Pan, Ting Yao, Yehao Li, Yu Wang, Chong Wah Ngo, Tao Mei 在本文中,我们通过重塑原型网络引入了无监督域自适应的新思想,它通过重新创建每个类的原型的距离来学习嵌入空间并进行分类。具体而言,我们提出了可转移原型网络TPN用于适应,使得源域和目标域中的每个类的原型在嵌入空间中接近,并且原型在源和目标数据上分别预测的得分分布是相似的。从技术上讲,TPN最初将每个目标示例与源域中最近的原型匹配,并为示例分配一个伪标签。然后可以分别在源,仅目标和源目标数据上计算每个类的原型。 TPN的优化是通过联合最小化原型在三种类型的数据上的距离以及由每对原型输出的得分分布的KL分歧来端对端训练的。对MNIST,USPS和SVHN数据集的转移进行了广泛的实验,并且与现有技术方法进行比较时报告了优异的结果。更值得注意的是,我们在VisDA 2017数据集上获得了80.4单精度模型的准确度。 |
Optimal Approach for Image Recognition using Deep Convolutional Architecture Authors Parth Shah, Vishvajit Bakrola, Supriya Pati 在最近的时间里,由于其在各种机器学习算法中的表现,深度学习已经获得了巨大的普及。作为分层或结构化学习的深度学习尝试通过使用一组处理层来对数据中的高级抽象进行建模。深度学习架构的基础受到对人脑中信息处理和神经反应的理解的启发。通过堆叠多个线性或非线性操作来创建架构。本文主要关注现状深度学习模型和各种现实世界应用的具体训练方法。为特定问题选择最佳架构是一项具有挑战性的任务,在文章的最后阶段,我们提出了深度卷积架构的最佳方法,用于图像识别的应用。 |
Indoor dense depth map at drone hovering Authors Arindam Saha, Soumyadip Maity, Brojeshwar Bhowmick 自主式微型飞行器MAV近年来获得了极大的关注。室内自主飞行需要用于可导航空间检测的密集深度图,这是自主导航的基本组成部分。在本文中,我们解决了使用已经估计的摄像机和从vSLAM获得的稀疏点云在无人机在室内场景中徘徊小型摄像机运动时重建密集深度的问题。我们首先基于使用稀疏3D点的突然深度变化来分割场景,并且通过能量最小化引入基于块的局部平面拟合,其将光度一致性和共平面性与相邻块相结合。该方法还结合了用于初始化几乎没有稀疏点的图像段的平面扫描技术。实验表明,与早期小动作文献相比,该方法在人工照明条件下产生更好的室内深度,低纹理环境。 |
A Conditional Adversarial Network for Scene Flow Estimation Authors Ravi Kumar Thakur, Snehasis Mukherjee 深度视频中的场景流估计问题由于其在机器人技术的各个领域中的潜在应用而引起了机器人视觉研究者的关注。传统的场景流方法由于其长的计算开销而难以在reallife应用中使用。我们提出了一种用于场景流估计的条件对抗网络SceneFlowGAN。建议的SceneFlowGAN在发生器和描述符两端使用损失函数。所提出的网络是使用生成对抗网络估计场景流的第一次尝试,并且能够同时估计来自输入立体图像的光流和视差。所提出的方法在大型RGB D基准sceneflow数据集上进行了实验。 |
Out of the Box: A combined approach for handling occlusion in Human Pose Estimation Authors Rohit Jena 人体姿势估计是一个具有挑战性的问题,特别是在2D图像的3D姿态估计的情况下,由于诸如遮挡,深度模糊,人的交织以及一般人群等许多不同因素。在野外2D二维人体姿势估计也遭受与人体部位的遮挡,模糊和解开相同的问题。作为大量应用的基本问题,包括但不限于监视,用于视频游戏和电影的经济运动捕捉以及物理疗法,这是从实际角度和从智力角度解决的有趣问题。虽然有些情况下没有姿势估计可以预测100个精确的情况甚至人类会失败,但有几种算法在野外为人类姿势估计带来了新的最先进的性能。我们用不同的方法研究一些算法,并制定我们自己的方法来解决一致的问题,即遮挡。 |
Deep Multi-View Learning using Neuron-Wise Correlation-Maximizing Regularizers Authors Kui Jia, Jiehong Lin, Mingkui Tan, Dacheng Tao 许多机器学习问题涉及发现或关联多个视图或模态的数据中的共同模式。多视图学习是实现这些目标的方法。最近的方法通过适应通用深度神经网络DNN来提出深度多视图网络,其连接中间网络层(即融合层)处的各个视图的特征。在这项工作中,我们研究了这种端到端网络中的多视图学习问题。我们通过多视图学习标准采用正则化方法,并提出一种新颖,有效和高效的神经元智能相关,最大化正则化器。我们将我们提出的正则化器集体实现为相关正则化网络层CorrReg。 CorrReg可以应用于完全连接或卷积融合层,只需将它们替换为CorrReg对应物即可。通过将通用DNN中隐藏层的神经元划分为多个子集,我们还考虑了通用DNN的多视图特征学习视角。这样的观点使我们能够在正规网络训练的背景下研究深度多视图学习,为此我们提出了基准图像分类的对照实验,以显示我们提出的CorrReg的功效。为了研究CorrReg如何用于实际的多视图学习问题,我们进行了RGB D对象场景识别和基于多视图的3D对象识别的实验,使用具有融合层的网络,该融合层连接各个模态或视图的中间特征以用于后续分类。将CorrReg应用于这些网络的融合层始终如一地提高了分类性能。特别是,我们在基准RGB D对象和RGB D场景数据集上实现了新的技术水平。我们公开提供CorrReg的实施。 |
A Deeper Look at Facial Expression Dataset Bias Authors Shan Li, Weihong Deng 数据集在面部表情识别算法的进展中发挥着重要作用,但它们可能遭受由不同文化和收集条件引起的明显偏差。为了深入研究这种偏差,我们首先对数据集识别和交叉数据集泛化任务进行了全面的实验,并首次探索了数据集差异的内在原因。结果定量验证当前数据集具有较强的构建偏差,相应的分析表明源数据集和目标数据集之间的条件概率分布是不同的。然而,先前的研究主要基于具有有限辨别能力的浅特征,假设条件分布在域之间保持不变。为了解决这些问题,我们进一步提出了一种新的深度情感条件适应网络ECAN来学习域不变和判别特征表示,它们可以同时匹配跨域的边际和条件分布。此外,很大程度上忽略的表达类分布偏差也通过可学习的重新加权参数来解决,因此训练和测试域可以共享相似的类分布。在两个实验室的控制数据集CK广泛的跨数据库实验,贾菲MMI和奥卢自动化所和现实世界的数据库AffectNet,FER2013,RAF DB 2.0和SFEW 2.0证明了我们的ECAN可以跨越不同的面部表情传递任务产生有竞争力的性能和超越的状态theart方法。 |
HAR-Net: Joint Learning of Hybrid Attention for Single-stage Object Detection Authors Ya Li Li, Shengjin Wang 物体检测一直是计算机视觉中的一项挑战性任务。虽然在深度神经网络的物体检测方面取得了重大进展,但注意机制远未发展。在本文中,我们提出了单阶段目标检测的混合注意机制。首先,我们提出了空间注意,渠道关注和对齐注意的模块,用于单阶段对象检测。特别地,构造具有对称固定速率的堆叠扩张卷积层以学习空间注意力。通过跨层组归一化和挤压和激励模块提出了信道注意。使用有组织的可变形滤波器构建对齐注意力。其次,将三种注意力统一起来构建混合注意机制。然后,我们将混合注意力嵌入到Retina Net中,并提出用于物体检测的高效单级HAR Net。在COCO检测数据集上评估关注模块和所提出的HAR Net。实验证明,混合注意可以显着提高检测精度,并且HAR Net可以达到45.8 mAP的现有技术水平,优于现有的单级物体检测器。 |
Learning Discriminative Features Via Weights-biased Softmax Loss Authors XiaoBin Li, WeiQiang Wang 损失函数在训练优质深度神经网络中起着关键作用。在卷积神经网络CNN中,流行的交叉熵损失与softmax一起并未明确地保证类内方差的最小化或类间方差的最大化。在早期研究中,没有理论分析和实验明确指出如何选择完全连接层中的单元数。为了帮助CNN学习更快速和更具辨识力的功能,本文有两个贡献。首先,我们通过严格的理论分析和广泛的实验确定FC层中的最小单元数,从而减少CNN的参数记忆和训练时间。其次,我们提出了一个负的聚焦权重偏差softmax W Softmax损失,以帮助CNN学习更多的判别特征。所提出的W Softmax损失不仅在理论上形成了类内紧致性和类间可分性,而且还可以通过扩大决策余量来避免过度拟合。此外,可以通过调整超参数α来灵活地控制决策余量的大小。几个基准数据集的广泛实验结果显示了W Softmax在图像分类任务中的优越性。 |
CBHE: Corner-based Building Height Estimation for Complex Street Scene Images Authors Yunxiang Zhao, Jianzhong Qi, Rui Zhang 建筑物高度估算在诸如3D城市重建,城市规划和导航等许多应用中非常重要。最近,提出了一种使用街景图像和2D地图的新建筑物高度估计方法。该方法比使用昂贵的高分辨率光学数据,LiDAR数据或RADAR数据的传统方法更具可扩展性。该方法需要检测建筑物屋顶线,然后通过针孔相机模型计算建筑物高度。我们观察到这种方法在处理复杂的街景图像方面存在局限性,其中建筑物彼此重叠并且难以定位屋顶线。我们提出了CBHE,一种考虑建筑物角落和屋顶线的建筑物高度估算算法。 CBHE首先根据2D地图的建筑物足迹和摄像机参数获取街道场景图像中的建筑物角落和屋顶线候选者。然后,我们使用名为BuildingNet的深度神经网络对角落和屋顶线候选进行分类和过滤。基于BuildingNet的有效角落和屋顶线,CBHE通过针孔摄像机模型计算建筑高度。实验结果表明,与现有技术的开集分类器相比,所提出的BuildingNet在建筑角落和屋顶线候选过滤方面具有更高的准确性。同时,CBHE在建筑物高度估算精度方面优于基线算法超过10。 |
Skin Cancer Segmentation and Classification with NABLA-N and Inception Recurrent Residual Convolutional Networks Authors Md Zahangir Alom, Theus Aspiras, Tarek M. Taha, Vijayan K. Asari 在过去的几年中,Deep Learning DL已经在不同的生物医学图像分析模式中表现出卓越的性能。已经提出了几种DL架构用于医学成像和计算病理学中的分类,分割和检测任务。在本文中,我们提出了一种新的DL架构,NABLA N网络,在解码单元中具有更好的特征融合技术,用于皮肤镜像分割任务。 NABLA N网络在分段任务方面有很多进步。首先,该模型通过低级到高级特征映射的组合确保了语义分割的更好的特征表示。其次,与其他方法相比,该网络显示出具有相同或更少网络参数的更好的定量和定性结果。此外,初始复发残余卷积神经网络IRRCNN模型用于皮肤癌分类。建议的NABLA N网络和IRRCNN模型用于皮肤癌细分和国际皮肤成像协作2018 ISIC 2018的基准数据集分类。与Recurrent Residual U Net R2U Net相比,实验结果表明在分割任务方面具有优越的性能。分类模型显示了在ISIC2018数据集上皮肤镜皮肤癌分类的大约87个测试准确度。 |
Web Stereo Video Supervision for Depth Prediction from Dynamic Scenes Authors Chaoyang Wang, Simon Lucey, Federico Perazzi, Oliver Wang 我们提出了一种完全数据驱动的方法,用于计算包含大量非刚性物体(例如人)的各种单眼视频序列的深度。为了学习非刚性场景的重建线索,我们引入了一个新的数据集,其中包含在野外刮取的立体视频。此数据集具有各种各样的场景类型,并且具有大量非刚性对象,尤其是人。由此,我们计算视差图以用作监督我们的方法。我们提出了一种损失函数,即使在数据集中使用未知的相机内在函数和立体基线,我们也可以生成深度预测。我们通过在深度监督下对现有视频数据集(包括SINTEL和KITTI)评估我们的方法来验证大量互联网视频的使用,并表明我们的方法更好地概括为自然场景。 |
Learning the Depths of Moving People by Watching Frozen People Authors Zhengqi Li, Tali Dekel, Forrester Cole, Richard Tucker, Noah Snavely, Ce Liu, William T. Freeman 我们提出了一种在单眼摄像机和场景中的人都可以自由移动的情况下预测密集深度的方法。用于从单眼视频恢复动态非刚性物体的深度的现有方法对物体运动施加强烈假设并且可能仅恢复稀疏深度。在本文中,我们采用数据驱动的方法,从新的数据来源中学习人类深度先验数千个模仿人体模型的互联网视频,即在各种自然姿势中冻结,同时手持相机巡视现场。因为人是静止的,所以可以使用多视图立体重建来生成训练数据。在推理时,我们的方法使用来自场景的静态区域的运动视差线索来指导深度预测。我们通过移动手持摄像机捕获的复杂人类动作的真实世界序列展示了我们的方法,显示了对现有技术单眼深度预测方法的改进,并显示了使用我们预测的深度产生的各种3D效果。 |
Deep Sparse Representation-based Classification Authors Mahdi Abavisani, Vishal M. Patel 我们提出了一种基于转换深度学习的公式,用于基于稀疏表示的分类SRC方法。所提出的网络包括卷积自动编码器以及完全连接的层。自动编码器网络的作用是学习用于分类的强大深度特征。另一方面,放置在编码器和解码器网络之间的完全连接层负责寻找稀疏表示。然后将估计的稀疏码用于分类。对三个不同数据集的各种实验表明,所提出的网络导致稀疏表示,其提供比现有技术SRC方法更好的分类结果。源代码可在以下位置获得 |
Bridging the Domain Gap for Ground-to-Aerial Image Matching Authors Krishna Regmi, Mubarak Shah 由于从中捕获每组图像的视点差异,因此交叉视图图像中的视觉实体表现出剧烈的域变化。现有技术方法通过学习图像的视图不变描述符来解决该问题。我们提出了一种通过利用条件GAN的生成能力来合成地平面全景的空间表示并使用它来最小化两个视图之间的域间隙来解决该任务的新方法。合成图像来自与目标图像相同的视图,有助于网络在我们的联合特征学习方法之后保留航拍图像中的重要线索。我们的特征融合方法将来自合成航空图像的互补特征与相应的地面特征相结合,以获得稳健的查询表示。此外,多尺度特征聚合保留了用于解决此复杂任务的不同特征尺度的图像表示。实验结果表明,我们提出的方法在挑战性的CVUSA数据集上在前1和前1检索精度方面表现明显优于现有技术方法。此外,为了评估我们的城市景观方法的推广,我们收集了一个带有地理参考信息的新的跨视图本地化数据集。 |
Multi-Scale Body-Part Mask Guided Attention for Person Re-identification Authors Honglong Cai, Zhiguan Wang, Jinxing Cheng 由于其广泛的应用,人员识别成为越来越重要的任务。在实践中,由于人体姿势的变化,不同的光照,遮挡,错位,背景杂乱等,人物识别仍然具有挑战性。在本文中,我们提出了一种多尺度身体部位面罩引导注意网络MMGA,它共同学习整体身体和部分身体的注意力有助于同时提取全球和局部特征。在MMGA中,身体部位面罩用于指导相应注意力的训练。实验表明,我们提出的方法可以减少人体姿势,错位和背景杂波变化的负面影响。我们的方法在Market1501数据集上达到了1级mAP 95.0 87.2,在DukeMTMC reID数据集上达到了89.5 78.1,超过了当前最先进的方法。 |
Analytical Moment Regularizer for Gaussian Robust Networks Authors Modar Alfadly, Adel Bibi, Bernard Ghanem 尽管深度神经网络DNN在众多视觉任务中表现出色,但它们仍然表现出尚未理解的粗俗行为。一个令人费解的行为是DNN对各种噪声攻击的微妙敏感反应。这种麻烦加强了围绕开发和培训噪声稳健网络的研究方向。在这项工作中,我们提出了一种新的训练正则化器,旨在最小化DNN的概率预期训练损失,受一般高斯输入的影响。我们提供了一种有效且简单的方法来逼近任意深度网络的这种正则化器。这是通过利用浅层神经网络的输出均值的分析表达式来完成的,从而避免了对存储器的需求和计算上昂贵的数据增加。我们在LeNet和AlexNet上对包括MNIST,CIFAR10和CIFAR100在内的各种数据集进行了大量实验,证明了我们提出的正则化器的有效性。特别地,我们表明,使用所提出的正则化器训练的网络受益于相当于执行3 21倍数据增强的鲁棒性的提升。 |
Radar-only ego-motion estimation in difficult settings via graph matching Authors Sarah H. Cen, Paul Newman 雷达在不同的天气和光照条件下探测稳定的远距离物体,使其成为一种可靠且通用的传感器,非常适合自我运动估计。在这项工作中,我们提出了一种仅雷达的测距管道,它对雷达伪像非常稳健,例如散斑噪声和误报,并且只需要一个输入参数。我们展示了其适应各种环境的能力,从英国城市到越野冰岛,当使用GPS作为地面实况时,与5.77厘米和0.1032度的视觉测距相比,扫描匹配精度约为5.20厘米和0.0929度。我们提出了关键点提取和数据关联的算法,将后者构建为图匹配优化问题,并提供深入的系统分析。 |
Deep SR-ITM: Joint Learning of Super-resolution and Inverse Tone-Mapping for 4K UHD HDR Applications Authors Soo Ye Kim, Jihyong Oh, Munchurl Kim 最近的现代显示器现在能够渲染高动态范围的HDR,高分辨率HR视频,最高可达8K UHD超高清。因此,UHD HDR广播和流媒体已成为高质量的优质服务。然而,由于缺乏原始UHD HDR视频内容,迫切需要适当的转换技术来将传统的低分辨率LR标准动态范围SDR视频转换为UHD HDR版本。在本文中,我们提出了一个联合超分辨率SR和逆色调映射ITM框架,称为Deep SR ITM,它学习从LR SDR视频到HR HDR版本的直接映射。联合SR和ITM是一项复杂的任务,必须为SRM恢复高频细节,与ITM的局部对比度一起。我们的网络能够通过分解输入图像并关注单独的基本低频和细节高频层来恢复精细细节。此外,所提出的调制块应用位置变体操作以增强局部对比度。 Deep SR ITM显示出良好的主观质量,增加了对比度和细节,优于之前的联合SR ITM方法。 |
Corticospinal Tract (CST) reconstruction based on fiber orientation distributions(FODs) tractography Authors Youshan Zhang 皮质脊髓束CST是锥体束PT的一部分,并且其可以通过脊髓神经支配的interneurons骨骼肌的自主运动的Rexed灰板层的第四层,以及前角运动神经元,其控制躯干和肢体近端肌肉。脊髓损伤脊髓损伤是一种高度致残的疾病,常由交通事故引起。 CST的恢复和脊髓前角运动神经元的功能重建在SCI的治疗中起着重要作用。然而,CST的定位和重建仍然是具有挑战性的问题,几何重建的准确性可直接影响手术的结果。本文的主要贡献是基于纤维取向分布FODs纤维束成像重建CST。与基于张量的纤维束成像不同,其中主要方向是确定的取向,FOD纤维束成像的方向由概率确定。球谐函数SPHARM可用于近似FODs纤维束成像的效率。我们通过ITK SNAP软件手动描绘内囊,脑柄和前脑桥区域的三个ROI,并使用管道软件重建CST纤维的左侧和右侧。我们的结果表明,基于FOD的纤维束成像可以显示更多和正确的解剖学CST纤维束。 |
How much do you perceive this? An analysis on perceptions of geometric features, personalities and emotions in virtual humans (Extended Version) Authors Victor Araujo, Rodolfo Migon Favaretto, Paulo Knob, Soraia Raupp Musse, Felipe Vilanova, Angelo Brandelli Costa 这项工作旨在评估人们对虚拟人的几何特征,个性和情感特征的看法。为此,我们使用一个数据集作为基础,该数据集包含从自发视频捕获的行人的跟踪文件,并将它们视为相同的虚拟人。目标是专注于他们的行为,而不是被其他功能分心。除了跟踪包含其位置的文件之外,数据集还包含使用计算机视觉和模式识别技术检测到的行人情绪和个性。我们继续我们的分析,以回答问题,如果当虚拟人类代表行人时,受试者可以将几何特征视为距离速度以及视频序列中的情感和个性。关于参与者,73人自愿参加实验。分析分为两部分,我评估几何特征的感知,如密度,角度变化,距离和速度,以及ii对人格和情感感知的评价。结果表明,即使没有向参与者解释每个人格或情感的概念以及如何根据几何特征计算它们,在大多数情况下,参与者根据可用的地面感知虚拟代理人表达的个性和情感。真相。 |
Physical Adversarial Textures that Fool Visual Object Tracking Authors Rey Reza Wiyatno, Anqi Xu 我们提出了一种用于生成不显眼的纹理的系统,当在物理世界中将其显示为数字或印刷海报时,会导致视觉对象跟踪系统变得混乱。例如,当机器人的摄像机跟踪的目标在这样的海报前面移动时,我们生成的纹理使得跟踪器锁定在其上并允许目标逃避。这项工作旨在愚弄很少有针对性的回归任务,特别是比较各种优化策略非目标,有针对性和一系列新的引导对抗性损失。虽然我们使用Expectation Over Transformation EOT算法来生成在不同条件下成像时欺骗跟踪模型的物理对手,但我们比较了不同条件变量(包括视点,光照和外观)的影响,以找到具有高效对抗强度的实际攻击设置和收敛速度。我们进一步展示仅使用模拟场景优化的纹理可能会混淆真实世界的跟踪系统。 |
Ultrasound segmentation using U-Net: learning from simulated data and testing on real data Authors Bahareh Behboodi, Hassan Rivaz 鉴于该成像模式的易用性和低成本,超声图像的分割是诊断和图像引导干预中的基本任务。由于手动分割繁琐且耗时,越来越多的研究集中在自动分割算法的开发上。深度学习算法在这方面取得了显着成就,但是,它们需要大量的训练数据集。不幸的是,在超声图像中准备大的标记数据集是非常困难的。因此,在本研究中,我们建议使用模拟超声US图像训练U Net深度学习分割结构,并测试组织模拟超声机收集的幻像数据。我们证明模拟数据的训练架构可以转移到实际数据,因此,当真实数据集不可用时,模拟数据可以被视为替代训练数据集。本文的第二个贡献是我们在仿真数据集的包络和B模式图像上训练我们的U网络,并分别在真实包络和幻像的B模式图像上测试训练的网络。我们表明,与B模式图像相比,测试结果优于包络数据。 |
DeepSurvival: Pedestrian Wait Time Estimation in Mixed Traffic Conditions Using Deep Survival Analysis Authors Arash Kalatian, Bilal Farooq 行人的道路交叉行为是受自动驾驶汽车引入影响的城市动态的重要方面之一。在这项研究中,我们介绍了DeepSurvival,这是一个新的框架,用于估算混合交通条件下无信号中间人行横道的行人等待时间。我们利用深度学习的优势捕获数据中的非线性,并利用深度神经网络作为对数风险函数开发cox比例风险模型。还开发了用于减少数据维度和增强网络可解释性的嵌入式特征选择算法。我们使用沉浸式虚拟现实环境在160名参与者收集的数据集上测试我们的框架。验证结果表明,当C指数为0.64时,我们提出的框架优于基于标准的cox比例风险模型,C指数为0.58。 |
Chinese Abs From Machine Translation |
Papers from arxiv.org
更多精彩请移步主页
pic from pixels.com