【论文笔记】2017 NIPS会议论文整理

Dual-Agent GANs for Photorealistic and Identity Preserving Profile Face Synthesis

【主要内容】旨在从单张人脸(正面)合成不同姿态下的不同人脸,来解决在实际的人脸识别数据集中,侧面人脸训练样本分布不平衡导致人脸识别模型对于具有少量样本的姿态下的人脸识别失败的问题。使用了现有的3D人脸模型作为模拟器来生成不同姿态的侧面人脸图像。DA-GAN采用了一个全卷积网络作为生成器来生成高分辨率的图像和一个有双代理的自动编码器作为分辨器。除了新的架构,我们对于标准的GAN做了几个关键的修改来保持姿态和纹理,保留身份信息以及稳定训练过程:(i)一个姿态感知loss;(ii)一个身份感知loss;(iii)一个有边界平衡正则项的对抗loss。实验结果表明DA-GAN不仅带来了非常有趣的感知结果,而且在大规模并且具有挑战的NIST IJB-A无限制人脸识别基准测试中显著优于现有技术。除此之外,提出的DA-GAN有望成为更有效解决一般的迁徙学习问题的新方法。【2】

【单词】notoriously [a]著名的;vanish[v]消失;gradient[n]梯度;tackle[v]处理;recurrent[a]重复循环;

dilate[v]扩宽的

Dilated Recurrent Neural Networks

【主要内容】proposed RNN connection structure。传统递归神经网络在学习长序列数据时通常遇到很大的困难,主要表现在复杂的长时序跨度记忆和中短期记忆难以同时处理,用反向传播 (BP) 算法训练递归神经网络容易出现梯度消失和梯度爆炸的问题,与前向和反向传播需要串行进行,导致训练非常费时。本文提出了一种dilated RNN来解决上述训练难题。这种网络基于一种创新的多分辨率dilated递归skip连接,能够自由地和不同种类RNN单元结合。这种dilated递归神经网络结构显著减少了网络参数,提高了训练的高效性,同时还能取得与标准的递归神经网络相似的效果。为了理论地量化该网络结构的优势,本文还提出了一种记忆容量衡量标准,即平均递归长度,比已有的标准更适合具有长skip的递归神经网络【1】。

【单词】notoriously [a]著名的;vanish[v]消失;gradient[n]梯度tackle[v]处理;recurrent[a]重复循环;

dilate[v]扩宽的

Hunt For The Unique, Stable, Sparse And Fast Feature Learning On Graphs

【主要内容】提出了一系列图谱原型。将这种抓取图片特征的方法与简单的SVM分类器结合,也有很好的精度和速度,效果很好。

【单词】exhibit[v]展示出;yield[v]生产、产量、屈服、放弃;be ameanable to 有义务、对…负责;demonstrate[v]证明,展示;utility[n,a]用途,功用

【1】http://www.sohu.com/a/210825402_500627

【2】http://blog.sina.com.cn/s/blog_6ca0f5eb0102wzqn.html

⑦dynamic safe interruptibility of reinforcement learning
主要内容】在 强化学习中 ,代理通过执行行为并观察其结果来学习。有时候,为了防止发生危险情况,操作人员需要中断代理。
然而,作为学习过程的一部分,行动者可能会将这些影响他们奖励的干扰与特定的国家联系起来,并故意避免。这种情况在多主
体环境中特别具有挑战性,因为主体不仅可以从他们自己的过去的中断中学习,还可以从其他主体的中断中学习。 Orseau和
Armstrong为一个学习者定义了安全可中断性,但他们的工作并不自然扩展到多代理系统。本文介绍动态安全可中断性,一种更
适合分散式学习问题的替代定义,并在两个学习框架中研究这个概念:联合行动学习者和独立学习者。我们给出了学习算法的实
际充分条件,以便在联合行动学习者的情况下实现动态安全可中断性,但表明这些条件对于独立学习者是不够的。然而,我们表
明,如果代理可以检测到中断,那么即使对于独立学习者,也可以修剪观察以确保动态安全中断。

Label Efficient Learning of Transferable Representations acrosss Domains and Task

【主要内容】我们提出了一个框架,以一种数据有效的方式学习可跨不同领域和任务转移的表示。 我们的方法与领域对抗性损失战斗域转移,并使用基于度量学习的方法将嵌入到新任务中。 我们的模型同时针对标记的源数据和目标域中未标记或稀疏标记的数据进行了优化。 我们的方法在新领域内的新类别上显示出令人瞩目的结果,即使每个类别只有少数几个标注的例子可用,也超越了流行的微调方法。 另外,我们展示了我们的框架在从图像对象识别到视频动作识别的转换学习任务上的有效性。

⑨Decoding with Value Networks for Neural Machine Translation

【主要内容】神经机器翻译(NMT)近年来已成为一种流行的技术,由于缩小的搜索空间和降低的计算复杂度,束搜索是其事实上的解码方法。然而,由于它只是通过一步向前查找在每个时间步骤中搜索局部最优解,因此通常不能输出最佳目标句子。受到AlphaGo成功和方法论的启发,本文中我们提出使用预测网络来改善波束搜索,它将源句子,当前可用的解码输出和候选词作为输入,并预测长期值(例如BLEU分数),如果它是由NMT模型完成的话。遵循强化学习的练习,我们称之为预测网络\ emph {价值网络}。具体而言,我们提出价值网络的循环结构,并从双语数据中训练其参数。在测试期间,当选择解码词时,我们既考虑NMT模型给出的条件概率,又考虑价值网络预测的长期价值。实验表明,这种方法可以显着提高翻译任务的翻译准确率。

Structured Embedding Models for Grouped Data

【主要内容】字嵌入是分析语言的一种强大方法,指数族嵌入(EFE)将它们扩展到其他类型的数据。 在这里,我们开发了结构化的指数族嵌入(S-EFE),这是一种用于发现在相关数据组之间变化的嵌入的方法。 我们研究美国国会演讲词的用法在各州和党派之间是如何变化的,在ArXiv的各个部分中如何使用不同词语,以及不同季节中杂货的共同购买模式如何变化。 我们方法成功的关键在于这些小组共享统计信息。 我们制定了两种分享策略:分层建模和摊销。 我们在演讲,摘要和购物篮的实证研究中展示了这种方法的好处。 我们展示SEFE如何使用单词使用的特定组的解释,并且在预测伸出数据方面优于EFE。

MaskRNN: Instance Level Video Object Segmentation

【主要内容】实例级视频对象分割是视频编辑和压缩的重要技术。 为了捕捉时间相干性,在本文中,我们开发MaskRNN,一种循环神经网络方法,在每个帧中融合每个对象实例的两个深网的输出 - 提供掩模的二进制分割网和提供边界框的定位网。 由于周期性分量和本地化分量,我们的方法能够利用视频数据的长期时间结构以及拒绝异常值。 我们在三个具有挑战性的基准数据集上,即DAVIS-2016数据集,DAVIS-2017数据集和Segtrack v2数据集验证了所提出的算法,实现了所有这些数据集的最新性能。

tip:对象分割技术+图像识别,自动识别,无人驾驶

Gated Recurrent Convolution Neural Network for OCR

【主要内容】光学字符识别(OCR)旨在识别自然图像中的文字。 受最近提出的一般图像分类模型 - 回归卷积神经网络(RCNN)的启发,我们提出了一种新的架构--Gated RCNN(GRCNN)来解决这个问题。 其关键部分门控递归卷积层(GRCL)是通过在RCNN的关键部分 - 递归卷积层(RCL)上增加一个门而构建的。 门控制RCL中的上下文调制并平衡前馈信息和循环信息。 此外,还构建了一个高效的双向长期短期记忆(BLSTM),用于序列建模。 GRCNN与BLSTM结合识别自然图像中的文字。 整个GRCNN-BLSTM模型可以进行端对端培训。 实验表明,该模型在包括IIIT-5K,街景文本(SVT)和ICDAR在内的多个基准数据集上的性能优于现有方法。

③Pose Guided Person Image Generation

【主要内容】本文提出了一种新颖的姿态导引人生成网络(PG ^ 2),该网络允许基于该人的图像和新姿势合成任意姿势的人物图像。 我们的生成框架PG ^ 2明确地利用姿态信息,并且由两个关键阶段组成:姿态整合和图像细化。 在第一阶段,条件图像和目标姿态被馈送到类似U-Net的网络中以生成具有目标姿势的人的初始但粗略图像。 然后,第二阶段通过以对抗方式训练类似U-Net的发电机来优化初始和模糊结果。 在128 \ times64重新识别图像和256 \ times256时尚照片上的广泛实验结果表明,我们的模型生成具有令人信服的细节的高品质人物图像。

Toward Multimodal Image-to-Image Translation

【主要内容】Nowozin \ textit {et al}去年展示了如何将GAN \ textit {原则}扩展到所有f-divergence。这种方法虽然优雅但缺乏对监督型游戏的全面描述,并且对关键角色,即生成器几乎没有提及:例如,如果解决GAN游戏意味着在某些参数空间中收敛,那么生成器实际收敛到什么程度?这如何提供发电机的设计提示,并与这一主题的繁荣但几乎完全相关的实验文献进行比较?在本文中,我们揭示了这种收敛发生的一大类分布 - 即变形的指数族,指数族的一个宽超集。我们展示了当前深层架构能够使用特别紧凑的设计来分解大量这样的密度,从而在f-GAN游戏中展现了深层架构的力量和精巧性。这个结果在\ textit {激活函数}上给出了一个充分的条件,这被广受欢迎的选择所满足。我们的结果的关键是一个旧定理的变分泛化,该定理将KL规则指数族之间的散度与其自然参数之间的散度联系起来。通过(i)发生器中的激活函数的原理设计和(ii)适当的复合损失的明确集成,我们完成了这张图片,其中包含了关于如何使用这些结果来进一步改进GAN体系结构的附加结果和实验见解'鉴别器中的链接功能。

tip:gans网络的一个应用,转换到图片和图片之间的转换

Learning multiple visual domains with residual adapters

【主要内容】学习数据表示对于许多不同类型的问题和数据都能很好地工作,这一点越来越令人感兴趣。 在本文中,我们特别关注学习单个视觉表示的任务,该视觉表示可以成功用于分析非常不同类型的图像,从狗品种到停止标志和数字。 受近期在预测另一个参数的学习网络方面的工作的启发,我们开发了一种可调节的深度网络架构,通过适配器残留模块,可以实时引导到不同的视觉领域。 我们的方法实现了高度的参数共享,同时保持甚至提高了领域特定表示的准确性。 我们还介绍了Visual Decathlon挑战赛,这是一个基准,用于评估表示法同时捕捉十个非常不同的视觉领域的能力,并衡量他们的统一识别能力。

Learning Spherical Convolution for Fast Features from 360° Imagery

【主要内容】尽管360°相机在视觉,图形和增强现实中提供了巨大的新可能性,但它们生成的球形图像使得核心特征提取变得非常重要。卷积神经网络(CNN)在透视摄像机的图像上训练产生“平坦”滤波器,但360°图像不能投影到没有明显失真的单个平面上。将观察球体重复投影到所有切平面的天真解决方案是准确的,但我们建议学习一个球形卷积网络,将平面CNN转换为直接在其等矩形投影中处理360°图像,我们的方法学习在360°数据上重现平坦滤波器输出,对变化敏感对于360°图像和视频的高效特征提取,以及2)利用功能强大的预训练网络的能力研究人员已经仔细研究过(与大量标记的图像训练集一起)以获得透视我们验证了我们的方法与几种替代方法相比,在原始CNN输出精度方面以及将最先进的“平面”物体探测器应用于360°数据。我们的方法可以产生最准确的结果,同时比现有的精确重投影解决方案节省数量级。

Multimodal Learning and Reasoning for Visual Question Answering

【主要内容】从多模式数据推理实体及其关系是人工智能的一个关键目标。视觉问题回答(VQA)问题是测试AI模型及其多模表示学习的思维能力的极好方法。然而,目前的VQA模型已经过度简化了深层神经网络,包括用于问题理解的长期记忆(LSTM)单元和用于学习单个图像表示的卷积神经网络(CNN)。我们认为,单一的视觉表示包含有限的和一般的图像内容信息,因此限制了模型推理能力。在这项工作中,我们介绍一种模块化的神经网络模型,它学习图像和问题的多模式和多方面的表示。

Hypothesis Transfer Learning via Transformation Functions

【主要内容】我们考虑假设转移学习(HTL)问题,其中将源域上的训练假设合并到目标域的学习过程中。现有的理论分析或者只研究具体的算法,或者仅仅提出泛化误差的上限,而不是超额风险。在本文中,我们通过一种新颖的转换函数概念,提出了一种统一的HTL算法依赖框架,它表征了源域和目标域之间的关系。我们对这个框架进行了总体风险分析,特别是我们首次表明,如果两个领域相关,HTL对于Kernel Smoothing和Kernel Ridge回归的超额风险收敛速度要比传统的非传递学习更快设置。我们通过对HTL进行交叉验证的分析来配合此框架,以便在HTL无用时寻找最佳传输技术并优雅地减少到非传输学习。机器人和神经影像数据的实验证明了我们框架的有效性。

Unsupervised Image-to-Image Translation Networks

【主要任务】无监督的图像到图像翻译旨在通过使用来自各个领域边缘分布的图像来学习不同领域的图像联合分布。由于存在一组可以达到给定边际分布的联合分布,因此无需进一步假设就可以推断出边际分布的联合分布。为了解决这个问题,我们做了一个共享潜在的空间假设,并提出了一个基于耦合GAN的无监督图像转化框架我们将所提出的框架与竞争方法进行比较,并对各种具有挑战性的无监督图像翻译任务(包括街景图像翻译,动物图像翻译和人脸图像翻译)提供高质量的图像翻译结果。我们还将所提议的框架应用于领域适应,并在基准数据集上实现最先进的性能。代码和其他结果可在https://github.com/mingyuliutw/unit中找到。

【主要内容】在本文中,我们介绍了一个自然图像,它直接表示自然图像分布的高斯平滑版本。我们在图像恢复的一个公式中包含了我们的先验贝叶斯估计器,它也允许我们解决噪声盲图像恢复问题。我们证明我们先验的梯度对应于自然图像分布上的均值平移矢量。另外,我们使用去噪自动编码器来学习均值平移矢量场,并将其用于梯度下降法来执行贝叶斯风险最小化。我们展示了噪声盲解除,超分辨率和去马赛克的竞争结果。

Unsupervised learning of object frames by dense equivariant image labelling 

【主要内容】视觉感知的关键挑战之一是从视觉测量中提取三维对象和对象类别的抽象模型,这些视觉测量受视点,遮挡,运动和变形等复杂滋扰因素的影响。从最近的视点分解的想法出发,我们提出了一种新的方法,在给定大量物体图像而没有其他监督的情况下,可以提取密集的以物体为中心的坐标系。这个坐标系对于图像的变形是不变的,并且具有密集的等变标记神经网络,其可以将图像像素映射到它们对应的对象坐标。我们证明了这种方法适用于简单的关节物体和可变形的物体,如人脸。

②Compression-aware Training of Deep Networks

【主要内容】近年来,随着越来越深入的神经网络的发展,各种应用领域取得了巨大进步。不幸的是,这些网络的大量单位使它们在计算和记忆方面都很昂贵。为了克服这一点,利用深度网络过度参数化的事实,已经提出了几种压缩策略。然而,这些方法通常从已经以标准方式训练的网络开始,而不考虑未来的压缩。在本文中,我们建议明确说明培训过程中的压缩。为此,我们引入一个正规化器,鼓励每个层次的参数矩阵在训练过程中具有较低的等级。我们证明,训练期间的压缩会计使我们能够学习更加紧凑。

tip:对神经网络的压缩,引入了一个正规划器

③predrnn-recurrent-neural-networks-for-predictive-learning-using-spatiotemporal-lstms.pdf

【主要内容】时空序列的预测性学习旨在通过从历史帧中学习来生成未来图像,其中空间发生和时间变化是两个关键结构。本文通过提出预测递归神经网络(PredRNN)来呈现这些结构。这种体系结构受到时空预测性学习应该记忆统一记忆池中的空间发生和时间变化的想法的启发。具体而言,每个LSTM单元内的存储器状态不再受限制。相反,它们允许在两个方向上锯齿形:横向堆叠RNN层,并水平穿过所有RNN状态。这个网络的核心是一个新的时空LSTM(ST-LSTM)单元,它同时提取和存储空间和时间表示。

④Contrastive Learning for Image Captioning

【主要内容】图像字幕是计算机视觉领域的热门话题,近年来取得了实质性进展。然而,自然描述的独特性往往在以前的工作中被忽视。它与字幕的质量密切相关,因为独特的字幕更可能用其独特的方面来描述图像。在这项工作中,我们提出了一种新的学习方法,对比学习(CL),用于图像字幕。具体而言,通过在参考模型之上制定的两个约束,所提出的方法可以鼓励独特性,同时保持生成的字幕的整体质量。我们在两个具有挑战性的数据集上测试了我们的方法,在这个数据集中它以显着的利润率改善了基线模型 我们还在我们的研究中表明,所提出的方法是通用的,并且可以用于具有各种结构的模型。

tip:给图像做字幕

⑤:safe-model-based-reinforcement-learning-with-stability-guarantees

【主要内容】强化学习是从实验数据中学习最优策略的强大范例。但是,为了找到最佳策略,大多数强化学习算法都会探索所有可能的操作,这些操作可能对现实系统有害。因此,学习算法很少应用于现实世界中的安全关键系统。在本文中,我们提出了一个明确考虑安全性的学习算法,用稳定性保证来定义。具体而言,我们扩展了Lyapunov稳定性验证的控制理论结果,并展示如何使用动态统计模型来获得具有可证明稳定性证书的高性能控制策略。此外,根据高斯过程之前的其他规律性假设,我们证明可以有效和安全地收集数据以了解动态,从而提高控制性能并扩展状态空间的安全区域。在我们的实验中,我们展示了结果算法如何在模拟倒立摆上安全地优化神经网络策略,而不会摆脱摆锤。

⑥Learning to Inpaint for Image Compression

【主要内容】我们研究深度架构的有损图像压缩设计。我们在多级渐进式编码器的背景下提出了两种架构配方,并凭经验论证了它们在压缩性能方面的重要性。具体来说,我们表明:1)在多级渐进式体系结构中预测来自残差的原始图像数据便于学习,并且在接近原始内容时导致改进的性能,并且2)在执行压缩之前学习(从相邻图像像素)必须存储的信息量才能达到高质量的近似值。将这些设计选择合并到基准渐进式编码器中,与原始残差编码器相比,文件尺寸平均减少60%以上,质量相近

GAN

⑦Generalization and Equilibrium in Generative Adversarial Nets (GANs)

【主要内容】结果表明,生成对抗网络(GAN)的训练可能不具有良好的泛化特性; 例如,培训可能看起来成功,但训练后的分布可能远离标准指标中的目标分布。然而,泛化确实发生在称为神经网络距离的较弱指标上。它还表明,当发电机容量和训练集大小适中时,自然训练目标(Wasserstein)的鉴别器/发生器博弈中存在近似纯平衡。这种均衡的存在激发了MIX + GAN协议,该协议可以与任何现有的GAN训练相结合,并凭经验显示以改进其中的一些。

⑧McGan: Mean and Covariance Feature Matching GAN

【主要内容】我们引入用于训练生成对抗网络(GAN)的新的整体概率度量(IPM)系列。我们的IPM基于嵌入有限维特征空间的分布匹配统计数据。均值和协方差特征匹配IPM允许对GAN进行稳定的训练,我们将其称为McGan。McGan最小化分配之间的有意义的损失。

⑨Conditional Image Synthesis with Auxiliary Classifier GANs

【主要内容】在本文中,我们介绍了用于图像合成的生成对抗网络(GAN)的改进训练的新方法。我们构建了采用标签条件的GAN的变体,结果为128×128128×128表现出全局一致性的高分辨率图像样本。我们扩展了以前的图像质量评估工作,以提供两个新的分析来评估类别条件图像合成模型中样本的可辨性和多样性。这些分析表明,高分辨率样品提供的类别信息在低分辨率样品中不存在。跨1000个ImageNet类,128×128128×128样本比人工调整的32×32大两倍以上

32×32样本。另外,84.7%的类别具有与真实ImageNet数据相媲美的样本

⑩SplitNet: Learning to Semantically Split Deep Networksfor Parameter Reduction and Model Parallelization

【主要内容】我们提出了一种新颖的深度神经网络,它既是轻量级的,也是有效的模型并行化结构。我们的网络(我们称为SplitNet)自动学习将网络权重拆分为使用不相交特征集的多个组的集合或层次结构,通过学习类到组和特征到组的分配矩阵以及网络权重。这产生了一个树形结构的网络,它不涉及语义上不同的类组的分支子树之间的连接。因此,SplitNet极大地减少了参数的数量,并且需要大大减少计算量,而且在测试时间模型可并行化也是令人尴尬的,因为除了可以在多个处理器上复制的共享低层权重之外,每个子网络的网络评估是完全独立的。我们使用两个深度网络模型(ResNet和AlexNet)在两个不同的数据集(CIFAR-100和ILSVRC 2012)上验证了我们的方法,用于图像分类,我们的方法通过显着减少参数数量获得网络,同时实现可比较或更高的分类精度原始的全深度网络,以及多GPU加速测试速度。

你可能感兴趣的:(摘要整理)