点击上方“机器学习与生成对抗网络”,关注"星标"
获取有趣、好玩的前沿干货!
戳我,查看GAN的系列专辑~!
下述论文已分类打包好!共116篇,事实上仍有一些GAN论文未被包含入内,比如笔者发推文时,又看到一篇《Rotate-and-Render: Unsupervised Photorealistic Face Rotationfrom Single-View Images》……可见GAN在CVPR 2020的火爆程度。
后台回复 GAN 获取分类、按文件夹汇总好的论文集,gan起来吧!!!
交互式的时尚编辑应用前景广阔啊。本文探讨如何从草图free-form sketches和颜色笔触sparse color strokes来控制编辑图像。
本文解决的是化妆迁移任务,该任务旨在将参考图像的妆容转移到源图像;现有方法在具有较大姿势和表情差异的图像之间进行转换仍然具有挑战性。本文提出姿势和表情鲁棒的空间感知GAN(PSGAN)。
妆容迁移更多论文:脸部妆容迁移!速览几篇用GAN来做的论文
本文提出一种基于图像的虚拟试穿方法(Outfit-VITON),帮助可视化从各种参考图像中选择服装、并对查询图像中的人虚拟穿上以整体自然协调。
提出一个新的自适应内容生成和保留网络ACGPN,生成逼真的试穿结果,同时保留衣服的特征和人类身份细节(姿势、身体部位和底部衣服)。引入三个经过精心设计的模块,即掩膜生成模块(GMM),衣服变形模块(CWM)和内容融合模块(CFM)。在VITON数据集上对ACGPN进行了评估表明,ACGPN在定量指标、视觉质量和用户研究方面均优于最新方法。
虚拟试衣更多论文:虚拟换衣!速览这几篇最新论文咋做的!
本文探索针对多种背景的、多条件人像合成,提出了MISC,用于条件图像生成和图像组合。对于条件图像生成,利用条件间相关性来改进现有的条件注入机制condition injection mechanisms。对于图像组合,从理论上证明了前沿方法的弱点,并通过消除空间不变性约束、启用了、边界机制和空间适应性使其变得更具鲁棒性。
姿势引导人像生成旨在将源人图像转换为目标姿势。此任务需要对源数据进行空间操作。但是,卷积神经网络由于缺乏对输入进行空间变换的能力而受到限制。本文提出一个可微分的全局流-局部注意力框架。源代码https://github.com/RenYurui/ Global-Flow-Local-Attention
解读:CVPR2020之姿势变换GAN:图像里谁都会劈叉?
提出属性分解GAN控制人像合成,模型是将人的属性嵌入到 潜在空间作为独立码,通过以显式风格表示形式的混合和插值操作对属性进行连续控制。
提出一种图像卡通化方法。通过观察卡通绘画行为并咨询艺术家,提出从图像中分离识别三个白盒表示:表面表示,结构表示和纹理表示。
肖像动画:使用从目标帧中提取的姿势去动画化、驱动静态肖像,是娱乐应用中重要技术。尽管最近的工作在合成或控制人的头部图像方面取得了逼真效果,但仍面临以下挑战:1)身份/个人特征不匹配;2)训练数据/域的限制;3)训练/微调效率低。本文设计两阶段框架PuppeteerGAN来解决这些挑战。
肖像画是一种常见的、具有高度抽象性和表现力的艺术形式。由于其独特的特性,现有方法仅使用成对的训练数据即可获得不错的结果,而获取这些数据既昂贵又费时。本文解决从人脸照片到肖像绘画的自动转换问题。注意到照片和绘画之间的信息丰富程度存在严重的不平衡,诸如CycleGAN之类的不成对转换方法往往会导致重要的面部特征丢失。为此,提出一种非对称循环映射;而针对眼睛、鼻子和嘴唇的局部鉴别器保留生成的肖像图中重要面部特征;并引入风格/样式分类器。
本文提出一种新颖的训练方案,通过“augmented-self”参考和基于注意力的特征迁移转换模块,直接学习语义关联对应关系,完成草图上色任务。
本文介绍一种神经风格迁移模型,所提出方案即使在零样本设置下也可以产生高质量的图像,且在更改内容几何形状时具有更大的自由度。通过引入Two Stage Peer-Regularization Layer,图卷积层将潜空间中的风格和内容重新组合在一起。与绝大多数现有方法不同,模型不依赖于任何预训练网络来计算感知损失,且直接在潜在空间进行循环损失优化。
本文的目标是:在语义上编辑与给定文本描述所需属性(例如纹理、颜色和背景)匹配的图像部分,同时保留与文本无关的其他内容。为此提出ManiGAN,包含两个关键组件:文本-图像仿射组合模块(ACM)和细节校正模块(DCM)。https://github.com/mrlibw/ManiGAN
本文提出CookGAN,食谱到图像的生成与控制。
文本描述转图像提供的信息往往非常有限,这篇论文从自注意力机制、先验等方面进行探讨text2img问题。
半监督式生成学习旨在学习部分标记数据的class-conditional distribution。生成对抗网络(GANs)已在这项任务中取得不错进展。但在对抗学习过程中,仍需进一步探索真实标签数据和生成数据之间的不平衡问题。为此,提出一种基于随机区域替换Random Regional Replacement(R3-regularization)的正则化技术,以促进生成学习过程。通过实验证明,R3正则化可显著改善分类和基于类条件的图像合成效果。
大多数情况下,从无监督GAN中提取的表征通常在其他计算机视觉任务中难以令人满意;通过使用条件GAN(CGAN),可在某种程度上解决此问题,但条件GAN的主要缺点是需要标记数据。为在无监督情况下提高图像合成质量和表示学习性能,本文提出了一个简单而有效的变换生成对抗网络(TrGAN),它并不像条件GAN那样捕获图像-标签对p(x,y)联合分布,而是尝试估计变换图像t(x)和变换t联合分布。
自监督信息用于viewpoint learning,项目:https://github.com/NVlabs/SSV
广义零次/零样本/零射学习(GZSL)旨在通过构造视觉和语义嵌入之间的对应关系来识别可见和不可见类。但现有方法严重地受到了strong bias problem的困扰,目标域中看不见的实例往往倾向于被识别为源域中的可见类。为此提出了一种端到端的自监督-域感知-生成网络(SDGN),这是将自监督学习引入GZSL作为学习指导的第一项工作,大量实验结果表明模型相对于最新的GZSL方法表现出色。
基于深度神经网络的强化学习(RL)可以学习适用于复杂任务的合适视觉表征,例如基于视觉的机器人抓取,而无需人工或事先学习感知系统。但用于RL的数据是通过在所需环境中运行agent来收集的,对于诸如机器人之类的应用程序,在现实世界中运行机器人可能会非常昂贵且耗时。模拟式的训练提供了一种有吸引力的替代方法,但要确保通过模拟训训的策略可有效地迁移到现实世界中,则需要额外的机制。通过使用生成模型将模拟图像转换为逼真图像来实现此过程的自动化。本文介绍用于图像转换的RL scene一致性损失,确保了转换操作相对于与图像关联的Q值是不变的。
主动学习通过采样/挑选最有代表性的样本来打标签,本文提出状态重新标记对抗式主动学习模型(SRAAL),利用已标注和标签/无标签状态信息获取信息最多的未标记样本。
更多:弱水三千,只取你标!AL(主动学习)结合GAN如何?
深度学习在各种任务中的蓬勃发展在很大程度上得到了丰富的标签数据。尽管如此,对于许多实际应用而言,大量的监督仍然奢侈,这引起人们对标签稀缺技术的极大兴趣,例如“少样本学习”(FSL),旨在通过少量标签样本学习新类。针对FSL,一种方法是数据扩充,许多近期工作通过提出各种数据合成模型证明了其可行性;但这些模型不能很好地确保合成数据的可分辨性和多样性,因此常会导致不良结果。本文提出基于条件Wasserstein(cWGAN)的Adversarial Feature Hallucination Networks 对抗特征幻觉网络(AFHN),同时提出分类正则和反坍塌正则,以分别促进合成特征的可分辨性和多样性。
图表示学习将图的所有节点编码为低维向量,这些向量将用作许多计算视觉任务的输入。但是,大多数现有算法都忽略了内在数据分布甚至噪声的存在,这可能导致过拟合并降低测试精度。本文提出Distribution-induced Bidirectional Generative Adversarial Network(DBGAN),用于图表示学习。https://github.com/SsGood/DBGAN
深度神经网络吸引人的特征之一是将一个域中获得的知识转移到其他相关域的能力,这样可在训练数据相对较少的领域中训练高质量的网络。对于判别式网络,已对该特点进行了广泛的研究,但对于生成式模型,这方面关注却很少。鉴于在计算和数据集收集方面训练GAN经常需要付出巨大的努力,因此重用预训练的GAN是理想的目标。本文提出一种基于生成模型的新型知识迁移方法,以从单个或多个预训练的GAN中挖掘对特定目标域最有利的知识。https://github.com/yaxingwang/MineGAN
将GAN应用于游戏方向
介绍了一种简单而有效的无监督方法来生成逼真而多样的图像。通过训练无需人工类别标签的类条件GAN模型(自动生成的标签为条件,根据在判别器特征空间聚类自动得出)。
本征图像分解Intrinsic Image Decomposition是计算机视觉中的基本任务,旨在推断场景的reflectance和shading。由于需要将一个图像分为两个部分,因此具有挑战性。常规方法引入了各种先验来约束,但性能有限;且通过监督学习方法解决。获取大规模真实自然场景的reflectance和shading具有挑战性,甚至是不可能的。本文提出了一种新颖的无监督本征图像分解框架,既不依赖于标记训练数据也不依赖人工先验。
题外话,联邦学习非常火。在一些隐私敏感的数据问题上,GAN可以怎么利用数据?
本文提出一种无监督学习的图像恢复方法。通过解耦表征、对抗域适应从噪声数据得到不变表示,辅助有效的自监督约束,可以重建具有更好细节的高质量图像。
近年来,基于学习的方法进行图像去雾已取得最先进的性能。但大多数方法都在合成模糊图像上训练除雾模型,由于域偏移domain shift,这些模型很难推广到真实模糊图像。为此提出一种领域适应范式,由一个图像转换模块和两个图像去雾模块组成。具体来说,首先应用双向转换网络,通过将图像从一个域转换到另一个域,来弥合合成域和真实域间的鸿沟。然后,使用转换前后的图像来训练具有一致性约束的两个图像去雾网络。
事件相机Event cameras比传统相机有许多优势,从事件流中重建intensity images时,输出却是低分辨率(LR)、带噪音且不够逼真的。为此提出一种新的端到端pipeline,可从事件流中重建LR图像,增强图像质量并对增强后的图像进行上采样,称为 EventSR。方法是无监督的、应用了对抗学习。有关实验视频https://youtu.be/OShS_MwHecs
图像超分辨率(SR)是从低分辨率(LR)图像中恢复逼真的纹理;通过将高分辨率图像用作参考(Ref),可将相关纹理迁移到LR图像。但现有SR方法忽略了使用注意力机制从Ref图像迁移高分辨率(HR)纹理的情况,本文提出TT(Texture Transformer Network)SR,其中LR和Ref图像分别表示为转换器中的查询和关键字。TTSR由四个紧密相关的模块组成,这些模块针对图像生成任务进行了优化,包括DNN可学习的纹理提取器,相关性嵌入模块,用于纹理迁移的硬注意力模块和用于纹理合成的软注意力模块。这样的设计鼓励了跨LR和Ref图像的联合特征学习,其中可通过注意力发现深层特征对应关系,从而可以传递/迁移准确的纹理特征信息。
单图像超分辨率的主要目的是从相应的低分辨率(LR)输入构建高分辨率(HR)图像。在通常受到监督的先前方法中,训练目标通常测量超分辨(SR)和HR图像之间的像素方向平均距离。优化此类指标通常会导致模糊。本文提出一种新型超分辨率算法PULSE(通过潜在空间探索进行照片上采样),它以完全自监督的方式完成此任务。
大多数基于学习的图像超分辨率(SR)研究,通过使用预定操作对高分辨率(HR)图像按比例缩小来创建配对的训练数据集;但这些方法无法模拟现实世界中的低分辨率(LR)图像,后者无疑更复杂且未知。本文提出使用生成对抗网络的不成对SR方法,无需成对/对齐的训练数据集。
提出一种上下文残差聚合技术,实现超高分辨率图像更高效和高质量的修复。与其他数据驱动方法不同,分辨率和hole尺寸的增加不会降低修补质量,也不会显着增加处理时间。当在1K和2K之间的高分辨率图像上进行测试时,模型非常高效,在相同大小的图像上,速度比最新技术快3到6倍。此外,与最新技术相比,FID降低82%,有更好的质量。到目前为止,方法可能是唯一能够在超高分辨率图像(4K至8K)上进行端到端修复的(基于学习的)技术。
提出一种图像合成方法,可在潜在码空间中提供分层导航。对于微小局部或非常低分辨率的图像,方法在生成最接近GT的采样图像方面始终胜过最新技术。
超分更多GAN论文:见微知细之超分辨率GAN!附70多篇论文下载!
尽管现有图像修复方法已能产生视觉上逼真的和语义上正确的结果,但它们对于每个被掩盖的输入仅产生一个结果。为产生多种多样的合理效果,提出无监督的跨空间转换生成对抗网络(UCTGAN),该网络主要由三个网络模块组成:条件编码器模块,流形投影模块和生成模块;还引入了一个新的交叉语义注意力层,该层利用了已知部分和完成部分之间的长期依赖关系,可改善真实性和外观一致性。
多模聚类旨在通过探索来自多种modalities或views的互补信息,将数据聚类为不同的组。很少有工作学习多种模式的深度融合表示,同时挖掘集群结构。本文提出一种用于多模式聚类(EAMC)的端到端对抗注意力网络,其中利用对抗性学习和注意力机制来对齐潜在特征分布并分别量化重要性。
在许多测量情况下,数据都是作为缺失数据获得的,由于各种原因,只能部分地可以观察到这些数据。为了进行缺失值处理,插补可将丢失的数据转换为完整的数据。插补方法已经很多,大多数现有的方法侧重于中等大小的缺失率,但对于80%以上的高缺失率进行估算仍然很重要,且具有挑战性。针对高度缺失的数据,本文提出基于GAN的生成对抗性多重插补网络(GAMIN)。
由于获取语义分割的像素级标签很费力,因此利用合成数据是一种具有吸引力的解决方案。但合成域和真实域之间有域差,本文提出一种适应目标域纹理的方法。
细粒度视觉分类非常重要,但对精确制作标签获取大型细粒度图像数据集艰巨,因此实际应用受到限制。解决此问题的一种方法是应用域自适应方法,其关键思想是发现现有的细粒度图像数据集与野外的大量未标记数据之间的共性。本文介绍了渐进式对抗网络(PAN),以基于课程对抗性学习框架将跨域的细粒度类别对齐。
在无监督域适应中,丰富的域特定特征给学习域不变表示带来了巨大挑战。本文为对抗域适应加上Gradually Vanishing Bridge (GVB) mechanism(包括生成器和鉴别器)。对生成器,GVB不仅可以降低整体迁移难度,且可减少域不变表示中残留的特定域特性影响;对鉴别器,GVB有助于增强鉴别能力,并平衡对抗训练过程。https://github.com/cuishuhao/GVB
基于素描和照明方向,提出一种全自动的方法来生成细致而准确的艺术阴影。
提出语义区域自适应归一化(SEAN),它是条件生成对抗网络的简单但有效的构建块(条件是描述输出图像中的语义区域的分割mask)。基于SEAN,可以构建单独控制每个语义区域风格的网络结构,例如可为每个区域指定一个风格参考图像。代码:https://github.com/ZPdesu/SEAN
本文解决的是语义场景生成任务。在全局图像级别生成方法中,一个挑战是生成小物体和细致局部的纹理。为此这项工作考虑在局部上下文中学习场景生成,并相应地设计一个以语义图为指导、局部的特定类生成网络,该网络分别构建和学习专注于生成不同场景的子生成器,并能提供更多场景细节。为了学习更多的针对局部生成的、有辨识力的类特定表征,还提出了一种新颖的分类模块。为了结合全局图像级别和局部特定类生成的优势,设计了一个联合生成网络,其中集成了注意力融合模块和双判别器结构。https://github.com/Ha0Tang/LGGAN
本文首次提出基于手绘素描的场景级别图像生成问题,并制作了一个称为 Sketchy COCO 的大规模合成数据集。
提出了一项新图像生成任务:通过显著对象布局生成高质量图像。此新设置允许用户仅提供突出对象的布局(即前景边界框和类别),并允许模型填充背景和对应协调的前景来完成绘图。两个主要挑战:(i)如何在没有分割图输入的情况下生成细粒度和逼真的纹理细节;(ii)如何创建背景并将其无缝编织到对象。为此提出了背景幻觉生成对抗网络(Background Hallucination Generative Adversarial Network (BachGAN)。
提出一种全景感知图像合成网络,以生成以全景图(语义和实例信息统一起来)为条件的高保真度和真实感图像。
图像处理实际上可视为图像生成的一种特殊情况,其中要生成的图像是对现有图像的修改。多数情况下,图像生成和处理一直是对原始像素进行操作的任务;但学习丰富的图像和对象表示形式方面的显著进步,为诸如文本到图像或布局到图像生成等主要由语义驱动的任务打开了道路。本文解决基于scene graphs的新问题,用户通过应用从图像生成的语义图的节点或边的更改就可以编辑图像。
本文专注于语义多模态图像合成(SMIS)任务,即生成多模态语义级别的图像。https://github.com/Seanseattle/SMIS
本文使用注意力归一化(AN)来刻画长范围依赖性,基于输入特征图的内部语义相似度将输入特征图软划分成几个区域,并分别进行归一化。它通过语义对应关系增强了远距离区域之间的一致性。与self-attention GAN相比,无需测量所有位置的相关性,可直接用于大特征图而无需太多计算负担。
对抗学习和卫星图像处理的结合应用是遥感领域的新兴领域。本文利用对抗学习解决高分辨率多光谱卫星图像的合成问题。在注意力机制下,通过时空频谱拉普拉斯注意力来调节谱带合成的过程。
引入新的局部稀疏注意力层,保留二维几何形状和局部性,用这种结构替换SAGAN的密集注意力层即可获得显着的FID、Inception score和视觉效果。https://github.com/giannisdaras/ylg
styleGAN生成图像已经非常逼真了,但仍然可能经不起细敲:可能有artifacts。本文从网络、训练方式等提出改进之法。
将学习隐式生成模型(IGM)的问题公式化为最小化 characteristic functions 之间的期望距离。在适当选择的加权分布下,匹配实际数据分布和生成数据分布的characteristic functions。通过用characteristic function distance(CFD)改进GAN,可获得一个易于实现、训练的模型。
为缓解生成对抗网络中模式坍塌,提出一种训练方法:在训练过程中将某些假样本视为真实样本。该策略可以减小生成器在发生梯度爆炸的区域中接收到的梯度值。
生成式卷积神经网络,如GAN架构依赖于基于卷积的上采样方法来生成非标量输出(图像或视频序列等)。本文表明常见的上采样方法(反卷积或转置卷积)导致此类模型无法正确再现训练数据的频谱分布。这种影响与底层架构无关,它可轻松被利用去检测生成的数据,如Deepfake。为克服当前生成模型这一缺点,提出在训练优化目标中添加一个新的频谱正则项。
生成对抗网络(GAN)所面临的主要挑战之一是,能合成在物体形状和纹理的全局和局部上具有与真实图像无法区分的自然一致性图像。为此借鉴了分割思想,提出一种基于U-Net的鉴别器架构。
尽管GAN在图像合成任务中取得了巨大成功,但很难适应不同数据集,部分原因是训练期间不稳定及对超参数敏感。这项工作提出多尺度梯度生成对抗性网络(MSG-GAN),简单但有效,从鉴别器到生成器的多个尺度的梯度流来解决此问题。该技术为高分辨率图像合成提供稳定之法,并且可替代常用的渐进式生长技术。
解读:CVPR2020之MSG-GAN:简单有效的SOTA
提出噪声鲁棒GAN(NR-GAN),即使训练图像有噪点,它也可以学习干净的图像生成器。https://github.com/takuhirok/NR-GAN/
本文提出一种稳定训练GAN鉴别器的技术。传统上,实际数据被视为正样本,而生成数据为负样本。这种正负分类标准在鉴别器的整个学习过程中一直保持不变,却不考虑生成数据的质量逐渐提高甚至比真实数据更逼真。相反,将生成数据视为未标记是更合理的,根据其质量可以是正或负样本。
网络架构自动化设计的神经架构搜索(NAS)在许多计算机视觉领域取得了可喜的成果。本文提出一种专门针对生成对抗网络(GAN)量身定制的Adversarial NAS方法,以搜索无条件图像生成任务中的高级生成模型。https://github.com/chengaopro/AdversarialNAS
现有的图像转换方法主要集中在:如何在合成视觉上有让人感到自然的效果。而生成具有正确身份标签的图像具有挑战性,且相关探索少得多。在保持身份不变的情况下,对于姿势、视角或尺寸(缩放)具有较大变形的图像转换任务,更具挑战性,例如面部旋转和对象视图变形。本文的目标是对具有细粒度类别的图像进行转换,以合成保留输入图像身份的新图像,从而可以为后续的细粒度图像识别和少样本学习任务带来好处
训练结束后,大多数当前的图像转换框架将丢弃鉴别器。本文通过重复使用鉴别器来对目标域的图像进行编码,提出NICE-GAN。与以前的方法相比,方法具有两个好处:首先,由于不需要独立的编码组件,因此结构更紧凑;其次,这种插入式编码器直接受对抗损失训练,如果应用了多尺度鉴别器,则其信息量更大,训练更有效。开源:https://github.com/alpc91/NICE-GAN-pytorch
不成对训练下的图像转换image-to-image translation (I2I)在各种应用中都取得了巨大的成功。但其泛化能力仍然是一个悬而未决的问题。本文证明了现有的I2I模型不能很好地推广到训练域之外的样本,首先,当测试样本超出其有效输入域时,I2I模型可能无法正常工作。其次,如果预期输出与模型训练的结果相距甚远,则结果不可靠。为了解决这些问题,提出了一种域自适应图像到图像转换(DAI2I)框架,该框架使I2I模型适用于域外样本。框架引入了两个子模块-一个将测试样本映射到I2I模型的有效输入域,另一个将I2I模型的输出转换为预期结果。
大多数图像转换方法将图像视为一个整体,这使得它们生成的效果内容丰富,却不够逼真现实。本文介绍了一种基于检测的无监督图像到图像转换(DUNIT)方法,该方法在转换过程中明确考虑了对象实例。方法为全局图像和实例分别提取各自表示,然后再将它们融合。
对高分辨率照片中的白天变化进行建模,例如在白天,夜晚或黎明的典型光照下重新渲染同一场景,是一项具有挑战性的图像处理任务。本文为此任务提供了高分辨率的白天转换(HiDT)模型。HiDT结合了生成式图像转换模型和新的上采样方案,后者可以高分辨率应用于图像转换。项目:https://saic-mdal.github.io/HiDT/
过去几年,不成对的图像到图像转换已取得显著进步。尽管能生成逼真的图像,但依赖于大量标记图像;最近一些方法尝试解决少样本的图像到图像转换任务。这项工作进一步在训练过程中减少源域中所需的标记数据量。为此提出通过noise-tolerant pseudo-labeling 的方式应用半监督学习,这种半监督图像转换方法称为SEMIT,它使用低至10%的源标签在四个不同的数据集上均取得了出色的结果,并且仅使用20%的标签数据即可与主流的全监督竞争对手性能相匹配。https://github.com/yaxingwang/SEMIT
本文提出将合成图像转换为真实域的方法(显式形状和姿势变形),该方法始终优于现有的图像转换方法。方法可在合成图像上训练姿势估计器,然后将其推广到真实的图像。
提出一个基于示例的图像转换框架,从不同域(例如语义分割mask或edge map或pose keypoints姿势关键点)的输入中的示例图像,合成逼真图像;输出具有与示例中语义对应、样式风格(例如颜色,纹理)一致。
使用图像转换进行无监督不成对、多模态的图像配准。
结直肠癌筛查方式如光学结肠镜检查(OC)和虚拟结肠镜检查(VC),对于诊断并最终清除息肉(结肠癌的前体)至关重要。非侵入性VC通常用于检查3D重建结肠(来自CT扫描)是否有息肉,如果发现,则执行OC程序以通过内窥镜物理穿越结肠并去除这些息肉。本文提出Extended and Directional CycleGAN,用于在OC和VC之间进行不成对图像转换。
更多医学图像GAN:【1】GAN在医学图像上的生成,今如何?
一个好的图像转换模型应可以学习不同图像域间的映射,同时:1)生成图像多样化;2)在多个域上具有可扩展性。现有方法则无法很好同时解决上述问题。提出StarGAN v2,一个可同时解决上述问题、并在基线上表现出明显改善效果的单一框架。在CelebAHQ和新的动物面孔数据集(AFHQ)上进行视觉质量、多样性和可扩展性方面验证其有效性。
解读:StarGAN第2版:多域多样性图像生成
提出一种交互式方法来合成图像中面部毛发的逼真变化。
研究将噪声注入到生成对抗网络(GAN)中的不同设计选择,以解耦潜在空间。
本文提出的Adversarial Latent Autoencoder (ALAE)是一种结合了自编码器、更具通用性的、利用GAN方法的架构,它可以进行更“解耦”的表征学习。ALAE不仅可以生成可以和StyleGAN媲美的1024大图,还可以对真实image进行更好的重建、编辑等。
解读:人脸生成新SOTA?它还是GAN。
StyleGAN可以生成具有极具真实感的肖像图像,但缺乏对3D可解释的语义参数(如脸部姿势,表情,和场景照明)。3DMM提供了语义参数以控制,但是在渲染时缺乏真实感,且仅对人脸进行建模,而对肖像其他部分(头发、嘴部内部、背景)不进行建模。本文提出通过3DMM对预训练、固定的StyleGAN进行面部语义参数控制的方法;方法以自监督式训练,无需人工标注。
本文提出了一种基于学习的方法,用于从单个肖像图像恢复头部的3D几何形状;方法是无监督的,没有任何真实的3D数据。使用参数化3D面部模型、和包括头发耳朵等在内其他头部区域的深度图来表示头部几何形状。提出了一种两步学习方案:
提出了一种更具可控性的人脸图像生成方法,以解耦表示人的身份,表情,姿势和光照因素等。将3D先验嵌入到对抗性学习中,并训练网络以模仿3D面部变形和渲染过程的图像形成。为了处理由真实和渲染图像之间域差引起的自由度,进一步引入Contrastive Learning,以通过比较生成的图像对来促进解纠缠。https://github.com/microsoft/DisentangledFaceGAN
尽管人脸图像处理已取得了巨大发展,但大多数方法要么在一组预定义的面部属性上进行操作,要么只能给用户提供很小的交互操作自由空间。本文提出为MaskGAN,可进行多种交互式的人脸编辑。本文关键之处是,语义mask可作为具有高保真度、灵活的面部操作的中间表示。MaskGAN具有两个主要组件:1)密集映射网络(DMN)和 2)编辑行为模拟训练(EBST)。具体来说,DMN学习用户自由修改的mask和目标图像之间的映射,实现多种生成结果。EBST在源mask上对用户编辑行为进行建模,从而使整个框架对各种操纵的输入更加健壮。具体来说,它引入了dual-editing consistency作为辅助监督。为便于进行广泛的研究,还构建了一个名为CelebAMask-HQ的细粒度mask的、大规模高分辨率数据集。https://github.com/switchablenorms/CelebAMask-HQ
在人脸编辑里,当前的方法仍然可能产生伪影和模糊(例如在处理诸如从愤怒到笑之类的大幅表情转换时)。为了解决这些局限性,提出Cascade Expression Focal GAN(Cascade EF-GAN)能够以局部表情为重点进行渐进式表情编辑。通过将大幅度表情转换分成多个小面部表情来设计级联式的转换,有助于抑制重叠的伪像并产生更逼真自然的效果。
对GAN如何将从随机分布中采样的潜码映射到真实图像仍缺乏足够的了解。在这项工作中,提出了一个称为InterFaceGAN的新颖框架,用于通过解释GAN所学到的潜在语义来进行人脸编辑。作者发现,训练好的生成模型的潜码实际上在线性变换后即可学到解纠缠的表示。作者探索了各种语义之间的纠缠现象,并尝试对人脸属性进行更精确控制生成。https://genforce.github.io/interfacegan/
基于已经学习到通用人脸分布的预训练StyleGAN模型,本文提出了一种能够生成与给定的一幅图像示例落于相同分布的人脸图像。给定目标图像,可以通过这种迭代优化方案快速调整模型的权重,以将输出的高级分布转移到目标分布。这样一来,可以生成无限数量的人脸(这些人脸都继承了普通人脸和一次性实例的分布)。新生成的数据可以用作其他下游任务如增强训练数据。
跨传感器gap是异质人脸识别Heterogeneous Face Recognition(HFR)的挑战之一。近来一些方法试图用生成网络解决,但它们大多数有不同面部模式之间misalignment的困扰。本文提出Pose Aligned Cross-spectral Hallucination (PACH)方法去分解独立factor并在各自阶段处理。
本文提出一种复制粘贴生成对抗网络(CPGAN),以恢复真实高分辨率(HR)人脸图像,同时补偿低照度和不均匀照明。CPGAN中两个关键组件:: internal 和 external的 Copy and Paste nets (CPnets)。
深度神经网络编辑图像,尤其是人脸图像,已取得巨大成功。但它们通常仅在有限分辨率工作、人脸编辑经常会导致个性身份丢失;为此,这项工作提出应用smooth warp fields进行语义图像编辑
提出一种头部重现系统,由潜在姿势表示驱动.
提出一种GAN模型,利用预先训练的分类模型学习的深度特征空间。受经典图像金字塔表征启发,将模型构建为语义金字塔式的生成:低层信息包含的是精细的特征(纹理细节等),高层/深层的信息则涵盖高级语义信息(类别等)。也就是说,给定参考图像,使用分类模型提取一组特征,所提出的生成模型可以根据它们其中不同的语义级别信息生成不同的图像样本。这种设计可以有效完成三个目标:利用预训练分类模型不同级别的特征;灵活性和可控性;生成多样化的图像。证明了所提方法可以作为一种通用灵活的框架,可用于各种经典和新颖的图像生成任务:生成与参考图像具有可控制语义相似度的图像,图像修复和组合等。https://semantic-pyramid.github.io/
解读:语义金字塔式-图像生成:一种使用分类模型特征的方法
提出MixNMatch,一个可以在极小监督情况下完成对图像中的背景、物体姿势、形状和纹理等进行分开(解耦)的条件生成模型,分解后可以通过混合它们以生成新的图像。方法基于2019年的FineGAN(一个无条件的生成模型)框架进行改进,以适用于条件式的图像转换任务。所用的监督信息仅仅是bounding box,而无需其他监督信息。https://github.com/Yuheng-Li/MixNMatch
解读:拆解组新的GAN:解耦表征MixNMatch
将图像层从单个混合图像分开是一项重要但具有挑战性的任务。本文为图像分离提出统一的框架“deep adversarial decomposition 深度对抗分解”。方法在对抗训练下处理线性和非线性混合,可在多种计算机视觉任务(去雨,去反光/阴影)上达到最好的结果。
本文尝试解决从单个图像中去除反射的问题(通过玻璃表面导致),这是不适定的、具有挑战性的问题,它对照片增强起至关重要。提出一种迭代Boost卷积式的LSTM网络(IBCLN),该网络能够进行级联式预测以去除反射。作为一个级联网络,它以彼此提高预测质量的方式来迭代地优化传输层和反射层的估计,并使用LSTM传输级联步骤中的信息。
近来,基于深度学习的单图像反射分离方法已被广泛研究。但大多数以多种方式合成大量训练图像对(即有反射和无反射),偏离了基于物理的方向。本文基于物理的渲染合成所需的训练图像,并提出相应的网络结构和损失项。为更好分离,提出模块,回溯网络(BT-net)
对通过玻璃拍摄的图像,现有方法着眼于将反射分量视为噪声来恢复背景场景。但玻璃表面反射的场景可能还包含重要信息,需要恢复,特别是对于监控或刑事调查。本文旨在从混合图像中恢复反射场景,而不是从混合图像中除去反射分量。首先提出一种获取此类GT及其相应输入图像的策略。然后,提出一个两阶段框架来从混合图像获得反射场景。(用shift-invariant损失训练网络
生成与真实环境阴影效果一致的虚拟对象阴影很重要,在计算机视觉和增强现实应用程序中具有挑战性。为解决这个问题,提出一种用于阴影生成的端到端生成对抗网络,名为ARShadowGAN,用于single light scenes 中的增强现实。ARShadowGAN充分利用了注意力机制,能直接对虚拟对象阴影与现实环境之间的映射关系进行建模,而无需任何照明和3D几何信息的显式估计。此外,收集了一个图像集训练和评估提出的ARShadowGAN。https://github.com/ldq9526/ARShadowGAN
消除文档图像中的阴影可增强文档视觉质量和可读性。现有大多数用于文档图像阴影去除的算法都属于人工式启发式算法,对于具有不同特征的文档通常不具有鲁棒性。本文提出Background Estimation Document Shadow Removal Network(BEDSR-Net),第一个专门设计用于文档图像阴影去除的深度网络。为利用文档图像的特定属性,设计背景估计模块以提取文档的全局背景色。在估计背景颜色的过程中,模块还学习有关背景像素和非背景像素的空间分布信息(将此类信息编码为注意力图)。实验表明在合成图像上训练的模型对于真实照片仍然有效;并提供了文档的大量合成阴影图像以及它们相应的无阴影图像和阴影mask。
逼真的颜色纹理生成是RGB-D表面重建的重要步骤,但由于重建的几何结构不准确,相机未对准以及与视图相关的成像伪影,仍具挑战性。这项工作提出一种使用从弱监督视图获得的条件对抗损失来生成颜色纹理的新颖方法。https://github.com/hjwdzh/AdversarialTexture
提出域转换和立体匹配网络端到端框架。
提出一种用于合成图像和真实图像结合的方法,可用于人脸的surface normal estimation和室外场景的monocular depth estimation https://github.com/koutilya-pnvr/SharinGAN
3D方面的应用。用于交互式编辑,形状解析和构建紧凑的3D表示形式
视图合成可以在给定一个或多个图像的情况下、生成场景的新视图。这具有挑战性;它需要从图像中全面了解3D场景。当前的方法通常使用多个图像,train on ground-truth depth或合成数据。本文在没有任何真实3D信息的真实图像上进行训练。
图像可能被出于恶意目的被操纵,例如copy、move来隐藏或复制某些内容。在图像中发现这些复制移动伪造对人类和机器都具有挑战性的。如,用相同背景的图像内容来替换背景相同的对象。本文提出一种具有双重注意力模型的生成对抗网络,以检测和定位复制-移动伪造内容。
社会上对计算机视觉技术前所未有的使用、对数据隐私日益重视。许多现实世界场景中,在诸如人物跟踪或动作识别之类的,重要的是在处理数据同时谨慎考虑以保护人物身份隐私等。本文提出CIAGAN,一种基于条件生成对抗网络的图像和视频匿名化模型,能删除面部和身体的辨识性特征,同时生成可用于任何计算机视觉任务(例如检测或跟踪)的高质量图像和视频。https://github.com/dvl-tum/ciagan
与MobileNet-v3的0.44G MACs per image相比,GauGAN要281G MAC,这使得交互式部署变得很困难。本文提出提出通用的压缩框架,以减少cGAN中生成器的推理时间和模型大小。在不降低图像质量的前提下,将CycleGAN的计算量减少了20倍以上,将GauGAN的计算量减少了9倍以上,为交互式图像合成铺平了道路。https://github.com/mit-han-lab/gan-compression
尽管生成对抗网络(GAN)在图像生成里取得了巨大成功,但是将训练好的GAN模型应用到真实的图像处理任务仍然具有挑战性。无监督的GAN中,生成器通常将潜在空间Z映射到图像空间image,也就是没有地方提供去采纳一个真实图像作为输入,这导致训练好的模型无法进行很好地进行后续图像处理。为了让训练好的GAN能用于处理图像,现有方法尝试以重新反向传播(寻找合适的Z)或者添加一个额外的编码器encoder将图像映射到潜在空间。但多数情况下两者的重建并不理想。这项工作提出一种新的逆映射(image->Z)方法,将训练好的GAN作为一个有效的先验去处理多种图像处理任务。具体而言,给定需要做逆映射的GAN模型,使用多个潜码Z利用该GAN模型生成多个特征图(映射到生成器的某个中间层),然后计算它们的重要性系数最终组合并生成目标图像。这种多参数化潜码Z训练的方式可以显著提高图像的重建质量。而高质量的图像重建可以使得训练好的GAN作为一种先验应用于许多真实场景下的应用,例如:图像上色、超分辨率、图像修复、图像语义物体操作编辑等等。同时论文还进一步分析了训练好的模型中每一层的表征属性,去解释每层所能表示的知识。
解读:CVPR2020之多码先验GAN:预训练模型如何使用?
生成外观和动作逼真的人类视频是一项挑战,本文引入一种新的时空生成模型G3AN,旨在捕获高维视频数据的分布,并以纠缠的方式对外观和运动进行建模。https://wyhsirius.github.io/G3AN/
提出“Video Inference for Body Pose and Shape Estimation”(VIBE),设计对抗性学习框架,利用现有大规模运动捕捉数据集(AMASS)来区分真实的人类动作和由所提出的temporal pose and shape regression networks 生成的动作;定义了一种具有自注意力机制的新型时态网络架构,表明对抗训练在序列级别上所生成运动学上合理的序列。https://github.com/mkocabas/VIBE
提出一种新颖的方法,用于将对象(特别是人)插入现有图像中,使它们以逼真的方式融合,同时尊重场景的语义环境。
近年来GAN在逼真的图像合成上取得了令人印象深刻的效果,这一进步孕育着一种希望:终有一天经典的渲染pipeline可以被高效模型所取代,而直接从图像学习。当前的图像合成模型在2D域中运行,在其中难以解开3D属性(例如相机视点或物体姿势)的挑战。此外,它们缺乏可解释和可控制的表示形式。本文主要假设是,由于我们周围的物理世界本质上是三维的,因此图像生成过程应该在3D空间中建模;定义了3D可控图像合成的新任务,并提出一种通过在3D空间和2D图像域中进行推理来解决该任务的方法。
跨模态行人重识别(cm-ReID)是智能视频分析中具有挑战性、关键的技术。现有工作主要致力于通过将不同的模态嵌入同一特征空间中来学习模态共享表示,降低特征独特性的upper bound。本文提出跨模态共享特定特征迁移算法(称为cm-SSFT),在两个主流基准数据集SYSU-MM01和RegDB上分别比最新技术的mAP高22.5%和19.3%。
对抗攻击和ReID系统。https://github. com/whj363636/Adversarial-attack-onPerson-ReID-With-Deep-Mis-Ranking
尽管深度神经网络(DNN)已广泛用于基于视觉的自动驾驶系统中,但它们容易受到对抗攻击,在测试期间输入中的小幅度扰动会导致输出发生剧烈变化。本文提出PhysGAN,它以连续的方式生成物理世界对抗示例,以误导自动驾驶系统。作者希望工作可以促进用于自动驾驶安全可靠的机器学习系统研究。
通常,微调自监督的预训练模型用于下游任务,以获取更快速度或更高精度。但从预训练中获得鲁棒性尚待探索,本文将对抗训练引入自监督,首次提供通用的鲁棒预训练模型。https://github.com/TAMU-VITA/ Adv-SS-Pretraining
深度神经网络(DNN)容易受到对抗样本的攻击。本文提出一种“对抗伪装”(AdvCam)方法,可将对抗样本制作和伪装成看起来对人类观察者合情合理的自然风格,可帮助进行攻击以评估DNN的鲁棒性,还可用于保护私人信息,以防止其被深度学习系统检测到。
通过在输入空间中提出一种自监督对抗训练机制,这种设计下的防御是一种可泛化的方法,针对未见的对抗攻击提供强大的鲁棒性。https://github.com/Muzammal-Naseer/NRP
机器学习模型容易受到对抗样本的攻击。对于黑盒设置,当前的substitute attack需要预训练的模型来生成对抗样本。但实际任务中很难获得预训练模型。本文提出一种data-free substitute training method(DaST),无需任何实际数据即可获得对抗性黑盒攻击的替代模型。https://github.com/zhoumingyi/DaST
深度神经网络在3D点云识别方面取得了巨大进步,最近的工作表明,这些3D识别网络易受各种对抗样本攻击,这些攻击方法包括基于优化的3D Carlini-Wagner攻击、基于梯度的迭代快速梯度法和基于骨架分离的point-dropping等。但优化/迭代方案非常慢,或不灵活以支持特定类别的针对性攻击。为此本文提出一种标签引导对抗网络(LG-GAN),用于实时灵活的目标点云攻击。
更多分享:
《基于深度学习的表面缺陷检测方法综述》
《零样本图像分类综述: 十年进展》
《基于深度神经网络的少样本学习综述》
附下载 | 《可解释的机器学习》中文版
附下载 |《TensorFlow 2.0 深度学习算法实战》
附下载 |《计算机视觉中的数学方法》分享
CVPR 2020 | 几篇GAN语义生成论文
CVPR 2020 | GAN中的反射/光和阴影
CVPR 2020 | 几篇 image-to-image 论文速递
CVPR 2020 | 人脸图像GAN(附多篇论文下载)
2020年5月60篇GAN论文汇总
拆解组新的GAN:解耦表征MixNMatch