CVPR2021论文--深度学习GAN&&图像处理--论文笔记

/1  Image-to-image Translation via Hierarchical Style Disentanglement
paper:https://arxiv.org/abs/2103.01456
code:https://github.com/imlixinyang/HiSD

 

/2  Encoding in Style: a StyleGAN Encoder for Image-to-Image Translation

(样式编码:用于图像到图像翻译的StyleGAN编码器)
paper:https://arxiv.org/abs/2008.00951
code:https://github.com/eladrich/pixel2style2pixel
我们提出了一个通用的图像到图像转换框架,Pixel2Style2Pixel (pSp)。pSp框架是基于一个新的编码器网络,它直接生成一系列的风格向量,这些向量被输入到一个预先训练好的StyleGAN生成器中,形成扩展的W+潜在空间。我们首先证明我们的编码器可以直接嵌入真实图像到W+潜在空间,而不需要额外的优化。

我们进一步介绍一个专用的identity损失,它被证明在一个输入图像的重建中实现改进的性能。我们演示了pSp是一个简单的架构,通过利用一个训练有素的固定生成器网络,可以很容易地应用于广泛的图像到图像转换任务。通过Style表示来解决这些任务的结果是一种全局方法,它不依赖于局部像素到像素的对应,并进一步通过样式的重新采样支持多模态综合。值得注意的是,我们证明pSp可以训练在没有任何标记数据的情况下将人脸图像对齐到正面姿态,为模糊任务(如从分割地图生成条件人脸)生成多模态结果,并从相应的低分辨率图像构建高分辨率图像。

CVPR2021论文--深度学习GAN&&图像处理--论文笔记_第1张图片

我们的pSp架构。首先在一个ResNet架构上使用一个标准的特征金字塔来提取特征图。然后,对于18个目标的风格的每一个,一个小映射网络训练中提取相应的学习风格特征map,在风格(0−2)产生的小的特征map,风格(3−6)映射中等的特征map,(7−18)映射最大的特征map。映射网络map2style是一个小型的全卷积网络,它使用一组2步幅卷积,然后是LeakyReLU激活,逐渐减小空间大小。每个生成的512向量,然后输入到StyleGAN中,从其匹配的仿射变换(记为A)开始。

/3 AttentiveNAS: Improving Neural Architecture Search via Attentive Sampling

(通过注意力采样改善神经架构搜索)
paper:https://arxiv.org/pdf/2011.09011.pdf

神经结构搜索(NAS):强化学习来优化神经网络的结构和参数,更快找到最好的神经网络

NAS在设计最先进的模型方面显示出了巨大的潜力,这些模型既精确又高效。近年来,BigNAS等两阶段NAS将模型训练和搜索过程解耦,取得了显著的搜索效率和准确性。两阶段NAS在训练过程中需要对搜索空间进行采样,这直接影响最终搜索模型的准确性。尽管均匀抽样因其简单性而得到广泛应用,但它不考虑模型性能的Pareto front(可行域内最接近真实值的解),而Pareto front是搜索过程中的主要关注点,因此错失了进一步提高模型精度的机会。在这项工作中,我们提出AttentiveNAS,以实现更好的Pareto 性能。在训练过程中,我们还提出了有效识别Pareto 网络的算法。无需额外的再培训或后处理,我们就可以通过广泛的FLOPs同时获得大量的网络。

/4 Efficient Conditional GAN Transfer with Knowledge Propagation across Classes

(高效的有条件GAN转移以及跨课程的知识传播)
paper:https://arxiv.org/abs/2102.06696
code:http://github.com/mshahbazi72/cGANTransfer

生成对抗网络(GANs)显示了在无条件和条件图像生成的令人印象深刻的结果。在最近的文献中,它表明,预先训练的gan,在不同的数据集上,可以转移,以改善从小目标数据的图像生成。然而,与无条件知识转移相比,条件知识转移提供了新的机会。特别是新班级可以借鉴相关旧班级的知识,也可以相互分享知识来提高培训。这促使我们研究知识跨阶层传播的有效条件GAN转移问题。为了解决这个问题,我们引入了一种新的GAN迁移方法来显式地将知识从旧类传播到新类。其核心思想是实施常用的条件批处理规范化(BN),从旧类中学习新类的特定类信息,并在新类之间实现隐性知识共享。这允许从旧类到新类的有效知识传播,BN参数随新类的数量线性增加。广泛的评估表明,与最先进的竞争对手相比,所提出的方法具有明显的优势,有效的条件氮化镓转移任务。

/5 Hijack-GAN: Unintended-Use of Pretrained Black-Box GANs(Hijack-GAN:意外使用经过预训练的黑匣子GAN)
paper:https://arxiv.org/pdf/2011.14107.pdf

 

Rethinking Channel Dimensions for Efficient Model Design(重新考虑通道尺寸以进行有效的模型设计)
paper:https://arxiv.org/abs/2007.00992
code:https://github.com/clovaai/rexnet

 

Inverting the Inherence of Convolution for Visual Recognition(颠倒卷积的固有性以进行视觉识别)

 

 

RepVGG: Making VGG-style ConvNets Great Again
paper:https://arxiv.org/abs/2101.03697
code:https://github.com/megvii-model/RepVGG
解读:

RepVGG:极简架构,SOTA性能,让VGG式模型再次伟大:https://zhuanlan.zhihu.com/p/344324470

Transformer

 

 

Transformer Interpretability Beyond Attention Visualization(注意力可视化之外的Transformer可解释性)
paper:https://arxiv.org/pdf/2012.09838.pdf
code:https://github.com/hila-chefer/Transformer-Explainability

 

 

UP-DETR: Unsupervised Pre-training for Object Detection with Transformers
paper:https://arxiv.org/pdf/2011.09094.pdf
解读:无监督预训练检测器:https://www.zhihu.com/question/432321109/answer/1606004872

 

Pre-Trained Image Processing Transformer(底层视觉预训练模型)
paper:https://arxiv.org/pdf/2012.00364.pdf

 

你可能感兴趣的:(图像彩色化,深度学习,GAN)