Paper Reading-list

Denoising 

  • Self-Supervised Image Denoising via Iterative Data Refinement  CVPR22 (unsupervised )
    paper: https://arxiv.org/abs/2111.14358
    code: https://github.com/zhangyi-3/IDR

  • CVF-SID: Cyclic multi-Variate Function for Self-Supervised Image Denoising by Disentangling Noise from Image  CVPR22(自监督,前提条件是noise图像经过三个子网分别分出了clean image, content 相关noise,content无关noise;反复使用这个条件)

Super Resolution

  • DCLS Deep Constrained Least Squares for Blind Image Super-resolution (physical formulation, optimization, CVPR22 )
    paper: https://arxiv.org/pdf/2202.07508.pdf
    code: https://github.com/Algolzw/DCLS

  • Learning the Degradation Distribution for Blind Image Super-Resolution (GAN, data augmentation; real-world data CVPR22 )
    paper: https://arxiv.org/pdf/2203.04962.pdf
    code: https://github.com/greatlog/UnpairedSR

  • Details or Artifacts_ A Locally Discriminative Learning Approach to realistic SR  (GAN; learning  artifact mask; variance CVPR22 )

  • ICCV_2021_Fourier_Space_Losses_for_Efficient_Perceptual_Image_Super-Resolution_ICCV_2021_paper  (Frequency loss: amplitude and phase)

  • reflash dropout in image super-resolution (CVPR22, 在SR任务里引入了dropout, 2d时就是nn.dropout2d,:Randomly zero out entire channels:A channel is a 2D feature map. Each channel will be zeroed out independently on every forward call with probability :attr:`p` using samples from a Bernoulli distribution; 对于多种退化时,表现还是很不错的,dropout可以发挥性能)

  • robust real-world image super-resolution against adversarial attacks (MM21 针对之前有人做超分里面的attack,进行防御的论文;通过频域(DCT)学习样本种是否被attack,然后条件注入主网来学习frequency mask,从而消除attacks)

  • Discrete Cosine Transform Network for Guided Depth Map Super-Resolution (CVPR22 oral带引导的深度图像超分,based on discrete cosine transform, semi-coupled convolutional feature extraction, and adaptive edge attention; 其中DCT是来自于对目标函数进行求解时带来的,然后基于图像层面的引入到特征层面中,蛮有意思的,)

  • Real-ESRGAN: Training Real-World Blind Super-Resolution with Pure Synthetic Data (ICCV21 workshop, https://github.com/xinntao/Real-ESRGAN, 使用了多种退化去拟合real-world中的超分场景,更加切合真实情况,(比如sinc滤波是去产生边缘振铃),两阶段训练;使用了unet discriminator + spetral norm来稳定训练)

  • Spatial-Temporal Space Hand-in-Hand: Spatial-Temporal Video Super-Resolution via Cycle-Projected Mutual Learning  (T-VSR CVPR2022, 核心的思想是来自于深度反向投影网络的那篇超分网络,希望充分发掘low-resolution 与high-resolution之间的关联,学习范式与之前论文也有区别)

  • light field super-resolution with zero-shot learning (CVPR21 oral, 基于之前zero-shot SR继续迁移到光场SR之中,不过光场SR特点在于应用不通view视角下的信息来作为辅助,但是中间可以view的图片可以作为GT可以无监督进行对齐和聚合;还有实验验证了对于zero-shot数据集量较少的情况时,提前up-sampling确实有效)

Transformer

  • U-former
  • Restormer
  • Swin tansformer
  • SwinIR  Swin Unet

Restoration

  • Deep Generalized Unfolding Networks for Image Restoration (CVPR22 提出了一种更加generalized的unfolding网络,本质还是近端梯度算子,不过在求解第一步迭代时根据退化矩阵A是否未知分为不同的情况进行;还有就是引入了inter-stage information boardcast, 这个可也会更加使unfolding的结构更加general)
  • Learning Multiple Adverse Weather Removal via Two-stage Knowledge Learning and Multi-contrastive Regularization: Toward a Unified Model (CVPR22, 一个unified 的方式进行多种类型降质共同恢复,分成两阶段,第一阶段是利用不同types的teacher网络学习的模型对student网络做一个引导约束,得到一个mature的student网,具体是二者project到common space;第二阶段是借助对比学习进行finetune,提性能。一个新的setting,就是额外进行准备数据。 code)
     

Inpainting

  • Bridging Global Context Interactions for High-Fidelity Image Completion CVPR22  (Transformer, non-overlapping, corase-to-fine)
    paper: https://arxiv.org/abs/2104.00845
    code: https://github.com/lyndonzheng/TFill

  • image inpainting with external-internal learning and monochromic bottleneck (CVPR21,正交于之前的inpainting方法,两阶段训练,第一阶段是学习单色图的补全,使用的大数据集,即external data; 第二阶段是使用的是internal data,类似于few shot,只训练在当前domain 下的少部分数据,获取的模型)

Deraining

  • Exploring Fourier Prior for Single Image Rain Removal (IJCAI 2022, 从频域角度去考虑了去雨先验,就是input (雨图) 和GT分别各自分解到幅值和相位,[A_amp, A_phase],  [B_amp, B_phase],然后交换pair图的各自幅值和相位,发现rain degradation 主要集中于幅值上,相位影响反而比较小;因此文章分成两段分别取实现幅值和相位的恢复)

Deblurring

  • Deep Residual Fourier Transformation for Single Image Deblurring (arxiv, motivation 是两个点Resblock 因为学习残差会overlook 低频成分,在ResBlock侧分支增加了频域分支,还可以增加global discrepancy )

UDC

  •         BNUDC: A Two-Branched Deep Neural Network for Restoring Images from Under-Display Cameras  (CVPR22 重新分析了UDC图像的降质过程(低频的color shift,高频的flare),然后基于降质构建了双分支网络分别从低频、高频两段来进行分析;看完确实熟悉了这个任务及相应的数据集)

Demoireing

  • Video Demoireing with Relation-Based Temporal Consistency   (CVPR22 第一个video Demoireing ,视频就是引入Temporal Consistency 信息,提了一个简单work的Temporal Consistency 约束,就是直接 相连两帧的输出的差与相连两帧的GT的差进行做差,引入相邻temporal 信息,不过也有改进版就是对差值在做差前进行统计值计算(使用的局部窗口的一阶mean values))

Accessment

  • Incorporating Semi-Supervised and Positive-Unlabeled Learning for Boosting Full Reference Image Quality Assessment (CVPR22, 半监督提升RQA方法的评估性能;学到的是proposed local sliced Wasserstein distance (LocalSW) calculation module
    )

Frequency

  • Focal Frequency Loss for Image Reconstruction and Synthesis (ICCV21,从频域出发去做;包括自适应的频域loss函数,对存在的空间损失函数的的补充,其提供了强大的抗干扰能力来对抗由于神经网络的不确定性偏差造成的重要频域的丢失。)

Low-light Image Enhancement

  • Semantically Contrastive Learning for Low-light Image Enhancement (AAAI22,引入了对比学习及语义信息来增强低光图像;对比学习就是拉近输出及normal 光照图像之间的距离,语义信息就是分割图,希望能区别对待,所以这个数据集就是用分割领域的数据自己拟合的低光图再训练的;对比学习与之前的Re-ID用的rank loss都使用了margin,目的就是希望输出及normal之间的距离更小于输出与negative sample之间的距离。)
  • learning multi-scale photo exposure correction (CVPR21,第一篇多曝光矫正,印象:提数据集+论证为何要coarse-to-fine)
  • Exposure normalization and compensation for multiple exposure correction (CVPR22,思想类似于下面Re-IDstyle normalization and restitution,不过多了一步使用连续学习进行finetune)
  • SNR-Aware Low-light Image Enhancement (CVPR22, 引入了一个SNR prior 其实就是一个与原图size一致的weight map;在低光增强任务里面不同区域的光照不同因此SNR不同(这一点通过例子可视化进行的),然后引入了transformer+CNN:transformer在聚合全局信息时考虑到了不同区域的SNR不同,由SNR map得到hard mask,减少对低SNR区域的信息聚合;两分支特征融合时也考虑到了.)

  •  

harmonization

  • ssh a self-supervised framework for image harmonization (ICCV21,自监督harmonization,自监督就是充分利用输入图像自己的内容,用图像自身设置退化来获取训练样本(triplets ),网络实现时就是解耦contents 及appearance representation,然后test时就是取参考img的appearance及输入img的contents,重组就可以得到harmonization结果;benchmark也与之前的有变化)
  • RainNet: region-aware adaptive instance normalization for image harmonization (CVPR21, 使用背景的IN的scale 及bias因子放到前景需harmonization上)
  • Deep image-based illumination harmonization (CVPR22 既生成harmonization图像也要保证插入的物体有一个融合环境的阴影;类似RainNet使用了IN 交换,不过增加了一个illumination decoder来估计object及background的光照图,这里就时类似于relight了)

Dehaze

Reflection

  • adaptive network combination for single-image reflection removal a domain generalization perspective (arxiv, 从domain 泛化角度来提升现有的去反射方法的性能;核心思想是ensemble (第一种是通过加权融合不同experts的输出,第二种是对于不同的experts的训练参数进行插值))

Shadow 

  • benchmarking shadow removal for facial landmark detection and beyond (arxiv, low level for high level,  adversarial attack: data generation)
  • shadows can be dangerous: stealthy and effective physical-world adversarial attack by natural phenomenon (CVPR22, 利用shadow进行攻击的例子,目标任务时road sign classification,其实就是利用对抗攻击这个工具去生成带阴影的攻击样本,这个是属于黑盒攻击,因为只知道目标网络输入和输出,对目标网的参数未知;比较有意思是阴影会随着时间变化而变化,这样可以造成随time而攻击变化)
  • unsupervised portrait shadow removal via generative priors (MM21,任务是基于之前sigra的人脸阴影去除去做的,又是另一种对阴影图像的简单建模;这里是利用styleGAN在训人脸时的已知信息,想找到无阴影时人脸的初始latent vector,优化更新这个vector,让其生成无阴影的人脸图像,然后使用VGGloss 做loss;默认shadow-full 和shadow-free 之间存在着直接的变换关系)
  • arshadowgan: shadow generative adversarial network for augmented reality in single light scenes (CVPR20 shadow的另一个应用for AR 增强现实的,生成与环境种参考阴影更相似的阴影图像)

Sgmentation

  • Semi-supervised semantic segmentation with cross-consistency training  CVPR
  • GuidedMix-Net: Semi-supervised semantic segmentation by using labeled images as reference  AAAI22 (labeled-unlabeled image pair interpolation; pseudo mask generation)
  • Fourier Domain adaptation for semantic segmentation  CVPR20 (风格转换存在在低频中,进行交换)
  • Learning Fog-invariant Features for Foggy Scene Segmentation (CVPR22, domain adaptation的思想,把不同的fog场景当成不同的风格,通过特定moudle学习到不同的fog特征,那么第二阶段在分割时,使得不同的fog场景输入分割的网络时,分割网的特征送到特定的module时通过loss约束让其分不开,这样子就可以学习到invariant 表征,可以更好的泛化)
  • Semantic-Aware Domain Generalized Segmentation (CVPR22,增强泛化能力的方式是使用Normalization 和 Whitening,两个模块Semantic-Aware Normalization (SAN) and
    Semantic-Aware Whitening (SAW);norm改进了对于每个class对应的区域进行norm,Whitening是改进group Whitening,GIW只对相邻通道特征图进行去相关性操作,却没有考虑寻找更合适的通道组合。我们知道,每个通道的特征实际上提取的是对应某一个类别的关键语义信息。因此,我们可以以语义类别的信息来进行分组,语义信息就来自SAN中的Classier中的权重。它代表了特征图中每个通道的特征图对不同类别的重要程度。确实没有经过特征变换的可视化之类的)
  • Segmenter: Transformer for Semantic Segmentation  (ICCV21 transformer 做分割,建立不同的小patches之间的依赖的可视化图做的不错)

Translation 

  • ICCV_2021_Frequency_Domain_Image_Translation_More_Photo-Realistic_Better_Identity-Preserving_ICCV_2021_paper  (利用高频的约束保持identity structure; clear issue: over-adapt; 低频: color + illumination // 高频 : object structure)
  • Domain Enhanced Arbitrary Image Style Transfer via Contrastive Learning  (SIGGRAPH ’22 核心就在于使用对比学习来学习不同的style的表征,可以先用random resizing, cropping, and rotations操作后的图片I成为I+作为positive sample;再训练transfer网络G时充当loss 约束,此时的正样本是Is和Ics,负样本是其他的style图片)

Basic Network 

  • Drop an Octave: Reducing Spatial Redundancy in Convolutional Neural Networks with Octave Convolution  (save computation) 
  • NeurIPS-2020-fast-fourier-convolution-Paper  (low/high frequency interactively processing)
  • Simple Baselines for Image Restoration (旷世 arxiv, 可以作为low-level vision任务的basic network NAFNet)

Knowledge Distillation

  • Focal and global knowledge Distillation for detectors (CVPR22, object detection不易蒸馏; Focal : focus on the teacher's critical pixels and channels)

Face Forgery Detection

  • face x-ray for more general face forgery detection  (CVPR20, 论文意识到现有的face manipulation的方法都存在共通的步骤:需要blending the altered face into an existing background image. 那么这篇的目的就是去detection blending boundary来判断是否存在face forgery, 对于 blending boundary 的检测是与具体使用那种face manipulation(比如有deep fake/Face2Face/FaceSwap/NeuralTexture)方式无关的,这是一种general case, 那么直观上泛化性也就会更好 ; 训练集中的mask 是由landmark估计的方法来得到的; Limitation: 降质的face图或者整个都是forgery图)
  • Detecting Deepfakes with Self-Blended Images (CVPR22 oral 这篇感觉是face X-ray的升级版,face x-ray 在blending时使用的是两个不同ID的face,但是这篇使用的是同一个ID的face的的Self-Blend去获取 more general and hardly recognizable fake samples 从而鼓励分类器学习更通用更鲁棒的表征。 )
  • local relation learning for face forgery detection  (AAAI21 目的就是学更鲁棒更普适的特征,然后提出了一种local relation learning 的方式去关注local regions 这种localized descriptor;看做法是将不同level的feature 切成小patches,然后去计算patches之间的similarity,)
  • Self-supervised Learning of Adversarial Example: Towards Good Generalizations for Deepfake Detection (CVPR22 从数据augmentation的角度来出发提升模型性能,使得模型对diverse types of forgeries敏感;做法:通过各种forgery的配置(region selection+ blending type selection + blending ratio)来拟合数据池,再训练模型。也用到了对抗生成的方式构建样本,)
  • Exploring Frequency Adversarial Attacks for Face Forgery Detection (CVPR22, 针对Face Forgery Detection进行 对抗攻击的)
  • 从生成过程中考虑 

Person-ReID

  • style normalization and restitution for generalizable person re-identification (CVPR20,分析实验都很到位,值得阅读;核心的目的就是分离出不同“style”(不同domain下)的identity-relevant和identity-irrlevant特征;具体做的时候,使用IN及restitution来消除style带来的影响,然后使用早期的对比学习中的rank loss来实现更好的identity-relevant特征学习)
  • Attack-Guided Perceptual Data Generation for Real-world Re-Identification (ICCV21, 通过数据扩充来应对场景复杂的,需要泛化更好的real-world Re-ID,数据生成来自于两部分,一个是简单的退化,一个是利用attack方式生成更难得样本;不过到此位置继续还有下一步,面对多种类似的图像,本文执行了策略让这些mix 数据学习时,距离可以继续拉近,这样子可以学到robust representation 也就更好的泛化了)

Domain generalization

  • deep frequency filtering for domain generalization  (arxiv, 从频域角度去解决泛化,其实核心在于对FFT后的特征重新进行reweight及校准 (文中有叫explicit instance-adaptive frequency selection mechanism, 文中时学习一个掩膜mask)简单却work;domain信息和feature的某些frequency component强相关)

Pose Estimation  

  • Temporal Feature Alignment and Mutual Information Maximization for Video-Based Human Pose Estimation  (CVPR22 oral 视频任务最大的特点是如何更加充分的利用到temporal信息,对齐方式是coarse2fine(比较常见),但是在对齐时加了个约束考虑邻帧之间关系还利用了互信息对输出结果的影响,当然希望二者尽可能的对齐,这样二者依赖性很大,互信息自然就大)

Recognition

  • Adaptive focus for efficient video recognition  (ICCV21 ) 知乎 希望从空间的维度上去除冗余,使得网络利用空间维度上更加重要的信息进行动作识别,之前都是从temporal 维度上,这篇也有plus版本, 利用强化学习进行crop

refer to co-伙伴er

你可能感兴趣的:(学习,论文阅读)