Transformer在图像复原领域的降维打击,ETH提出SwinIR:各项任务全面领先

作者丨happy
编辑丨极市平台
本文原创首发于极市平台,转载请获得授权并标明出处。

Transformer在图像复原领域的降维打击,ETH提出SwinIR:各项任务全面领先_第1张图片

原文链接:https://arxiv.org/abs/2108.10257

code:https://github.com/JingyunLiang/SwinIR

期待已久的SwinIR终于刊出来了,它是ETH团队在Transformer+low-level方面的最新力作,大幅超越了之前华为诺亚提出的IPT。从某种程度上来看,这篇文章没有什么创新点,只是将微软的Swin Transformer在low-level任务上进行了应用。Whatever,无论是经典图像超分(即退化方式为bicubic),还是真实场景图像超分,亦或图像降噪与JPEG压缩伪影移除,所提SwinIR均取得了显著优于已有方案的性能。笔者这里尤其期待SwinIR在真实场景图像超分方面的应用与效果,期待作者尽快开源。

Abstract

图像复原(存在已久的low-level视觉问题)旨在根据低质图像(比如,下采样的、带噪的、压缩的图像)复原高质量图像。现有优异图像复原方案往往采用CNN,鲜少有Transformer(已在high-level视觉任务中取得骄人成绩)类方案在该类问题中进行探索尝试。

本文基于Swin Transformer提出一种强基线模型SwinIR用于图像复原。SwinIR包含三部分:浅层特征提取深层特征提取以及高质量图像重建。具体而言,深层特征提取由多个RSTB(Residual Swin Transformer Blocks)构成,每个RSTB由多个Swin Transformer层与残差连接构成。

相比CNN方案,Swin具有以下几个优势:

  • 基于内容交互的图像内容与注意力权值可以视作空域可变卷积;
  • RSTB中的移位窗口机制可以进行长距离依赖建模;
  • 更优的性能、更少的参数(可参见下图:SwinIR具有更少的参数量、更优的性能)。

Transformer在图像复原领域的降维打击,ETH提出SwinIR:各项任务全面领先_第2张图片

我们在三个极具代表性的任务(图像超分、图像降噪以及JPEG压缩伪影移除)上进行了实验。实验结果表明:所提SwinIR能够以0.14~0.45dB优于其他SOTA方案,同时参数量降低高达67%

全文链接:Transformer在图像复原领域的降维打击,ETH提出SwinIR:各项任务全面领先

关注极市平台公众号,获取最新CV干货

Transformer在图像复原领域的降维打击,ETH提出SwinIR:各项任务全面领先_第3张图片

你可能感兴趣的:(计算机视觉,人工智能,深度学习)