超分辨率基础

超分辨率综述
Image Super-resolution 的深度学习方法
微信二维码引擎OpenCV开源
微信扫码背后的图像超分辨率技术
技术解析 | 即构移动端超分辨率技术
DIV2K数据集下载
B100/Manga109/Set5/Set14/Urban100 提取码:q4ev

超分难点 延伸出的技术方向
上采样倍数是整数 无极放大
人造的退化图像与现实有差距 现实场景超分、盲超分
推理时间长 轻量超分
需要低分与高分图像对 无监督超分
评价指标与主观不一致

论文

1、ARM: Any-Time Super-Resolution Method ECCV2022、腾讯优图

此前的方法无法在推理时根据推理样本和可用计算资源动态调整计算开销,因次此一个模型无法适应多种设备平台和多变的资源情况。
基于此,我们提出一种任意时间超分方法(ARM),从而使得一个超分网络能够在推理时调整为任意的计算开销。第一,我们训练了一个包含不同大小子网的ARM超网,其中包含多个推理开销不同的子网,以便在推理时进行切换。第二,我们基于边缘检测分数与PSNR的相关性的发现,构建了一个Edge-to-PSNR查找表,用于通过边缘分数来预测不同子网对某个样本的预期PSNR。第三,我们设计了一个由超参η控制的子网选择函数,该函数可以根据不同子网的预期PSNR和对应的计算量进行子网的选择。

最后在推理时,我们设计了一套patch切分、patch推理、patch拼接的推理流程,其中patch推理的部分使用子网选择函数自适应地选择子网进行推理。实验结果显示本文方法效果超过了最先进的动态超分方法,并在FSRCNN、CARN和SRResNet等经典超分骨干网络上的实验结果取得的SOTA的效果。
超分辨率基础_第1张图片

人脸超分

超分辨率基础_第2张图片
GCFSR: a Generative and Controllable Face Super Resolution Method Without Facial and GAN Priors

实时视频超分

Real-Time Super-Resolution System of 4K-Video Based on Deep Learning
github
paper
高糊视频秒变4K,速度快了9倍!东南大学提出新的视频超分辨率系统
超分辨率基础_第3张图片

超分辨率基础_第4张图片

不适定问题

图像超分辨率是一个典型的不适定问题,因为低分辨图像与它对应的高分辨图像之间是个一对多的关系。适定问题需要同时满足三个条件:① 解是存在的;② 解是唯一的;③ 解是稳定的。

图像复原、图像重建

超分辨率基础_第5张图片
超分辨率基础_第6张图片

图像重建(Image Reconstruction)是从分散或不完整的数据(如医学成像研究中获取的辐射读数)生成二维或三维图像,有必要应用一个数学公式来生成一个可读和可用的图像,或者使图像锐化以使其有用,图像重建有助于从一系列单独的相机图像生成人体的三维图像。

超分商业应用

《海上钢琴师》重映背后,AI超分算法的高光与阴影
SuperResolution论文与应用简介:基于深度学习的图像超分辨率方法
HMS Core机器学习服务图像超分能力,基于深度学习提升新闻阅读体验
Real-CUGAN,B站推出的图像视频AI超分算法模型(AI放大)

超分无极放大

1、Meta-SR(旷视科技)
超分辨率基础_第7张图片

2、LIIF-SR(英伟达)
超分辨率基础_第8张图片
无极超分辨率
真正的无极放大!30x插值效果惊艳,英伟达等开源LIIF
LIIF官网

opencv的超分接口

1、github入口,只能cpu推理,只支持4个模型
超分辨率基础_第9张图片
2、超分和双三次性能对比
超分辨率基础_第10张图片

纹理的学习

Learning Texture Transformer Network for Image Super-Resolution
超分辨率基础_第11张图片

盲超分

盲超分也有HR,只不过它的训练集研究的是未知退化图片的超分,非盲超分的输入LR是对HR通过固定退化函数(如双三次插值,高斯核)下采样得到。
最新!基于深度学习的盲图像超分技术一览

传统超分辨率方法

1、插值方法
2、基于稀疏表示(字典学习)的方法
3、基于局部嵌入(Neighbor Embedding)的方法
4、Example-Based的方法
图像超分辨——传统方法
OpenCV图像插值方法的比较
图像超分辨率技术简介

深度学习超分辨率

  • 论文
    VDSR
    Accurate Image Super-Resolution Using Very Deep Convolutional Networks, CVPR2016
    第一个将全局残差引入SR的方法,使得训练速度明显加快,低分辨率图像携带的低频信息与高分辨率图像的低频信息相近,训练时带上这部分会多花费大量的时间,实际上只需要学习高分辨率图像和低分辨率图像之间的高频部分残差即可。残差网络结构的思想特别适合用来解决超分辨率问题,可以说影响了之后的深度学习超分辨率方法。
    SRGAN(SRResNet)
    Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network, CVPR2017
    生成对抗网络用在了解决超分辨率问题上。文章提到,训练网络时用均方差作为损失函数,虽然能够获得很高的峰值信噪比,但是恢复出来的图像通常会丢失高频细节,使人不能有好的视觉感受。SRGAN利用感知损失(perceptual loss)和对抗损失(adversarial loss)来提升恢复出的图片的真实感。
    EDSR
    Enhanced Deep Residual Networks for Single Image Super-Resolution, CVPR2017
    是NTIRE2017超分辨率挑战赛上获得冠军的方案。EDSR最有意义的模型性能提升是去除掉了SRResNet多余的模块,从而可以扩大模型的尺寸来提升结果质量。主要使用了增强的ResNet,移除了batchnorm,使用了L1 loss训练

  • 图像超分基本不使用Batch Normalization

  • LapSRN可实现同时多个尺寸超分,Meta-SR可实现任意尺寸超分。

  • 现在超分基本都是基于双三次插值退化模型的超分,用于真实环境效果不是很理想。

  • 亚像素卷积和反卷积进行上采样

  • PSNR及SSIM评价指标
    在这里插入图片描述
    其中 I 、K表示两个MxN的单色图像。 MAX表示图像点颜色的最大值,如果像素值为【0,255】则MAX=255。如果像素值为【0,1】则MAX=1。对于彩色图像来说PSNR的定义类似,只是MSE 是所有方差之和除以图像尺寸再除以 3;或者RGB转换到YCbCr空间,只考虑亮度通道来计算PSNR和SSIM。

    PSNR是图像、视频处理领域应用最广的性能量化方法,计算复杂度小,实现速度快,已经应用在视频编码标准H.264、H.265中。尽管PSNR具有上述特点,但是局限性很明显,受像素点的影响比较大,与主观评价一致性比较低,没有考虑人类视觉系统(Human Visual System, HVS)的一些重要的生理、心理、物理学特征。基于HVS,提出了误差灵敏度分析和结构相似度分析(Structural SIMilarity Index, SSIM)的评价方法。
    超分辨率基础_第12张图片

    结构相似性SSIM从亮度、对比度和结构这三个方面来评估两幅图像的相似性。结构相似性理论认为,自然图像具有极高的结构性,表现在图像的像素间存在着很强的相关性,尤其是在空间相似的情况下。这些相关性在视觉场景中携带着关于物体结构的重要信息。假设人类视觉系统(HSV)主要从可视区域内获取结构信息。所以通过探测结构信息是否改变来感知图像失真的近似信息。

    作为结构相似性理论的实现,结构相似度指数从图像组成的角度将结构信息定义为独立于亮度、对比度的,反映场景中物体结构的属性,并将失真建模为亮度、对比度和结构三个不同因素的组合。用均值作为亮度的估计,标准差作为对比度的估计,协方差作为结构相似程度的度量

    大多数的基于误差敏感度(error sensitivity)的质量评估方法(如MSE,PSNR)使用线性变换来分解图像信号,这不会涉及到相关性。SSIM意在找到更加直接的方法来比较失真图像和参考图像的结构。

质量评估背景

  • 质量评估可分为图像质量评估(Image Quality Assessment, IQA)和视频质量评估(Video Quality Assessment, VQA)。IQA从方法上可分为主观评估和客观评估。主观评估就是从人的主观感知来评价图像的质量,首先给出原始参考图像和失真图像,让标注者给失真图像评分,一般采用平均主观得分(Mean Opinion Score, MOS)或平均主观得分差异(Differential Mean Opinion Score, DMOS)表示。客观评估使用数学模型给出量化值,可以使用图像处理技术生成一批失真图像,操作简单,已经成为IQA研究的重点。图像质量评估算法的目标是自动评估与人的主观质量判断相一致的客观图像质量。然而,主观评估费时费力,在实际应用中不可行,并且主观实验受观看距离、显示设备、照明条件、观测者的视觉能力、情绪等诸多因素影响。 因此,有必要设计出能够自动精确的预测主观质量的数学模型。

  • IQA按照原始参考图像提供信息的多少一般分成3类:全参考(Full Reference-IQA, FR-IQA)、半参考(Reduced Reference-IQA, RR-IQA)和无参考(No Reference-IQA, NR-IQA), 无参考也叫盲参考(Blind IQA, BIQA)。

  • FR-IQA同时有原始(无失真、参考)图像和失真图像,难度较低,核心是对比两幅图像的信息量或特征相似度,是研究比较成熟的方向。

  • NR-IQA只有失真图像,难度较高,是近些年的研究热点,也是IQA中最有挑战的问题。NR-IQA类算法还可以细分成两类,一类研究特定类型的图像质量,比如估计模糊、块效应、噪声的严重程度,另一类估计非特定类型的图像质量,也就是一个通用的失真评估。一般在实际应用中无法提供参考图像,所以NR-IQA最有实用价值,也有着广泛的应用,使用起来也非常方便,同时,由于图像内容的千变万化并且无参考,也使得NR-IQA成为较难的研究对象。

  • RR-IQA只有原始图像的部分信息或从参考图像中提取的部分特征,此类方法介于FR-IQA和NR-IQA之间,且任何FR-IQA和NR-IQA方法经过适当加工都可以转换成RR-IQA方法。

IQA的评估指标

  • 衡量图像质量评估结果的指标有很多,每种指标都有自己的特点,通常比较模型客观值与观测的主观值之间的差异和相关性。常见的2种评估指标是线性相关系数(Linear Correlation Coefficient, LCC)和Spearman秩相关系数(Spearman’s Rank Order Correlation Coefficient, SROCC)。
  • LCC也叫Pearson相关系数(PLCC),描述了主、客观评估之间的线性相关性,
  • SROCC衡量算法预测的单调性
    超分辨率基础_第13张图片

传统算法

  • FR-IQA(全参考图像质量评估)

    PSNR、SSIM等等类似于特征

  • NR-IQA(无参考图像质量评估)

    有针对具体失真类型的:比如模糊、块效应、jpeg压缩、噪声等

    基于通用类型的:转化为分类或者回归问题,使用特定的特征进行训练。特征要么统计提取,要么通过机器学习或深度学习发现。

    (1)有基于SVM的方法,提取图像空间域/变换域特征,再基于SVM等模型:代表算法:BIQI, DIIVINE,BRISQUE
    (2)概率模型:代表算法:BLIINDS,NIQE
    (3)基于码本的方法:代表算法:CORNIA

深度学习算法

  • 主要用于NR-IQA
    CNN的优势之一是可以直接将原始图像作为输入,并将特征学习融入到训练过程中。 CNN具有深层次的结构,可以有效地学习复杂的映射,同时要求最小的领域知识。

你可能感兴趣的:(深度学习,计算机视觉,pytorch)