技术解析 | ZEGO 移动端超分辨率技术

即构超分追求：速度更快、效果更好、码率更低、机型更广。

超分辨率（Super Resolution, SR）是从给定的低分辨率（Low Resolution， LR）图像中恢复高分辨率（High Resolution，HR）图像的过程，是计算机视觉的一个经典应用。SR 是指通过软件或硬件的方法，从观测到的低分辨率图像重建出相应的高分辨率图像。在直播、点播、监控设备、视频编解码、卫星图像遥感、数字高清、显微成像、视频复原和医学影像等领域都有重要的应用价值。

超分辨率在广义上包含三种技术方向：

1）单帧图像超分辨率放大；

2）多帧连续图像重建超分辨率单帧图像；

3）视频序列的超分辨率重建视频帧。

本文侧重单图像超分辨率放大，主要是用大量的高清图像和低质图像数据对的先验知识，基于深度学习技术进行低质图像的高频信息的复原。

一、移动端超分面临的挑战

业界主流基于深度学习的超分模型参数量在 300K 以上，FLOPs 在 100G 以上，在普通 GPU 显卡上，都很难做到 30 帧每秒（640x360 放大2倍到 1280x720），在移动端上只能处理单帧图片，且不能用于实时通话中。

所以，如何让超分在移动端实时跑起来，将是个巨大的挑战：

1、移动端实时视频分辨率比较低（640x480 左右），而移动手机显示屏分辨率一般都比较高（1920x1080，甚至到 2340x1080），如 Apple 13 Pro Max 显示屏分辨率为 2778 x 1284；

2、每帧处理耗时要低于30毫秒（640x360 超分到 1280x720），否则会有明显的卡顿；

3、超分处理后，图像或视频相对于没开启超分，有明显的主观、客观质量提升。

那么，基于深度学习的超分网络模型设计也需要面临挑战：

挑战一：网络模型参数量过大，一般都大于 500K；

挑战二：模型运算量过大，推理时非常慢，一般都大于 100G FLOPs；

挑战三：超分区别于其他计算机视觉如目标检测与跟踪技术，不能对输入的图像或视频进行缩小。

图1：Urban100数据上各个超分PSNR示意图，横坐标是模型的参数量，纵坐标是模型在Urban100数据集上的PSNR。为了便于和业界公开论文，在公开数据集上比较，大家都使用PSNR/SSIM来评价图像质量。

通过图1我们可以看到，即构的超分技术，无论是轻量级模型，还是极小轻量级模型，客观数据表现不俗，并且在即构的产品应用中，能覆盖 Android 和 iOS 手机 2500+ 款机型。

那么，即构是如何解决上述的问题呢？

二、即构超分技术

经实测，近十年公开报道的超分技术无一能在移动端实时通话中运行起来，更不能谈及覆盖更广的移动端机型，而业界最低运算量(PAN2020[4])的超分模型，也很难实时跑起来，使得机型覆盖率极度有限，某友商超分任务覆盖不足 50 款指定高端旗舰机型，而某大厂基于谷歌 RAISR 方法优化的效果不足以保证。

图1中的 IMDN2019([1]) 是 AIM2019 Challenge on Eﬃcient Super-Resolution 比赛冠军，RFDN2020([5]) 和 PAN2020([4])则分别是 AIM2020 冠军和亚军，也仅仅能在 NVIDIA GeForce 1080ti 显卡上实时跑，移动端不能奢想。

为了解决这个问题，我们需要一些原则来指导模型的设计，主要从以下三个方面思考：

1）指导模型设计：什么样的模型才是最好的候选网络模型，以减少训练次数；

2）极轻量级模型设计：在适配移动端设备时，主客观效果相对于大模型不显著下降，且显著优于传统插值放大算法；

3）模型量化压缩及加速，及工程化。

2.1 指导模型设计

考虑到 GPU 资源有限、任务多，所以要尽可能的设计一个直达任务目标的极小网络模型，且节约 GPU 资源。

北京某超算中心的提供的 2 卡 V100-32G 云服务，每小时 6 元，则一个月的费用是7x24x30x6元=30240元/月。所以当我们设计了一个模型，花了很长时间好不容易训练出来，结果在移动端没法实时，也是浪费算力和人力。

那么我们如何能在不做任何训练的情况下，从仅有的一些模型数据中，寻找真正所需要的移动端网络模型呢？

图2：不同架构模型设计下的参数量与运算量

图2中，不同颜色的曲线表示不同架构下的超分模型，曲线上的点则表示不同深度和宽度的模型下的参数量和运算量。实际设计模型，还需要加入更多维度，如输入图像的宽高、特征图的通道数等。

那么是不是可以总结为我们要去寻找 Params 大，而 FLOPs 小的网络模型？

Params 大则网络模型表现力强， FLOPs 小则运行速度快（不一定准确，依赖于推理库，若模型中操作算子是常规的操作算子，则大概率是正确的）。若上面推断正确，则上述图2表明：绿色代表的超分模型强于红色，也强于蓝色，那么，我们就需要设计出越来越陡的曲线模型。对每种设计的模型，训练一个epoch，然后移植到移动端测试实际性能，而“抖“的上确界在哪里，就需要实验数据来支撑。

这就给了我们一个设计网络模型的指导方向：参数量尽可能的多，而运算量尽可能的少，并结合实测数据，探测较优的、可能实时的候选模型。

依据这样的原则，我们就能够对所设计的网络模型选择一个合理的方向，然后基于选定的方向，找到适合在移动端实时运行的模型的深度和宽度等参数。

另外，算法选型也是一种考验，开源的超分足够多，但落地产品化的极少，产业界不乏大厂，有如下方案：

1）基于 RAISR(Google，2016) 本质就是一般传统的基于机器学习的哈希算法，根据低分辨率图像块里的内容和几何特征对其进行分类，最后利用机器学习算法，学习低分辨率图像块和高分辨率图像块之间的关系，得出重建矩阵，基于 RAISR 进行裁剪优化，效果得不到保证。

2）基于 SRGAN (Christian Ledi, 2016)以及变种方法进行优化时，往往鲁棒性不足，受到很大噪声干扰，特别是实时视频中出现的各类噪声。所以在移动端基于 GAN 的超分鲁棒和实时很难兼顾，特别是 Android 机型。

3）基于视频超分，需要两帧做光流（或块匹配）、对齐、融合，非常耗时，对于不能裁剪缩小的原始输入帧，要想在 Android 机型上实时超分，几乎是不可能的。而去掉光流或对齐，则效果很难保证，还会导致超分后的视频偏模糊，对比 2019~2020 的轻量级的两帧视频超分，很多效果还不如单帧超分，特别是运动稍大或灯光闪烁或颜色渐变场景。

4）注意力机制，在超分应用中虽改善了主观效果，但非常耗时、性价比很低。

3.2 轻量级模型设计

一般来说，轻量级超分模型设计架构如下：

图3：轻量级超分网络模型架构

如何设计轻量级([1]~[11])的超分网络模型呢？

优化BasicBlock 基础块，调整Skip Connection，并且让每个卷积基础块都能充分发挥其功效而不冗余。但是这样的网络模型，在参数量、运算量极度限制的情况下，卷积个数屈指可数，特征通道数也极度有限。那么我们又该如何设计？

1）优化基础残差块：让每个卷积l发挥关键性的、不冗余的作用，1x1 和3x3 卷积是必然首选。让通道内部、通道之间进行特征信息共享，降低参数量、运算量，有效提取特征、重建；

2）优化模型设计框架：大模型训练，等价或几乎等价小模型推理，但不限于单纯的知识蒸馏等技术，并且还需结合量化做训练。

3）操作算子的选择：尽可能选择前馈推理库支持的操作算子，否则很耗时；

4）优化损失函数：蒸馏损失、梯度损失、TV损失、DCT损失、FFT损失、特征信息损失等；

5）优化训练技巧和数据集：结合实际视频业务流程，懂视频编解码，制作适合业务的训练数据集，而不是单纯的调参。实际业务中，60%靠数据，30%靠网络模型，10%靠调参训练技巧，三者互为补充。

3.2.1 优化基础残差块

图4：优化基础残差块过程

以上仅仅是优化基础残差块，做各种对比实验（主客观对比实验、整体耗时、各个操作算子耗时等），择优选择出适合自己业务逻辑的优化方向。

当设计极轻量级网络的时候，卷积的个数往往屈指可数的，就导致NAS方法（Neural Architecture Search）没有实际意义，在落地应用时实测更加耗时。同理，模型剪枝实际意义不大，特别是对极轻量级的网络模型。

3.2.2 模型框架设计

图5：PAMS2020[11]

PAMS2020[11]这篇超分文章也给了我们一个思路：

1）量化及支持量化的推理库，2bit量化及支持2bit量化的前馈推理库是至关重要的，2bit量化结合大模型训练小模型推理，带来了很大的效果和性能优化空间，而不用苦苦追寻性价比下确界；

2）结构化特征信息知识损失；

3）引申出大模型训练，等价小模型推理。

3.2.3 其他优化

根据实际业务需求，利用视频图像常识做训练数据和损失函数：

1）平坦区域总是远远高于非平坦区；

2）人眼对平坦区超分或其他增强是无感的，而密集纹理区增强是感知强烈的；

3）深度学习任务中，训练数据的重要性远大于网络模型设计；

基于以上基础知识，优化的知识点就出来了，无论是损失函数的设计，还是数据集的设计，即使无法涨点，但是能够提升主观质量。

3.3 模型压缩及加速

分两方面：

1）模型压缩：对于非常小的极度轻量级的模型，剪枝、网络搜索等策略大多不太适用；

2）模型加速：分为以下3点

A．量化(PQT/QAT)与支持量化的推理库，需要自研支持量化的前馈推理库；

B．硬件加速，比如使用高通的 DSP（SNPE）、各个厂家的 NPU/APU、苹果的 ANE 等；

C．支持量化的硬件加速；

对于很多大模型来讲，量化后精度的下降可接受，而极小模型对精度非常敏感，精度稍微下降，主观质量也会有明显的下降。

三、基础对比实验

图6：近几年超分辨率现有技术的各个指标数据，640x360两倍放大到1280x720，数据来源于其论文或开源或复现

从图6各个数据集上可以看出，ZEGO 超分表现卓著：

1、ZEGO 大模型，优于 IMDN 2019（AIM 2019冠军），参数量是 IMDN 的一半，FLOPs 也是其一半；

2、ZEGO 大模型，相比于 RFDN2020（AIM2020冠军），PSNR/SSIM 略低，但参数量是它的一半，FLOPs 是其三分之二；

3、ZEGO 小模型，5.848K 参数量下，优于 SESR-M3；

4、ZEGO最新极小极小模型，0.972K 参数量，0.24422G 的FLOPs，性能很接近于双立方插值，而 Set5 上的PSNR/SSSIM为 36.5431/0.9536，还是显著优于双立方插值的 33.66/0.9299。

四、未来展望

高分辨率的视频能提供更清晰的画面和更高阶的感官体验，对于提升视频质量和用户视觉感受有很大的帮助。ZEGO 即构科技发布移动端实时超分辨率技术，帮助客户获得畅爽的视频体验，致力于打造更高水平的图像恢复和图像增强。

未来，即构超分将继续进行算法性能优化，提升视频效果，做到 ——

更快，极低功耗，极低耗时！

更好，提升视频主观质量！

更低，结合编解码，实现高清画质下的极低码率！

更广，覆盖更多机型！

附：参考文献

[1] IMDN2019: Hui, Z., Gao, X., Yang, Y., Wang, X.: Lightweight image super-resolution with information multi-distillation network. In: ACM Multimedia. pp. 2024–2032. ACM (2019)

[2] LapSRN2017: Lai, W., Huang, J., Ahuja, N., Yang, M.: Deep laplacian pyramid networks for fast and accurate super-resolution. In: CVPR. pp. 5835–5843. IEEE Computer Society (2017)

DRCN2016: Kim, J., Lee, J.K., Lee, K.M.: Deeply-recursive convolutional network for image super-resolution. In: CVPR. pp. 1637–1645. IEEE Computer Society (2016)

[3] SESR2021: Bhardwaj, Kartikeya and Milosavljevic, Milos and O'Neil, Liam and Gope, Dibakar and Matas, Ramon and Chalfin, Alex and Suda, Naveen and Meng, Lingchuan and Loh, Danny: Collapsible Linear Blocks for Super-Efficient Super Resolution. (2021)

[4] PAN2020: Zhao, Hengyuan and Kong, Xiangtao and He, Jingwen and Qiao, Yu and Dong, Chao: Efficient image super-resolution using pixel attention.ECCV2020

[5] RFDN2020: Jie Liu, Jie Tang, Gangshan Wu: Residual Feature Distillation Network for Lightweight Image Super-Resolution. AIM2020

[6] SMSR2020: Longguang Wang, Xiaoyu Dong, Yingqian Wang, Xinyi Ying, Zaiping Lin, Wei An, Yulan Guo: Exploring Sparsity in Image Super-Resolution for Efficient Inference.2020

[7] Saeed Anwar, Salman Khan, and Nick Barnes. A deep jourworks. In Proceedings of the IEEE conference on computer ney into super-resolution: A survey. ACM Computing Survision and pattern recognition, pages 1646–1654, 2016. 5, 6 veys (CSUR), 53(3):1–34, 2020.

[8] Zhang, Y., Li, K., Li, K., Zhong, B., Fu, Y.: Residual non-local attention networks for image restoration. In: ICLR (Poster). OpenReview.net (2019)

[9] Zhang, K., Nan, N., Li, C., Zou, X., Kang, N., Wang, Z., Xu, H., Wang, C., Li, Z., Wang, L., Shi, J., Gu, S., Sun, W., Lang, Z., Nie, J., Wei, W., Zhang, L., Niu, Y., Zhuo, P., Kong, X., Sun, L., Wang, W., Timofte, R., Hui, Z., Wang, X., Gao, X., Xiong, D., Liu, S., Gang, R.: AIM 2019 challenge on constrained super-resolution: Methods and results. In: ICCV Workshops. pp. 3565–3574. IEEE (2019)

[10] Zhang, K., Danelljan, M., Li, Y., Timofte, R., et al.: AIM 2020 challenge on eﬃcient super-resolution: Methods and results. In: European Conference on Computer Vision Workshops (2020)

[11] PAMS2020: Li, Huixia and Yan, Chenqian and Lin, Shaohui and Zheng, Xiawu and Li, Yuchao and Zhang, Baochang and Yang, Fan and Ji, Rongrong: PAMS: Quantized Super-Resolution via Parameterized Max Scale. Springer.2020.