图像处理与计算机视觉-论文阅读笔记

题 目:Residual Networks for Light Field Image Super-Resolution
作 者:Shuo Zhang, Youfang Lin, Hao Sheng
单 位:北京交通大学计算机与信息技术学院北京交通数据分析与挖掘重点实验室,中国民航民航旅客服务智能化应用技术重点实验室,北京航空航天大学计算机科学与工程学院软件开发环境国家重点实验室,北京航空航天大学北京大数据与脑计算高级创新中心
期刊名称:The IEEE Conference on Computer Vision and Pattern Recognition
发表时间:16 June 2019
阅读时间:2019.9.29

研究领域(想要做什么,功能,应用或研究背景) 研究一种提高光场图像的空间分辨率的方法,用于改善全光摄像机的性能。
针对的问题(要解决什么技术或者研究问题) 传统方法通过基于先验视差信息显式扭曲其他视图图像来得到子像素信息,这种LF图像视差估计方法存在遮挡,噪声和无纹理区域,在重建的LF图像中导致大量伪像。最近提出的一种基于深度学习的方法,用于光场超分辨率(LFSR),训练过程中隐式地学习了视差信息,但是这些方法在探索准确的子像素信息和保留LF图像的固有极线特性方面受到很大限制。本论文利用超分辨率网络中的残差结构设计了一种新型的残差网络(resLF),来增强LF图像的空间分辨率。
解决方法的思路(总结基本原理,指出创新之处) 在所提出的方法中,首先将一个LF中的视点图像按照其角度方向分成四组,然后输入不同的网络分支,以了解特定空间方向上的高频细节。与其他光场超分辨率(LFSR)方法不同的是,其隐式地探索了反映视差信息的视图图像中固有的对应关系,并从该方法中学习了来自各个方向的子像素映射。然后将来自不同空间方向的残差信息组合起来,以生成用于最终超分辨中央视图图像的完整残差细节。LF被划分为不同的部分,并最终基于灵活的解决方案最终对整个视图图像进行了超分辨操作。
实验结果及其性能(最好量化) 实验是在不同的LF图像和各种具有挑战性的场景(噪声、遮挡和非朗伯表面)上进行的。 resLF网络可用于具有不同角度分辨率的合成和真实LF图像。结果表明,在数字和视觉评估方面,该框架明显优于其他最新方法,其中PSNR结果在2倍和4倍的超分辨率下平均提高了1.5dB。此外在对极平面图像(EPI)的比较中表明,该方法能够保留超分辨视图图像中的对应关系。
备注(其他方面值得学习或者关注的) 本文对当前各种提高光场图像的空间分辨率的方法做了详尽地调研,实验方法具有参考价值,实验论证和结果分析充分。

题 目:Light Field Reconstruction Using Convolutional Network on EPI and Extended Applications
作 者:Gaochang Wu, Yebin Liu, Lu Fang, Qionghai Dai, and Tianyou Chai
单 位:清华大学自动化系宽带网络与数字媒体实验室,东北大学过程工业综合自动化国家重点实验室
期刊名称:IEEE Transactions on Pattern Analysis and Machine Intelligence
发表时间:08 June 2018
阅读时间:2019.10.05

研究领域(想要做什么,功能,应用或研究背景) 研究一种CNN框架,用于光场图像的重构,能更好地解决图像空间分辨率和角度分辨率之间的权衡,由此改善光场成像的性能。
针对的问题(要解决什么技术或者研究问题) 先前提出的各种基于学习模型的方法虽然可以较好重建图像,但是这些网络训练十分依赖数据并且不能轻易地转换为具有不同外观属性的数据,这限制了其通用性。 由于光场数据在EPI域中具有相似的特性,本文提出的在极平面图像(EPI)上重建光场图像的网络结构,可以很好地解决这一问题。
解决方法的思路(总结基本原理,指出创新之处) 本论文提出基于EPI模型上的“blur-restoration-deblur”框架,分3个步骤。1)blur:将每个EPI片段与选定的模糊内核卷积,得到EPI的空间低频分量,由此平衡空间与角度信息。2)restoration:用CNN恢复在下采样中被破坏的EPI角度细节。3)deblur:使用非盲去模糊操作恢复被EPI模糊抑制的空间细节。
实验结果及其性能(最好量化) 将本文方法与Kalantariet等人提出的方法以及典型的基于深度模型的方法对比,对包括真实世界场景,显微镜光场数据和合成场景在内的3类数据集进行评估。1)真实世界场景:使用HCI数据集进行测试评估,该方法在合成视图和EPI的视觉连贯性方面均达到了较高的性能。 2)显微镜光场数据:使用斯坦福光场显微镜数据集和基于相机阵列的光场显微镜数据集进行测试评估,该方法在被遮挡区域和半透明区域均产生了合理的结果。3)合成场景:使用HCI数据集进行测试评估,该框架对于具有不同稀疏度的输入具有更胜任的能力。在3类场景数据集测试下, PSNR / SSIM测试值均有提升,具体数值见文中图表。
备注(其他方面值得学习或者关注的) 该论文从多方面分析评估所提出的网络框架,篇幅较大,可以更深层次地了解EPI、光场重建等的性质特征,并对相关领域的研究现状会有一个更清晰的认识。该论文从多方面对其网络作出评估的多种方法及数据集也非常值得借鉴。由此论文扩展出的3大应用,也可以作为将来解决相关问题的参考方案。

题 目:Spatial and Angular Resolution Enhancement of Light Fields Using Convolutional Neural Networks
作 者:M. Shahzeb Khan Gul and Bahadir K. Gunturk
单 位:伊斯坦布尔医科大学电子与电气工程系
期刊名称:IEEE Transactions on Image Processing
发表时间:15 January 2018
阅读时间:2019.10.11

研究领域(想要做什么,功能,应用或研究背景) 研究一种基于学习的光场增强方法,用于增强捕获光场的空间分辨率和角度分辨率,以此提高光场图像的超分辨率。
针对的问题(要解决什么技术或者研究问题) 近年来主要提出两种方法,来解决低空间分辨率问题:1)混合系统方法,其缺点在于价格昂贵,相机维度较高。2)将多帧超分辨率技术应用于光场子孔径图像。基于第2种方法,文中提出基于CNN的光场超分辨率方法,以此解决低空间分辨率问题
解决方法的思路(总结基本原理,指出创新之处) 本文提出了一种基于CNN的学习方法—LFSR,该方法分两个步骤。在每个小透镜区域中有A×A像素且每个透视图的大小为H×W的光场条件下,第1步使用CNN将角分辨率从A×A翻倍到2A×2A,第2步通过估计给定小透镜区域之间的新的小透镜区域,将空间分辨率从H×W倍增至2H×2W。创新点在于:网络框架输入的是原始光场数据,即小透镜区域。
实验结果及其性能(最好量化) 通过客观质量比较,本文方法的PSNR值比LFCNN平均提高了4.46dB,比双三次插值方法平均提高了2.80dB;本文方法的SSIM值比LFCNN平均提高了0.0655,比双三次插值方法平均提高了0.0303。
备注(其他方面值得学习或者关注的) 本文对光场增强方法的国内外现状描述较完整,调研充分,实验部分的测试序列与实验方法也有参考价值,实验论证与结果分析充分。MLA(micro-lens arrays)、lenslet、sub-aperture等概念和原理需区分和了解。

题 目:Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network
作 者:Christian Ledig, Lucas Theis, Ferenc Husz ́ar, Jose Caballero, Andrew Cunningham,Alejandro Acosta, Andrew Aitken, Alykhan Tejani, Johannes Totz, Zehan Wang, Wenzhe Shi
单 位:Twitter
期刊名称:IEEE Conference on Computer Vision and Pattern Recognition
发表时间:21-26 July 2017
阅读时间:2019.10.26

研究领域(想要做什么,功能,应用或研究背景) 研究一种基于GAN的图像超分辨率方法—SRGAN,用于恢复图像的高频细节,由此提高图像的感知质量。
针对的问题(要解决什么技术或者研究问题) 近年来在更深层次、更加快速的CNN的帮助下,单一图像超分辨率在速度和精确度方面取得突破,但是在较大比例下其恢复细节方面效果不佳。基于此,文中提出了基于GAN的图像超分辨率方法,由此得到照片级逼真的图像。
解决方法的思路(总结基本原理,指出创新之处) 本文提出一种基于GAN的图像超分辨率方法—SRGAN,其损失函数基于VGG网络构造,由内容损失和对抗损失组成。创新点在于:之前的超分辨率工作都集中在提高客观质量评估参数,该方法创造性地解决了主观质量不高的问题,是第一个能够为4倍的放大因子得到逼真的自然图像的框架。
实验结果及其性能(最好量化) 使用Set5,Set14和BSD100三个基准数据集进行测试, SRGAN同NN, bicubic,SRCNN,SelfExSR,DRCN,ESPCN,SRResNet等方法相比,虽然PSNR和SSIM这两个客观评价指标一般,但是主观评价指标MOS的表现却是最好的,在三个数据集下数值分别达到3.58、3.72、3.56。这很好地说明SRGAN方法还原的图像在视觉感观上是最接近原始图像的。
备注(其他方面值得学习或者关注的) 本文对图像超分辨率的国内外现状调研充分,实验测试中,各比较方法和测试数据集可以作为以后相关科研工作的参考, MOS指标可作为以后主观评价的参考标准。此论文在网上的讨论较多,有空可尝试着复现。

题 目:Fast and Accurate Image Upscaling with Super-Resolution Forests
作 者:Samuel Schulter,Christian Leistner,Horst Bischof
单 位:格拉茨技术大学计算机图形学与视觉研究所,微软奥地利摄影测量所
期刊名称:IEEE Conference on Computer Vision and Pattern Recognition
发表时间:7-12 June 2015
阅读时间:2019.11.10

研究领域(想要做什么,功能,应用或研究背景) 研究一种单一图像放大方法,可以快速准确地将低分辨率图像转化为高分辨率图像。
针对的问题(要解决什么技术或者研究问题) 依靠领域嵌入和稀疏编码的相关方法虽然给超分辨率带来巨大的质量改进,但是由于这些方法要么太慢,要么需要繁琐的参数调整,所以很难在实践中应用。本论文提出了一种通过随机森林实现单一图像超分辨率的新方法,可以很好地解决这一问题。
解决方法的思路(总结基本原理,指出创新之处) 在所提出的方法中,利用最近基于稀疏编码方法与局部线性回归之间的密切关系,避免使用稀疏编码字典来学习低分辨率图像到高分辨率图像的映射,使用一种更为直接的方法—采用随机回归森林公式。随机森林是高度非线性的学习者,在学习和评估过程中通常都非常快。同时提出了一种新颖的正则化目标函数,该函数对树在生长期间进行了优化,使其不仅可以在输出标签域上运行,而且可以在输入数据域上运行。这简化了在树的叶结点中学习的局部线性回归器的任务,并未单一图像超分辨率带来更高质量的结果。
实验结果及其性能(最好量化) 实验是在不同的数据集(Set5、Set14、BSDS)和放大因子(*2、*3、*4)下进行的,与最新的各种方法(A+、SRCNN、BPJDL等)相比,文中方法的PSNR、IFC数值达到最高,同时所用时间相对较少,具体见表3。
备注(其他方面值得学习或者关注的) 本文对当时各种主流超分辨率方法做了详尽地调研,实验方法具有参考价值,实验论证和结果分析充分。可扩展阅读: J. Yang, J. Wright, T. Huang, Y. Ma, “Image Super-Resolution Via Sparse Representation”, TIP, vol. 19, no. 11, pp. 2861-2873, 2010.用以深入了解稀疏表示和字典学习的相关原理和算法

题 目:Second-order Attention Network for Single Image Super-Resolution
作 者:Tao Dai, Jianrui Cai, Yongbing Zhang, Shu-Tao Xia, Lei Zhang
单 位:清华大学深圳研究生院,鹏城实验室网络与通信研究中心,香港理工大学计算机系,阿里巴巴达摩院
期刊名称:The IEEE Conference on Computer Vision and Pattern Recognition
发表时间:16 June 2019
阅读时间:2019.11.20

研究领域(想要做什么,功能,应用或研究背景) 文中提出了一个深的二阶注意力网络SAN,以获得更好的特征表达和特征相关性学习,用于提高单一图像的超分辨率
针对的问题(要解决什么技术或者研究问题) 现存基于CNN的SR模型仍然面临一些限制:1)大多数基于CNN的SR方法没有利用好原始LR的信息,导致相对低的性能。2)大多数基于CNN的SR模型主要专注于设计更深更宽的网络,去学习更有判别力的高维特征,却很少发掘层间特征的内在相关性,从而妨碍了CNN的表达能力。文中提出一种深的二阶注意力网络—SAN,以获得更好的特征表示和特征相关性学习,来提高单一图像的超分辨率能力。
解决方法的思路(总结基本原理,指出创新之处) 文中提出一个一个深的二阶注意力网络SAN,以获得更好的特征表达和特征相关性学习。特别地,提出了一个二阶通道注意力机制SOCA来进行相关性学习。同时,提出了一个non-locally增强残差组NLRG来捕获长距离空间内容信息。
实验结果及其性能(最好量化) 实验使用800张DIV2K数据集中的高分辨率图像作为训练集,使用Set5,Set14,BSD100,Urban100和Manga109用做测试的标准基准数据集。将SAN同11个最新的基于CNN的SR方法(SRCNN、FSRCNN、VDSR、LapSRN、MemNet、EDSR、SRMD、NLRN、DBPN、RDN、RCAN)比较,可以发现SAN与RCAN有着相似的结果和性能,而将SAN采用自我集成方法后的SAN+比其他方法的性能都好,在放大因子为4的条件下,相比18年提出的RCAN,PSNR平均提高0.246dB,SSIM平均提高0.004。
备注(其他方面值得学习或者关注的) 本文对当前各种基于CNN的SR方法做了详尽地调研,实验用了多个放大因子,多个数据集下与现今主流CNN-based方法比较,实验论证和结果分析充分。

题 目:Light Field Reconstruction Using Shearlet Transform
作 者:Suren Vagharshakyan, Robert Bregovic, and Atanas Gotchev
单 位:无
期刊名称:IEEE Transactions on Pattern Analysis and Machine Intelligence
发表时间:16 January 2017
阅读时间:2019.12.01

研究领域(想要做什么,功能,应用或研究背景) 研究一种基于图像的渲染技术,用于光场重建。
针对的问题(要解决什么技术或者研究问题) 当今视图合成基于两种方法:基于场景深度的估计方法和基于全光函数概念及其光场(LF)近似的方法。密集采样的LF是场景视觉内容的一种有吸引力的表示形式,其基于第二种方法,但是在许多实际情况下无法使用足够多的相机对真实场景进行采样以直接获得密集采样的LF,因此必须通过使用IBR技术从给定的稀疏图像集中生成所需的视图数。文中提出的基于剪切波的光场重建方法可以很好解决这一问题。
解决方法的思路(总结基本原理,指出创新之处) 文中提出了LF稀疏化和深度分层的概念,目的是开发以EPI表示的LF的有效重建方法。重建试图利用适当的变换来提供EPI的稀疏表示。文中假设一个好的稀疏变换应该将场景表示与深度层结合在一起,而深度层应该是稀疏的。基于EPI的各向异性是由切变引起的观察结果,作者提出使用Shearlet变换作为稀疏变换,并开发了一种在EPI上进行修复的修补技术。
实验结果及其性能(最好量化) 实验是在各种不同的数据集(Couch、Pantomime1、 Pantomime2、Teddy、Cones、Truck、Bunny)下进行的,将本文方法与一些基于深度的方法(DERS、VSRS、SGBM)作比较。可以看到,文中方法性能较好。举例来说,在朗伯场景下,文中方法的PSNR值比SGBM高了1.45dB(其他具体客观质量评价参数见文中图表)。而当处理由半透明对象组成的非朗伯场景时,文中方法的效果会更好。
备注(其他方面值得学习或者关注的) 本文对当前各种用于光场重建的方法做了详尽地调研,详细介绍了LF和EPI的相关概念,并讨论了剪切波变换的性质及构造。实验方法具有参考价值,实验论证和结果分析充分。

题 目:Meta-SR: A Magnification-Arbitrary Network for Super-Resolution
作 者:Xuecai Hu, Haoyuan Mu, Xiangyu Zhang, Zilei Wang, Tieniu Tan, Jian Sun
单 位:中国科学技术大学,中国科学院自动化研究所智能感知与计算研究中心,清华大学,旷视科技
期刊名称:The IEEE Conference on Computer Vision and Pattern Recognition
发表时间:16 June 2019
阅读时间:2019.12.07

研究领域(想要做什么,功能,应用或研究背景) 研究一种以任意放大因子实现超分辨率的方法,用于得到想要尺寸(非整数)的高分辨率图像。
针对的问题(要解决什么技术或者研究问题) 传统做法都是把放大倍数不同的超分辨率方法看作是不同的任务,很少会训练一个任意放大倍数的模型来实现任务,而且,传统上的放大倍数都只能为整数,这些缺点给SISR方法的实际应用带来了很大局限。文中以元学习为启发,提出一种基于元学习的任意放大倍数因子的超分辨率网络。
解决方法的思路(总结基本原理,指出创新之处) 文中提出的方法称为元-超分辨率方法(Meta-SR)。基于元学习,整个模型由两部分构成:特征学习模块和元-比例放大模块。元-比例放大模块通过输入与尺度相关和坐标相关的向量序列,来动态预测卷积核的可变权重参数,由此达到单一模型放大任意比例因子的效果。
实验结果及其性能(最好量化) 实验的模型训练都是基于DIV2K数据集,测试选用的是四个标准基准数据集(standard benchmark dataset):Set14,B100,Manga109,DIV2K。在放大因子取*2,*3,*4的设置下,文中方法与bicubic、RDN两种方法作比较,文中方法达到了相对或者平均更优的性能,在DIV2K数据集下,文中方法比RDN的PSNR值平均高了0.02dB,SSIM值平均高了0.00023(具体客观质量指标比较见表3)。通过实验计算可知,该方法的(特别是权值预测)的时间极短(Meta-RDN的权值预测时间为1.5e-2s),给SISR技术的落地增加了巨大的可能。
备注(其他方面值得学习或者关注的) 文中给出了一些降采样得到缩小图像的方法,值得借鉴。文中方法较为新颖,高效且有良好的实时性性能。元学习值得详细了解和关注。

码字不易,如果您觉得有帮助,麻烦帮我点个赞~~

你可能感兴趣的:(图像处理与计算机视觉,论文相关,计算机视觉,算法)