当下,深度学习在农业领域的研究热度持续攀升,相关论文发表量呈现出迅猛增长的态势。但繁荣背后,质量却不尽人意。相当一部分论文内容空洞无物,缺乏能够落地转化的实际价值,“凑数” 的痕迹十分明显。在农业信息化领域的顶刊《Computers and Electronics in Agriculture》中也大面积存在。
众多论文在研究方法上存在严重缺陷,过于简单粗放。只是机械地把深度学习方法生硬地套用到特定农业问题中,似乎只要设计出一个模型,在学术得分榜上 “刷” 出一定成绩就算大功告成。整个研究过程中,对农业领域实际存在的复杂情况和多样特性,如复杂多变的气候条件、千差万别的土壤质地、各具特点的农作物生长周期等关键因素,全然未给予充分考量。这就导致这些研究成果与真实的农业生产实践严重脱节,难以在实际农业生产中切实发挥有效作用。
摘要:近期的技术进步及其在农业领域的应用,为智慧农业的新范式提供了有力支撑。遥感技术的应用有助于优化资源配置,使农业生产更趋生态化,提高生产力,并帮助农民预测原本难以避免的事件。鉴于疾病、杂草和害虫等异常情况所造成的损失占农业总生产力的20-40%,该领域的成功研究成果将成为农业发展的重大突破。
杂草和害虫等异常现象造成的损失占农业总生产力的20-40%,该领域的成功研究工作将是农业的突破。在本文中,我们提出了一种方法,使用不同的卷积神经网络架构从很远的距离捕获的农作物图像中的异常情况并进行分类。这种方法还处理了这类问题中通常出现的几个困难,如类不平衡、图像种类不足和种类少、过度训练或缺乏模型泛化。我们在高性能计算环境中实现了四种卷积神经网络架构,并提出了一种基于数据增强的方法,并在图像中加入高斯噪声来解决上述问题。我们的方法使用两个成熟的不同开放数据集进行了测试:DeepWeeds,它使用在1m距离拍摄的图像对澳大利亚原生的8种杂草进行分类,以及Agriculture-Vision,它使用多光谱卫星图像对6种作物异常进行分类。我们的方法分别达到了98%和95.3%的准确率,将最先进的技术提高了几个点。为了简化可重复性和模型选择,我们在计算时间和其他指标方面进行了比较,从而可以根据可用资源在架构之间进行选择。完整的代码可在开放存储库中找到,以鼓励可重复性并促进可持续农业的科学进步。
简单介绍了智慧农业推进对人类食品需求和粮食变化的重要性。智慧农业通过解决疾病、杂草和害虫造成的作物损失等问题,最大限度地减少对环境的影响,同时提高土地生产力,这些问题占农业生产力的 20%-40%。通过技术创新,使用无人机或卫星图像结合深度学习进行远程监控,对于与水、营养物质和疾病症状相关的早期异常检测具有重要价值。但是,由于元素和环境不同,从图像中分析作物状况很复杂。卷积神经网络 (CNN) 由于能够处理各种数据,因此在农业中可用于疾病和害虫识别。然而,它们的有效性依赖于广泛的标记数据集,而这些数据集通常是有限的,导致神经网络难以进行泛化。
原文
我们的工作提出了一种新的方法,该方法以通过高斯噪声进行数据增强技术为中心,并在我们的方法中包括对四种 CNN 架构的比较。我们的关键贡献围绕着解决农业场景计算愿景领域的普遍挑战。
解决的挑战是每个类别的数据样本不平衡和标记不足、模型泛化不足、仅关注由其分辨率决定的特定图像类型所产生的限制,以及对单一架构方法的依赖。通过提供缓解这些问题的全面解决方案,我们提高了两个著名的开放数据集的准确性指标:DeepWeeds和Agriculture-Vision。具体来说,我们在DeepWeeds中实现了98%的准确率,在Agriculture-Vision中实现了95.3%的准确率。为完全复制这项工作而开发的所有代码都已包含在GitHub上的公共存储库中,从而鼓励有利于农业科学和技术进步的审查和改进。然后介绍了该论文的结构。
介绍了自2016年以来,开发的一些用于自动识别作物病虫害的应用程序。
根据数据集的复杂程度,可以定义三种类型的数据集。第一种类型包括在受控条件下捕获的图像,其中叶子或果实被放置在具有受控照明的均匀背景上(图1A)。第二种类型的集合是在不受控制的条件下捕获的,但侧重于特定的植物器官,通常是一片叶子或一株植物。图像具有复杂的背景,但最大的区域被感兴趣的对象占据(图1B)。
第三种类型的数据集由在不受控制的条件下捕获的图像组成,并且没有聚焦于特定的植物器官。因此,这些图像反映了农民在田间看到的情况,最自然最真实。(图1C)
接下来作者列出了第2种和第3种代表性数据集。
这里介绍了3种控制的条件并专注于植物器官图像的数据集,以及目前取得的最高精度。
这里介绍了3种不受控制的条件且不关注植物器官的数据集,以及目前取得的最高精度。
这里介绍了四种值得注意的类型(VGG16、Inception-v3、ResNet-50 和 Xception)在ILSVRC和COCO等图像分类竞赛中表现出色,在作物异常检测和分类等类似任务中显示出前景。简单介绍了这4种模型的架构。
我们的方法旨在填补目前大多数图像分类问题中存在的一些空白,其解决方案代表了异常分类模型准确性的重大飞跃:
在深入研究我们的方法如何解决这些差距之前,我们的方法从一个关键的预处理步骤开始,旨在转换Agriculture-Vision数据集中的图像。这一步对于实现有效的图像级异常分类至关重要。
1.4.1 图像转换
从Agriculture-Vision数据集中基于像素的分类到基于图像的分类
1.4.2 差距 1:标签不平衡和数据样本不足
这里主要介绍了通过图像增强技术来扩大数据集,允许网络在每个训练周期中看到数据的新变化,这意味着创建了更深的模型,从而避免了过度训练。
1.4.3 差距 2:模型对新图像的泛化能力差
为了解决模型对新图像泛化不佳的挑战,法包含一个关键元素:在原始和转换后的训练图像中添加高斯噪声。
1.4.4 差距 3:单类图像聚焦和有限的神经网络架构
使用Keras Callback工具对不同实验中模型的训练过程进行监控、自动化和控制。此工具可以定义可在epoch或训练批次的开始或结束时调用的方法,以便控制此过程。回调对于在训练期间获得模型内部状态和统计信息的可见性非常有用。这些方法可用于执行任务,例如可视化和导出训练进度和结果、定期或在事件发生时保存模型、通过在事件发生时提前停止来停止训练过程以避免过度拟合或在指标停止改进时调整学习率等。
在本文中,本文使用了3个指标来评估模型的性能:平衡的准确度、精密度和假阳性率,从而可以与Olsen等人(2019)针对DeepWeeds数据集所做研究进行对比。此外,对于最佳模型,我们对其在每个异常类别中的性能进行了详尽分析,还展示了混淆矩阵,以便按类别解释模型的分类误差。
本文提出了一种使用深度学习技术对作物进行自动异常检测的稳健方法。我们的方法旨在填补该领域的空白:每个类别的标记数据样本不平衡、不足,缺乏模型泛化,只关注一种类型的图像(取决于它们的分辨率)并基于单一架构。
我们的方法已经在精准农业中两个重要但不同的数据集上进行了测试,即DeepWeeds(Olsen等人,2019年)和Agriculture-Vision2020挑战数据集(Chiu,Xu,Wei等人,2020年)。我们在这些图像集上训练了四个卷积神经网络模型,即VGG16、Inception-v3、ResNet-50和Xception,并将一组数据增强和高斯噪声技术应用于图像,以填补上述空白。使用这些模型后,DeepWeeds数据集的平均分类准确率为98%,Agriculture-Vision数据集的平均分类准确率为95.3%。将所得结果与现有结果进行比较,平均分类性能提高了2.3%,假阳性率从2%降低到1.32%,考虑到作为参考的工作的良好结果,这是非常显著的改进。
在Agriculture-Vision数据集中,由于我们将问题从基于像素的分类转换为基于图像的分类,无法将结果与其他工作进行比较。我们认为我们正在为该数据集的使用开辟新的视角,并且我们的结果总体上已经非常成功,可以作为与未来研究进行比较的基线。在每种情况下,最佳模型获得的假阳性率(即DeepWeeds的高斯噪声Xception和双训练集扩展和Agriculture-Vision的高斯噪声Inception-v3)均低于1%,从而证明了模型的稳健性。Negative类在DeepWeeds中获得了1.32%的假阳性率,在Agriculture-Vision数据集中获得了2.52%的假阳性率。这是因为在收集图像的地点,此类植物种类繁多。因此,在现场实施模型时,需要使用特定位置的数据训练每个模型,以进一步减少错误分类目标的数量。
Agriculture-Vision2020挑战图像的实验证明了使用多光谱相机和传感器进行数据收集的重要性。这些实验的结果表明,与使用RGB格式的彩色图像相比,使用NRG通道(近红外通道以及RGB模型的红色和绿色通道)时获得的平均精度水平提高了约1%。
这篇论文主要采用了四种方法,在 DeepWeeds 和Agriculture-Vision 图像集上对四个卷积神经网络模型(VGG16、Inception-v3、ResNet-50 和 Xception)进行训练。结果表明,其准确率和精度高于目前所有的方法。论文的优点是举例了3种图像场景的区别+0.5分。写作上始终围绕主题+1分,两个不同类型的数据集+1分,消融实验+1分,代码公开+1分 ,不同方法对比+1分。但是论文把复杂场景归结为图像异常检测是否合理?而且用的方式为高斯模糊、图像增强等操作其实也是常用操作,创新型不大,但是作者从一个新的切入点去写这篇文章。
摘要:作为当代计算机视觉研究中最重要的课题之一,物体检测因其多样化的应用而受到精准农业界的广泛关注。虽然最先进的对象检测框架通常是针对主要包含非农业对象的大规模公共数据集进行评估的,但反映植物独特特性的专门数据集将帮助研究人员研究新开发的对象检测器在农业环境中的效用。本文介绍了AriAplBud:使用基于无人机(UAV)的红-绿-蓝(RGB)相机创建的苹果花芽特写图像数据集。AriAplBud包含3600张苹果花芽在6个生长阶段的图像,其中110,467个手动边界框注释作为阳性样本,2520个额外的不包含苹果花芽的空果园图像作为阴性样本。AriAplBud可以直接部署用于开发接受暗网注释格式的对象检测模型,而无需额外的预处理步骤,可作为未来农业对象检测研究的潜在基准。本文还演示了开发基于YOLOv8的苹果花芽检测器。数据集:https://osf.io/wexu7/。
期刊的小标题写的是“Summary”) 但我个人读下来感觉还是一个“Introduction”。
该部分介绍了目标检测的原理和应用意义,以及指出目前非常缺乏用于目标检测基准测试的农业数据集。然后介绍了目前已有的一些数据集。但是仍然需要更加丰富的数据集。接着介绍了霜冻的危害,而检测苹果的花芽变化可以确定霜冻事件期间果园局部供暖需求。作者创建了航空苹果花芽红-绿-蓝(RGB)图像数据集AriAplBud,并在本文中进行了介绍。数据集图像是在9个日期的苹果园上空使用无人机捕获的,涵盖了从休眠到衰老的6个独特的苹果花芽生长阶段。共获取了3600张图片。
这个部分包含了果园的位置、数据集的搜集方式、以及标注规则。
这个部分主要介绍了数据集网站文件的说明与数据集的使用。
作为演示,本节提供了一个简短的教程,介绍如何使用GoogleColab(GoogleLLC,MountainView,CA,USA)中最先进的对象检测框架YOLOv8[24]使用AriAplBud开发苹果花芽分类器。
这个部分包括数据不平衡、每个图像注释特点、边框大小、注释错误、注解样式不一致、图像相似度、正样本和负样本相异性、飞行高度不一致、图像模糊、人造物体。
这篇论文发表在MDPI的期刊Data上,其实是先公开的数据集,然后再发表的论文,总的来说能公开数据集就很不错了。
摘要:发酵是可可豆加工中的关键步骤,对最终巧克力产品的质量和风味有显著影响。满足国际市场标准需要发酵良好的可可豆,这突出了在出口前精确确定其发酵程度的重要性。传统上,人工分级员依靠切割测试来评估发酵程度,但这种方法容易出现个体差异且耗时。为了解决这个问题,基于YOLOv8框架开发了YOLO-CoLa模型,专注于准确检测可可豆的发酵程度。这个新模型是YOLOv8s模型的扩展,在网络骨干中融入了创新的大选择性核模块(LSKBlock),取代了C2f模块以提高检测精度。应用数据增强技术来缓解训练图像可用性相关的限制。结果表明了YOLOv8-CoLa的有效性,其平均精度(mAP)达到70.4%,比YOLOv8显著提高了9.3%。这些发现凸显了整合LSKBlock的重要性以及定制模型适应性在准确识别可可豆发酵程度方面的价值。本研究中的进展为确定可可豆发酵水平所面临的挑战提供了可行的解决方案,有助于优化可可豆加工。
这篇论文的数据集只采集了100张图像,训练集/验证集/测试集的比例为8:1:1.按数据质量而言远远达不到一篇一区论文水准。而且2024年YOLOv11都出来了,作者所提的方法也知识根据少许数据改进YOLOv8.
摘要:当我们分割4K或6K超高分辨率图像时,需要在图像分割中额外考虑计算因素。常见策略,例如下采样、补丁裁剪和级联模型,无法很好地解决精度与计算成本之间的平衡问题。基于人类从粗到精连续区分物体这一事实,我们提出了用于超高分辨率分割细化任务的连续细化模型(CRM)。CRM持续将特征图与细化目标对齐,并聚合特征以重建这些图像细节。此外,我们的CRM在填补低分辨率训练图像和超高分辨率测试图像之间的分辨率差距方面表现出显著的泛化能力。通过定量性能评估和可视化展示,证明了所提方法在图像分割细化方面快速且有效。代码可在https://github.com/dvlabresearch/Entity/tree/main/CRM获取。
随着相机和显示设备的快速发展,图像分辨率越来越高,4K和6K分辨率变得常见。这在人像照片后期处理、工业缺陷检测、医疗诊断等方面带来了不同的机会。然而,超高分辨率图像也给经典图像分割方法带来了挑战。首先,大量的输入像素在计算上昂贵且占用大量GPU内存。其次,大多数现有方法通过插值将最终预测上采样4到8倍,而没有在输出掩码上构建细粒度细节。先前的分割细化方法包括[18,22,27,53]中的那些。它们仍然针对1K-2K分辨率的图像。[9,47]的工作基于从经典分割算法生成的低分辨率掩码处理超高分辨率细化。他们在解码器中使用级联方案,在几个分辨率阶段对中间细化结果进行上采样,直到达到目标分辨率。由于在解码器的预定义分辨率阶段以离散方式工作,它们仍然很耗时。我们转而考虑连续性,以使解码更高效,更有利于学习上采样分辨率。我们提出连续细化模型(CRM)来利用连续性。
我们提出了一种通用的连续细化模型(CRM)。它引入了一个隐式函数,该函数利用连续位置信息,在超高分辨率分割细化中连续对齐潜在图像特征。在没有基于级联的解码器的情况下,我们有效地降低了计算成本,同时重建了更多细节。CRM与多分辨率推理适用于使用低分辨率训练图像和超高分辨率测试图像。由于设计简单,即使从低分辨率细化到高分辨率,总推理时间也不到CascadePSP[9]的一半。在实验中,CRM在超高分辨率图像上产生了最佳的分割结果。它还有助于在不进行微调的情况下提升最先进的全景分割模型的性能。
这是一篇2年前发表的论文,主要提出了一种处理超高分辨率图像的方法,创新点挺好的,而且做的很全面。在多个数据集(如BIG、COCO、重新标记的PASCALVOC2012)上的实验表明,CRM在交并比(IoU)、平均边界准确率(mBA)、全景质量(PQ)和平均精度(AP)等评估指标上表现出色。与其他先进方法相比,如CascadePSP、Segfix、MGMatting等,CRM不仅在分割精度上具有优势,而且在推理速度方面也明显更快。CRM在不同类型的分割任务(如语义分割、全景分割和实体分割)中均表现出良好的泛化能力,能够适应多种应用场景,证明了该模型的通用性和稳定性。后面的消融实验也分析了CRM中各个组件(如CAM和隐式函数)以及推理策略对模型性能的影响。当前模型使用低分辨率图像进行训练,由于超高分辨率图像带有精确分割注释的数据稀缺,无法直接在超高分辨率上进行训练,这可能限制了模型在超高分辨率场景下的性能上限。虽然CRM在一定程度上降低了计算成本,但处理超高分辨率图像时,对GPU内存和计算资源的需求仍然较高。
摘要:人类拥有卓越的视觉感知技能,即看见并理解所见事物的能力,这有助于他们理解视觉世界并进行推理。多模态大语言模型(MLLM)最近在视觉问答、图像字幕、视觉推理和图像生成等视觉语言任务上取得了令人瞩目的成绩。然而,当被要求识别或计数(感知)给定图像中的实体时,现有的MLLM系统却表现不佳。为了开发一个准确的用于感知和推理的MLLM系统,我们提出使用通用视觉编码器(VCoder)作为多模态大语言模型的感知之眼。我们向VCoder输入分割图或深度图等感知模态,以提高MLLM的感知能力。其次,我们利用来自COCO的图像和现成的视觉感知模型的输出来创建我们的COCO分割文本(COST)数据集,用于在对象感知任务上训练和评估MLLM。第三,我们引入指标来评估MLLM在我们的COST数据集上的对象感知能力。最后,我们提供了大量实验证据,证明VCoder相对于包括GPT-4V在内的现有多模态大语言模型在对象级感知技能上有所提高。我们开源了我们的数据集、代码和模型,以促进研究。
多模态大语言模型在视觉语言任务上表现出色,但在对象感知任务上存在不足。例如能够描述一幅图但无法准备说出图中目标的数量。
在COST验证集上比较了VCoder与其他开源MLLM以及GPT-4V的性能,结果表明VCoder在对象识别任务上表现更好。但是,COST数据集的类别有限,评估指标需要手动定义同义词映射,VCoder对分割图的准确性依赖较大。
提出的COST数据集和VCoder能够提高MLLM的对象感知能力,为未来开发更强大的视觉系统提供了参考。
效果应该不如这些商用大模型。点开了论文提供的链接,作者也出示了代码和数据集的样例。但是我没找到公开数据集。
摘要:病虫害分类在农业中是一个具有挑战性的问题。深度学习模型的性能与训练数据的多样性和数量密切相关,而植物病虫害数据集的发展仍不完善,这给分类带来了难题。本研究通过构建一个综合数据集,并提出一种结合对比学习和掩码图像建模(MIM)的先进网络架构来应对这些挑战。该数据集包含多种植物物种和害虫类别,是该领域最大且最多样化的数据集之一。所提出的网络架构在处理植物病虫害识别任务中表现出有效性,实现了显著的检测精度。这种方法为快速、高效且低成本的植物病虫害检测提供了可行的解决方案,从而降低了农业生产成本。我们的代码和数据集将在https://github.com/WASSER2545/GPID-22的GitHub存储库上公开,以推动植物病虫害识别研究的进展。
针对上述不足,本文旨在创建一个在数量和多样性方面达到平衡的植物病虫害数据集。本文提出了一种改进的网络,该网络集成了对比学习和掩码图像建模(MIM),以提高植物病虫害的识别、分类效率和可靠性,从而降低农业生产成本。我们的贡献总结如下:
关于数据集划分,这里我觉得不合理,常规是最小类别不小于10,按惯例训练:验证:测试=6:2:2。
针对植物病虫害研究在数据质量和多样性方面存在的较大限制,我们开发了一个广泛的数据集,名为GPID-22。该数据集包含描绘22种植物上183种不同类型的病虫害的图像,共计205,371张图像,分布在199个不同的类别中。值得注意的是,GPID-22是该领域规模最大且最具多样性的数据集之一。为了最大限度地利用我们广泛的预训练数据集,我们提出了一种名为CRE的先进网络。CRE的架构集成了对比学习和掩码图像建模(MIM)。受先前生成模型的启发,CRE在输入与输出环节均结合了由矢量量化生成对抗网络(GAN)学习的语义标记以及掩码技术。此外,我们通过向编码器输出引入对比损失来增强特征表示。随后,我们在IP102、PlantVillage和CCD数据集上进行了验证实验。
篇论文创建了一个新的数据集,规模是20W张,并基于这个数据集做了一个植物病虫害检测的专业预训练模型,在多个数据集上与传统的自监督方法(特别是 MIM 和对比学习模型)相比,该论文的方法表现出更优越的性能。文中大约20%的图片是自己收集的,也就是不超过5W张图。这个数据量稍小了一点。方法上创新的程度弱,在之前贵州大学团队已经发表过一篇40W数据(大部分数据采用现在公开数据集)的农业病虫害图像预训练模型。优点是代码、数据全公开。
摘要: 近年来,人脸识别技术取得了重大进展,这在很大程度上得益于深度学习模型中可使用的大型且日益复杂的训练数据集。然而,这些数据集通常由从新闻网站或社交媒体平台上抓取的图像组成,因此在更先进的安全、法医和军事应用中的效用有限。这些应用场景面临着低分辨率、长距离和高视角的挑战。为了满足这些关键需求,我们收集并整理了一个大型多模态生物特征数据集的第一和第二个子集,旨在用于在极具挑战性的条件下进行生物特征识别技术的研究和开发(R&D)。到目前为止,该数据集包括超过350,000张静态图像,以及时长超过1300小时、涉及约1000个对象的视频片段。为了收集这些数据,我们使用了尼康数码单反相机、各种商业监控相机、专门用于远程拍摄的相机以及第1组和第2组无人机平台。目标是支持开发能够在高达1000米的距离和高仰角下准确识别人的算法。这些进展将包括提升人脸识别的现有技术水平,并支持使用基于步态和人体测量学的方法在全身识别领域进行新的研究。
这篇2022年发布在ARXIV上的数据集论文优点明显,主要优势在于提供了一个多距离、多海拔、包含穿着多种服装对象的图像和视频数据集,为生物特征识别研究提供了新资源。该数据集数据来源多样,涵盖多种相机和无人机平台,以及不同的地形、天气和大气条件,具有丰富的挑战性场景。
摘要:在图像超分辨率(Super-Resolution)领域,缩小合成数据集上的性能与真实世界退化场景下性能之间的差距仍是一项挑战。本研究引入了一种全新的“低分辨率引领方向”(Low-ResolutionWay)训练框架,将监督预训练与自监督学习相结合,以增强超分辨率模型对真实世界图像的适应性。我们的方法利用低分辨率(Low-Resolution)重建网络从低分辨率图像中提取退化嵌入,将其与超分辨率输出融合用于低分辨率重建。利用未见过的低分辨率图像进行自监督学习,引导模型将其建模空间适应目标域,从而在无需成对高分辨率(High-Resolution)图像的情况下对超分辨率模型进行微调。离散小波变换(DiscreteWaveletTransform)的集成进一步聚焦于高频细节的优化。大量评估表明,我们的方法显著提升了超分辨率模型在未知真实世界数据集上的泛化能力和细节恢复能力,优于现有方法。我们的训练机制具有普遍兼容性,无需修改网络架构,为实际超分辨率应用提供了切实可行的解决方案。
图像超分辨率(SR)旨在从低分辨率(LR)或退化图像中恢复高分辨率(HR)图像。基于深度学习的超分辨率模型的起源可以追溯到 SRCNN。近年来,深度学习模型的进步显著提升了超分辨率性能,尤其是在处理双三次下采样等特定退化类型时。然而,超分辨率模型的有效性通常受到训练阶段所采用的退化策略的限制,这在复杂的实际应用中带来了巨大挑战。
在实际超分辨率领域,训练方法主要可分为三大类。
(a)使用未配对数据的无监督学习。这类方法通常利用生成对抗网络(GAN)架构在没有配对数据的情况下学习目标分布。它们使用一个或多个判别器来区分生成图像和实际样本,引导生成器进行准确建模。然而,由于这种方法严重依赖外部数据,在面对目标域数据稀缺的情况时,尤其是在实际场景中,会遇到重大挑战。用于无监督学习的 GAN 框架也存在一些缺点。首先,它在训练过程中固有地存在稳定性问题,导致超分辨率输出中出现明显的伪影。其次,判别器所建模的单一 0/1 平面难以准确分离目标域,这可能导致分布学习不准确。
(b)使用合成配对数据的监督学习。BSRGAN 和 Real - ESRGAN 通过模拟更真实的退化,在很大程度上增强了超分辨率模型的泛化能力。然而,尽管合成数据模仿了某些真实世界的条件,但无法充分捕捉真实场景的复杂性和可变性,合成退化与真实退化之间的差距依然存在。因此,合成数据中有限的退化模式可能导致过度平滑的问题,牺牲关键的细节和纹理。有效适应复杂、多变或未知的退化仍然是一个艰巨的挑战。
(c)使用单张图像的自监督学习。这类技术利用自然图像的内在统计特征,无需外部数据集。通常,这些方法能够直接从输入的低分辨率图像进行自监督学习。尽管具有内在的灵活性,但在处理缺乏重复模式的图像时,这种方法的效果可能会降低。因此,在实际场景中,当缺乏必要的重复结构时,与使用合成配对数据的监督学习方法相比,这些技术的表现往往较差。
值得注意的是,目标域中的真实低分辨率/高分辨率图像对通常成本高昂或难以获取。此外,合成数据与真实世界数据之间仍然存在显著差距。鉴于当前方法的内在局限性,一个关键问题应运而生:是否存在一种方法能够结合这些不同策略的优势?为了解决这个问题,我们提出了全新的“低分辨率引领方向”(LWay)训练框架,将监督学习(SL)预训练与自监督学习(SSL)相结合。该方法旨在缩小合成训练数据与真实测试图像之间的差距,如图1所示。通过将监督学习的预测能力与快速适应测试低分辨率图像独特特征的能力相结合,这个框架有效地为未知的真实世界图像生成高质量的结果。(在研究背景中,作者总结了超分辨率领域的3个类别训练方法,以及他们的局限性。然后引出问题,再提出解决方案。)
第一步是训练一个专门设计的低分辨率重建网络,用于从低分辨率图像中提取退化嵌入。然后将这个退化嵌入应用于高分辨率图像,促进低分辨率内容的再生。遇到测试图像时,我们从在合成数据上预训练的现成超分辨率模型中获得其超分辨率结果。将这个输出输入到固定的低分辨率重建网络中,生成相应的退化图像。随后,通过将这个退化图像与原始低分辨率图像进行比较,计算自监督损失,从而更新超分辨率模型中的特定参数。鉴于我们观察到预训练的超分辨率模型在处理低频域时表现出色,但在高频区域存在不足,我们引入离散小波变换(DWT)来从低分辨率图像中分离高频元素。这一组件有效地将模型的重点转移到高频细节的恢复上,避免对低频区域产生负面影响。(论文的主要方法)
通过这个创新框架,我们的方法无需目标域中的配对低分辨率/高分辨率图像,显著提升了监督学习预训练模型在未知真实世界数据上的性能。我们的方法不仅保留了低分辨率图像的基本内容,还增加了高清特征,确保了保真度和质量之间的平衡。此外,这种训练机制无需对网络架构进行修改,对所有超分辨率模型都具有广泛的兼容性。通过在真实世界数据集上的大量评估,我们证明了我们的方法在泛化性能上有显著提升。(方法的效果与意义)
在追求图像超分辨率的实际应用过程中,我们引入了一种前所未有的训练方法。这种新策略打破了传统范式,将监督预训练的精确性与自监督学习的创新性相结合,以应对真实世界图像退化的复杂性。我们提出的框架如图3所示。图3.所提出的训练流程(LWay)包括两个步骤。在步骤1中,我们预训练一个低分辨率重建网络,以从低分辨率图像中捕获退化嵌入。然后将这个嵌入应用于高分辨率图像,再生低分辨率内容。进入步骤2,对于测试图像,预训练的超分辨率模型生成超分辨率输出,然后由固定的低分辨率重建网络对其进行退化处理。我们使用应用于低分辨率图像的自监督学习损失迭代更新超分辨率模型,并通过加权损失聚焦于高频细节。这个优化过程提高了超分辨率模型在未见图像上的泛化性能。
我们引入了一个低分辨率重建分支,它在对来自真实世界环境的测试图像进行超分辨率模型微调中起着关键作用。这个过程的核心是退化编码器ε,它被设计用来将低分辨率图像 I L R I_{LR} ILR中的退化特征提取为一个简洁的退化嵌入e,其维度为512,公式为 e = E ( I L R ) e=E(I_{LR}) e=E(ILR)。随后,重建器R利用e和高分辨率图像 I H R I_{HR} IHR来合成一个估计的低分辨率图像 I ^ L R \hat{I}_{LR} I^LR,目标是实现 I ^ L R = R ( I H R , e ) \hat{I}_{LR}=R(I_{HR},e) I^LR=R(IHR,e)。为确保e的完整性,我们引入了一个双分量损失函数c,它结合了L1范数和学习感知图像块相似性(LPIPS)度量。因此,组合损失函数表示为 L ( I L R , I ^ L R ) = L 1 + L L P I P S L(I_{LR},\hat{I}_{LR})=L_{1}+L_{LPIPS} L(ILR,I^LR)=L1+LLPIPS,通过精心调整来优化重建保真度。值得注意的是,低分辨率重建分支具有很强的鲁棒性,只需要极少的数据进行训练,这正是我们主张包含低分辨率重建分支的原因。这确保了即使面对新形式的退化,它对超分辨率模型微调的支持也不会受到影响。这种方法的效率和鲁棒性在我们的方法中至关重要,将在以下部分详细阐述和验证。
我们的方法创新性地对超分辨率网络中的一部分参数进行微调,专门用于处理以前未见过的真实世界图像。这种方法优化了超分辨率网络,使其能够熟练应对实际退化模式的复杂性。对于一个真实世界的低分辨率测试图像 I L R t e s t I_{LR}^{test} ILRtest,超分辨率网络S最初生成一个超分辨率图像 I S R i n i t I_{SR}^{init} ISRinit。预训练的低分辨率重建分支在参数冻结的情况下,从 I L R t e s t I_{LR}^{test} ILRtest中提取一个退化嵌入 e t e s t e^{test} etest,表示为 e t e s t = E ( I L R t e s t ) e^{test}=E(I_{LR}^{test}) etest=E(ILRtest)。然后开始自监督微调,利用 I S R i n i t I_{SR}^{init} ISRinit和 e t e s t e^{test} etest来调整超分辨率网络的特定参数子集 θ f t \theta_{ft} θft。这个微调被表述为一个优化问题:
θ f t ∗ = a r g m i n θ f t L ( R ( S θ ( I L R t e s t ) , e t e s t ) , I L R t e s t ) \theta_{ft}^{*}=argmin_{\theta_{ft}}\mathcal{L}(\mathcal{R}(\mathcal{S}_{\theta}(I_{LR}^{test}),e^{test}),I_{LR}^{test}) θft∗=argminθftL(R(Sθ(ILRtest),etest),ILRtest),其中 θ f t ∗ \theta_{ft}^{*} θft∗是从完整模型θ中优化得到的参数。
这种策略性调整增强了超分辨率网络对低分辨率输入图像进行高保真重建的能力,提高了超分辨率网络对真实世界退化的泛化能力,且无需配对数据。
聚焦高频细节增强:传统的超分辨率方法往往能够熟练重建低频区域,但常常忽略或无法充分恢复高频细节。此外,由于低频区域没有详细的纹理,不需要进行低分辨率重建。因此,我们的方法旨在将低分辨率重建过程专门集中在高频区域,从而避免在低频区域引入伪影。具体来说,我们应用离散小波变换(DWT)来获取高频分量,然后对其进行归一化以生成一个权重图 W ∈ [ 0 , 1 ] W \in [0, 1] W∈[0,1]。这个权重图随后用于计算加权损失,确保对高频细节的保真度:
L = L 1 ( W ⊙ I ^ L R t e s t , W ⊙ I L R t e s t ) + L L P I P S ( W ⊙ I ^ L R t e s t , W ⊙ I L R t e s t ) \mathcal{L} = \mathcal{L}_{1}(W \odot \hat{I}_{LR}^{test}, W \odot I_{LR}^{test}) + \mathcal{L}_{LPIPS}(W \odot \hat{I}_{LR}^{test}, W \odot I_{LR}^{test}) L=L1(W⊙I^LRtest,W⊙ILRtest)+LLPIPS(W⊙I^LRtest,W⊙ILRtest)
其中⊙表示逐元素相乘。这个组合损失有效地引导网络更精确地恢复高频细节,在不影响低频内容的情况下提高超分辨率图像的感知质量。
聚焦高频细节增强:传统的超分辨率方法往往能够熟练重建低频区域,但常常忽略或无法充分恢复高频细节。此外,由于低频区域没有详细的纹理,不需要进行低分辨率重建。因此,我们的方法旨在将低分辨率重建过程专门集中在高频区域,从而避免在低频区域引入伪影。具体来说,我们应用离散小波变换(DWT)来获取高频分量,然后对其进行归一化以生成一个权重图。这个权重图随后用于计算加权损失,确保对高频细节的保真度:
通过结合合成数据上的监督学习(SL)与具有未知退化的测试图像上的自监督学习(SSL),我们根据测试图像的内在特征动态调整建模空间,将监督学习空间导向更精确的自监督学习空间。图4展示了我们的方法在微调过程中的有效性。我们的方法在保持对所有模型普遍兼容性的同时,实现了高质量和高保真度的超分辨率。与其他方法相比,我们的方法主要有以下优势:
表1中的结果有力地证明了我们方法在显著提升超分辨率质量方面的有效性。值得注意的是,在所有模型、数据集和指标上都能观察到性能提升,这突出了我们方法的普遍适用性。对于基于CNN的模型,如Real-ESRGAN+,我们的方法在尼康数据集上取得了显著改进,PSNR提升了1.77dB,SSIM提高了0.0388,这些改进有助于更精确地重建高质量图像。此外,LPIPS降低了0.0532,这进一步验证了感知质量的提升。当应用于Transformer模型,如SwinIR-GAN时,我们的方法同样展现出显著进步。在奥林巴斯数据集上,PSNR提高了0.63dB,MAD显著降低了5.69,这凸显了该框架增强图像保真度和清晰度的能力。如图5所示,在第一个例子中,所有超分辨率模型都未能保留输入图像中的原始纹理,导致织物图案过度平滑。然而,应用我们的自监督微调方法后,所有方法都有了显著改进,成功重建出清晰的织物纹理。在油画的第二个例子中也有类似的改进。现有超分辨率模型难以捕捉油画的精细细节,而我们的方法有效地恢复了艺术效果,特别是在StableSR模型上展现出明显的提升。在其他例子中,结果也类似,我们的方法显著改善了高频细节的恢复,生成的图像既清晰又富有细节。
老电影通常存在颗粒感、褪色和分辨率较低等问题,使其成为评估超分辨率模型实际能力的理想测试平台。为了进行全面比较,我们挑选了一系列最先进的真实世界超分辨率模型,包括自监督学习模型ZSSR、退化自适应方法DASR、大型扩散模型如LDM、DiffBIR和StableSR、利用无监督技术提升性能的DARSR,以及逼真的超分辨率模型CALGAN。我们以StableSR为基础模型,实施所提出的自监督学习策略。图6中的第一个案例是一部480p的低分辨率电影《窈窕淑女》。在评估的模型中,ZSSR、DASR和DARSR的改进最小,DiffBIR引入了令人不悦的伪影,其他模型的结果稍显平滑。值得注意的是,我们的模型不仅准确地再现了帽子上清晰的织物纹理,还有效地恢复了面部特征,包括皱纹和轮廓。与一些可能引入不自然效果或过度平滑失真的方法不同,我们的模型在精细纹理恢复和整体图像清晰度保持之间实现了良好的平衡。
我们使用BSRGAN对RealSR尼康测试集进行消融研究。为在该测试集上获得最低的LPIPS分数,我们对65%的模型参数进行了训练。
总之,我们提出的超分辨率训练策略“低分辨率引领方向”,是一种创新方法,成功弥合了合成数据监督训练与真实世界测试图像自监督之间的差距。我们的方法在各种超分辨率框架和真实世界基准测试中展现出令人瞩目的性能和鲁棒性,朝着实现有效的真实世界应用迈出了重要一步。
这篇论文提出了一个创新性的方法,引入了一种全新的“低分辨率引领方向”(LWay)训练框架,将监督预训练与自监督学习相结合,以增强超分辨率模型对真实世界图像的适应性。全文实现过程和细节也很详细。当论文送审,有审稿人要求增加方法描述细节,可以参考这篇论文。
摘要: 近年来,深度学习使单图像超分辨率(SISR)性能有了巨大飞跃。虽然大多数现有工作假设一个简单且固定的退化模型(例如双三次下采样),但盲超分辨率(BlindSR)研究旨在提高模型对未知退化的泛化能力。最近,Kong等人率先使用Dropout研究了一种更适合盲超分辨率的训练策略。虽然这种方法确实通过缓解过拟合带来了显著的泛化改进,但我们认为Dropout同时引入了不良副作用,损害了模型忠实重建细节的能力。我们在本文中展示了理论和实验分析,并且进一步提出了另一种简单而有效的训练策略,通过简单地调制其一阶和二阶特征统计来增强模型的泛化能力。实验结果表明,我们的方法可以作为一种与模型无关的正则化方法,在包括合成和真实场景的七个基准数据集上优于Dropout。
在深度学习技术迅猛发展的浪潮下,基于深度神经网络(DNN)的单图像超分辨率(SISR)近年来取得了长足进步(例如,VDSR、SRResNet、EDSR、RDN 和 SwinIR),相比传统预测模型表现出更优越的性能。
然而,为DNN训练收集大量自然低分辨率(LR)和高分辨率(HR)图像对存在一定困难,早期的SISR研究者采用手动设计的HR/LR图像对(即双三次)作为替代。然而,现实中的退化很少遵循这种简单假设,导致这些模型的性能严重下降。
盲超分辨率作为上述问题的解决方案,旨在提高模型对未知退化的泛化能力。尽管通过丰富训练退化空间(例如通过手工合成或数据分布学习)和增强模型能力(例如展开退化模型或探索图像内部统计)已经取得了有前景的结果,但我们注意到目前为止,对有利于盲超分辨率的训练策略(正则化)的研究几乎没有涉及。
在本文中,我们认为鉴于盲超分辨率的当前研究现状,这种研究是必要且有意义的。原因如下:首先,如果不扩大训练的退化空间,盲超分辨率的发展已经遇到瓶颈。尽管有方法试图挖掘图像的内部相似模式以进行零样本学习,但在自然情况下,如果没有自重复模式,它们很容易失败。另一方面,从理论上讲,通过大的退化空间进行训练可以使模型更好地泛化,因为它鼓励模型更多地关注学习自然图像的形状和纹理先验。因此,构建一个多样化的退化池进行训练(即根据Li等人的数据驱动盲超分辨率)已成为近期盲超分辨率研究的主流方向,并且在基于CNN、基于GAN和基于扩散的模型中都已被证明是有效的。
然而,只有在理想情况下,用多样化退化训练的模型才能自动释放其全部潜力来学习退化不变表示,从而对未知退化具有更强的泛化能力。其他领域的经验警告说,如果没有适当的正则化,这种理想情况可能不容易实现。最近,Kong等人首先注意到这个问题,并更新了Dropout的使用,以缓解数据驱动盲超分辨率中的 “对退化过拟合” 问题。他们指出,如果没有适当的正则化,仅仅增加数据和网络规模现在不能持续提高泛化能力。然而,我们注意到,尽管性能有所提高,但Dropout也引入了不良副作用,减少了特征交互和多样性,这进一步导致了生动的高频细节的丢失。我们在图1中展示了一个初步示例,并将在第3节中详细阐述理论和实验分析。
此外,“对退化过拟合” 问题源于网络对某些特定退化的过度关注。为了解决这个问题,我们进一步提出了一种统计对齐方法,在训练期间对齐具有相同内容但不同退化的两个图像的一阶和二阶特征统计(即均值和协方差)。我们观察到这种简单的正则化可以有效地增强模型在前向传播过程中选择性地去除退化相关信息的能力。因此,模型可以不受退化干扰地恢复细粒度的HR内容,并且更具泛化性。我们的正则化可以以与模型无关的方式轻松应对现有的流行DNN,并且其实现前提(即具有相同内容但不同退化的图像)与当前具有随机退化生成模型的数据驱动盲超分辨率方法配合良好。我们的方法细节将在第4节中介绍。
我们在此总结本文的主要贡献:
我们从理论和实验上论证并验证了Dropout不是盲超分辨率设置的理想正则化选择,因为它在减少特征交互和多样性方面存在副作用,这进一步导致特别是高频细节信息的丢失。我们提出了一种简单的统计对齐方法,鼓励模型完全忽略退化信息,从而挖掘模型泛化能力的全部潜力。请注意,我们的正则化实际上与现有的数据驱动盲超分辨率研究并行工作并作为其补充。我们在七个广泛使用的基准上进行了大量实验,以验证我们的提议和论点。
盲图像超分辨率旨在从具有未知退化的低分辨率图像中有效恢复高分辨率图像。多年来,这个问题的解决方案大致可分为三类。第一类研究者试图通过调整相机焦距收集真实世界的 HR-LR 图像对进行训练。然而,这种收集过程繁琐且容易出现空间错位,使得构建一个大型多样的训练集几乎不可能。
考虑到上述工作面临的困难,第二类研究者通过执行零样本学习完全消除了对外部数据的需求。这个方向的代表性工作包括 ZSSR 和 DGDML-SR,它们分别利用双三次下采样和深度信息作为超分辨率先验。然而,这些方法严重依赖于图像中频繁出现的内容,将其良好性能限制在非常有限的数据集中。
第三类工作的核心在于通过手工合成或数据分布学习丰富训练退化空间。这个想法可以追溯到盲超分辨率研究的初期(即 SRMD),并且非常符合机器学习的直觉,即大的训练空间自然会导致更好的泛化。Zhang 等人和 Wang 等人提出使用重复合成的退化而不是单一退化来构建更通用的数据集。后来,为了进一步模拟真实世界的退化,将 GAN 和扩散模型纳入其中以学习更现实的分布。对于退化学习的随机性,Bulat 等人和 Maeda 提出将随机向量集成到退化建模中,Luo 等人进一步设计了一个具有普遍适用性的统一概率框架。我们也将在这种多退化设置基础上探索模型设计的工作归类到这一类,包括退化自适应网络和深度展开网络。
然而,正如 Liu 等人指出的,即使使用大型退化池进行训练,网络仍然有过度拟合某些特定退化的趋势,有效地在网络中嵌入了与退化相关的 “语义”,导致泛化能力降低。从这个角度来看,现有的仍然坚持直接优化的工作迫切需要一种适当的训练策略(正则化),以帮助充分利用隐藏在训练数据多样化退化中的泛化知识。最近,Kong 等人首次尝试使用 Dropout 对网络进行正则化,并取得了吸引人的结果。然而,我们认为 Dropout 也会对恢复图像中的高频细节产生负面影响,还有进一步改进的空间。我们的方法通过简单地调制特征统计来鼓励模型对退化感知信息不敏感,从而避免了这个问题,从而挖掘训练数据中的退化不变信息并提高泛化能力。
基于第三类想法的研究工作已经逐渐成为近期盲超分辨率的主流方向。我们的方法实际上是对这一系列工作的补充。在未来,即使有更大更现实的退化池,以直接方式训练的模型仍然容易受到过拟合的影响(例如,某些退化比其他退化更容易学习),从而限制了它们对退化不变表示的探索(即盲超分辨率的最终目标)。因此,我们的努力实际上以一种不同的方式为研究做出了贡献,既不是从模型设计也不是从构建更好的数据集,而是从提出一种可以使现有和未来工作受益的训练策略(正则化)。
Dropout及其变体是诸多高级视觉任务(如分类任务)中用于缓解协同适应问题与过拟合现象的基础技术。然而,任何事物都有两面性,Dropout的代价在于模型的特征交互和多样性降低。虽然这对高级视觉任务几乎没有威胁,但它会严重影响图像恢复的性能。在本节中,我们首先证明Dropout会减少特征交互,然后进行两个实验来支持我们的观点。
从频率视角出发,我们对SRResNet模型的误差进行了可视化处理,结果如图2所示。该模型在DIV2K上使用不同策略(包括本文提出的策略,见第4节)进行训练,并在六个基准数据集上按照Real-ESRGAN的设置进行测试。误差的估计方法是通过快速傅里叶变换(FFT)将图像转换至频域。随后,我们引入平均绝对百分比误差(MAPE)指标,用以表征因低频与高频间数量失衡所导致的各频带误差。请注意,这里较大的MAPE值表示较大的误差。
从图2中可以看出,正如预期的那样,使用Dropout训练的模型在高频恢复方面表现较差。值得注意的是,约90%的图像由低频信号构成,而人类视觉感知对图像的高频细节天生敏感。因此,高频恢复能力的缺失往往会致使感知质量欠佳。此外,Dropout还倾向于通过类似低通滤波器的方式,对网络激活进行平滑处理,进而减少特征多样性。然而,人们意识到,特征的多样性实际上有助于提升对不同频率信息的表示能力。在超分辨率的情况下,如前所述,低频信号在自然图像中占主导地位。因此,虽然使用Dropout训练的网络别无选择,只能将特征的表示能力集中在低频(即特征不够多样化以表示广泛的频率信息),而未采用Dropout训练的网络,则在不同频率上具备多样化的特征表示能力。我们在图3展示了一项辅助实验,此实验首先运用文献[55]中的离散余弦变换,识别每个通道的代表性频带,随后计算跨通道的香农熵,以揭示模型编码的频带信息范围。该实验在上述六个数据集上基于SRResNet运行,我们在此展示平均结果。不出所料,我们观察到使用Dropout训练的模型覆盖的频带范围较小,限制了其在该范围之外的恢复能力。
在上一节中,我们揭示了在超分辨率中应用Dropout的缺点(即减少特征交互和多样性)。在本节中,我们将展示简单的对齐如何有效地提高盲超分辨率的性能。我们方法的总体架构如图4所示。
我们方法的思想源于这样的期望:模型应该独立于不同的退化进行预测。例如,给定两个具有相同内容但不同退化的图像,期望模型从这两个输入中输出相同的恢复图像,即。虽然通过简单地强制它们的中间特征完全相同似乎很直接,但我们认为这将过于苛刻并过度约束模型,阻碍其有效地达到局部最小值的能力(补充材料中显示其性能较差的消融研究)。相反,在本文中,我们从图像风格迁移中获得灵感,并将具有不同退化的图像视为具有不同风格。请注意,[40]中也采用了类似的想法,但他们专注于退化生成,因此不在我们的讨论范围内。
然后,我们遵循风格迁移的传统,利用均值和协方差作为退化(风格)敏感指标。虽然这种选择似乎缺乏坚实的理论基础,但它实际上符合研究直觉:均值和协方差是图像处理中常用的一阶和二阶统计量,并且已被证明分别反映激活的全局状态和详细结构与纹理。我们假设不同的退化应该对这些方面产生不同的影响,因此使用这两个统计量是合理的。第5节中的实证研究也为它们的有效性提供了有力证据。因此,通过对齐具有相同内容但不同退化的图像的这些统计量,我们旨在引导模型在特征编码期间自动忽略特定于退化的信息,从而提高其学习处理新的和未知退化至关重要的退化不变特征的能力。接下来,我们展示如何以线性和非线性方式精确地进行对齐。
在本文中,我们遵循Kong等人的方法,采用盲超分辨率研究中广泛认可的多退化设置,以进行公平且可信的比较。由于篇幅限制,我们请读者参考补充材料,以获取更多实验设置和消融研究的相关内容。同时,我们也将在后续内容中阐述基线模型的改进之处。
在理论和实验方面,本文首先揭示了在超分辨率中应用 Dropout 作为正则化器的副作用。然后作为替代方案,我们提出了一种简单而有效的特征对齐正则化方法,该方法可以进一步增强盲超分辨率模型的泛化能力。鉴于当前推进盲超分辨率研究的挑战,我们呼吁更多地努力探索训练正则化,这是一条尚未充分发展但可能具有高度影响力的途径。
这篇论文创新点在于方法,提出了一种相比 Dropout更简单有效的特征对其正则化方法。
摘要:尽管深度神经网络使图像超分辨率(SR)问题在恢复精度方面取得了前所未有的提升,但由于其高昂的计算成本,其应用仍受到限制。由于不同的SR输入图像面临不同的恢复难度,根据输入图像调整计算成本(即自适应推理)已成为压缩SR网络的一种有前途的解决方案。具体而言,调整量化位宽已成功在不牺牲精度的情况下降低了推理和内存成本。然而,尽管自适应网络有诸多益处,但现有工作依赖于耗时的量化感知训练,且需要完全访问原始训练对来学习适当的位分配策略,这限制了其广泛应用。为此,我们引入了第一个即时自适应量化框架,将处理时间从数小时加速到数秒。我们仅用两个位映射模块来制定位分配问题:一个将输入图像映射到图像层面的位适应因子,另一个获取层层面的适应因子。这些位映射仅使用少量校准图像进行校准和微调。我们实现了与先前自适应量化方法相当的性能,同时处理时间加快了2000倍。代码可在https://github.com/Cheeun/AdaBM获取。
本文提出了一种用于图像超分辨率的自适应位映射框架,旨在降低SR网络的计算成本。该框架基于对量化误差在图像层面方差和层层面方差相互独立的观察,将图像和层层面的适应分开处理,极大地降低了搜索成本。对于图像层面位适应,设计了图像到位映射模块,根据图像复杂度映射到位适应因子;对于层层面位适应,由层到位映射模块根据层的量化敏感度确定适应因子。通过优化量化范围,进一步提升了量化效果。该框架仅用少量校准LR图像在秒级内即可完成学习,实现了与基于QAT方法相当的性能,但处理时间缩短了2000倍。这篇论文的创新点显著,主要在于技术性突破,且公开了代码。