[译] NTIRE 2020 Challenge on Spectral Reconstruction from an RGB Image

题目:NTIRE 2020 挑战赛从RGB图像的光谱重建

NTIRE(New Trends in Image Restoration and Enhancement),即图像恢复与增强的新趋势。NTIRE 2020 Challenge 知乎
NTIRE 2020 webpage:
https://data.vision.ee.ethz.ch/cvl/ntire20/

摘要

本文回顾了从RGB图像进行光谱重建的第二次挑战赛,即从RGB三通道图像中恢复全景高光谱(HS)信息。与上一次挑战赛一样,提供了两条赛道:(i)“Clean”赛道,其中从无噪声的RGB估计HS图像,RGB图像本身由真实的高光谱HS图像和提供的光谱灵敏度函数进行数值计算得到;( ii)“Real World”赛道,模拟未经校准和未知相机的捕获,其中高光谱HS图像是从含噪声的JPEG压缩RGB图像中恢复的。本次挑战赛提出了一个新的,比以往更大的自然高光谱图像数据集,其中包含总共510张HS图像。“Clean”和“Real World”赛道分别有103名和78名注册参与者,在最后的测试阶段有14个团队竞争。所提方法的说明已经提供,以及挑战赛评分和对最佳方法的广泛评估。比赛参与者评估了从RGB图像进行光谱重建的最新技术。

1. 简介

高光谱成像系统 (HIS) 可以将实际场景光谱记录在一组较窄的光谱波段上 [14],而传统彩色相机记录场景光谱辐射亮度时,是将三个光谱波段集成在一起的。然而,HIS提供的丰富的光谱信息会带来明显的额外捕获复杂性:最常见的 HIS 依赖于空间或光谱扫描(例如推扫或可变滤波器系统),因此不适合实时操作。此外,高光谱捕获通常需要较长的捕获时间,这意味着很难测量来自具有移动内容的场景的信息。虽然,“快照”HIS的最新进展继续缩小在实时光谱图像采集方面的差距,例如马赛克 [54、21、23] 和基于光场 [11] 的快照 HIS 能够以视频速率捕获图像 - 这些技术以降低空间和光谱分辨率来记录图像。迄今为止,扫描和快照 HIS 对于消费者级使用来说仍然非常昂贵(“低成本”HIS 通常在 1 万到 10 万美元的范围内)。

[14] C.-I. Chang. Hyperspectral data exploitation: theory and applications. John Wiley & Sons, 2007.

由于HIS的这些缺点,改进方法从低成本和普遍存在的RGB图像中恢复光谱,已经引起了许多研究和行业的兴趣。RGB 光谱重建图像的早期工作利用稀疏编码方法恢复 HS 数据 [6,46,2,55]。近年来,基于神经网络的方法越来越普遍 [19, 13, 29, 7, 51, 50, 31, 49], 从NTIRE 2018 光谱恢复挑战赛 [7, 49] 的领先方法以及最近的工作 [65, 37, 29, 16] 采用这种方法。这种向基于神经网络方法的过渡突出了对更大数据集的需要,这既有助于改进训练,也需要改进评估。后一种考虑至关重要,因为神经网络容易在小型数据集上"过度拟合",因此它们的测试分数可能无法很好地概括到实际应用。

Yi-Tun和Fin-layson [33]最近强调了评估基于神经网络的解决方案的固有困难,他们在可变照明条件下评估了NTIRE 2018挑战赛中表现最佳的解决方案。 令人惊讶的是,简单地改变输入图像的亮度(模拟同一场景的更长或更短的相机曝光)会降低基于神经网络的方法的性能,它们是优于基于稀疏编码的方法(因为评估的基于稀疏编码的方法是曝光不变)。 相应地,在第3节中,我们介绍了对性能最高的方法的扩展评估(包括可变曝光测试),以更全面地评估算法的性能。

在 NTIRE 2018 之后,确定了两个潜在的实验评估问题,并在此进行了处理。首先,NTIRE 2018 挑战赛中性能最佳的方法获得了大约 1% 的百分比恢复误差,即平均相对绝对误差 (MRAE; c.f .第2.2节和Eq.1),指出评价数据可能需要比BGU HS数据集[6]目前提供的“动态范围”更好的“动态范围”,或者评价应超越目前使用的31个波段的光谱量化水平。其次,发现在上一个挑战中算法的排名在干净轨道和真实轨道之间没有显着差异,这可能表明模拟的“真实世界”摄像机相对于干净轨道没有增加足够的复杂性。为此,2020 年的挑战赛提供了比 BGU HS 数据集大近两倍的数据集(c.f 第 2.1 节) ,以及改进的real world赛道,其中相机噪音也纳入其中(c.f .第 2.2 节)

2. NTIRE 2020 Challenge

RGB到光谱恢复挑战[9]是NTIRE 2020挑战之一。 其他挑战包括:去模糊[40],非均匀除雾[5],感知极端超分辨率[63],视频质量映射[18],真实图像去噪[1],现实世界超分辨率[35]和去摩尔纹 [60](摩尔纹是一种在数码照相机或者扫描仪等设备上,感光元件出现的高频干扰的条纹,是一种会使图片出现彩色的高频率不规则的条纹)。

与NTIRE 2018光谱恢复挑战赛[7]一样,NTIRE 2020光谱重构挑战赛的目标是:(i)衡量和改进从RGB图像进行HS重建的最新技术; (ii)比较不同的光谱恢复方法; (iii)进一步扩大可供研究界使用的自然HS图像数量。 重要的是,2020年挑战赛不仅引入了新的和经过改进的数据集,还引入了扩展评估,该评估试图衡量挑战赛的测试图像范围之外所提出方法的预期性能。

2.1 ARAD HS 数据集

NTIRE 2020光谱重建挑战赛提供了一个新的比以往更大的自然高光谱图像数据集。该数据集包括总共510张图像:450张训练图像,30张验证图像和30张测试图像。挑战赛期间发布了训练和测试图像,而测试图像则保持机密,以方便对未来作品进行盲目评估。图1包括来自数据集的一组样本图像。

ARAD数据集是通过Specim IQ移动高光谱相机收集的。 Specim IQ相机是一个独立的,电池供电的推扫式光谱成像系统,其大小与传统SLR相机(207×91×74 mm)相同,无需外部电源或计算机即可独立运行控制器。这种紧凑的移动系统的使用有助于收集具有多种场景和主题的极其多样化的数据集。

除了ARAD数据集外,还邀请参与者使用以前发布的BGU HS数据集[6,7],以获取总共706张训练图像。

2.1.1 辐射校准

Specim IQ 摄像机提供 RAW 512 × 512px 图像,400-1000nm 范围内有 204 个光谱波段。为了解决这一挑战,已将制造商提供的辐射度校准应用于 RAW 图像,并将图像重新采样到可见范围(400-700nm)内的 31 个光谱波段。RAW和经过辐射校准的图像均已提供给研究人员。

辐射校准校正了相机系统CMOS传感器引入的测量偏差,将记录的每通道RAW强度数据转换为准确的光谱测量值。 通过此过程还可以去除干扰严重的“线”(图像列),从而生成482×512px图像,并以10nm的步长重新采样到从400nm到700nm的31个波段。

2.2 赛道

与上一次挑战赛[7]一样,NTIRE 2020光谱恢复挑战也有两个赛道,即“Clean”赛道和“Real World”赛道。 尽管clean赛道与之前的挑战赛(NITRE 2018)相似,但真实世界的赛道已得到实质性更新,以提供对物理摄像头系统的更准确的模拟。

赛道1:“Real World”模拟从未知,未经校准的摄像机中恢复光谱信息。 为参与者提供了压缩的JPEG格式的8位彩色图像,这些图像是通过对光谱图像应用以下过程创建的:
1.将real-world真实世界的相机响应功能应用于光谱图像。
2.对所得的3通道图像进行二次采样以生成RGGB Bayer马赛克图像。
3.将模拟的相机噪声(泊松散粒噪声和正态分布的暗噪声)添加到马赛克图像。
4.应用来自OpenCV [12]库的去马赛克算法来生成三通道RGB图像。
5.以压缩的JPEG格式存储图像。

上述程序中使用的相机响应和噪声参数已对挑战参与者保密,并且应保密,以利于将来的工作与以下挑战结果进行平等的比较。

向挑战者提供了代码[8](可在GitHub平台上公开获得),该代码用于生成clean和real world赛道图像。 比赛比赛在CodaLab平台上举办,每个赛道都有单独的比赛。 注册后,参与者可以访问数据并提交结果以在竞赛测试服务器上进行自动评估。 由于CodaLab平台的限制,每个轨道的验证和测试集已减少到10张图像(总共10张验证图像和20张测试图像)。 挑战阶段挑战分为两个阶段:

  1. 开发:为参与者提供了两条赛道的真值训练高光谱/ RGB图像对(每条轨道450幅图像对)以及10幅RGB图像进行验证。 参与者可以使用测试服务器,使他们可以上传结果并获得在线评估分数。
  2. 测试:发布了真值光谱验证图像以及每个赛道的最终测试图像。 邀请参与者将最终解决方案上载到测试服务器,并对结果保密,直到挑战结束。

评估约定。 与2018年的比赛[7]一样,在提交的重建结果和真值图像之间计算的平均相对绝对误差(MRAE)被选为比赛的量化指标。 均方根误差(RMSE)也将报告,但未用于对结果进行排名。 MRAE和RMSE计算如下:


其中和分别表示真值图像和重建图像中第i个像素的光谱通道c的值, 是真值图像的大小(像素数×光谱通道数)

挑战赛结果

挑战赛参与者提供的内容用保密的真值HS测试集图像进行评估,采取第2.2节(参见方程(1),(2))中所述的标准。评估结果显示在表1中。表2将自我报告的计算要求和提交方法的其他实现细节进行了报告。Clean赛道中表现最好的方法(IPIC_SSR)的MRAE为0.0301,RMSE为0.0129。Real World赛道中表现最好的方法(OrangeCat)的MRAE为0.0620,RMSE为0.0192。为了获得更高的准确性,顶级方法采用了模型集成和自集成策略[56]。所有提交的解决方案都依赖于最新(通常是最先进的)GPU进行计算。尽管使用了强大的硬件,但是大多数解决方案至少需要0.5秒才能处理0.25兆像素(mp)的图像。能够在不到0.5秒的每幅图像(LFB)内恢复HSI的最佳解决方案在Clean赛道上排名第8,在Real World赛道上排名第5。为了实现在0.1秒内恢复每张图像(StaffsCVL),我们需要分别将Clean和Real World赛道的排名降低到第10位和第8位。

注:一个兆像素(megapixel)是一百万个像素,通常用于表达数码相机的解析度。

除了主要评估指标外,还使用了另外五个辅助指标来探讨参与者提出的解决方案的稳定性和可推断性。这些指标在以下小节中描述,并应用于性能最好的提交中。首先,考虑了与训练数据有显著差异的"范围外"图像。其次,使用"随机"图像,将大规模的空间特征分解为随机排序的 4 × 4 个块,用于衡量方法对未知条件和/或空间特征的方法的鲁棒性。然后,第三,改变测试图像亮度,以评估方法在不同照明强度下的稳定性。在第四项测试中,采用加权计分来准确表示在测试数据中丰度较低的光谱特征上的性能。最后,将恢复后的 HS 图像映射回 RGB 空间以检查结果的物理一致性 - 恢复的 HS 图像是否生成类似于查询图像的 RGB 投影?最后一个测试很有趣,因为如果一个方法不符合此条件,而不管 MRAE 如何,它必将无法恢复正确的光谱图。

3.1 "范围外"图像的性能

为了研究所提出模型的通用性,每个赛道的前3个模型都使用另外5张图像进行了测试,这些图像是在完全不同的设置下拍摄的,例如工作室中的物体、卤素照明、具有罕见视角的场景等,图2给出了示例图像。

表3给出了本研究的MRAE结果。表3的“Out-of-Scope”列可能给出了这一结果。 为范围外的图像计算出的错误比所有最佳表现者的MRAE得分高出一倍以上,但更有趣的是-最佳表现者的解决方案排名与他们在挑战测试集上的排名差异很大。 可能表明,如果该方法要推广到完全不同的光谱图像,则表示与训练集类似的数据性能稍低可能是可以接受的。

3.2 对空间特征的依赖

虽然大多数挑战参与者通过映射大型图像补丁来利用高级信息(即图像内容),但先前技术中的许多基于像素的光谱重建方法已经在一定程度上显示出功效,例如 [42、6、33、2]。本研究的目的是研究:如果测试图像的空间信息在结构上更加有限,那么所提议的模型在什么程度上可以保持其有效性。模型使用"空间随机"测试图像进行测试:在原始测试图像× 4 个补丁中,每 4 个修补程序被随机重新定位。MRAE 结果在表 3 的"空间"列中给出。在干净的赛道上,性能明显下降,再次可以看到 - 最佳绩效者的解决方案排名与他们在挑战测试集的排名不同。在现实世界中,退化是戏剧性的,到恢复的数据不太可能可用(MRAEs 为 0.22-0.45)。可以推测,所有性能最好的解决方案都严重依赖空间信息来克服现实世界中的摄像机噪声和压缩伪影。在无噪音的清洁轨道中,对空间要素的依赖性仍然显著,但与真实世界轨道相比,这种依赖性却大大降低。

虽然大多数挑战参与者通过映射大图像块来利用high-level高级信息(即图像内容),但是现有技术中的许多基于像素的光谱重建方法已经在一定程度上显示出功效,例如[42、6、33、2]。本研究的目的是研究:如果测试图像的空间信息在结构上更加有限,那么所提出的模型可以在多大程度上保持其有效性。使用“空间随机”的测试图像对模型进行测试:原始测试图像中的每个4×4色块都被随机重新放置。 MRAE结果在表3的“Spatial”列中给出。在Clean赛道上性能明显下降,再次可以看到 - 最佳绩效者的解决方案排名与他们在挑战赛测试集的排名不同。在现实世界中,退化非常严重,以至恢复数据不可用的地步(MRAE为0.22-0.45)。可以推测,所有性能最佳的解决方案都严重依赖于空间信息,以克服现实世界轨道中的相机噪声和压缩伪像。在无噪声的Clean赛道上,对空间特征的依赖性仍然很大,但与真实世界轨道相比,这种依赖性却大大降低。

3.3 对图像亮度的依赖性

RGB图像可以更亮或更暗,具体取决于相机的曝光设置(例如快门速度和光圈大小)和/或场景的变化照明强度,这对应于线性缩放的真值光谱。这意味着线性缩放的高光谱图像及其对应的RGB图像在物理上也是有效的真值对。然而当场景亮度发生变化时,2018年最佳模型[7]表现不佳[33]。

在今年的挑战中,包括两种亮度调制的测试:一半(HS图像缩小0.5倍)和两倍(放大2倍)。遵循原始方法,模拟了相应的Clean赛道和Real World赛道的RGB图像。结果分别显示在表3的“亮度Brightness×0.5”和“亮度Brightness×2”列中。尽管曝光量的变化也导致了今年表现最佳方法的性能下降,但与上届比赛的表现最好者相比,这种下降的规模显著降低(MRAE最多下降了32%,而2018年表现最好者则下降了1245%[33])。

3.4 结果的物理一致性

高光谱和RGB图像在物理上相关。 实际上,按照指定的管道,可以从高光谱图像中准确模拟RGB图像(请参阅第2.2节)。 所谓的物理一致性提出了一个问题:如果将重构的高光谱图像应用于原始管道并重新生成RGB图像,那么这些重新生成的RGB图像与原始图像有多远?

结果在表3的“Physical”列中显示为真值图像和重新生成的RGB图像之间的MRAE。表现最佳者在Clean赛道上与图像的一致性较高,而在Real World赛道上的图像则具有较低的一致性。后者的一致性降低可能归因于模拟的相机噪声和压缩伪像。但是,尽管RGB MRAE的数字很小,但我们还要另外发表两个评论。首先,假设(大约以下假设成立)1%的MRAE误差与“明显差异”(1 JND是心理物理学家的一个概念,观察者可以看到刺激之间的差异)大致相关,3%的MRAE与颜色差3相关,而颜色差异又与图像中的感知颜色相关,因此可以看出是不同的。其次,MRAE掩盖了一个事实,例如95%的分位数误差可能很大(> 10)。这种错误意味着,恢复的光谱投影回RGB时,会导致颜色立即变得明显不同。奇怪的是,由于恢复的光谱不会重新投影到相同的RGB,因此这些光谱不能成为正确的答案(与任何MRAE无关)。

权重的准确性

代表相同材料的像素光谱特性有望相似。 但是,场景中一种材料的丰富并不表示其重要性。 这项研究旨在对每个场景中的不同材料进行公平的评估。 首先,将相似的光谱分为1000个簇。 然后,分别计算每组的平均MRAE。 最后,加权MRAE是各小组业绩的平均值。 结果在表3的“Weighted”列中提供。

结论

从RGB图像重建光谱的NTIRE 2020挑战赛就参与度和评估范围而言,提供了迄今为止对RGB图像光谱恢复方法的最广泛评估。为参与者提供了比以往更大的自然高光谱图像数据集,并为从RGB图像中恢复光谱的任务提供了多种基于神经网络的解决方案。对提出的解决方案的分析揭示了未来发展的几个有趣领域,即:视频和/或边缘设备的高性能光谱恢复,减少对空间特征的依赖性以及增加了对未知场景的鲁棒性。

表现最好的方法至少需要0.5秒才能在两个最新的GPU上处理约0.25mp的图像,最快的方法在一个最新的GPU上需要约34ms。尽管后者可以声称以“视频速率”(30fps)进行处理,但这仅适用于基于GPU的平台上的0.25mp视频。根据此信息推断,在单个GPU上处理4K视频(8.5mp)的单个帧将分别需要大约34秒和1.15秒,以实现最准确和最快的方法。可以预期,在没有离散GPU的边缘设备(例如蜂窝电话)上进行处理所花费的时间将更长。未来的挑战可能包括“边缘设备”赛道,在其中根据解决方案的计算要求和恢复性能对解决方案进行评分。

当从RGB图像中恢复光谱信息时,发现所有表现最好的人对空间特征都有不平凡的依赖。当人们考虑可能使用回收的光谱信息时,这种依赖性的影响就变得很明显,例如:根据相似对象的光谱反射率(例如,真实水果与假塑料水果)区分相似对象。因此,未来的挑战可能会在对提议的方法进行评分时强调对空间特征的依赖性,并且可能还包括基于应用程序的测试指标。

关于图像亮度和物理一致性的测试很有趣。对于同一场景,曝光(同一物理对象的照明程度)在整个场景中会有所不同。但是,尽管如此,我们仍有望恢复频谱(达到比例因子),而现有方法却并非如此。物理一致性测试既有趣又令人惊讶。所有挑战方法均未找到与原始RGB一致的光谱。即使它们的MRAE很小,这些方法也必须恢复错误的答案。最后,“out-of-scoope”图像测试表明,性能最好的方法都无法可靠地推断出新的设置。这表明尽管提供给参与者的训练数据集是同类中最大的,但可以进一步扩展以涵盖其他设置。即室内场景和在多种照明条件下的场景应添加到将来的数据集中。预期现代HIS的便携性和易用性将不断提高,这将有助于收集更大和更多变化的数据集。

挑战赛方法和队伍

5.1 IPIC SSR

Adaptive Weighted Attention Network with Camera Spectral Sensitivity Prior for Spectral Reconstruction from RGB Images

用于从RGB图像重建光谱具有摄像机光谱灵敏度的自适应加权注意力网络

[译] NTIRE 2020 Challenge on Spectral Reconstruction from an RGB Image_第1张图片
图3 即论文Fig2所示。自适应加权关注网络 (AWAN) 的网络架构。Fm-1 和 Fm 表示第m个DRAB的直接输入和输出。Rm-1和Rm表示第m个DRAB的残差输入和输出。

如图3所示,提出了一种新颖的深度自适应加权注意力网络(AWAN),用于从RGB图像进行光谱重建。 具体来说,AWAN网络的骨干架构由8个双残差注意力块(DRAB)组成。 每个DRAB都由一个传统的残差模块和具有大(5×5)和小尺寸(3×3)内核的附加成对卷积操作组成,其中长和短跳跃连接在块中形成了双残差学习。 通常,每个卷积层的输出通道设置为200。

[译] NTIRE 2020 Challenge on Spectral Reconstruction from an RGB Image_第2张图片
图4 即论文Fig3所示。自适应加权通道注意力(AWCA) 模块图。⊙表示元素乘法

DRAB中嵌入了自适应加权通道注意力(AWCA)模块(请参见图4)自适应集成通道的相互依赖性。 在AWAN网络的尾部,采用了patch-level像素块级的二阶非局部(PSNL)模块,以通过二阶非局部操作捕获远距离空间上下文信息。 PSNL模块的示意图如图5所示。

[译] NTIRE 2020 Challenge on Spectral Reconstruction from an RGB Image_第3张图片
图5 即论文Fig4所示。像素块级二阶非局部 (PSNL) 模块的图。⊗表示矩阵乘法

由于“Clean”赛道旨在从通过将已知光谱响应函数应用于真值高光谱信息而创建的无噪声RGB图像中恢复高光谱图像(HSI),因此引入了相机光谱灵敏度(即光谱响应函数)来改进光谱重建的质量。 考虑到重构的RGB可以通过超分辨HSI自然计算的事实,最终损失是RGB图像差异和HSI差异的线性组合

其中τ表示权衡参数,并根据经验将其设置为10。 给定真值情况和光谱超分辨HSI ,两个损耗函数具体定义为

其中和表示第n个像素值,是相机光谱灵敏度函数。 是像素总数。 但是相机光谱灵敏度在“Real World”赛道中是未知的,因此,通过具有单独约束的随机梯度下降算法来优化AWAN网络。

5.1.1 全局方法描述

训练。在训练期间,从原始数据集中以32的步长裁剪了64×64 RGB和HSI样本对。模型的批量大小为32,参数优化算法选择的Adam修正。 AWCA模块的缩减比t值为16。将学习率初始化为0.0001,将多项式函数设置为幂= 1.5的衰减策略。网络训练在100轮时停止。提出的AWAN网络已在Pytorch框架上实施,在2个NVIDIA 2080Ti GPU上训练具有8个DRAB,输出通道= 200的网络大约需要36个小时。

测试。在我们的实验中,尝试了不同的光谱恢复方式,并将其与两条赛道的验证集中的得分进行比较。一种方法是将输入图像分割成小的重叠块,然后在GPU上将它们的输出平均并缝合在一起。另一种方法是将整个映像馈送到AWAN网络,以在CPU上进行推理。最后,将整个图像输入到网络中,以实现“Clean”赛道上的光谱恢复,并且至少需要64G CPU才能进行推理。对于验证和测试数据,每张图像的推理时间(CPU时间)为57.05s。对于“Real World”赛道,将整个图像以64的步长分成128×128个重叠的色块,并在具有11G内存的NVIDIA 2080Ti GPU上执行光谱重建。 AWAN网络每张图片(GPU时间)花费0.56s进行验证和测试数据。顺便说一句,在“Clean”赛道中,我们也可以以与GPU上“Real World”轨道相同的方式实现快速光谱重建,但是结果会稍差一些。

5.1.2 集成和融合策略

对于“清洁”赛道,训练了四个模型集成策略模型,包括两个具有8个DRAB和200个通道的模型以及两个具有20个DRAB和128个通道的模型。 与“Clean”赛道不同,对于“Real World”赛道,单一AWAN网络首先采用了自集成方法[56]。 具体而言,将RGB输入上/下翻转以获得镜像输出。 然后将镜像输出和原始输出被平均为目标结果。 此外,针对AWAN网络的模型集成,对具有8个DRAB和200个通道的三个模型和具有10个DRAB和180个通道的一个模型进行了训练。 有关详细信息,请参阅[32]。

你可能感兴趣的:([译] NTIRE 2020 Challenge on Spectral Reconstruction from an RGB Image)