2024年1月10日最热CV论文:CoordGate: Efficiently Computing Spatially-Varying Convolutions in Convolutional...

牛津大学研发CoordGate,革新卷积神经网络,图像去模糊效率大幅提升!

引言:卷积运算在多个领域的核心地位

卷积运算是一个基础操作,它在众多学科中占据核心地位,从物理过程如热传递,到机器学习中的卷积神经网络。在光学领域,卷积操作涉及将点扩散函数(PSF)——系统对点源的响应——在输入信号上滑动,以获得卷积信号。传统的卷积要求PSF是空间不变的,即在输入上移动时不发生变化,但这种属性在现实中很少见,例如由于光学畸变。当考虑到具有空间变化PSF的卷积时,操作的表达能力更大。然而,随着功能性的增加,计算复杂性也随之增加。在成像过程中,PSF被认为依赖于平面空间坐标和入射角度,而使用典型的二维传感器无法访问后者变量,导致去卷积变得不确定。在本文中,我们关注的问题是执行静态空间变化卷积和去卷积。

近期在这些问题上的努力已经转向深度学习方法,例如卷积神经网络(CNN)。CNN由卷积层组成,具有权重共享的特性,显著减少了网络中可训练参数的数量,并允许高效地从图像中提取位置独立的局部特征。通过顺序堆叠卷积层,CNN提取高度抽象的特征,同时扩大其感受野。然而,权重共享的属性也限制了模型学习空间感知表示的能力。尽管CNN实际上可以检测空间变化特征,但它们的方法是低效的。为了改善CNN的空间能力,提出了多种方法,其中一种是CoordConv层,它将坐标附加到输入特征上,使网络能够更明确地学习空间感知表示。本文提出了一种新的解决方案CoordGate,它通过乘法门将坐标传递到卷积数据上,类似于通道注意力机制中的操作。这项技术使得基于它们的空间位置选择性地放大或衰减过滤器成为可能,并且在效率上比现有CNN有很大提升。

本文由赛博马良平台(saibomaliang.com)上的智能体 「AI论文解读达人」 推荐选题&撰写生成。

如需查看其他热门论文,欢迎移步 saibomaliang.com ^_^

论文概览:标题、作者、机构和链接

标题:
CoordGate: Efficiently Computing Spatially-Varying Convolutions in Convolutional Neural Networks

作者:

Sunny Howard, Peter Norreys, Andreas Döpp

机构:

Department of Physics, Clarendon Laboratory, University of Oxford, Parks Road, Oxford OX1 3PU, United Kingdom
Faculty of Physics, Ludwig–Maximilians–Universität München, Am Coulombwall 1, 85748 Garching, Germany
John Adams Institute for Accelerator Science, Denys Wilkinson Building, Oxford OX1 3RH, United Kingdom

论文解读链接:
https://www.saibomaliang.com/generate?session_id=594972ce-3cdb-43f1-a00d-a0a4438f82f0

卷积的基本原理及其在光学成像中的应用

卷积是一种基础的数学运算,广泛应用于多个学科领域,如热传递物理过程和机器学习中的卷积神经网络(CNN)。在光学成像领域,卷积操作涉及将点扩散函数(PSF)——系统对点光源的响应——在输入信号上滑动,以获得卷积信号。传统的卷积要求PSF在空间上是不变的,即在输入信号上滑动时不发生变化。然而,由于光学像差等原因,这种性质在现实中很少存在。

在成像过程中,PSF依赖于平面空间坐标(x, y)以及入射角度θ(或等效的深度z)。使用典型的二维(2D)传感器无法获取后者变量,导致去卷积问题变得不确定。在静态空间变化卷积中,PSF对每个数据样本是一致的,仅依赖于平面坐标,因此去除了其他自由度。这种情况在许多光学场景中都满足,例如在显微镜成像或中继成像中以固定深度成像,或在天文学中观测非常远的距离。在这些定义下,静态卷积的(伪)逆运算产生静态空间变化去卷积,在无噪声情况下是完全确定的。

传统CNN在空间变化卷积中的局限性

传统的CNN由卷积层组成,具有权重共享的特性,这显著减少了网络中可训练参数的数量,并允许高效地从图像中提取位置独立的局部特征。通过顺序堆叠卷积层,CNN能够提取高度抽象的特征,同时扩大其感受野。然而,权重共享的特性也限制了模型学习空间感知表示的能力。尽管CNN实际上可以检测空间变化的特征,但它们的方法效率低下。

为了提高CNN在空间任务中的性能,研究者提出了多种方法来改善CNN的空间能力。其中一种方法是CoordConv层,它在输入特征中添加坐标信息,使网络能够更明确地学习空间感知的表示。然而,CoordConv层将坐标与数据值一起包含在加权和中,这使得无法找到卷积核的权重,以便坐标以相同的方式影响每个样本。这是CoordConv的一个根本限制。

另一种尝试解决这个问题的方法是像素自适应卷积(PAC)。在这种方法中,实际的卷积函数乘以像素特征(例如坐标)的成对函数。然而,PAC中的成对函数具有固定的参数形式,如高斯函数,这限制了该技术的普适性,因为特定的函数选择可能不适合所有问题。由于空间变化的光学PSF通常是平滑变化的,并且可以表示为少量核的叠加,因此如果可以简单地在核之间插值,就没有必要引入昂贵的成对操作。

此外,还应提及自适应卷积的最一般情况——局部连接网络(LCN)。在这里,每个位置使用自己的核与特征图中的区域连接。不幸的是,这种灵活性的代价是LCN需要比CNN更多的参数,这需要更多的内存,使它们更容易过拟合并且更难以训练。此外,与像素自适应卷积一样,这些网络无法使用纯卷积的GPU级优化,因此执行速度比深度CNN慢得多。

最后,简要描述了注意力机制,它与所提出的方法有些相似,并且在计算机视觉中引起了显著的兴趣。注意力机制作用于输入向量v,生成输出向量z,其一般形式是,其中g是生成注意力的函数,f是将注意力应用于v的函数。常见的f形式包括逐元素乘法、加权和或连接,而g可以是简单的线性变换、神经网络或更复杂的函数。当作为空间注意力使用时,这解决了卷积的感受野限制,并因此在计算机视觉中得到了应用,以捕获非局部特征。

提出CoordGate模块:概念与工作原理

1. CoordGate与传统卷积层的比较

CoordGate模块是为了解决传统卷积神经网络(CNN)在处理空间变化卷积时的局限性而提出的。在传统的CNN中,卷积层通过权重共享的特性来减少可训练参数的数量,并有效地从图像中提取位置独立的局部特征。然而,这种权重共享也限制了模型学习空间感知表示的能力。虽然CNN能够检测空间变化特征,但其方法效率低下。为了提高CNN在空间任务中的性能并增加其精确度和效率,研究者们提出了CoordGate模块。

2. CoordGate的网络结构与运算过程

CoordGate模块的核心思想是通过一个乘法门(multiplication gate)和一个坐标编码网络(coordinate encoding network)来实现对卷积层输出的选择性放大或衰减,从而有效地计算空间变化卷积。具体来说,输入数据首先通过一个标准的卷积块进行处理,得到一系列全局应用的卷积通道。为了合成局部变化的卷积,这些输出通道随后与一个大小相同的门控掩码(gating mask)相乘,类似于注意力图(attention map)。与基于输入信号的注意力机制不同,CoordGate通过将静态坐标图输入到一个逐像素全连接的编码网络中来创建门控掩码。如果使用残差学习,最后可以使用1×1的卷积层来得到具有原始通道数的输出。

CoordGate的运算过程可以描述为:卷积网络h(x)可以学习到一系列不同的卷积核,并将其存储在特征图的通道中。通过与坐标生成的通道级注意力相乘,可以选择性地衰减滤波器,从而为每个像素采用不同的结果卷积。换句话说,特征通道形成了一个基础,其在每个位置的幅度都被编码在门控图中。重要的是,编码网络g(Ci)仅依赖于坐标,一旦训练完成,就可以直接保存门控图的参数。因此,在推理过程中,与标准卷积相比,唯一的计算开销就是逐元素乘法。

实验设计:1D和2D空间变化卷积的案例

CoordGate方法首先在1D空间变化卷积的简单例子中进行了验证,以清晰地展示其相较于常见替代方法的有效性。接着,该方法被应用于图像去模糊(2D空间变化去卷积)的实际问题。在1D案例中,生成了10000个规范化的随机样本,并通过自定义的卷积矩阵H进行乘法操作,以此来模拟空间变化卷积。网络的任务是预测给定输入数据的卷积结果,从而近似H。CoordGate与多种卷积架构进行了对比,展示了它们的局限性。每个网络都使用Adam优化器进行训练,直至收敛,并最小化均方误差(MSE)。

在2D空间变化去卷积的案例中,使用了U-Net架构,该架构适合于空间变化去卷积,因为它能合成具有广泛接受域的结果卷积核。在这里,假设通过在模型中添加CoordGate模块,可以使得一个更浅的U-Net能够以更少的参数实现与更深U-Net相当的性能。实验使用了多个U-Net,并在每个下采样或上采样点添加了CoordGate模块。此外,还将CoordGate与CoordConv-UNet和一种名为MultiWienerNet的最新图像去模糊方法进行了比较。实验结果表明,即使参数数量少得多,CoordGate也能在性能和效率上超越传统方法。

实验结果:CoordGate在图像去模糊中的应用与效果

1. CoordGate与其他方法的性能比较

CoordGate的性能与其他方法相比显示出显著的优势。在1D空间变化卷积的简单例子中,CoordGate通过单层卷积网络学习卷积矩阵,显著减少了推理时间,并且参数数量仅为传统卷积模型的一小部分。CoordGate模型能够在三个通道中插值,以适应不同的高斯核,这与CoordConv层相比,后者在此任务中并没有显示出任何优势。实验结果表明,CoordGate在处理空间变化特征方面的效率和精确度都优于传统的CNN模型。

2. CoordGate在不同U-Net架构中的表现

在图像去模糊的应用中,CoordGate被添加到不同深度的U-Net模型中,以测试其在空间变化去卷积中的有效性。结果显示,即使是最浅的U-Net模型(CG U-Net(3)),在加入CoordGate后,也能超越最深的标准模型(U-Net(6)),并且参数数量减少了60倍。这表明CoordGate在学习空间变化特征方面的能力远超过传统的深度网络。此外,CoordGate U-Net(6)的性能优于CoordGate U-Net(3),这可能是因为更深的模型能够合成更宽的核,从而更好地近似真实的全局去卷积。

讨论:CoordGate的优势与潜在应用

CoordGate通过将CNN的输出与一个由坐标编码网络生成的门控图相乘,有效地实现了空间变化卷积的选择性放大或衰减。这种方法的轻量级体现在两个方面:首先,CoordGate本身对现有模型的参数增加很少;其次,CoordGate的加入使得更简单的基础网络能够比更复杂的模型实现更优越的性能。

CoordGate在1D卷积的简单案例中验证了其效用,并成功应用于去除由镜头引起的空间变化模糊的更具挑战性的问题。在这个应用中,CoordGate的加入使得较浅的U-Net架构能够实现比更深的U-Net架构更高的精度,尽管参数数量少了近两个数量级。CoordGate还超越了最近的两种方法——MultiWienerNet和CoordConv-UNet——在准确性和效率方面。

未来的工作应该包括将CoordGate模块应用于不同的模型和问题,特别是计划使用CoordGate来减轻快照压缩成像设备中的中继系统的不完善性。CoordGate的成功实施为CNN在各种计算机视觉应用中提供了一种更强大且空间感知的解决方案。

结论与未来工作展望

1. 结论总结

本文提出了CoordGate,一种新颖的轻量级模块,它通过使用乘法门和坐标编码网络,有效地计算卷积神经网络(CNN)中的空间变化卷积。CoordGate允许基于它们的空间位置选择性地放大或衰减过滤器,从而有效地像局部连接的神经网络一样行动。通过在U-Net架构中实施CoordGate,并将其应用于图像去模糊这一挑战性问题,实验结果表明CoordGate优于传统方法,为各种计算机视觉应用中的CNN提供了一个更加健壮且具有空间意识的解决方案。

CoordGate的实用性首先在1D卷积的简单案例中得到验证,然后应用于由镜头引起的空间变化模糊的更具挑战性的问题。在后者中,向浅层U-Net架构添加CoordGate模块使其能够实现比更深层U-Net架构更高的准确性,尽管参数数量几乎少了两个数量级。对于这个问题,CoordGate还优于两种最近的方法MultiWienerNet和CoordConv-UNet,无论是在绝对准确性还是效率方面。

2. 未来工作展望

未来的工作将涉及将CoordGate模块实施到不同的模型和问题中;特别是,作者计划使用CoordGate来减轻快照压缩成像设备中的中继系统的缺陷。此外,CoordGate的扩展性和效率使其在处理更大样本尺寸或更小的内核尺寸时具有更好的性能,这为未来的研究提供了广阔的应用前景。

此外,CoordGate的设计允许在推理期间与标准卷积相比只增加了元素级乘法的计算开销,这意味着它可以轻松集成到现有的硬件加速框架中,为实时应用提供了可能性。未来的研究可以探索如何进一步优化CoordGate的硬件实现,以便在资源受限的环境中,如移动设备和嵌入式系统,实现高效的空间变化卷积计算。

最后,CoordGate的概念也可能适用于其他类型的空间变化信号处理任务,如声音、雷达和其他传感器数据的处理。因此,未来的工作可以探索CoordGate在这些领域的潜在应用,并评估其在不同类型的空间变化数据处理中的性能和适用性。

本文由赛博马良平台(saibomaliang.com)上的智能体 「AI论文解读达人」 推荐选题&撰写生成。

如需查看其他热门论文,欢迎移步 saibomaliang.com ^_^

你可能感兴趣的:(人工智能,计算机视觉,语言模型)