论文名:Implicit Neural Representation in Medical Imaging: A Comparative Survey
论文地址:https://arxiv.org/abs/2307.16142
**隐式神经表示(Implicit neural representations (INRs))**作为场景重建和计算机图形学中的强大范例而受到重视,并取得了显着的成果。通过利用神经网络通过隐式连续函数对数据进行参数化,INR 具有多种优势。认识到 INR 在这些领域之外的潜力,本次调查旨在提供医学成像领域 INR 模型的全面概述。在医疗环境中,存在许多具有挑战性和不适定的问题,这使得 INR 成为一个有吸引力的解决方案。该调查探讨了 INR 在各种医学成像任务中的应用,例如图像重建、分割、配准、新视图合成和压缩。它讨论了 INR 的优点和局限性,强调了它们与分辨率无关的性质、内存效率、避免局部性偏差的能力以及可微性,从而能够适应不同的任务。此外,该调查还解决了医学成像数据特有的挑战和考虑因素,例如数据可用性、计算复杂性和动态临床场景分析。它还确定了未来的研究方向和机会,包括与多模态成像、实时和交互式系统的集成以及临床决策支持的领域适应。为了促进 INR 在医学图像分析中的进一步探索和实施,我们在 GitHub 上提供了引用研究的汇编及其可用的开源实现。最后,我们的目标是定期合并最新的相关论文。
Implicit neural representations(INRs)是一种基于神经网络的方法,用于对对象的几何形状或功能特征进行建模和表示。INRs通过神经网络学习对象数据中的隐含特征,而不需要显式表示对象的几何结构。
INRs使用深度神经网络作为函数逼近器,将输入参数映射到对象的特征空间。通过学习神经网络的权重和结构,INRs能够捕捉对象的复杂形状、纹理、运动等特征。
INRs具有连续性和可微性的特点,能够提供对象的连续表示,并且能够在整个输入空间内进行插值和外推,实现对象形状的平滑过渡和连续性。
INRs在计算机图形学、计算机视觉和机器学习等领域有广泛应用。在计算机图形学中,INRs可以生成逼真的三维形状、渲染和动画。在计算机视觉中,INRs可以用于对象检测、分割和重建。在机器学习中,INRs可以生成模型的表示并进行数据压缩。
总之,Implicit neural representations(INRs)是一种基于神经网络的方法,用于对对象的几何形状或功能特征进行建模。它提供了对象的连续和可微表示,并在计算机图形学、计算机视觉和机器学习等领域有广泛应用。
我们的视觉世界可以连续地表示,这是计算机视觉等领域的基本原理。通过观察和感知获得的数据以多种形式表现出来,包括图像和音频。将输入信号编码为表示的传统方法通常遵循显式范例,其中输入空间被离散化或划分为单独的元素(例如,点云、体素网格和网格)。然而,近年来,另一种表示方法**(称为隐式表示)由于其有效的内存使用而受到欢迎[23]。与直接对特征或信号值进行编码的显式(或离散)表示不同,隐式表示被定义为将输入坐标映射到输入空间内相应值的生成器函数**。
在计算机视觉中,表示图像信号的质量至关重要。深度神经网络由于其卓越的表示学习能力,已成为跨各种人工智能领域(特别是计算机视觉)复杂任务的事实上的工具[27, 5]。因此,人们对利用它们作为隐式函数的能力进行了探索,并取得了有希望的结果 [50, 63]。在此背景下,多层感知器 (MLP) 被训练以利用坐标作为输入来参数化感兴趣的信号,例如图像或形状。目标是预测这些坐标处的相应数据值。因此,MLP 充当隐式神经表示函数,在其权重内对信号表示进行编码。例如,在图像信号的情况下,向 MLP 提供像素坐标会导致生成其 RGB 值作为输出。这些隐式神经函数在图像生成、超分辨率、3D 对象形状重建和复杂信号建模等任务中得到广泛应用 [33,12,34,62]。利用 MLP 进行图像和形状参数化具有几个优点。
为了解决标记数据成本高昂和内存资源有限带来的挑战,INR 越来越受到医学界的关注,这一领域的研究论文呈指数级增长就证明了这一点(图一)
医学成像界对 INR 的兴趣激增,导致了不同医学成像场景中的大量应用。近年来,它们的主要用途是提高分辨率和合成缺失信息。他们提供了一种解决方案,通过消除对训练数据和显式标签的需求,减轻在医学领域收集标签数据的负担。相反,他们利用可用的测量或信号,而不需要每个实例的标记数据,从而能够重建 3D 解剖结构或生成 2D 扫描 [54,40,48]。此外,它们还可用于合成和反演问题,例如从投影和频域重建 CT 和 MRI 数据,同时减少辐射暴露 [54,69,40,48,64]。此外,INR 在神经渲染中可用于模拟场景中的复杂关系,实现解剖结构的详细可视化或通过重建可变形手术场景来帮助机器人手术 [16, 58]。
为了对这些新兴架构进行全面回顾,本文概述了它们的核心原理和多样化应用,以及它们的优点和局限性。据我们所知,这是第一篇涵盖 INR 在医学影像应用的调查论文,揭示了新的方向和研究机会,为研究人员提供了路线图和系统指南。
本文主要贡献:
近年来,用神经网络隐式表示信号的步伐不断加快。无需使用网格、体素、点云和网格等离散表示来参数化信号,而是可以学习简单的 MLP 将感兴趣的信号连续表示为隐式函数 Ψ : x → Ψ ( x ) Ψ : x → Ψ(x) Ψ:x→Ψ(x) ,映射其空间坐标$ x ε RM $从 M 维空间到其对应的 N 维值 ψ(x) ε RN (例如,占用率、颜色等)。虽然 INR 表现出了良好的前景,但与离散表示相比,它们可能无法编码高频细节,从而导致表示质量受到抑制。拉哈曼等人。 [39] 在揭示传统的基于 ReLU 的 MLP 的局限性及其准确表示底层信号中的细节的能力方面取得了重大进展。这些 MLP 显示出学习低频细节的倾向,从而导致分段线性网络中出现一种称为谱偏差的现象。为了解决这个问题,人们探索了几种方法来将网络的注意力转向捕获高频细节并有效地表示具有更细粒度细节的信号。为了增强输入信号的表示,可以根据其结构在 MLP 框架内寻求三种途径:
在本节中,我们将提供基于可减轻光谱偏差问题的修改的背景。此外,我们将介绍一种称为 NeRF [34] 的神经体积渲染模型,作为桥接隐式表示和新颖视图合成的开创性方法。图 2 概述了我们提出的背景。
INR 中的传统方法将信号中每个元素(例如图像中的像素)的空间坐标视为 MLP 的输入。然而,这种方法倾向于学习低频函数,限制了其有效表示复杂信号的能力。为了解决这个限制,最近的进展建议使用笛卡尔坐标到更高维度空间的正弦映射,这使得能够更有效地学习高频细节[55]:
这些编码过程称为傅立叶特征映射。
一般来说,激活函数背后的直觉是将非线性应用于神经网络。对于隐式表示,非线性可以是周期性的,也可以是非周期性的。然而非周期函数,如ReLU或tanh,不利于高频信号的有效学习
为了解决这个问题,正弦表示网络(SIREN)[50]利用正弦作为 MLP 的激活函数来参数化复杂数据:
Ψ ( x ) = W n ( ψ n − 1 ∘ ψ n − 2 ∘ … ∘ ψ 0 ) ( x ) + b n , x i ↦ ψ i ( x i ) = sin ( W i x i + b i ) \begin{aligned} \mathbf{\Psi}(\mathbf{x}) &= \mathbf{W}_n(\psi_{n-1} \circ \psi_{n-2} \circ \ldots \circ \psi_0)(\mathbf{x}) + \mathbf{b}_n, \\ \mathbf{x}_i &\mapsto \psi_i(\mathbf{x}_i) = \sin(\mathbf{W}_i \mathbf{x}_i + \mathbf{b}_i) \end{aligned} Ψ(x)xi=Wn(ψn−1∘ψn−2∘…∘ψ0)(x)+bn,↦ψi(xi)=sin(Wixi+bi)
其中 ψ i \psi_i ψi表示神经网络的第i层,x是感兴趣的信号, W W W和 b i bi bi表示权重矩阵和偏差,分别。使用正弦作为激活可以归结为其导数是平移的正弦(余弦),这使得网络能够有效地参数化高阶导数,例如图像拉普拉斯或亥姆霍兹方程。此外,正弦函数有助于有效地表示包含高频细节的信号。 SIREN 作者提出了一种独特的初始化技术来防止传统激活函数中的梯度消失。他们将每层的权重初始化为 W ∼ U ( − c n , c n ) W\sim U(\frac{-c}{\sqrt{n}},\frac{c}{\sqrt{n}}) W∼U(n−c,nc),其中W是各层的权重,U(.)是均匀分布,c表示控制权重值范围的常数n 是输入神经元的数量。
这一块其实公式没啥意思,就是说激活函数改用了正弦sin()
目标信号(例如图像和音频)通常表现出局部结构和相邻元素之间的依赖性,可以在训练期间有效地利用这些信号来增强 ReLU 网络。阿夫塔布等人。 [1]引入了一种多头网络架构,其中主体学习信号的全局特征,而输出层由多个头组成。这些头重建信号的不同部分并学习其局部特征。例如,就图像而言,他们将图像划分为相等的网格单元。然后,每个单元格由主体中的 MLP 进行处理以捕获全局特征,并且输出稀疏节点单独重建每个单元格的细节。这种方法旨在通过利用目标信号的固有特性来减少网络对低频分量的偏差。因此,将输出改变到更高维空间可以有效缓解谱偏差问题。
神经辐射场 (Neural Radiance Fields (NeRFs) ) [34] 通过使用完全连接的 MLP 来隐式表示场景和对象,从而将 INR 与体渲染结合起来,以实现新颖的视图合成。新视角合成的目标是开发一种系统,通过观察特定物体的一些图像,可以从任何方向生成该物体的新视角。
该过程定义为: F θ ( x , d ) ⟶ ( c , σ ) F_{\theta}(\mathrm{x},\mathrm{d})\longrightarrow(\mathrm{c},\sigma) Fθ(x,d)⟶(c,σ)其中 x 表示 3D 位置 (x, y, z),d 表示观察方向的 2D 向量 ( θ , p h i ) (θ, phi) (θ,phi) ,c 表示颜色值 (r, g, b),σ 是体积强度。主要思想是在训练数据上过度拟合隐式函数,这样,给定 (x, y, z) 作为空间坐标, ( θ , p h i ) (θ, phi) (θ,phi)作为观察方向,网络输出特定区域的颜色和体积密度。地点。与 SIREN [50] 不同,NeRF 架构配备了 ReLU 作为其激活函数,但与 Fourier 特征 [55] 类似,采用位置编码方法将坐标映射到更高维度,如下所示:
γ ( p ) = ( sin ( 2 0 π p ) , cos ( 2 0 π p ) , … , sin ( 2 L − 1 π p ) , cos ( 2 L − 1 π p ) ) \gamma(p) = \left(\sin(2^0\pi p), \cos(2^0\pi p), \ldots, \sin(2^{L-1}\pi p), \cos(2^{L-1}\pi p)\right) γ(p)=(sin(20πp),cos(20πp),…,sin(2L−1πp),cos(2L−1πp))
其中 p 可以是每个坐标或观察方向分量。
NeRF 的架构设计为两阶段,以获得密度和颜色值,如下所示:
F i r s t S t a g e : σ , h = M L P ( x ) S e c o n d S t a g e : c = M L P ( c o n c a t [ h , d ] ) (4) \mathrm{First\ Stage:}\ \sigma, \mathrm{h} = MLP(\mathrm{x}) \tag{4} \\ \mathrm{Second\ Stage:}\ \mathrm{c} = MLP(\mathrm{concat}[\mathrm{h}, \mathrm{d}]) First Stage: σ,h=MLP(x)Second Stage: c=MLP(concat[h,d])(4)
其中,在第一阶段,3D坐标x通过MLP以获得密度σ和特征表示h ∈ RN(在原始实现中N等于256),在第二阶段,h被输入到MLP以输出颜色值 c(原始实现 [34] 采用相同的 MLP 来实现此目的)。最后,体渲染[26]用于通过跟踪摄像机光线穿过目标合成图像的每个像素来生成新颖的视图。
由于 INR 的内存和数据效率,它们被广泛应用于众多医学成像任务中。
自动化医学成像中最重大的挑战之一是从可靠来源(例如临床医生和医疗专业人员)收集地面真实注释数据[24,3,27]
这个过程是艰苦、昂贵、耗时的,并且需要付出巨大的努力。与易于识别和标记的简单场景(例如,对室内场景进行分类)不同,注释医学图像应由医疗专业人员和临床医生执行。这种对专家的依赖,加上隐私问题和患者授权的需要,造成了医学成像注释过程的主要瓶颈。
现有的一些成像问题:
在 CT 扫描、PET 扫描、MRI 和超声波等医学成像过程中,患者的运动也会导致运动伪影,导致图像模糊或结构不清,尤其是在胸部等上腹部区域,这些区域会受到患者运动的负面影响。
此外,在牙科和颌面成像中常用的锥形束计算机断层扫描 (CBCT) 中,缓慢的成像速度加上患者的运动可能会导致运动伪影并导致结构边界不明确 [51,18,72]。
此外,由于扫描时间较长,获得高质量的 MRI 扫描也构成了挑战 [61, 62]。
传统方法不适合通过超分辨率或图像重建来有效处理这些问题,因为它们与分辨率无关并且需要大量数据。然而,INR 可以通过考虑来自连续坐标域的输入并且与分辨率无关来更有效地解决超分辨率问题。
隐式神经模型也广泛用于生物医学应用,特别是解决逆成像问题[69,40,48,48]。这些问题涉及通过观察或测量来了解物体(医学案例中的感兴趣器官)的结构。使用 INR,可以直接从传感器域重建 CT 或 MRI 扫描。此外,它们甚至可以通过合并早期时间步骤的先前扫描来促进组织进展的跟踪,随后重建当前时间的更新扫描。在实际应用中,稀疏采样数据重建图像起着至关重要的作用。这种需求出现在包括医学成像在内的各个领域,事实证明它在特定应用中特别有价值,例如减少 CT 成像中的辐射剂量和加速 MRI 扫描 [54,40,48]。值得注意的是,单图像超分辨率(SISR)技术因其仅基于低分辨率(LR)输入来恢复高分辨率(HR)图像的潜力而引起了相当大的关注[62, 31]。 SISR 方法增强图像细节和保真度的能力对于提高诊断准确性和帮助医疗专业人员决策过程具有重要意义。使用基于卷积的技术无法实现这一点,因为它们是专门针对特定的放大任务进行训练的。此外,对它们进行新的升级任务的再培训过程非常耗时,阻碍了它们在临床应用中的实用性[61]。
INR 也可用于辅助机器人手术 [46,45,58,71,2]。将 INR 集成到机器人手术系统中可以增强对手术环境的感知和理解。通过利用 INR,机器人手术系统可以更好地解释术中图像,为外科医生提供实时反馈和指导。这有助于准确的组织分割、关键解剖结构的定位以及精确的手术工具操作。
总之,INR 模型在医学成像任务中提供了显着的优势,解决了扫描中缺乏注释数据和伪影等挑战。我们相信,研究可以利用专家来验证他们的方法的实用性,从而更好地证明 INR 的有用性。总之,INR 已成为临床环境中有价值且适应性强的工具,成功解决了各种成像挑战。预计它们的广泛使用在未来将继续增长,为医学成像研究提供新的可能性。
我们提供了一个分类法,重点关注 INR 在几种医学成像任务中的应用,以使研究人员熟悉这些模型的显着操作和功能。
图像重建是医学分析中的一项关键任务,使专业人员能够获得用于临床应用的高质量图像。许多研究探索了使用卷积神经网络(CNN)来学习将原始数据转换为重建图像的映射函数。然而,这种方法面临着挑战,包括需要大规模训练数据集、结构修改存在的不稳定性以及推广到不同图像模式或解剖位置的困难[6]。克服这些障碍对于提高医疗环境中图像重建的可靠性和适用性至关重要。
为了在这里使用 INR,该任务通常被定义为医学图像重建中的逆问题,以医学图像的噪声或欠采样测量作为输入,旨在生成重建的完整图像作为输出。输入可以来自各种成像方式,例如 CT、MRI 或超声波,不完整可能是由于时间限制、辐射暴露减少或患者移动造成的。 INR 模型学习将输入测量值映射到相应的完整图像,恢复丢失的信息并生成类似于从完全采样采集中获得的地面实况的高质量图像。
为了解决上述挑战,近年来开发了许多基于 INR 的重建方法。例如,NeRP [48]框架提出集成隐式神经网络,通过三个阶段重建稀疏采样的医学图像,而不需要任何训练数据。如图 5 所示,在第一阶段,神经网络的权重使用 CT 图像作为先验知识进行编码。接下来,隐式网络在稀疏采样的正弦图测量上进行优化以学习重建。最后,将网络应用于所有相关的空间坐标以生成最终的重建 CT 图像。 NeRP 在重建肿瘤结构进展方面的有效性及其在各种成像模式中的多功能适用性已通过对 2D 和 3D 数据(包括 CT 临床扫描和脑肿瘤进展 MRI 数据图像)进行的实验得到证明。此外,里德等人。 [40]提出了一种使用计算机断层扫描(4D-CT)重建动态、时变场景的方法(DCTR)。 INR 用于估计场景中 3D 体积线性衰减系数 (LAC) 的模板重建,充当捕获 LAC 空间分布的先验模型。这里,模板指的是场景属性的表示或近似,特别是 3D 体积中的 LAC。通过使用 INR,DCTR 通过学习坐标 (x, y, z) 和 LAC 模板重建之间的映射,基于可用的 CT 测量或正弦图生成 LAC 模板重建,作为整体的起点重建过程。然后,DCTR 采用参数化运动场,这是一组描述模板应如何随时间扭曲以考虑场景运动的参数。最后,使用扭曲模板重建通过可微分Radon变换合成正弦图,然后将其与实际正弦图进行比较以评估重建的准确性。所提出的方法展示了具有可变形和周期性运动的图像的鲁棒重建,并在合成的 D4DCT [40] 数据集和胸部 CT 数据 [11] 上得到了验证。
医学图像分割是医疗保健系统中的一项关键任务,有助于疾病诊断和治疗计划。深度学习方法在实现准确的分割结果方面显示出了有希望的结果。然而,这些方法常常面临计算效率低下和难以处理复杂拓扑的问题[56]。复杂拓扑是指医学图像中复杂的结构关系和变化,例如病变、肿瘤和复杂的血管结构。
为了解决这些限制,Barrowclough 等人。 [9] 介绍了一种称为 BS-ISR 的新颖方法,它将卷积神经网络 (CNN) 与 INR 结合起来。 INR 因其处理复杂、高维医学成像数据和捕获复杂拓扑的能力而被专门选择。该模型不是直接生成图像,而是利用样条表示来捕获几何边界和结构。作者还引入了专为隐式样条建模而设计的新损失函数,利用二进制内外掩码。对先天性心脏病数据集 [65] 的评估表明,与其他 SOTA 方法相比,该模型具有优越的性能(通过平均体积测试 Dice 评分指标来衡量)。在另一项研究中,Gu 等人。 [22]提出了一种基于自蒸馏的 INR 方法,用于分割视网膜血管以进行眼部疾病诊断(Retinal INR)。他们利用视觉变换器(ViT)[17] 通过将图像视为补丁序列而不是仅仅关注局部特征来捕获视网膜图像中的全局依赖性。自蒸馏方法提取了血管分割的关键特征。该方法的主要优点在于它能够通过使用 INR 来增强视网膜图像的分辨率并放大毛细血管的更精细的细节。为了确保结果准确,他们利用改进的中心线骰子 (clDice) 损失函数来约束血管拓扑。所提出的模型在 Drive [52] 和 Chase [19] 数据集上进行了评估,显示了其在分割精度、详细结构检测以及对图像质量和内容变化的鲁棒性方面优于非 INR 方法。
医学图像配准是在公共坐标系内对齐多个图像、体积或表面以识别公共区域的过程。它需要学习一个变换函数,以几何方式对齐源图像和目标图像之间的坐标。传统方法通常需要复杂的多步骤过程以及对转换性质的假设。然而,**INR 能够在没有外部假设的情况下对变换函数进行建模。**这使得它们能够在任何图像分辨率下以平滑、连贯的方式处理图像中的变化和扭曲,从而非常适合图像配准等任务。
在这方面,Wolterink 等人。 [60]提出了 IDIR,它采用 INR 来对基于 SIREN 的变形配准设计的变换函数进行建模,它尝试图像的空间对齐来解释解剖结构(例如器官)的形状、位置或大小的变化,肿瘤或其他感兴趣的特征。如图 6 所示,使用 MLP 表示变换函数 ϕ ( x ) = u ( x ) + x \phi(x) = u(x) + x ϕ(x)=u(x)+x,它将固定图像中的每个坐标 x 映射到运动图像中的坐标。 MLP 将图像域中的连续坐标 x 作为输入并预测变形向量 u(x)。 u(x) 和 x 相加得到输出 ϕ ( x ) = u ( x ) + x \phi(x) = u(x) + x ϕ(x)=u(x)+x。此外,MLP 中的周期性激活函数允许更高阶导数,从而实现先进的正则化技术,无需依赖 CNN 即可实现准确、灵活的图像配准。该模型使用 DIR-LAB 数据集 [11] 在 4D 胸部 CT 配准上进行了测试,并且超越了所有基于深度学习的方法,无需折叠或训练数据。在另一项研究中,Sun 等人。 [53]开发了 mirnf,它可以对位移矢量场和速度矢量场进行建模,提供两种不同的执行图像配准的方法。位移矢量场用于变形配准,而速度矢量场用于微分同胚配准,两者都利用 INR 对目标和运动图像之间的变换进行建模。基于速度的配准网络根据目标图像中的 3D 坐标预测速度向量 [vpx , vpy , vpz ]。使用神经常微分方程求解器对这些向量进行积分,通过将目标图像中的每个点映射到运动图像中相应的变形位置来生成变形场。通过将变形场应用于目标图像,它可以与运动图像对齐。或者,另一种方法训练 MLP 直接预测源图像中每个坐标的位移向量 [phipx , phipy , phipz ]。这些向量描述了源图像中的每个点应如何移动或变形以与目标图像对齐。通过应用这些位移矢量,目标体积变形以匹配源体积,这涉及将位移矢量添加到目标体积中每个点的位置。作者在两个 3D MR 脑部扫描数据集 Mindboggle101 [28] 和 OASIS [32] 上进行了实验,发现与传统方法相比,INR 在配准精度、优化速度和规律性方面实现了 SOTA 性能。
随着生物医学数据量的不断增加,需要有效的压缩方法来存储、传输和安全共享。虽然存在自然图像/视频数据的压缩技术,但由于其独特的特性,它们对于生物医学数据并不有效。生物医学数据包含多样的组织类型、复杂的结构和高分辨率的细节,这对传统的压缩技术提出了挑战。近年来,像 INR 这样的目标数据特定方法在有效压缩各种视觉数据方面显示出了希望。
例如,杨等人。 [67] 提出了基于 INR 的压缩器(称为 SCI)设计的数学解释和自适应分区。 SCI 将数据划分为块,并且使用 MLP 网络单独压缩每个块。第一层分配了一组广泛的神经元来捕获更广泛的频率,随着深度的增加,层大小成比例减小。这种选择是基于这样的观察:增加网络的深度而不是宽度(神经元的数量)可以更有效地表示更大范围的频率或高阶谐波。为了保持高重建保真度,块的参数分配是根据它们覆盖的频率范围来完成的。每个块的压缩完成后,网络参数(包括包含该特定块的学习表示和编码信息的神经网络的权重和偏差)被序列化。 Yang 等人使用 HiP-CT 数据集 [57] 作为测试平台。发现他们的方法优于传统技术(JPEG、H.264、HEVC)、数据驱动技术(DVC、SGA+BB、SSF)和现有的基于 INR 的技术(SIREN [50]、NeRF [34] 和 NeRV [44])关于各种生物和医学数据。在提高 INR 压缩保真度的另一项尝试中,提出了树结构隐式神经压缩(TINC)[66]。 TINC使用MLP来拟合分割的局部区域,并且这些MLP以树结构排列以实现基于空间距离的参数共享。参数共享机制保证了相邻区域之间的平滑过渡,并消除了重复冗余,无论它存在于本地还是非本地。 HiP-CT 数据集 [57] 上的实验证明了 TINC 相对于传统技术的优越性。然而,与其他基于 INR 的方法类似,其局限性在于尽管解压缩速度较高,但压缩速度较慢。
神经渲染是指一类方法,涉及训练神经网络来对场景几何、光照和细节之间的复杂关系进行建模,从而允许基于现有场景生成新颖的视图。隐式表示可以应用于医学图像的神经渲染环境中,从而可以创建复杂解剖结构和其他医学数据的更详细和准确的可视化。
在 3D CT 成像中,患者长时间暴露在有害电离辐射下是一个明显的挑战。因此,为了缓解这个问题,MedNeRF [16] 提出结合 GRAF [47](将 NeRF [34] 与 CNN 集成)来渲染单视图或多视图 X 射线的 CT 投影。 GRAF 背后的意图归结为 NeRF 努力处理具有大量几何复杂性的复杂场景。为了解决这个限制,NeRF 被训练来最小化渲染图像和地面真实图像之间的差异,而 GAN [21] 被训练来区分生成的图像和地面真实图像,并用于细化 NeRF 输出并改进画面质量。 MedNeRF 对 X 射线胸部和膝盖数据集进行的评估表明,与神经辐射场方法相比,在体积深度估计方面重建有所改进。 Wang 等人首先介绍了神经渲染在 3D 重建手术场景中的应用。 [58]。如图 7 所示,所提出的方法(手术神经渲染)采用隐式神经表示 (INR),通过规范辐射场和时间相关位移场来捕获手术场景的动态和可变形性质,使用 MLP 表示:将坐标和视图方向映射到 RGB 颜色和空间占用。通过使体积渲染过程可微分,可以通过渲染操作反向传播梯度,从而允许隐式神经场的端到端学习,并能够优化这些参数以重建手术场景。为了生成用于监督的渲染,该方法利用可微分体积渲染,其中将摄像机光线射入场景,并使用体积渲染积分评估每条光线的颜色和光学深度。沿光线的采样点提供了从神经场获取颜色和空间占用所需的输入。隐式神经场的网络参数经过优化以重建手术场景的形状、颜色和变形。这种优化是通过联合监督渲染颜色和光学深度与地面实况数据来实现的。
为了提供比较概述,我们在表 1 中组织了比较信息和结果。根据该表,很明显,图像重建比分割、压缩、配准等任务更吸引人的兴趣。这种偏好主要是由于它们具有增强分辨率和降低噪声的强大能力,特别是在成像设备容易出现不确定性的医疗场景中。我们在下面讨论和比较值得注意的元素:
定义参数:用作 INR 输入的参数并不总是笛卡尔坐标,而是取决于Ask 和神经网络定义的信号分布。例如,CoiL [54] 尝试使用表征传感器响应的参数(包括探测器的视角和空间位置)来定义测量场。同样,NeRD [70] 使用基本方向上的位置距离来定义像素分布函数。
局部信息:值得注意的是,使用 CNN 的方法,例如 ArSSR [61]、BS-ISR [9] 和 MedNeRF [16],专门利用 CNN 的功能在表示过程中合并局部语义信息。通过利用卷积层,这些方法可以捕获和编码局部特征和空间关系,从而为噪声去除、边界建模和超分辨率等任务提供更准确和上下文感知的表示。
稀疏视图 CT 重建:如第 3 节所述,减少患者暴露于辐射剂量对于改善医疗保健系统发挥着重要作用。因此,大量工作开发了各种策略来利用稀疏且有限的测量和投影数据重建 CT 图像。 NeRP [48] 和 CoiL [54] 都通过利用先验信息或几何关系来解决稀疏 CT 重建的挑战。 DCTR [40] 在动态 4D-CT 重建的背景下解决了这一挑战,该重建适用于移动结构,例如受呼吸或心脏运动影响的器官。在锥形束计算机断层扫描 (CBCT) 中,只有感兴趣的区域受到辐射,从而减少了周围组织和器官的辐射暴露。 SNAF [18] 通过利用神经渲染方法隐式学习衰减场,研究了这种特殊医学成像技术的重建扫描。然而,由于使用有限的输入投影,所得结果看跌期权是模糊的,需要额外的努力。值得注意的是,稀疏视图重建是一种以减少辐射剂量与潜在的图像质量和准确性损失为代价进行权衡的技术,这就是 INR 在该领域吸引大量研究关注的原因。
网络类型:基于 SIREN 与基于 NeRF:大多数审查的工作都使用 ReLU MLP,并将傅立叶映射应用于其输入以减轻频谱偏差。由于神经体积渲染基于 NeRF [34] 设计来进行视图合成和连续表示,因此激活函数是 ReLU,以傅里叶特征作为输入,以准确地建模场景的 3D 结构 [16,58,18]。尽管如此,医疗场景中的体积渲染在表面边界方面有所不同,因为与使用 NeRF 的其他领域相比,整个器官拥有有价值的诊断信息。网络的类型受到其要解决的任务目标的影响。周期性激活的高阶可微性使得能够将更高级的正则化项合并到配准的优化过程中,例如雅可比正则化器、超弹性正则化器[10]和IDIR[60]方法中使用的弯曲能量惩罚[41]。
尽管INR有很多好处,特别是在医学领域,但鉴于医学领域的高风险性质,它们仍然在各个方面受到限制,需要进一步的研究努力才能实现实际应用。我们将在下面简要讨论这些限制。
计算复杂性和训练时间:分别学习每个信号的神经表示涉及大量的内存和计算资源。此外,为涉及 3D 体积等高维数据的应用拟合 INR 可能非常耗时 [42].这可能会给需要立即响应的实时应用程序带来挑战。复杂性源于输入数据的大小和模型架构等因素。元学习和多尺度表示有助于加快多个领域的训练时间并优化内存利用率 [20, 43],这为表示解剖和生物结构提供了途径,同时减少了训练时间并提高了实用性。
扩展到更复杂的信号:要更好地表示更高分辨率的信号或具有精细细节的复杂 3D 形状可能具有挑战性。这种表示中涉及的映射通常是高度非线性的,因此很难在不产生大量计算成本的情况下进行扩展。加宽和加深 MLP 都可以增强其表示能力,但用于训练深度神经网络的反向传播算法随着深度的增加计算量变得更大,并且可能出现梯度消失/爆炸问题。研究人员通常需要在模型复杂性和可用计算资源之间取得平衡。已经开发了各种技术[14,35,25]。
基于视频的 INR:在解码时间方面,采用 INR 的视频压缩方法比其他模型更好[13]。此功能允许前馈中的并行处理,从而能够在解码过程中独立计算每个帧。因此,它们在速度和准确性都至关重要的机器人辅助手术中受到了最多的关注 [46,45,58]。然而,对高频视频(即高帧率)中帧之间的语义关系进行建模提出了相当大的挑战[73],持续的研究和开发对于充分利用 INR 在该领域的潜力至关重要。
总之,本次调查提供了医学影像领域 INR 的全面概述。通过利用神经网络和隐式连续函数,INR 在解决医疗环境中的复杂问题方面表现出了巨大的潜力。该调查强调了使用 INR 的好处,并深入研究了它们在各种医学成像任务中的应用。此外,它还确定了开放的挑战和未来研究的领域,为该领域的研究人员提供了宝贵的见解