arxiv,19 Jan 2024 【开源】
【核心思想】
本文介绍了一种新的无监督异常检测方法—Reversed Auto-Encoders (RA),旨在提高医学影像中病理检测的准确性和范围。RA通过生成类似健康的重建图像,能够检测到更广泛的病理类型,这在现有技术中是一个挑战。RA方法在多种医学成像模态(如脑部磁共振成像、儿童腕部X光片和胸部X光片)中展示了卓越的检测性能,与现有最先进的方法相比,RA在检测各种病理、解剖结构和成像模态方面都表现出更高的准确性和稳健性。此外,RA的自动异常检测能力在缺乏放射学专业知识的环境中特别有价值。然而,该研究也指出了在检测极其微妙的异常方面的限制,强调了需要改进异常图计算和开发更为复杂的评估指标,以满足临床诊断的精细需求。总的来说,RA框架在医学成像领域展现出巨大潜力,其能够准确地检测广泛的异常,对于推动医学成像与人工智能的结合、提高诊断过程的准确性具有重要意义。
【医学影像中的异常检测的常用方法概述】
【方法】
1.方法提出的背景
在训练阶段(左),使用多尺度反向嵌入损失 L Reversed \mathcal{L}_{\text {Reversed }} LReversed ,结合证据下界(ELBO)和对抗优化,对编码器和解码器网络进行优化。在此过程中,解码器从随机噪声中生成合成图像,目的是欺骗编码器将其视为真实图像 x fake x_{\text {fake }} xfake 。在推理阶段(右),RA模型处理一个新的输入 x x x ,将其编码并重建为伪健康图像 x p h x_{\mathrm{ph}} xph 。异常检测是通过计算 x x x和 x p h x_{\mathrm{ph}} xph 之间的 L1 范数和感知差异来进行的,从而得到突出显示病理区域的异常图。
将“正常”称为没有病理。给定一组正态样本 x ∈ X ⊂ R N x \in X \subset \mathbb{R}^{N} x∈X⊂RN ,AE的目标是找到函数 f : R N → R D f: \mathbb{R}^{N} \rightarrow \mathbb{R}^{D} f:RN→RD , g : R D → R N g: \mathbb{R}^{D} \rightarrow \mathbb{R}^{N} g:RD→RN 使得 x ≈ g ( f ( x ) ) x \approx g(f(x)) x≈g(f(x)) 。 f f f 分别 g g g 称为编码器和解码器,将 f f f 输入映射到较低维的表示形式。无监督异常检测(UAD)的基本假设是,这些学习的表示包含描述规范分布的特征,即使对于异常样本 x ˉ ∉ X \bar{x} \notin X xˉ∈/X 也是如此。因此, x p h = ( g ( f ( x ˉ ) ) ) ∈ X x_{p h}=(g(f(\bar{x}))) \in \mathcal{X} xph=(g(f(xˉ)))∈X 表示 x ˉ \bar x xˉ 的伪健康重建。异常分数通常来自输入与其重建之间的像素差异: s ( x ) = ∣ x − g ( f ( x ) ) ∣ s(x)=|x-g(f(x))| s(x)=∣x−g(f(x))∣ 。
在变分推理框架中,目标是通过最大化观测样本 x x x 的对数似然 log p θ ( x ) \log p_{\theta}(x) logpθ(x) 来优化潜在变量模型 ��(�) p θ ( x ) p_{\theta}(x) pθ(x) 的参数 θ \theta θ 。为了解决这个问题,真正的后验 p θ ( z ∣ x ) p_{\theta}(z \mid x) pθ(z∣x) 通过使用证据下限 (ELBO) 的提议分布 q ϕ ( z ∣ x ) q_{\phi}(z \mid x) qϕ(z∣x) 来近似: log p θ ( x ) ≥ E q ( z ∣ x ) [ log p θ ( x ∣ z ) ] − KL [ q ϕ ( z ∣ x ) ∣ ∣ p ( z ) ] = ELBO ( x ) \log p_{\theta}(x) \geq \mathbb{E}_{q(z \mid x)}\left[\log p_{\theta}(x \mid z)\right]-\operatorname{KL}\left[q_{\phi}(z \mid x)|| p(z)\right]=\operatorname{ELBO}(x) logpθ(x)≥Eq(z∣x)[logpθ(x∣z)]−KL[qϕ(z∣x)∣∣p(z)]=ELBO(x)
p θ ( x ∣ z ) p_{\theta}(x \mid z) pθ(x∣z)和 q ϕ ( z ∣ x ) q_{\phi}(z \mid x) qϕ(z∣x)分别是解码器 D θ D_{\theta} Dθ和编码器 E ϕ E_{\phi} Eϕ,AE 通常使用正态分布作为先验分布 p ( z ) = N ( μ , σ ) p(z)=\mathcal{N}(\mu, \sigma) p(z)=N(μ,σ) ,并采用重参数化技巧来最大化 ELBO。为了将 VAE 的潜在特性与 GAN 的图像合成能力相结合,SI-VAE为 VAE 训练引入了对抗性损失。关键的创新是以对抗方式利用VAE的编码器和解码器,而无需外部鉴别器。该编码器旨在通过最小化真实样本和先验样本的潜在分布的KL散度来区分真实样本和生成样本,同时最大化生成样本的KL散度。相反,解码器通过使用标准ELBO重建真实数据样本并最小化编码器压缩的生成样本的KL散度来训练来“欺骗”编码器。编码器和解码器的优化目标如下:
L E ϕ ( x , z ) = ELBO ( x ) − 1 α ( exp ( α ELBO ( D θ ( z ) ) ) ) , L D θ ( x , z ) = ELBO ( x ) + γ ELBO ( D θ ( z ) ) , \begin{array}{l} \mathscr{L}_{E_{\phi}}(x, z)=\operatorname{ELBO}(x)-\frac{1}{\alpha}\left(\exp \left(\alpha \operatorname{ELBO}\left(D_{\theta}(z)\right)\right)\right), \\ \mathscr{L}_{D_{\theta}}(x, z)=\operatorname{ELBO}(x)+\gamma \operatorname{ELBO}\left(D_{\theta}(z)\right), \end{array} LEϕ(x,z)=ELBO(x)−α1(exp(αELBO(Dθ(z)))),LDθ(x,z)=ELBO(x)+γELBO(Dθ(z)),
2.RA: Reversed Autoencoders
RA的主要创新在于其复杂的训练机制,旨在学习和准确重建正常的解剖模式。通过三种不同训练策略的独特组合来实现:首先,利用ELBO对平滑潜在空间进行正则化处理,使模型能够有效地捕捉正常解剖特征的潜在分布;其次,实现了RA的编码器和解码器组件之间的内省对抗相互作用。这种相互作用确保了规范分布的高保真表示的生成,因为编码器和解码器相互挑战以优化其输出。最后,为了增强输入与其重建之间的连贯性——这在可能发生重大分歧的恢复阶段尤其重要——我们引入了“反向损失”。该损失函数旨在最大限度地减少原始图像与其重建版本之间的差异,从而确保 RA 在重建正常解剖结构时保持高度准确性,同时突出显示异常。
在编码器中实现反向多尺度嵌入相似性损失。这种方法确保输入表示与其生成的重建的嵌入紧密对齐,在多个尺度上执行:
L Reversed ( x ) = ∑ l = 0 L [ ( 1 − L Sim ( E ϕ l ( x ) , E ϕ l ( x rec ) ) ) + 1 2 MSE ( E ϕ l ( x ) , E ϕ l ( x rec ) ) ] , \begin{array}{r} \mathcal{L}_{\text {Reversed }}(x)=\sum_{l=0}^{L}\left[\left(1-\mathcal{L}_{\text {Sim }}\left(E_{\phi}^{l}(x), E_{\phi}^{l}\left(x_{\text {rec }}\right)\right)\right)\right. \\ \left.+\frac{1}{2} \operatorname{MSE}\left(E_{\phi}^{l}(x), E_{\phi}^{l}\left(x_{\text {rec }}\right)\right)\right], \end{array} LReversed (x)=∑l=0L[(1−LSim (Eϕl(x),Eϕl(xrec )))+21MSE(Eϕl(x),Eϕl(xrec ))],
其中 E ϕ l E_{\phi}^{l} Eϕl 表示 L L L 个编码器层的第 l l l 个嵌入, x rec = D θ ( E ϕ ( x ) ) , L Sim x_{\text {rec }}=D_{\theta}\left(E_{\phi}(x)\right), \mathcal{L}_{\text {Sim }} xrec =Dθ(Eϕ(x)),LSim 是余弦相似度, M S E MSE MSE 是均方误差。编码器的目标函数结合了反向相似性的概念,定义为:
L E ϕ ( x , z ) = ELBO ( x ) − 1 α ( exp ( α ELBO ( D θ ( z ) ) ) + λ L Reversed ( x ) \mathcal{L}_{E_{\phi}}(x, z)=\operatorname{ELBO}(x)-\frac{1}{\alpha}\left(\exp \left(\alpha \operatorname{ELBO}\left(D_{\theta}(z)\right)\right)+\lambda \mathcal{L}_{\text {Reversed }}(x)\right. LEϕ(x,z)=ELBO(x)−α1(exp(αELBO(Dθ(z)))+λLReversed (x)
异常分数计算
除了重建之外,准确检测异常还需要强大的异常评分计算方法。传统的基于残差的方法由于依赖于强度差异而经常面临局限性。为了解决这个问题,在计算残差之前应用自适应直方图均衡 。此外,还整合了感知差异,以增强异常检测的鲁棒性: s ( x ) = ∣ e q ( x p h ) − e q ( x ˉ ) ∣ × ( S lpips ( x p h , x ˉ ) × S lpips ( e q ( x p h ) , e q ( x ˉ ) ) ) s(x)=\left|\mathrm{eq}\left(x_{p h}\right)-\mathrm{eq}(\bar{x})\right| \times\left(\mathcal{S}_{\text {lpips }}\left(x_{p h}, \bar{x}\right) \times \mathcal{S}_{\text {lpips }}\left(\mathrm{eq}\left(x_{p h}\right), \mathrm{eq}(\bar{x})\right)\right) s(x)=∣eq(xph)−eq(xˉ)∣×(Slpips (xph,xˉ)×Slpips (eq(xph),eq(xˉ)))
其中 S lpips \mathcal{S}_{\text {lpips }} Slpips 表示学习的感知图像贴片相似度指标。
Perceptual Image Patch Similarity (PIPS)度量是一种用于评估图像之间相似性的方法,特别关注于感知特征。这种度量通常基于深度卷积神经网络(CNN)的特征,利用这些网络提取的特征来判断图像片段(patch)之间的相似度。PIPS度量的关键在于它不仅考虑像素级别的差异,而且还着眼于图像的感知特性,如结构和纹理。这使得PIPS度量能够更好地与人类视觉系统的感知一致,特别是在处理具有复杂纹理和结构的图像时。
【应用】