学习笔记11月18日

What Can We Learn About a Generated Image Corrupting Its Latent Representation?

论文来源:2022年MICCAI会议

一、摘要
这项工作的目的是研究基于在GANs bottleneck中的潜在表示来预测图像的质量。我们通过用噪声破坏潜在的表示和产生多个输出来实现这一点。它们之间的差异程度被解释为表示的强度:潜在表示越健壮,损坏导致的输出图像的变化就越少。我们的研究结果表明,我们提出的方法具有以下能力:
i)预测合成图像的不确定部分。
ii)识别可能对downstream tasks不可靠的样本,如肝脏分割任务。
关键词:GANs;Image synthesis ; Uncertainty ; Image quality。
二、实现过程
(1) 前人的贡献:GANs生成的图像何时才能被信任?因为生成的假图像没有临床价值。
最近,Upadhyay等人不仅通过预测输出图像,还通过预测相应的任意性不确定性,然后使用它来指导GAN来改进最终输出。他们的方法需要改变改变优化过程和网络架构,对于成对的图像,提高了图像质量,但并没有清楚地说明在医学成像中,图像的视觉质量并不总是转移到下游任务的性能。
(2)本文的贡献:检验前人没完成的任务。检验假设:图像表示的鲁棒性越强,生成的输出和最终结果的质量就越好。提出了一个噪声注入技术,允许生成多个输出,从而量化这些输出之间的差异和提供一个确认分数,可用于确定不确定部分生成的图像,生成样本的质量,在某种程度上他们对下游任务的影响。
(3)实验过程:通过破坏正态分布的噪声的图像的潜在表示来查看如何影响生成的输出图像。编码器E和解码器D,α表示注入的噪声,使用bin来消除噪声,单个图像通过解码器D生成多个输出。使用多个输出来量化这个图像的质量,包含图像方差(不确定分数)和互信息(置信度分数)。
图像方差:产生的输出与腐败表示的方差越大,编码器产生的不确定性就越大。
置信度分数:量化原始输出和损坏输出之间保留了多少信息。
(三)实验结果
(1)网络结构:TarGAN网络,使用pytorch,训练了100个epoch,使用α=3来构建k=10的破坏损失。
UPGAN网络,不确定损失被用于训练两个发电机的cyclegan身份损失和循环损失的每个成分。
数据集:采用 CHAOS19数据集。训练集和测试机分别百分之50。
评估指标:采用Fid来评分生成图像的质量,Dice来评估分割结果。
(2)判断注入噪声是否可以识别图像不确定的部分?
原图像和去除一个50*50的补丁的图像测量不确定性和置信度。与原始图像相比,扰动输入具有较大的方差(方差越大,编码器产生的不确定性就越大)和低置信度(置信度越高,置信区间就越大,估计的参数的相对精度就会越低。这里置信度变低说明精度高)
(3)使用噪声注入是否可以提高合成图像的质量?
在训练过程中加入噪声,在一半的合成样本中注入少量噪声α=0.5时,可以发现提高了图像的质量,但是分割精度没有提高。加入过量噪声,会导致模型混淆,导致性能恶化。
(4)可以将Confidence Score和Downstream Task联系起来吗?
通过训练三个 2D U-NET网络对三种成像方式进行肝脏分割。通过噪声注入可以发现,我们的方法图像分割的准确率高,下游任务网络也表现良好。
(四)结论
在这项工作中,我们研究了一个假设,即一个稳健的潜在表示导致更高的质量的生成图像和更高的性能在下游任务。我们表明,有指标表明,潜在表示的质量对应于生成的图像的最终质量。如果下游任务网络表现良好,就可以将其与潜在表示的质量联系起来。此外,我们发现,在训练阶段,小的噪声注入会导致更鲁棒的表示和略高的图像质量。然而,这并不一定会导致更好的分割结果。我们将噪声注入与提出的任意不确定性估计方法进行了比较。虽然我们的方法对图像质量本身的影响较小,但它更能表明下游任务的性能。我们的方法更容易合并,因为它不需要更改模型的体系结构或优化过程。未来的工作包括使用[13,22]等对抗性攻击技术来扩展该方法,研究它如何影响不同的最终任务。

你可能感兴趣的:(图像配准,图像处理)