眼底增强型疾病感知蒸馏模型 FDDM:fundus 指导 OCT 分类
- 核心思想
- 设计思路
- 训练和推理
- 效果
- 总结
- 子问题: 疾病特定特征的提取与蒸馏
- 子问题: 类间关系的理解与建模
论文:https://arxiv.org/pdf/2308.00291.pdf
代码:https://github.com/xmed-lab/FDDM
主要解决的是使用 OCT图像进行视网膜疾病分类 的问题。
OCT图像非常详细,但它们收集起来成本高昂。
为了解决这个问题,作者原本尝试用一种称为 多模态学习 的方法,即同时利用OCT图像和眼底照片。
问题在于,要找到同一个病人的这两种图像是相当困难的,这在现实中几乎是不可能的。
那么,研究者们是怎么解决这个问题的呢?
他们提出了一种叫做 眼底增强型疾病感知蒸馏模型(FDDM) 的新方法。
这个方法的聪明之处在于,它只用到了 未配对的眼底图像 来增强OCT图像的处理能力。
这就意味着,即使我们没有同一个病人的两种图像,我们也能提高诊断的准确性。
最关键的是,这个模型采用了两种特别的技术,叫做 类原型匹配 和 类相似性对齐。
就好像我们有一个专门学习眼底照片的“老师模型”,然后这个模型会把它学到的关于疾病的知识传递给专门学习OCT图像的“学生模型”。
这样,即使学生模型只看到OCT图像,它也能利用从眼底图像中学到的信息来做出更好的判断。
如果眼底图像模型学会了识别一种特定的视网膜病变,即使OCT图像呈现的角度或细节不同,OCT 模型也能用这个知识来更准确地识别出类似的病变。
总之,通过这种方式,我们能在 没有成对数据 的情况下,更有效地使用 OCT 图像进行视网膜疾病的分类。
单模态学习 (Single-modal Learning)
多模态学习 (Multi-modal Learning)
蒸馏增强方法 (Proposed Distillation Enhancement Method)
关键点是,使用蒸馏增强方法,附加的模态(即眼底照片)只在训练过程中使用,而在实际的推理或测试过程中则不需要。
这可以简化实际应用中的流程,因为在测试阶段不需要收集额外的眼底照片,降低了成本和复杂性。
我们现在有一堆复杂的视网膜图像,我们需要从这些图像中识别出各种不同的眼疾。
但这个任务有点像在一个嘈杂的房间里试图听到一个人的声音,因为每张图像都有可能带有它自己的“噪声”,也就是一些我们不需要的信息。
首先,我们有类原型匹配这个技巧:
然后是类相似性对齐:
最后,整个框架的目的是将这些知识结合起来:
所以,FDDM 就像是在给模型上了两门课程:
在训练阶段:
在推理阶段:
类原型匹配的目的是将眼底模型中关于疾病的特定特征提炼到OCT模型中。
它通过计算每个类别的特征均值来建立一个“原型”,这个原型代表了该类疾病的平均或典型特征。
类相似性对齐则是在推理阶段对OCT图像的类别关系进行调整,以使其与眼底图像的类别关系保持一致。
这通过比较类别均值的logits的余弦相似性矩阵来实现,促使OCT模型学习到不同疾病间的关系。
上图解展示了一个两阶段的过程,其中利用眼底图像来增强OCT图像分类的能力,而在实际应用时,只需要使用OCT图像。
这个过程利用了深度学习,包括特征提取、降维、非线性激活和分类器,同时注重在两种不同模态之间转移和蒸馏知识。
在实验中,研究者面对的问题是确定新方法——基于类原型匹配和类相似性对齐的方法——在性能上是否优于现有的单模态、多模态和知识蒸馏方法。
为了解决这个问题,他们采取了以下步骤:
性能比较:他们将新方法的性能与其他几种方法进行了比较。
这些方法包括仅使用OCT图像的单模态方法、同时使用OCT和眼底图像的多模态方法,以及使用知识蒸馏技术的方法。
评估指标:他们使用了准确性指标,如平均精度(MAP)和F1分数,来衡量每种方法的性能。
MAP是一种衡量模型对所有类别平均表现的指标,而F1分数则是精确度和召回率的调和平均,这两个都是多标签分类任务中常用的性能评估指标。
实验数据:他们使用了新收集的数据集TOPCON-MM,这个数据集包含了来自369只眼睛的成对的眼底和OCT图像,以及另一个公开可用的多模态数据集MMC-AMD。
解决方案的目的是展示新方法在视网膜疾病多标签分类任务上的优越性。
通过与现有方法的直接比较,研究者可以展示出以下几点:
上图表展示了不同模型在视网膜疾病分类任务上的性能比较,具体是通过平均精度(MAP)指标来衡量的。
在图(a)中,我们看到了几种不同模型在 MMC-AMD 数据集上的MAP得分:
可以看到,“Ours”(即作者们提出的模型)在MAP得分上优于其他所有模型,达到了92.29%。
在图(b)中,我们看到了模型从其他眼底数据集转移到TOPCON-MM数据集时的MAP得分:
在两种不同的转移设置中:
在这两种情况下,"Ours"模型的性能都优于仅使用OCT图像的卷积神经网络模型,分别提高了4.26%和2.21%。
这些图表证实了提出的FDDM模型在处理多模态视网膜图像分类任务时,无论是在单一数据集上还是从其他数据集转移学习时,都能取得比现有技术更好的性能。
FDDM 的逻辑关系可以拆解成两个主要的子问题。
假设我们的OCT模型正在尝试学习识别黄斑变性,这是一种常见的视网膜疾病。
每个患有黄斑变性的患者的OCT图像可能会因为机器的差异、扫描的角度、病情的严重程度等因素而有所不同,因此,这些图像可能包含很多个体特异性的噪声。
类原型匹配(CPM)就像是在找到所有黄斑变性图像的“共同语言”。
它把所有黄斑变性的图像特征取平均,创建一个典型的黄斑变性特征向量,这个向量捕获了与这个疾病相关的关键特征,而忽略了每个单独图像中的个别差异。
因此,OCT模型通过学习这个“共同语言”,即类原型,就能更准确地识别出黄斑变性,而不会被单个图像中的噪声所干扰。
FDDM = 类原型匹配 + 类相似性对齐
在很多情况下,眼睛疾病并不是孤立发生的,比如,糖尿病视网膜病变(DR)和黄斑水肿(DME)经常一起出现。
类相似性对齐(CSA)的目标是帮助OCT模型捕捉到这些疾病间的联系。
例如,如果模型在训练时发现当DR出现时,DME的几率也增加,那么在实际应用中,当模型在一个图像中检测到DR的特征时,它会考虑到DME的可能性,即使DME的特征不是非常明显。
这种对类间关系的理解,提高了模型在真实世界复杂病例中的准确性和可靠性。
归纳:这两个子解法共同构成了FDDM的核心,它们使得该模型能够在未配对的数据上进行训练,并且在测试时不需要眼底图像,大大提高了模型的实用性和效率。
通过这种方式,FDDM能够在复杂的临床场景中提供更精确的疾病分类性能。
应用场景:提高OCT图像的疾病分类性能