关于对比学习在医学图像理解中两篇Paper的思考

Contrastive Learning of Medical Visual Representations From Paired Images And Text

成对图像和文本中医学视觉表征的对比学习

论文地址:https://arxiv.org/abs/2010.00747

1. 创新点: 只需要10% ImageNet的labeled data就能达到同样的或者更好的效果
2. 模型解释: 提出了ConVIRT模型——一个通过利用图像和文本数据的自然配对来学习visual representation的框架
a) 输入成对的ImageReport
b) 以图像为例,通过采样变换函数从图像中产生一个随机视图,将生成的随机视图利用编码器(CNN等)进行编码,编码为固定维向量,再经过一个非线性投影函数就转换为v
c) 文字部分原理同图像
d) 定义了两种损失函数:image-to-texttext-to-image
e) 最后的训练损失函数就是λ(image-to-text)+(1-λ)text-to-image加权组合

Weakly Supervised Contrastive Learning for Chest X-Ray Report Generation

论文地址:https://arxiv.org/abs/2109.12242
1. 现有工作的缺陷:Teacher forceing交叉熵模型来训练编码器-解码器模型的方法会导致生成的文本中输出频率高的标记或句子——理解:用上述两种方法会导致生成的文本中出现大量的正常情况,比方说大量的文本描述了胸片中正常的情况,而这恰恰不是我们所需要关注的,更多的,我们需要注意的是胸片中的异常情况
2. 创新点:引入弱监督对比损失,给语义接近目标的报告分配更多的权重,在训练期间给这些接近目标的报告分配更多的权重,即关注更多;弱监督的“弱”体现在用的标签是聚类后产生的标签,并不是每一个数据对应的标签,是一类数据的标签
3. 模型解释:整个模型分为三个部分
a) Generating Reports with Transformer:
利用memory-driven作为整体架构。对于给定的图像,利用预训练的CNN提取视觉特征,再经过编码器来获得隐藏的视觉特征。这部分产生的loss记为LCE
b) Labeling Reports with Finetuned BERT:
引入了ChexBERT模型,通过预训练学习生物医学报告内容,使用BERT[CLS]embedding来表示report 层级的特征。对于这些特征,利用K-means聚类,每一类分配一个标签,同一类下的特征接近,内容意思相近
c) Weakly supervised Contrastive Learning:
weakly supervised contrastive loss(WCL) 的提出——首先将图像和文本二者的隐藏表示(来自encoder)投影到一个空间内,在对于投影后的数据进行对比学习,聚类的标签对α作用
在这里插入图片描述

d) 最后对 LCELWCL 进行混合优化,即加权求和

4. 模型理解:输入为成对的Imagetext,同样经过encode获得隐藏的特征,之后分为两部分,一部分经过decode,产生LCE。另一部分经过对比学习,产生LWCL。值得注意的是WCL中把更多的权重赋予了那些异常情况,即更加关注特征中的异常情况,这些权重通过聚类标签来决定,倘若是同一类的话,则相似性较高,在前面加上系数α来调整,不同一类则不加系数,通过这样的调整可以理解为降低了了类间的相似度,更好的关注异常情况

这两篇论文模型的异同

相同点:

1. 同样有两个branch,针对这两个branch产生的loss进行加权求和
2. 输入同样是成对的Image和Text,同样的运用CNN从图像中提取视觉特征,再通过编码器获取隐藏的视觉表示

不同点:

1. 论文1感觉仅仅只是Image Caption问题,仅仅把对比学习引入到医学图像理解生成这个Topic下,有点生搬硬套的感觉。然而在医学图像理解这一问题中,我们的关注点应该在那种细粒点上,即异常情况。论文1通过训练降低Image-to-texttext-to-image这两部分损失的加权和;比起论文1,论文2在论文1的基础上引入了一个参数α更多的去关注异常情况,从而避免了对胸片中的正常部分产生更多的描述
2. 论文1最终损失的加权和是image-to-texttext-to-image;然而论文2最终的加权和是两种方式的加权和,一种是经过对比学习的LWCL,另一种是经过解码器做的交叉熵损失函数LCE。
3. 论文2的对比学习这一branch似乎包含了论文1整篇论文的思想,但是还是略有不同。论文2针对输入的图像文本对,先是提取了视觉和文本特征,这一点和论文1不谋而合,然后论文1编码的是用采样变换函数从图像中获得的随机视图来获得的,论文2编码是针对的整个Image而言的;随后论文1是把encode后的隐藏特征映射为固定维度的向量,而论文2对隐藏特征进行平均池化,再经过两个全连接层之后再做对比学习——论文2比论文1多一个平均池化的过程

理解不到位之处还望多多指出~~~

你可能感兴趣的:(医学图像理解,深度学习,图像处理,机器学习,计算机视觉,聚类)