《论文阅读》FocalMix: Semi-Supervised Learning for 3D Medical Image Detection

留个笔记自用

FocalMix: Semi-Supervised Learning for 3D Medical Image Detection

做什么

《论文阅读》FocalMix: Semi-Supervised Learning for 3D Medical Image Detection_第1张图片
3D医学图像分割,也是传统应用了,就是把图像分成若干个特定的、具有独特性质的区域并提出感兴趣目标的技术和过程,图中的一个个橙色和蓝色的框称为锚框,常用不同大小的锚框来进行对目标位置的检测(即每个锚框代表是正样本还是负样本)

做了什么

目标检测中常见的预测情况下正样本的锚框相比负样本的锚框数量较少,所以常使用focal loss
《论文阅读》FocalMix: Semi-Supervised Learning for 3D Medical Image Detection_第2张图片
这里的y是GT(即某个锚框属于正样本或者负样本),p是模型预测它属于正样本的概率,αt是对于两类即正类负类不同的权重值
接下来需要了解的还有半监督学习SSL,这里借鉴了一个叫mixmatch的模型
简单来说这个模型包括了两个部分:对未标签数据的预测和混合增强,首先是第一部分,首先是未标签数据的预测,对于每张未标签图,先进行不会更改语义的数据增强
《论文阅读》FocalMix: Semi-Supervised Learning for 3D Medical Image Detection_第3张图片
然后再对其进行模型的预测,取K个增强后的图片的预测概率平均值
在这里插入图片描述
在这里插入图片描述
然后对其进行sharpen锐化操作,这里的T是控制输出向量的平滑度的一个超参数,比如当T=0时,输出向量为one hot向量,简单来说这里的操作就是为了让输出接近low-entropy形式,一旦未标记数据的训练目标可用,MixMatch将进一步利用混合增强
《论文阅读》FocalMix: Semi-Supervised Learning for 3D Medical Image Detection_第4张图片
这里的x是随机抽取的一张标签图片或者未标签图片,y是它的标签或者它模型预测的概率,x‘和y’同理但是是另外一个数据点,这里的Beta是Beta样条插值,经过这个操作后就可以得到一组从标签数据和未标签数据中增广得到的一组训练数据。

怎么做

《论文阅读》FocalMix: Semi-Supervised Learning for 3D Medical Image Detection_第5张图片
整个结构与MixMatch一样也分为两个大部分,对未标签数据的预测和混合增强部分
首先是对未标签数据的预测即target prediction部分
《论文阅读》FocalMix: Semi-Supervised Learning for 3D Medical Image Detection_第6张图片
首先是第一部分,大概思路和MixMatch很类似,首先这是对未标签的数据进行的增强预测,这部分首先将未标签图片sample出一个patch大小(原文是160×160×160),然后对其进行翻转等数据增强,经过FPN进行预测出各自增强情况下的结果,FPN在以前文章中提到过
NAS-FCOS
然后就是将不同的数据增强后的结果进行相加取平均(对同一个位置的锚框),最后再用上面同样的方式进行锐化
《论文阅读》FocalMix: Semi-Supervised Learning for 3D Medical Image Detection_第7张图片
然后是第二部分混合增强部分,这部分存在的输入有标签数据和它的锚框标签,未标签数据和它数据增强后的平均预测结果,即x和y。这部分也分为了两个小部分,image-level和object-level
《论文阅读》FocalMix: Semi-Supervised Learning for 3D Medical Image Detection_第8张图片
首先是image-level部分,这部分的输入是上面介绍的(x,y)和(x’,y’),而它们的混合方式采用的是锚框级别的,就是对各自图片上的锚框进行混合,而混合方式也和上面相同
《论文阅读》FocalMix: Semi-Supervised Learning for 3D Medical Image Detection_第9张图片
《论文阅读》FocalMix: Semi-Supervised Learning for 3D Medical Image Detection_第10张图片
然后是最后一部分object-level,这部分的意思大概是说因为对这种医学图像分割来说,往往重要部分即锚框标注的可能病变部分相比于整个背景来说比较小,而且包含的信息要更加重要,所以为了增强这部分的大小或者说是信息,对于每张图的每个对象都从训练集中抽取另外一张图,将两者对象混合增强
然后是整个训练的loss,这里提出的loss叫soft-target focal loss
在这里插入图片描述
将focal loss 引入比较
《论文阅读》FocalMix: Semi-Supervised Learning for 3D Medical Image Detection_第11张图片
这里的α0和α1都是参数,类似于上面的αt,y是label,p是预测值,这里的CE就是普通的cross-entropy
在这里插入图片描述

总结

1.SSL方法似乎很强大的样子,主要感觉就是学习MixMatch的设计方式了

你可能感兴趣的:(深度学习,计算机视觉,深度学习,人工智能)