Multiple Instance Learning(多实例学习)

0.问题引入

首先考虑这样一个实际场景:在医学影像领域中的癌症监测任务中,病理切片的分辨率高大200000 x 100000。很明显,这样的巨大的图片数据很难一次性在内存中进行 分类。所以我们我们需要将一张完整的病理切片进行裁剪分别进行图像分类。但是这样又会造成一个问题,我们只知道 这张完整的 病例切片 是否包含 癌症,但是我们并不知道 癌症信息 被 裁剪到了哪个图片中,从而无法用全监督的方法进行学习。 这样一个问题,其实就是 Multiple Instance Learning 所要解决的问题。

1.什么是多实例学习

多示例学习的概念:假设训练数据集中的每个数据是一个包(Bag),每个包都是一个示例(instance)的集合,每个包都有一个训练标记,而包中的示例是没有标记的;如果包中至少存在一个正标记的示例,则包被赋予正标记;而对于一个有负标记的包,其中所有的示例均为负标记。(这里说包中的示例没有标记,而后面又说包中至少存在一个正标记的示例时包为正标记包,是相对训练而言的,也就是说训练的时候是没有给示例标记的,只是给了包的标记,但是示例的标记是确实存在的,存在正负示例来判断正负类别)。
Multiple Instance Learning(多实例学习)_第1张图片

2. 多实例学习算法

多实例学习模型的基本流程:

  1. 将实例转换为低维嵌入(特征提取)
  2. 通过置换不变聚合函数传递嵌入
  3. 转化为包概率
    Multiple Instance Learning(多实例学习)_第2张图片

Code: MIL在MNIST 数据集上的应用

3.讨论

更多的应用场景:

  1. 视频分类:判断包含10000帧的视频中是否包含气球

  2. 文本分类:判断一篇文章中是否包含’气球‘的句子

  3. 网页推荐:用户对某网页很感兴趣,但是不知道具体哪部分吸引用户,可以抽象为MIL。


参考文献:

https://wenku.baidu.com/view/a66fab43f12d2af90242e6da.html (多实例学习(周志华) 强推 !)

https://zhuanlan.zhihu.com/p/386282264

https://zhuanlan.zhihu.com/p/40812750

https://blog.csdn.net/tkingreturn/article/details/39959931

你可能感兴趣的:(机器学习,人工智能,图像处理)