在主动学习中,为什么分类分歧度最高的样本就是最具训练价值的样本 ?

今天翻到一篇未公开发表的论文笔记,里面暗含了一些 ideainsight,感觉写得还可以,不该在犄角旮里里吃灰被埋没,就晒出来吧.

在主动学习中,为什么分类分歧度最高的样本就是最具训练价值的样本 ?_第1张图片

我们看一下主动学习在医学图像分割中的应用。这是一篇讨论病理图像分割的论文,声称只用了一半的训练样本就达到了模型的最佳分割性能。


在主动学习中,为什么分类分歧度最高的样本就是最具训练价值的样本 ?_第2张图片

我摘录了它的基本思想,大致意思是: 在训练集中进行有放回抽取,产生 N 组 自举数据, 训练得到 NFCN 模型。 对一个未标注样本,运行所有模型得到不同分割结果,计算分割结果的 分歧度(方差)。分歧度最高的样本就是最具训练价值的样本.

问题来了:为什么这种分歧度(方差)可以作为样本训练价值评价指标呢?或者说,这种方法为什么会work呢?

我们上过统计学习课程的同学对这个图肯定不陌生: 多项式线性回归模型 (出自 《PRML》p150)。我们发现用 15 阶多项式拟合散点时,得到的 100 个模型方差非常大。这张图只画了 50 个模型。我做实验时,把 100 个模型全画出来了,然后发现了 不得了 的东西 (看以前写的东西,常常被自己逗到)。

在主动学习中,为什么分类分歧度最高的样本就是最具训练价值的样本 ?_第3张图片
《PRML》p150
在主动学习中,为什么分类分歧度最高的样本就是最具训练价值的样本 ?_第4张图片
我的实验

我发现,模型方差在输入空间上是不均匀的。模型在一些点上方差非常大,在另一些点上方差就非常小 (图中标识的两个位置,起伏剧烈程度明显不一样)。如果我们标注了方差大的点,再次进行线性拟合,模型的过拟合程度是否就下降了呢 ?这是第一点。

第二点就是根据这幅图,我在这里试图给出对 Active learning 本质的一个猜想: active learning 本质上是一个模型不断降低过拟合程度的过程最具标注价值的样本是能最大限度降低模型过拟合程度的样本


作 者: 月牙眼的楼下小黑
联 系: zhanglf_tmac (Wechat)
声 明: 欢迎转载本文中的图片或文字,请说明出处


在主动学习中,为什么分类分歧度最高的样本就是最具训练价值的样本 ?_第5张图片

你可能感兴趣的:(在主动学习中,为什么分类分歧度最高的样本就是最具训练价值的样本 ?)