active learning主动学习

active learning 是半监督式的机器学习的一种,这种机器学习算法能够交互式地查询用户或者信息源,从而对于一个新的数据样例得到可人的输出。在统计学文献中,它有时也被称为最佳实验设计。

在这样的一种情形下:无标签的数据量很大,而且手工打标签很昂贵。在这样的一种局面下,学习算法就可以主动向用户或者教员查询标签。这种迭代监督学习被称为主动学习。 由于学习者选择了这些例子,因此学习概念的例子数量往往比普通监督学习所需的例数少得多。 采用这种方法,算法会被无用的例子淹没。 最近的发展致力于多标签主动学习,混合主动学习和单通道(在线)情境下的主动学习,结合机器学习领域的概念(如冲突 和无知)与在线机器学习领域的适应性增量学习策略。

1、定义

设T是考虑中的所有数据的总集合。 例如,在蛋白质工程问题中,T将包括已知具有特定有趣活性的所有蛋白质以及人们可能想要测试该活性的所有其他蛋白质。
在每次迭代中,T,T被分解为三个子集
标签已知的数据点。
标签未知的数据点。
TU的一个子集,我选择标记。
目前大部分主动学习研究都涉及到为选择数据点的最佳方法。

2、查询策略

用于确定哪些数据点应该被标记的算法可以被组织成许多不同的类别【1】:

  • 不确定性采样:标记当前样例,从而使得当前模型一定程度上和正确的输出是保持一致的。
  • 委员会投票选择算法:使用当前的有标签数据集在几个模型中进行训练,然后对无标签数据的输出进行投票,标定那些委员会们最不同意的样本。
  • 预期模型更改:标定那些最可能改变当前模型的样本。
  • 预期错误减少:标定那些最可能降低模型的泛化误差。
  • 减小方差:标定那些可能减小输出方差的样本,方差是影响错误的指标之一。
  • 平衡探索与利用:在数据空间中,标定样本是探索和利用两者之间两难选择。该策略通过将主动学习问题建模为上下文匪徒问题来管理这种折衷。例如,Bouneffouf等人[8]提出了一种名为主动汤姆森采样(ATS)的序列算法,该算法在每一轮中对池分配一个采样分布,从该分布中采样一个点,并向oracle查询该采样点标签。
  • 主动学习的指数梯度探索:【9】在本文中,作者提出了一种顺序算法 - 指数梯度(EG)-active,可以通过最优随机探索来改进任何主动学习算法。
  • 从不同子空间或分区查询:当底层模型是树林时,叶节点可能代表原始特征空间的(重叠)分区。这提供了从非重叠或最小重叠分区中选择实例进行标记的可能性。

已经研究了各种各样的算法,这些算法属于这些类别。[1] [4]

3、最小边界超平面

一些主动学习算法主要是建立在支持向量机的基础之上的,都是利用支持向量机的结构来决定给数据打标签。这样的算法通常都计算每一个无标签数据集的margin,W,也都视这个margin平面从数据集到分离超平面之间的n维距离。最小化边界超平面方法认为最小W的数据就是SVM最不确定的数据,因此应该放置在Tci中以标记。如最大边际超平面,其他W最大的数据。权衡方法同城会选择最小和最大的W之间的混合。

4、相关会议

  • 2016 "Workshop Active Learning: Applications, Foundations and Emerging Trends" at iKNOW, Graz, Austria[11]
  • 2018 "Interactive Adaptive Learning" Workshop at ECML PKDD, Dublin, Ireland[12]

参考文献:

【0】https://en.wikipedia.org/wiki/Active_learning_(machine_learning)

active learning主动学习_第1张图片


你可能感兴趣的:(机器学习)