主动学习研究(1):综述

概述:

主动学习模型从未标注样例集中根据设定的规则挑选高质量样例交由人工标注,低标注成本、高质量样例是优化主动学习算法的主要目标。简而言之,主动学习目的是优先选择最有价值的未标注样本进行人工标注,以尽可能少的标注样本达到模型的预期性能。
主动学习算法一般包含2个重要模块:学习模块选择模块
学习模块本质上就是训练分类器的过程,即通过学习逐渐提高分类器的分类精度与鲁棒性;
选择模块的终极目标是生成高质量的训练样例集,以提高样例集的代表性和广泛性。
学习模块和选择模块循环交替工作,当满足终止条件时循环终止。

主动学习流程图:

主动学习流程图,属于一个完整的迭代过程,模型可以表示为 A = (C, L, S, Q, U)。其中C表示分类器(1个或者多个)、L表示带标注的样本集、S表示能够标注样本的专家、Q表示当前所使用的查询策略、U表示未标注的样本集。流程图可解释为如下步骤(以分类任务为例):
(1)选取合适的分类器(网络模型)记为 current_model 、主动选择策略、数据划分为 train_sample(带标注的样本,用于训练模型)、validation_sample(带标注的样本,用于验证当前模型的性能)、active_sample(未标注的数据集,对应于ublabeled pool);
(2)初始化:随机初始化或者通过迁移学习(source domain)初始化;如果有target domain的标注样本,就通过这些标注样本对模型进行训练;
(3)使用当前模型 current_model 对 active_sample 中的样本进行逐一预测(预测不需要标签),得到每个样本的预测结果。此时可以选择 Uncertainty Strategy 衡量样本的标注价值,预测结果越接近0.5的样本表示当前模型对于该样本具有较高的不确定性,即样本需要进行标注的价值越高。
(4)专家对选择的样本进行标注,并将标注后的样本放至train_sapmle目录下。
(5)使用当前所有标注样本 train_sample对当前模型current_model 进行fine-tuning,更新 current_model;
(6)使用 current_model 对validation_sample进行验证,如果当前模型的性能得到目标或者已不能再继续标注新的样本(没有专家或者没有钱),则结束迭代过程。否则,循环执行步骤(3)-(6)。

主动学习算法涉及3个关键问题:

1)如何构建初始训练样例集

基于聚类或距离相似度度量的方法是选择代表性样例的常用方法。使基准分类器的分类面一开始就与真实分类面相差不远,避免了分类面长期停留在错误方位的情况发生。

2)采取何种样例选择策略

基于流(stream-based)和基于池(pool-based)的策略。
2.1)基于流的策略
依次从未标注样例池中取出一个样例输入到选择模块,若满足预设的选中条件则对其进行准确的人工标注,反之直接舍弃.该学习过程需要处理所有未标记样例,查询成本高昂。
2.2)基于池的策略
每次从系统维护的未标注的样例池中按预设的选择规则选取一个样例交给基准分类器进行识别,当基准分类器对其识别出现错误时进行人工标注。相较基于流的方法,基于池的方法每次都可选出当前样例池中对分类贡献度最高的样例,这既降低了查询样例成本,也降低了标注代价,基于池的样例选择标准主要包括:不确定性标准、版本空间缩减标准、泛化误差缩减标准等。
2.2.1)不确定标准
2.2.1.1)概率
挑选最低置信度: 在这里插入图片描述

margin sampling: 在这里插入图片描述

表示置信度最大两个类别的差距
信息熵:
在这里插入图片描述

2.2.1.2)距离
在这里插入图片描述

其中 ,|f(xi,w)| 是样例点到分类面距离距分类面越近的样例,分类器越不能确定其所属类别,样例的不确定性越高,该方法称为边缘抽样方法
在这里插入图片描述

基于多层次的不确定性样例选择方法(MCLU 算法),该方法也是基于边缘抽样最小化的方法,但同时考虑了样例到不同类间的距离差
2.2.2)版本空间缩减标准
委员会查询 (QBC,query-by-committee)是基于该标准的典型算法,该算法先用已标注样例对2个及以上不同类型的基准分类器进行预训练,将其组成“评审委员会”,然后用该委员会成员对待测样例进行判别,选出各个委员对待标注样例判别结果最不一致的样例进行人工标注。
QBC算法有三个关键问题:1)如何选择高质量的委员会成员构建高效的评审委员会。2)委员会的个数多少最佳。3)如何评价委员会判别结果的优劣:KL散度/投票熵/JS分歧度
2.2.3)泛化误差缩减标准
分类器的泛化误差是评价其鲁棒性的常用指标.最大程度地降低分类器的泛化误差,是基于该标准样例选择算法的最终目标。
在这里插入图片描述

,p(x)为概率密度函数。

3)设置何种终止条件

3.1)达标即可 :对于以指定分类精度为目标的应用,主动学习的训练过程只需使分类器达到预期的分类正确率即可,无需再补充样例继续训练。
3.2)高性价比:对于以追求高分类精度为目标的应用,若继续学习给分类器带来的性能提升与继续学习成本相比,已经可以忽略不计,则应停止迭代

参考:
《主动学习算法研究进展》
https://blog.csdn.net/Houchaoqun_XMU/article/details/80146710

你可能感兴趣的:(nlp,算法,机器学习,人工智能,深度学习)