主动学习 active learning-1

1. 主动学习也叫做询问学习或最佳实验设计,它是机器学的分支,更人工智能。主要的假设是是否学习算法是可以去选择先要学习的数据。主动学习系统试图跨越标签瓶颈,没有标签的例子去被人类注释者来标签。主动学习目的是提高准确率,通过尽量少的标签,因此减少获得标签数据的费用。
2. pool-based 过程:学习者先从少量训练集里标签的例子开始,从精心挑选的例子里获得标签进行学习,然后扩展新知识去选择下个询问例子。一旦一个询问已经完成,通常没有另外的假设在这个部分的学习算法。新标签的例子只是被加到已标签的数据集里,学习者就是从这开始标准的监督方式。但也有例外,或主动学习与半监督学习相结合。

3. 例子:20个新闻组(文档分类)包括2000个usenet 文档平均分成2类

学习者必须区分棒球和曲棍球文档从20个新闻组里。主动学习算法经常呗学习曲线评估,它画出准确率的评估标准作为被标签新的例子询问加到原来的数据集中。这篇报告的结果是逻辑回归模型10 folders使用交叉验证平均后的结果。在标签30个新例子之后,不确定样本(uncertainty sampling)的准确率诗81%,然而随机只有73%。

4. 情况

1) membership query synthesis

2) stream-based selective sampling

3) pool-based sampling 

5. 方法:uncertainty sampling

这个框架下,一个主动学习者询问例子关于哪个是最不确定的和怎么去标签。这个方法经常是为了概率学习模型。如何数据有多与三个类标签,一个更平常的不确定样本的变量可能询问那些概率是最低的例子。最常见得不确定样本策略是使用




你可能感兴趣的:(机器学习)