【Active Learning - 01】 2013_CVPR_Adaptive Active Learning for Image Classification 论文笔记

主动学习阅读资料:

【Active Learning - 00】 主动学习概念/重要论文目录/重要代码&资源

【Active Learning - 01】 2013_CVPR_Adaptive Active Learning for Image Classification 论文笔记

---------------------------------------------------------------------------------------------------------------------------------

论文地址:2013_CVPR_Adaptive Active Learning for Image Classification

Introduction:

目的:提出一种有效的主动学习方法,尽可能对更少的样本进行标记,提高分类器的效果。

We aim to develop an effective active learning method to build a competitive classifier with a limited amount of labeled training instances.

目前使用Uncertainty指标进行选择在许多场景下都非常有效,但这个仅仅利用了候选样本在当前分类模型下(使用labeled样本训练出来)的关系信息(例如根据不确定性大小排序),没有考虑未标注样本的数据分布信息。导致一些outlier(离群点)会被选择出来,他们的不确定性非常高,但是实际上提升分类器效果没有什么帮助。

These works however merely evaluate the informativeness of instances with most uncertainty measures, which assume an instance with higher classification uncertainty is more critical to label. Although the most uncertainty measures are effective on selecting informative instances in many scenarios, they only capture the relationship of the candidate instance with the current classification model and fail to take the data distribution information contained in the unlabeled data into account. This may lead to selecting non-useful instances to label. For example, an outlier can be most uncertain to classify, but useless to label. This suggests representativeness of the candidate instance in addition to the classification uncertainty should be considered in developing an active learning strategy.

本文提出了一种主动学习的方法,同时利用标注与未标注样本信息进行查询选择。测量指标包括两个内容:(1)不确定性,候选样本在当前使用labeled样本训练好的分类器上的表现;(2)密度信息,候选样本和整个未标准样本集的相互关系(指分布情况)。这两部分在文中使用权重参数进行平衡,最小化未标注样本在分类器上的误差。

we propose a novel adaptive active learning strategy that exploits information provided by both the labeled instances and the unlabeled instances for query selection. Our new query selection measure is an adaptive combination of two terms: an uncertainty term based on the current classifier trained on the labeled instances; and an information density term that measures the mutual information between the candidate instance and the remaining unlabeled instances.

Related Work: 

这个部分主要是介绍的传统的选择方法,在【Active Learning - 00】 主动学习概念/重要论文目录/重要代码&资源中基本上有提到,可自行阅读,这里不细说。

总结就是,这些选择方法都忽视了未标注样本集的数据分布信息。在本研究中,作者解决了不确定性指标的内在限制

Therefore these methods have the drawback of ignoring the distributional information contained in the large number of unlabeled instances, as we discussed above. In this paper, we develop a new active learning method for image classification tasks, which overcomes the inherent limitation of uncertainty sampling.

 Method:

内容主要包括:(1)不确定性指标;(2)信息密度的衡量;(3)自适应组合框架结合不同选择策略。

(1)Uncertainty Measure:

即使用probability求算熵,选择熵大的样本x:

(2)Information Density Measure:

目的就是在于解决uncertainty sampling的缺点,于是在进行查询时考虑未标注样本集。这个做法的动机是:使用代表性的样本构成输入,对于提高目标分类器的泛化性能非常informative。虽然输入分布没有给出,但是大量的未标注样本可以近似表达输入空间。以往的semi-supervised学习证实,未标注样本的分布对于训练分类器非常有帮助。

根据直觉,应当选择那些位于密集区域的样本(an instance will be much more informative about other unlabeled instances)而不是那些位于稀疏区域的(the ones located in a sparse region)。我们使用information density来表示某个候选样本对剩下的未标注样本的信息量。本文使用Gaussian Process framework来定义信息密度(即候选样本和剩下未标注样本集的相互信息mutual information)。

mutual information用于衡量两个变量间的相互独立性,比marginal density p(x)更加直观,也比cosine distance information density更加合理。mutual information可以定义为:

第一项是候选样本xi的熵,后一项是xi对于未标注数据集在除去xi样本后的熵。

这个熵H( )如何计算呢?文章使用的一个高斯过程,其相当于表示在一组(可能无穷大)随机变量的联合分布。因此文中对于每一个候选样本x引入了一个随机变量X(x),因此使用一个对称正定核函数 K(·, ·) 去生成一个协方差矩阵,因此σi2 = K(xi, xi):

【Active Learning - 01】 2013_CVPR_Adaptive Active Learning for Image Classification 论文笔记_第1张图片【Active Learning - 01】 2013_CVPR_Adaptive Active Learning for Image Classification 论文笔记_第2张图片

 

最终计算公式如(6-7-8)所示。

(3)A Combination Framework:

这一部分是对(1)的(2)指标进行组合,满足“对于当前分类器是最不确定的”,又要满足“相对剩下的未标注样本是非常富有信息量的”的样本将会被进行选择。这样的话,将这些候选样本加入labeled set能够使的分类器在未标注样本集上获得更高的准确率。因此这个组合指标可以写作:

【Active Learning - 01】 2013_CVPR_Adaptive Active Learning for Image Classification 论文笔记_第3张图片

尽管uncertatinty term f(x)是判别性指标,而信息密度指标d(xi)1-β是根据输入空间进行计算,并且跟目标判别分类器模型没有直接的联系。但也能够去选择那些具有信息量的样本,同时减少泛化误差而且不增加额外计算代价。

(4)Adaptive Combination

β<0.5,density比uncertainty更重要;β>0.5,uncertainty比density更重要;β=1时,相当于只使用uncertainty。实际上在训练时很难判断什么时候,对于什么样本来说哪一个指标更重要,需要动态评估并且在每一次迭代中修改β的值。

因此如何确定这个β值的呢?作者每一次从实现定义好的B集中选择一个数作为β值,应用到所有样本,再选出在这个值设定下获得一个最优样本,共计b个(b等于B中设置β值得个数),再从这b个样本中进行选择。例如B=[0.1,0.2...1],可以选择b=10个样本,对应每一个不同的β值。此时,选择最优的β值相当于从这b个样本中选择最有信息量的样本了(这b个样本都有各自对应的β值)。——此处相当于是要做两次筛选,最终选择最优样本的公式可以表示为:

【Active Learning - 01】 2013_CVPR_Adaptive Active Learning for Image Classification 论文笔记_第4张图片

完整算法表如下:

【Active Learning - 01】 2013_CVPR_Adaptive Active Learning for Image Classification 论文笔记_第5张图片

Experimental Results:

数据库:

 1.场景分类数据集(总共 3859 张图像)

2.目标识别: (1)Caltech-101 (2)Pascal VOC 2007

实验对比:

(1) Random Sampling

(2) Most Uncertainty

(3) Near Optimal

(4) Fixed Combination: 使用cosine distance衡量information density,使用固定参数β = {0.25, 0.5, 0.75, 1}

(5) Proposed Apporach 

Conclusion:

自适应组合式的主动选择策略

(1)Uncertainty measure

(2)information density

 

自我总结:这篇文章的contributions主要是两个点,一个是加入了information density引入了未标注样本集的分布信息;另一个是用了自适应的β求算公式,再每一次迭代中都可以获得最优的查询样本。

 

 

 

 

 

你可能感兴趣的:(Active,Learning,deep-learning,论文笔记)