半监督学习之co-training到Tri-training

半监督学习提出的原因:

      传统的机器学习技术分为两类,一类是无监督学习,一类是监督学习无监督学习只利用未标记的样本集,而监督学习则只利用标记的样本集进行学习
      但在很多实际问题中,只有少量的带有标记的数据,因为对数据进行标记的代价有时很高。这是由于:
 1.  标记样本难以获取需要专门的人员,特别的设备,额外的开销等等。
 2.  标记的样本相对而言是很廉价的。
 图1出自周老师的西瓜书。左边的待标记样本处于一个正样本和一个负样本中间,此时无法判定其类别,但如果有一堆未标记样本时,可看出,待标记样本是正样本的可能性更大。“相似的样本拥有相似的输出” 
  半监督学习之co-training到Tri-training_第1张图片

图1

半监督学习的方法:

      生成式方法(假设的生成式模型必须与真实数据分布吻合);SVM(S3VM试 图找到能将两类有标记样本分开,且穿过数据低密度区域的划分超平面);图半监督学习(一个图对应了一个矩阵能基于矩阵运算来进行半监督学习算法的推导与分析);基于分歧的方法(co-training,tri-training)等。

co-training 协同训练法的学习过程(最开始用于多视图):

      1. 首先分别在每个视图上利用有标记样本训练一个分类器;

      2. 然后,每个分类器从未标记样本中挑选若干标记置信度(即对样本赋予正确标记的置信度)高的样本进行标记,并把这些“伪标记”样本(即其标记是由学习器给出的)加入另一个分类器的训练集中,以便对方利用这些新增的有标记样本进行更新。

这个“互相学习、共同进步”的过程不断迭代进行下去,直到两个分类器都不再发生变化,或达到预先设定的学习轮数为止。

分类器间的分歧程度是协同训练法泛化错误率的上界。

      协同训练法要求数据具有两个充分冗余且满足条件独立性视图充分是指每个视图都包含足够产生最优学习器的信息,此时对其中任一视图来说,另一个视图则是冗余的同时,类别标记来说这两个视图条件独立。然而现实生活中:

未必是充分视图(不少应用任务中的数据具有多视图,但未必是充分视图
②大多数现实任务只拥有一个属性集(大多数现实任务只拥有一个属性集,单视图数据,基于多视图的方法难以使用。

③非独立(事实上,视图的条件独立性是一个过强的假设Zhou等显示,该假设成立,甚至只需单个有标记样本就可有效地进行半监督学习;因为两个条件独立的充分属性集包含了足以导出一个距离度量可信子空间的信息在该子空间中直接基于样本与有标记正例的距离计算就可完成分类
      

      为了进一步放松条件独立性假设,Balcan等定义阿尔法- 膨胀性(Expansion)一定程度上为实际任务中视图条件独立性假设、甚至弱依赖性假设都不成立时,基于分歧的多视图半监督学习方法仍可能奏效的原因提供解释。  他们对学习器的能力进行了约束,要求每个视图上的分类器均能可信正确地标记正样本;这为实际任务中使用强基学习器的惯例提供了理论依据

可否将单视图“划分为多视图,然后直接使用协同训练法等多视图方法

      NigamGhani工作他们通过实验研究发现,在属性集非常大、包含大量冗余属性时(例如在文本数据上,如果将每个字作为一个属性,则属性集非常大,其中有大量的冗余属性可起到相似的描述作用),随机地把属性集划分为多视图,协同训练法已可取得很好的效果;然而,在其他数据上,视图划分的尝试都失败了。

      在拥有足够的有标记样本,可能找出合适的视图划分(若单视图中确实包含充分冗余多视图信息),然而,半监督学习之所以有益,正是因为有标记样本不足,因此这一结果对单视图划分为多视图的前景给出了悲观的结论

      Goldman Zhou提出了一种可用于单视图数据的协同训练法变体,通过使用两种不同的决策树算法在相同属性集上生成两个不同的分类器,然后按协同训练法的方式来进行分类器增强。

      由于该方法不基于多视图,因此协同训练法原有的理论支撑均不适用,造成的巨大障碍是在选择未标记样本时难以估计标记置信度,以及在进行最终预测时,两个分类器预测结果不同,难以确定该取信哪一个分类器克服障碍,该方法强制必须使用决策树算法,因为决策树可把样本空间划分为若干个等价类(每个叶结点对应了一个等价类),而这些等价类的置信度可通过10交叉验证法进行估计,这样,由于预测时样本必然会落到某个叶结点上,等价类的估计置信度就可用来代替标记置信度.该方法对基分类器的约束限制了其适用范围,反复的10折交叉验证会导致很大的计算开销;此外,由于该方法严重依赖10折交叉验证法估计标记置信度,使得其只适用于有标记样本很多的情况。

Tri-training——视图学习

      1. 首先对有标记示例集进行可重复取样(bootstrapsampling)以获得三个有标记训练集,然后从每个训练集产生一个分类器。然后利用这三个分类器以“少数服从多数”的形式来产生伪标记样本, 例如, 若两个分类器将某个未标记样本预测为正类, 而第三个分类器预测为反类, 则该样本被作为伪标记正样本提供给第三个分类器进行学习。具体来说,如果两个分类器对同一个未标记示例的预测相同,则该示例就被认为具有较高的标记置信度,并在标记后被加入第三个分类器的有标记训练集。
      2. 然而, 某些情形下, 多数分类器的预测结果可能是错误的, 此时, 从少数分类器的角度看, 它收到的是有“标记噪音”的样本,三体训练法基于Angluin和Laird关于标记噪声学习的理论结果, 导出了“少数服从多数”所需满足的条件, 在学习中的每一轮,只需判断该条件是否成立, 即可决定是否基于伪标记样本进行分类器更新; 直观上来说, 该结果表明引入的噪音所带来的负面影响可以被使用大量未标记示例所带来的好处抵消,在一定条件下积累的标记噪声可利用大量未标记数据进行补偿。
      3. 最终训练完成后, 三个分类器通过投票机制作为一个分类器集成进行使用。
      4. 最初的三个分类器必须强于弱学习器, 并且具有较大的分歧(即差异);

      可以容易地推广到三视图数据上由于三体训练法不需多视图、不对基学习器有特定要求,算法实现简单、便于应用,因此和协同训练法成为基于分歧的半监督学习方法中最常用的技术,有时也被并称为Co-tri-training不要求充分冗余视图、也不要求使用不同类型分类器

      三体训练法同时利用了半监督学习和集成学习机制,从而获得了学习性能的进一步提升。


参考文献:
1.周志华.机器学习, 北京: 清华大学出版社, 2016年1月.
2.周志华. 基于分歧的半监督学习[J]. 自动化学报, 2013, 39(11):1871-1878.
3.http://www.cnblogs.com/liqizhou/archive/2012/05/11/2496162.html



你可能感兴趣的:(半监督学习)