Co-training&主动学习

Co-training是目前很流行的一种半指导机器学习的方法,它的基本思想是:构造两个不同的分类器,利用小规模的标注语料,对大规模的未标注语料进行标注的方法.Co-training方法最大的优点是不用人工干涉,能够从未标注的语料中自动学习到知识。Co-training方法,是有指导和无指导机器学习两者的一个折中办法,它的原则是:在不牺牲性能的前提下,尽量多的使用未带标数据,它从一个小规模的带标的语料库开始,同时使用大规模的未带标语料来进行学习。Co-training算法应用于属性存在天然可分割性的数据集,即数据集的某些属性能够在某种角度上描绘数据的某种特征,而这些属性不是唯一的,有许多不同的属性能够将同样的特征从不同的角度描绘出来,这样的数据属性集就具有天然可分割性,忽视了数据集特性的可分割性.Co-training算法则利用两个不同学习器在数据集的/分割的特性集上独立学习,并结合两个学习器的学习结果作出最后学习结论,这样来达到降低错误率的目的.

机器学习领域中的主动学习(Activelearning)的思想可以用来借鉴到未标注样本的学习当中,主动学习的核心思路就是在机器学习中考虑到不同样本其实对最后分类器的作用其实是不一样的,我们称这种作用为样本的信息量,样本含有的样本量越大,对分类界面的确定越重要,所谓的样本信息量是相对于分类器的不确定性,设有样本集S,在训练数据上训练得到概念类别集合C,即C中的每一个概念类别(conceptclass)都能正确的判定训练数据,

你可能感兴趣的:(机器学习/模式识别)