半监督学习漫谈

半监督学习漫谈

   机器学习主要分三种形式,监督学习、非监督学习、半监督学习。最常见的是监督学习中的分类问题。监督学习的训练样本都含有“label”,非监督学习的训练样本中都不含“label”,半监督学习介于监督学习和非监督学习之间。在半监督学习领域,半监督分类问题是最受欢迎的,比如蛋白质搜索引擎中的后处理过程就常常采用半监督学习框架进行过滤。

   在监督学习中,因为训练集全部已经标记了,所以我们的兴趣点通常是在未来测试数据上的性能。而在半监督学习的分类问题中,训练数据中包含未标记的数据。因此,存在两个不同的目标。一个是预测未来测试数据的类别,另一个是预测训练样本中未标记实例的类别。我们将前者称为inductive semi-supervised learning,将后者称为transductive learninginductive semi-supervised learning就像考试,考试前你不知道有哪些问题(未来的测试数据),需要为所有的问题做准备(训练模型)。transductive learning就像做家庭作业,所有的问题都知道(训练样本中未标记的数据),你只要针对这些问题做准备(训练模型)。

      

参考资料

【1】Introduction to Semi-Supervised Learning

 

 

你可能感兴趣的:(机器学习,半监督学习)