有监督、无监督和半监督学习

目录

概念描述

监督学习(Supervised Learning,SL)

无监督学习(Unsupervised Learning,UL)

半监督学习(Semi-supervised Learning,SSL)

半监督学习的分类

概念描述

  • 回归(Regression):定量输出或者说连续变量预测
  • 分类(Classification):定性输出或者说离散变量预测
  • 聚类(Clustering):无监督学习的结果。聚类的结果将产生一组集合,同一集合中的对象彼此相似,不同集合中的对象相异

监督学习(Supervised Learning,SL)

把训练数据和分类的结果(数据具有的标签)都传给计算机进行分析。计算机通过学习之后,再传给计算机新的未知的数据时,它也能计算出该数据导致各种结果的概率,得到一个最接近正确的结果。监督学习下的计算机在学习的过程中不仅有训练数据,而且有训练结果(标签),因此可以得到比较好的训练结果。

监督学习的训练结果可分为两类:分类(Classification)和回归(Regression),因此监督学习的常见应用场景为分类问题和回归问题。

在监督学习下,输入数据被称为“训练数据”,每组训练数据都有一个明确的标签。在建立预测模型的时候,监督式学习建立一个学习过程,将预测结果与“训练数据”的实际结果进行比较,不断地调整预测模型,直到模型的预测结果达到一个预期的正确率。

无监督学习(Unsupervised Learning,UL)

只把训练数据传给计算机,不传对应的标签,因此计算机无法准确地知道哪些数据具有哪些标签,只能凭借计算能力分析数据的特征得到结果,通常是得到一些集合,集合内的数据在某些特征上相同或相似。

在无监督学习中,利用无类标签的样例所包含的信息学习其对应的类标签,由学习到的类标签信息把样例划分到不同的簇或找到高维输入数据的低维结构。数据并不被特别标识,学习模型是为了推断出数据的一些内在结构。无监督学习包括聚类(Clustering)和降维(Dimensionality Reduction)两类任务。

半监督学习(Semi-supervised Learning,SSL)

对于半监督学习,训练数据一部分是有标签的,另一部分是没有标签的,而没标签数据的数量常常远大于有标签数据的数量,这种学习模型可以用来进行预测,但是模型首先需要学习数据的内在结构以便合理的组织数据来进行预测。半监督学习避免了数据和资源的浪费,同时解决了监督学习的模型泛化能力不强和无监督学习的模型不精确等问题。

半监督学习的分类

半监督学习按照统计学习理论的角度包括直推(transductive)SSL和归纳(inductive)SSL两类模式。直推SSL只处理样本空间内给定的训练数据,利用训练数据中有类标签的样本和无类标签的样例进行训练,来预测训练数据中无类标签的样例的类标签。

归纳SSL处理整个样本空间中所有给定和未知的样例,同时利用训练数据中有类标签的样本和无类标签的样例,以及未知的测试样例一起进行训练,不仅预测训练数据中无类标签的样例的类标签,更主要的是预测未知的测试样例的类标签。

不同的学习场景看,SSL可分为四大类:

  • 半监督分类:在无类标签的样例的帮助下训练有类标签的样本,获得比只用有类标签的样本训练得到的分类器性能更优的分类器,弥补有类标签的样本不足的缺陷,其中类标签取有限离散值。
  • 半监督回归:在无输出的输入的帮助下训练有输出的输入,获得比只用有输出的输入训练得到的回归器性能更好的回归器,其中输出取连续值。
  • 半监督聚类:在有类标签的样本的信息帮助下获得比只用无类标签的样例得到的结果更好的簇,提高聚类方法的精度。
  • 半监督降维:在有类标签的样本的信息帮助下找到高维输入数据的低维结构,同时保持原始高维数据和成对约束的结构不变,即在高维空间中满足正约束的样例在低维空间中相距很近,在高维空间中满足负约束的样例在低维空间中距离很远。

参考:SL、UL、SSL

你可能感兴趣的:(机器学习,深度学习)