监督学习与无监督学习的基本概念

机器学习中存在着三类模型,有监督学习、无监督学习和半监督学习,他们有何区别呢?

其实有无标签是区分监督学习与无监督学习的关键,这里的有无标签,指的是有没有事前确定标签。

1.有监督学习

有监督机器学习又被称为“有老师的学习”,所谓的老师就是标签。有监督的过程为先通过已知的训练样本(如已知输入和对应的输出)来训练,从而得到一个最优模型,再将这个模型应用在新的数据上,映射为输出结果。借此,模型就有了预知能力。

监督学习的关键是训练数据同时拥有输入变量(x)和输出变量(y);使用一个算法把输入到输出的映射关系——y=f(x)训练成一个模型,用这个模型对新的数据进行预测。所有的回归算法和分类算法都是监督学习算法,例如KNN、逻辑回归、朴素贝叶斯等。

总结下来,有监督的学习模型主要有下面的特征:

①有标签。

② 已经标记好的数据(labelled data),用来做训练来预测新数据的类型(class),或者是值。预测已有类型叫做分类(classification),预测一个值叫做回归(regression)。

③ 常见的有监督学习算法:回归分析和统计分类。 常见的有监督学习算法:回归分析和统计分类。最典型的算法是KNN和SVM。

2.无监督学习

无监督机器学习也被称为“没有老师的学习”,相比于有监督学习模型,无监督学习模型没有训练的过程,而是直接拿数据进行建模分析,即通过机器学习自行学习探索。即训练数据只有输入变量(x),并没有输出变量(y),而目的就是将这些训练数据潜在的结构或者分布找出来,类似于去探索。

其典型的特征如下:
①输入数据没有被标记,也没有确定的结果。

②样本数据类别未知,需要根据样本间的相似性对样本集进行分类(聚类,clustering)试图使类内差距最小化,类间差距最大化。

在方法使用上,无监督学习有下面的两种思路:

①基于概率密度函数估计的直接方法:设法找到各类别在特征空间的分布参数,再进行分类。

② 基于样本间相似性度量的简洁聚类方法:其原理是设法定出不同类别的核心或初始内核,然后依据样本与核心之间的相似性度量将样本聚集成不同的类别。利用聚类结果,可以提取数据集中隐藏信息,对未来数据进行分类和预测。应用于数据挖掘,模式识别,图像处理等。  

PCA和很多deep learning算法都属于无监督学习。机器学习中,所有的聚类算法都是无监督学习算法,例如K-Means、主成分分析(PCA)、高斯混合模型(GMM)等;

3.半监督学习

半监督学习也就是说有一部分数据有标签、另一部分数据没有标签。半监督学习(Semi-Supervised Learning,SSL)是模式识别和机器学习领域研究的重点问题,是监督学习与无监督学习相结合的一种学习方法。

半监督学习使用大量的未标记数据,以及同时使用标记数据,来进行模式识别工作。当使用半监督学习时,将会要求尽量少的人员来从事工作,同时,又能够带来比较高的准确性,因此,半监督学习正越来越受到人们的重视。

你可能感兴趣的:(深度学习,机器学习,分类,深度学习)