有监督学习和无监督学习的异同

有监督学习

即训练数据同时拥有输入变量(x)和输出变量(y);使用一个算法把输入到输出的映射关系——y=f(x)训练成一个模型,用这个模型对新的数据进行预测。

无监督学习

即训练数据只有输入变量(x),并没有输出变量(y),无监督学习的目的就是将这些训练数据潜在的结构或者分布找出来,类似于去探索。

两者主要在于训练数据是否有输出变量也就是标签。

实际应用

在实际问题的应用中,还是以有监督学习为主流。主要原因还是有监督学习更容易得到切实有用的结果,毕竟预测结果可控,优化目标明确,因此只有方法得当,数据质量好,一般都可以得到高质量的模型。但是,有监督学习的主要问题是数据标注的成本。随着移动互联网的发展,数据的量级发生了质的改变,加之,数据标注工作还需要一定的业务基础,所以数据标注的成本也越来越高,像现在的图像识别,数据量大,特征多,标注成本非常高。另外,大规模采用人工标注的化,还会面临一致性的问题,也是不容忽视的。所以,随着大数据技术的日益发展,在机器学习和人工智能领域,无监督学习也越来越收到重视了。

机器学习中,所有的聚类算法都是无监督学习算法,例如K-Means、主成分分析(PCA)、高斯混合模型(GMM)等;

所有的回归算法和分类算法都是监督学习算法,例如KNN、逻辑回归、朴素贝叶斯等

你可能感兴趣的:(数据分析&算法,机器学习,聚类,人工智能)