机器学习系列(一), 监督学习和无监督学习

常见的机器学习任务,可以分为监督学习和无监督学习两类

机器学习系列(一), 监督学习和无监督学习_第1张图片

1,监督学习

监督学习的样本集是既有特征也有结果的数据,即已知输入与输出值。监督学习的任务时根据这些已知特征和结果的数据,训练模型,使得模型能够根据输入的特征值,预测结果。例如,已经有个数据即,包含了某地房子价格的相关数据,每条数据包含房子的面积、楼层、房龄和售价。在这里面积、楼层、房龄是特征值,售价结果值,根据这一组数据训练的一个模型。当向模型中输入一个未知售价的房子的面积、楼层、房龄三个参数,能够预测出合理的售价。这个例子就是一个典型的有监督学习任务。

2、无监督学习

与有监督学习不同,无监督学习是指数据样本是只有特征值而没有结果值得一组数据。例如:Google的聚合新闻就是典型的无监督学习应用,其基本功能是将网络上各种新闻按照不同的主题聚合到一起进行分主题呈现,例如将“俄乌战争”相关的全部新闻都放到“俄乌战争”这个主题下面。这个任务中,要分多少个主题,每个主题是什么、哪些资讯聚集到哪个主题下面,这些统统不是人工设定的,而是通过无监督学习自动完成的。

3、回归

回归分析是监督学习的一种,是指输出结果是连续数字的任务,例如上一节中的房价预测模型中,房价是一个连续的数字,因此这个任务是一个回归分析。

4、分类

分类是监督学习的一种,是指输出结果是离散值的任务,例如:根据一组肿瘤的大小、位置、患者年龄预测肿瘤是恶性还是良性的。这个任务中,输出只有“恶性”和“良性”两种,所以这是一个分类问题。

5、聚类

聚类是一种数据分组技术,属于无监督学习的一种。给定一组数据点,我们可以使用聚类算法将每个数据点划分为一个特定的组。理论上,同一组中的数据点应该具有相似的属性和/或特征,而不同组中的数据点应该具有高度不同的属性和/或特征。

相关算法可以参考这篇文章:【聚类】五种主要聚类算法_Wendy冬雪飘的博客-CSDN博客_聚类原博文:聚类是一种机器学习技术,它涉及到数据点的分组。给定一组数据点,我们可以使用聚类算法将每个数据点划分为一个特定的组。理论上,同一组中的数据点应该具有相似的属性和/或特征,而不同组中的数据点应该具有高度不同的属性和/或特征。聚类是一种无监督学习的方法,是许多领域中常用的统计数据分析技术。在数据科学中,我们可以使用聚类分析从我们的数据中获得一些有价值的见解。在这篇文章中,我们将研究5种流...https://blog.csdn.net/u011511601/article/details/81951939

你可能感兴趣的:(机器学习学习系列,机器学习)