分类、回归和聚类辨析

开学有两个礼拜了,在经历了体检、选课、见导师等一系列活动之后,我的研究生生活总算是要开始了。我准备在量子物理的学习之外,学习一些机器学习的知识,不管是为了什么,学就是了。

主要参考书籍:周志华《机器学习》

学习篇(一)分类、回归和聚类

首先,来一个基础的类别分析:
分类和回归是属于监督学习(Supervised learning)的,而聚类则是属于无监督学习(Unsupervised learning)。

其次,进行细致的学习:

1.分类(Classification)和回归(Regression)

判断一个人是否患有癌症,是一个分类问题;
输入一个人的数据,判断他20年后的经济能力,是一个回归问题。

分类和回归是属于监督学习(Supervised learning)的两大应用。

分类针对离散值,学习结果产生几个函数,通过函数划分为几个集合。
(常见的应用:邮件过滤,客户评级,医疗诊断等)

常见方法:后面补充

回归针对连续值,学习结果产生几个函数,通过函数产生连续的结果。
(常见的应用:等)

常见方法:后面补充

2.聚类(clustering)

若将168,169和120在没有任何参考标准的情况下分成两类,机器学习应该会将168和169分为一类,而120是单独的一类。因为前两者之间的距离为1,而与120的距离分别是48和49,这就是一个聚类问题。

聚类是属于无监督学习(Unsupervised learning)的应用。

聚类,学习结果将产生几个集合,集合中的元素彼此相似。

聚类有点类似分类,分类预先知道结果属性的范围,而聚类不知道结果属性的范围。
(常见的应用:细分客户,文章推荐,等)

常见方法:K-means(K均值法),GMM(高斯混合模型)

集合内部的元素间具有较高的相似度,相似度的衡量可以通过欧几里得距离、概率距离、加权重距离计算。

你可能感兴趣的:(机器学习)