Spark机器学习的一些概念整理

(文章主要来自于学习整理,好记心不如烂笔头,先记上后面再完善,欢迎大家指正交流)


监督式学习:使用有标签的训练数据(也就是已知结果的数据点)进行学习,对训练样本集外的数据进行标记(分类)预测,训练样本的标记(分类)是已知的,因此岐义性低。
 
无监督式学习:使用没有标签的训练数据(也就是已知结果的数据点)进行学习对没有概念标记(分类)的训练样本进行学习,以发现训练样本集中的结构性知识。训练标记(分类)是未知的,因此岐义性高。聚类就是典型的无监督学习
 
分类算法:
分类算法是一类监督式机器学习算法,它根据已知标签的样本来预测其它样本所属的类别,分类与回归是监督式学习的二种主要形式,监督式学习指算法尝试使用有标签的训练数据(也就是已知结果的数据点)根据对象的特征预测结果,分类与回归的区别在于预测的变量的类型:在分类中,预测的变量是离散的(也就是一个有限集中的值,叫做类别);比如:垃圾邮件与非垃圾邮件,在回归中,预测的变量是连续的,比如:根据年龄与体重预测一个人的身高


线性回归:
线性回归指用特征的线性组和来预测输出值


逻辑回归:
逻辑回归是一种二元分类方法,用来寻找一个分隔阴性与阳性示例的线性分隔平面


决策树:
决策树以节点树的形式表示,每个节点基于数据的特征作出一个二元决定(比如:这个人的年龄是否大于20?),而树的每个叶子节点则包含一种预测结果(例如:这个人是否会买一个商品?),决策树的吸引力在于模型本身容易检查,既可以进行分类也可以进行回归,一组决策树的组合称为随机森林,


聚类:
聚类是一种无监督式学习算法,用于将对象分到具有高度相似性的聚类中,主要用于数据探索以及异常检测


协同过滤:
协同过滤是一种根据用户对各种产品的交互与评分来推荐新产品的推荐系统技术,只需要输入一系列用户/产品交互记录:无论是“显式”的交互(例如:在购物网站上进行评分)还是“隐式”的(例如用户访问了一个产品的页面但没有对产品评分)交互都可以,仅仅根据这些交互,协同过滤算法就能够知道那些产品之间比较相似以及那些用户之间比较相似,然后做出推荐


过度拟合(overfitting)问题,阅读:http://blog.csdn.net/xuxurui007/article/details/9259903

你可能感兴趣的:(spark)