Learning Spark [7] - 机器学习入门

在学习Spark的MLlib之前,我们简略的回忆整理一下机器学习的概念。

Machine Learning(机器学习)

机器学习模型主要有以下几种分类:

  • Supervised Machine Learning(监督学习)
  • Unsupervised Machine Learning(无监督学习)
  • Semi-supervised Machine Learning(半监督学习)
  • Reinforcement(强化学习)
    ...
    这次主要讨论监督学习与无监督学习

Supervised Machine Learning(监督学习)

在监督学习中,数据的训练集(输入数据)包括了标签,该标签可能是离散的或者连续的。例如分类模型,数据的训练集中都标注了该图片是狗或者是非狗,或者是某种狗的类型。


二元分类模型:狗

多元分类模型:狗

在回归模型中,需要预测的值为一个连续值,所以需要通过一些评判标准来进行预测。例如线性回归,是将每个点到预测线的误差值得集合最小化,来获得预测线。


线性回归模型:冰激凌价格vs温度

以下表中为Spark MLlib中支持一些常用监督学习方法
常用监督学习方法

Unsupervised Machine Learning(无监督学习)

在现实生活中,带有标签的数据获得成本实际很高,所以催生了无监督学习的发展。与监督学习相对应的为无监督学习,即训练集中无现有标签。
常见的为Culstering Example(聚类模型),根据准则(例如K-means和KNN)来将模型分类n类。


聚类模型

为什么使用Spark进行机器学习

使用spark.ml包,数据科学家可以拥有一个完整的处理数据以及建立数据流程线的环境。同时spark.ml更加关注O(n),允许使用者根据大型数据集进行训练。
在下一次笔记中,我们将会对比分布式框架:spark.ml和单节点框架:scikit-learn,在两个包中该如何取舍。

你可能感兴趣的:(Learning Spark [7] - 机器学习入门)