Spark入门梳理4-MLLIB机器学习-分类与回归

文章目录

  • Spark编程基础-搭配Jupyter
    • 分类与回归、聚类算法
    • 1.1 逻辑斯蒂回归分类器
    • 1.2 决策树分类器
      • 1.2.1 简介
      • 1.2.2 原理
        • 1.2.2.1 特征选择
        • 1.2.2.2 决策树生成
        • 1.2.2.3 决策树的剪纸

Spark编程基础-搭配Jupyter

分类与回归、聚类算法

分类是一种重要的机器学习和数据挖掘技术。分类的目的是根据数据集的特点构造一个分类函数或分类模型(也常常称作分类器),该模型能把未知类别的样本映射到给定类别中的一种技术。

  • mllib 分类算法
    分类算法基于不同的思想,算法也不尽相同,例如支持向量机SVM、决策树算法、贝叶斯算法、KNN算法等。spark.mllib包支持各种分类方法,主要包含 二分类, 多分类和 回归分析。下表列出了每种类型的问题支持的算法。
    Spark入门梳理4-MLLIB机器学习-分类与回归_第1张图片

1.1 逻辑斯蒂回归分类器

Logistic Regression 是统计学习中的经典分类方法,属于对数线性模型。logistic回归的因变量可以使二分类,也可以是多分类的。
对数几率分布公式:

其中参数 β \beta β 常用最大似然估计。
参考我这篇文章 :机器学习基础算法梳理-2

1.2 决策树分类器

1.2.1 简介

决策树(decision tree)是一种基本的分类与回归方法,这里主要介绍用于分类的决策树。决策树模式呈树形结构,其中每个内部节点表示一个属性上的测试,每个分支代表一个测试输出,每个叶节点代表一种类别。学习时利用训练数据,根据损失函数最小化的原则建立决策树模型;预测时,对新的数据,利用决策树模型进行分类。

1.2.2 原理

决策树学习包括3个步骤:特征选择、决策树的生成和决策树的剪纸。

1.2.2.1 特征选择

特征选择的目的是选取对训练数据具有强分类能力的特征,可以提高决策树的学习能力和模型拟合能力
通常特征选择的指标是信息增益、信息增益比、基尼指数等,每次计算每个特征的信息增益,并比较大小,选择信息增益最大(信息增益比最大、基尼指数最小)的特征。
请参考我这篇文章介绍:机器学习基础算法梳理-3
1. 信息增益 :简单的说就是一个属性的的信息增益就是使用这个属性,可以导致期望熵降低,也就是信息增益越打,熵越低,数据离散程度越少,也就是拟合数据越优
2. 信息增益比:信息增益与训练集D关于特征A的值的熵之比,公式为:

注意:其中的 HA(D),对于样本集合D,将当前特征A作为随机变量(取值是特征A的各个特征值),求得的经验熵。

3. 基尼指数:在分类问题中,假设有K个类,样本点属于第K类的概率为 Pk,则概率分布的基尼指数定义为:

具体讲解可以参考:参考链接

1.2.2.2 决策树生成

​ 从根结点开始,对结点计算所有可能的特征的信息增益,选择信息增益最大的特征作为结点的特征,由该特征的不同取值建立子结点,再对子结点递归地调用以上方法,构建决策树;直到所有特征的信息增均很小或没有特征可以选择为止,最后得到一个决策树。

​ 决策树需要有停止条件来终止其生长的过程。一般来说最低的条件是:当该节点下面的所有记录都属于同一类,或者当所有的记录属性都具有相同的值时。这两种条件是停止决策树的必要条件,也是最低的条件。在实际运用中一般希望决策树提前停止生长,限定叶节点包含的最低数据量,以防止由于过度生长造成的过拟合问题。

1.2.2.3 决策树的剪纸

这一部分不是很了解,等把spark运行决策树例子跑成功在补上,参考:参考链接

你可能感兴趣的:(机器学习,SPARK,机器学习,python)