孙悟充

【机器学习笔记】——决策树（Decision Tree）

1 决策树
- 1.1 特征选择
  - 1.1.1 基础定义
  - 1.1.2 最优特征标准
- 1.2 树的生成
  - 1.2.1 ID3 算法
  - 1.2.2 C4.5 算法
    - 1.2.2.1 如果特征是连续的
    - 1.2.2.2 如果数据中有缺失值
  - 1.2.3 CART 算法
    - 1.2.3.1 CART 分类
    - 1.2.3.2 CART 回归
  - 1.2.4 ID3 Vs C4.5 Vs CART
- 1.3 树的剪枝
  - 1.3.1 ID3 & C4.5
    - 1.3.1.1 后剪枝 & CCP 原则
    - 1.3.1.2 预剪枝 & REP 原则
  - 1.3.2 CART（后剪枝 & CCP）
    - 1.3.2.1 假设——给定 $\alpha$，一定存在使损失函数最小的子树，且这样的子树唯一
    - 1.3.2.2 没搞懂的问题
  - 1.3.3 预剪枝 Vs 后剪枝
  - 1.3.4 CCP Vs REP Vs PEP
- 1.4 多变量决策树
- 1.5 多输出决策树
- 1.6 C5.0
- 1.7 随机森林
- 1.8 实例
  - 1.8.1 决策树分类
    - 1.8.1.1 ID3
    - 1.8.1.2 C4.5
    - 1.8.1.3 CART
  - 1.8.2 CART回归
- 1.9 总结
  - 1.9.1 决策树的优点
  - 1.9.2 决策树的缺点
2 算法实现
- 2.1 基础数据结构的python实现
- 2.2 数据不确定性计算的python实现
  - 2.2.1经验熵
  - 2.2.2 条件熵
  - 2.2.3 信息增益
  - 2.2.4 特征的熵
  - 2.2.5 信息增益比
  - 2.2.6 基尼指数
- 2.3 ID3的python实现
3 sklearn分类决策树
- 3.1 参数列表
- 3.2 属性列表
- 3.3 模型调参注意事项：
- 3.4 实例——鸢尾花多分类决策树
  - 3.4.1 导入数据
  - 3.4.2 决策树可视化
  - 3.4.3 交叉验证
  - 3.4.4 调参
    - 3.4.4.1 使用 max_depth 降低过拟合
    - 3.4.4.2 通过min_impurity_decrease来优化模型
    - 3.4.4.3 利用GridSearchCV求最优参数
4 sklearn回归决策树
- 4.1 参数列表
- 4.2 属性列表
5 参考文献

1 决策树

决策树（decision tree）是一种基本的分类与回归方法，其主要优点是模型具有可读性，分类速度快。学习时利用损失函数（正则化的极大似然函数）最小化的原则建立决策树模型。预测时，对新的数据，利用决策树模型进行分类。根据一组训练数据学习的决策树不是唯一的，与训练数据不相矛盾的（能对训练数据进行正确分类）决策树可能有多个，也可能一个也没有。我们需要的是一个与训练数据矛盾较小（训练误差小）的决策树，同时具有很好的泛化能力（测试误差小）。

决策树学习通常包括 3 个步骤：特征选择、决策树的生成和决策树的修剪。其中前两个步骤是几乎同时进行的。在每一步中，我们构建根节点，选择最优特征，并根据该特征对训练数据集进行划分（对应于模型的局部最优），使得各个子集有一个在当前条件下最好的分类，同时完成该层决策树的构建（如果这些自己已经能够被基本正确分类，那么构建叶结点，否则继续对其进行分割）。如此递归地进行下去，直到所有训练数据自己被基本正确分类，或者没有合适的特征为止。这样就生成了一棵决策树。之后我们需要对已生成的树进行自上而下的剪枝，将树变得简单，从而具有更好的泛化能力（对应于模型的全局最优）。具体地，就是剪掉过于细分的叶节点，使其回退到父结点，甚至更高的结点，然后将父结点或者更高的结点改为新的叶结点。

1.1 特征选择

数据有很多特征，那么在每一步中我们选择哪个特征？选择了特征之后又该如何在该特征上进行划分？这就是特征选择要做的事情。特征选择在预选区队训练数据有分类能力（与随机分类的结果有较大差异）的特征。特征选择有许多标准，我们根据这些标准对决策树学习的算法进行分类。比如ID3对应的标准是信息增益、C4.5对应的标准是信息增益比、CART对应的标准是基尼指数。下面给出这些标准的定义并结合实例进行说明。

1.1.1 基础定义

熵：熵（entropy）表示随机变量不确定性的度量，设 $X$ 是一个取有限个值的离散随机变量，其概率分布为

$x_i) = p_i, \quad i = 1, 2, \cdots, n$

则随机变量 $X$ 的熵定义为：

$\color{Red}{H(X) = - \sum_{i = 1}^{n} p_i \log p_i}$

若 $p_i = 0$ ，则定义 $\log 0 = 0$ 。通常式中对数以 2 为底，这时熵的单位称作比特（bit），以 $e$ 和 10 为底的熵的单位称作纳特（nat）和哈托特（hat），因为熵只依赖于 $X$ 的分布，因此也可写作 $H (p)$ 。熵越大，随机变量的不确定性就越大。若熵中的概率由估计得到（特别是极大似然估计），这时熵称为经验熵（empirical entropy）。下图展示了二值随机变量熵 $H (p)$ 随概率 $p$ 变化的曲线。

条件熵：条件熵（conditional entropy） $H (Y ∣ X)$ 表示在已知随机变量 $X$ 的条件下随机变量 $Y$ 的不确定性。随机变量 $X$ 给定的条件下随机变量 $Y$ 的条件熵定义为：

$\color{Red}{H(Y|X) = \sum_{i = 1}^{n} p_i H(Y|X = x_i)}$

当条件熵中的概率由估计（特别是极大似然估计）得到时称为经验条件熵（empirical conditional entropy）。

信息增益：信息增益（information gain）表示得知特征 $X$ 的信息而使得类 $Y$ 的信息的不确定性减少的程度，又称为互信息（mutual information）。特征 $A$ 对训练数据集 $D$ 的信息增益 $g (D, A)$ ，定义为集合 $D$ 的经验熵 $H (D)$ 与特征 $A$ 给定条件下 $D$ 的经验条件熵 $H (D ∣ A)$ 之差，即

$\color{Red}{g(D, A) = H(D) - H(D|A)}$

信息增益比：特征 $A$ 对训练数据集 $D$ 的信息增益比 $g_R (D,A)$ 定义为其信息增益 $g (D, A)$ 与训练数据集 $D$ 关于特征 $A$ 的值的熵 $H_A (D)$ 之比，即

$\color{Red}{g_R (D, A) = \frac{g(D, A)}{H_A (D)}}$

其中， $H_A (D) = - \sum_{j = 1}^{S} \frac{|D_i|}{|D|} \log_2 \frac{|D_i|}{|D|}$ ， $S$ 是特征 $A$ 取值的个数

以信息增益作为划分训练数据集的特征，存在偏向于选择取值较多的特征的问题，比如在学生信息中我们用学号作为特征，那么显然一次性就可以划分结束，但是这样的结果没有实际意义。使用信息增益比可以对这一问题进行校正

基尼指数：分类问题中，假设有 $K$ 个类，样本点属于第 $k$ 类的概率为 $p_k$ ，则概率分布的基尼指数（Gini index）定义为

$\color{Red}{Gini(p) = \sum_{k = 1}^{K} p_k (1 - p_k) = 1 - \sum_{k = 1}^{K}p_k^2}$

对于给定的样本集合 $D$ ，其基尼指数为

$\color{Red}{Gini(D) = 1 - \sum_{k = 1}^{K} \left(\frac{|C_k|}{|D|}\right)^2}$

其中， $C_k$ 是 $D$ 中属于第 $k$ 类的样本子集。

如果样本集合 $D$ 根据特征 $A$ 是否取某一可能值 $a$ 被分割成 $D_1$ 和 $D_2$ 两部分，即

$D_1 = \{(x, y)\in D| A(x) = a\}, \ D_2 = D - D_1$

则在特征 $A$ 的条件下，集合 $D$ 的基尼指数定义为

$\color{Red}{Gini(D, A) = \frac{|D_1|}{|D|} Gini(D_1) + \frac{|D_2|}{|D|} Gini(D_2)}$

直观来说，基尼指数反映了从数据集随机抽取两个样本，其类别标记不一致的概率，因此基尼指数越小，数据集纯度越高，基尼指数越大，数据集的不确定性越大。基尼指数 $G i n i (D)$ 表示集合 $D$ 的不确定性，基尼指数 $G (D, A)$ 表示经 $A = a$ 分割后集合 $D$ 的不确定性。基尼指数越大，样本集合的不确定性也就越大。下图展示了二分类问题中，基尼指数 $G i n i (p)$ 、熵之半 $\frac{1}{2}H(p)$ 和分类误差率关于概率 $p$ 的关系

1.1.2 最优特征标准

ID3：选择信息增益最大的特征作为最优特征
C4.5：选择信息增益比最大的特征作为最优特征
CART：选择基尼指数最小的特征及其对应的切分点作为最优特征与最优切分点

1.2 树的生成

1.2.1 ID3 算法

输入：训练数据集 $D$ ，特征集 $A$ ，阈值 $\epsilon$

输出：决策树 $T$

(1) 若 $D$ 中所有实例属于同一类 $C_k$ ，则 $T$ 为单结点树，并将类 $C_k$ 作为该结点的类标记，返回 $T$ ；

(2) 若 $\varnothing$ ，则 $T$ 为单结点树，并将 $D$ 中实例数最大的类 $C_k$ 作为该结点的类标记，返回 $T$ ；

(3) 否则，计算 $A$ 中各特征对 $D$ 的信息增益，选择信息增益最大的特征 $A_g$ ；

(4) 如果 $A_g$ 的信息增益小于阈值 $\epsilon$ ，则设置 $T$ 为单结点树，并将 $D$ 中实例数最大的类 $C_k$ 作为该结点的类标记，返回 $T$ ；

(5) 否则，对 $A_g$ 的每一个可能值 $a_i$ ，依 $A_g = a_i$ 将 $D$ 分割为若干非空子集 $D_i$ ，将 $D_i$ 中实例数最大的类作为类标记，构建子结点，由结点及其子结点构成树 $T$ ，返回 $T$ ；

(6) 对第 $i$ 个子结点，以 $D_i$ 为训练集，以 $A - {A_g}$ 为特征集，递归地调用步(1)~步(5)，得到子树 $T_i$ ，返回 $T_i$

1.2.2 C4.5 算法

输入：训练数据集 $D$ ，特征集 $A$ ，阈值 $\epsilon$

输出：决策树 $T$

(1) 若 $D$ 中所有实例属于同一类 $C_k$ ，则 $T$ 为单结点树，并将类 $C_k$ 作为该结点的类标记，返回 $T$ ；

(2) 若 $\varnothing$ ，则 $T$ 为单结点树，并将 $D$ 中实例数最大的类 $C_k$ 作为该结点的类标记，返回 $T$ ；

(3) 否则，计算 $A$ 中各特征对 $D$ 的信息增益比，选择信息增益比最大的特征 $A_g$ ；

(4) 如果 $A_g$ 的信息增益比小于阈值 $\epsilon$ ，则设置 $T$ 为单结点树，并将 $D$ 中实例数最大的类 $C_k$ 作为该结点的类标记，返回 $T$ ；

(6) 对第 $i$ 个子结点，以 $D_i$ 为训练集，以 $A - {A_g}$ 为特征集，递归地调用步(1)~步(5)，得到子树 $T_i$ ，返回 $T_i$

1.2.2.1 如果特征是连续的

在C4.5中，对于连续型特征 $x^{(j)}$ 采取了离散化处理（具体为二值化处理），比如某连续型特征在数据集上的取值从小到大为 $\{ a_1, a_2, \cdots, a_n\}$ ，可以在每两个值之间选择一个切分点 $b$ （可以是左闭右开区间中任意一个值），这样得到了一个切分点集合 $\{ b_1, b_2, \cdots, b){n - 1}\}$ 。基于 $b_i$ 我们把该特征划分为了两个部分 $D^{-} = \{x|x^{(j)} \le b_i\}$ 和 $D^{+} = \{x|x^{(j)} \gt b_i\}$ 。于是我们对每个 $b_i$ 求信息增益（比），选择信息增益（比）最大的作为最优切分点。另外不同于离散型特征只作一次划分，可以对连续型属性进行多次划分，也就是说连续型特征可以多次使用。

1.2.2.2 如果数据中有缺失值

当缺失值较少时，可以直接忽略有缺失值的样本，但是当缺失值较多时就不能忽略。对于含有缺失值的样本有两种情况：(1) 特征值缺失；(2) 标签值缺失。在C4.5中，对两种情况做如下处理：

特征值缺失：我们假设特征 $x^{(j)}$ 含有缺失值，且未缺失部分的样本数据集为 $\tilde{D}$ ，定义

$\rho = \frac{|\tilde{D}|}{|D|}$

$\tilde{p}_k = \frac{\tilde{D}_k}{|\tilde{D}|}, \quad k = 1, 2, \cdots, K$

$\tilde{r}_l = \frac{\tilde{D}_l}{|\tilde{D}|}, \quad l = 1, 2, \cdots, S_j$

其中 $\rho$ 表示完整数据的比例。 $\tilde{D}_k$ 表示完整数据中标签为第 $k$ 类的样本数据集，所以 $\tilde{p}_k$ 表示标签为第 $k$ 类的样本在完整数据集中的比例。 $\tilde{D}_l$ 表示特征 $x^{(j)}$ 取值为 $l$ 的数据集， $S_j$ 是特征 $x^{(j)}$ 的取值个数，所以 $\tilde{r}_l$ 表示特征 $x^{(j)}$ 取值为 $l$ 的样本在完整数据集中的比例。有了这些定义我们可以对信息增益公式做一些修改：

$x^{(j)}) = \rho \left( H(\tilde{D}) - \sum_{l = 1}^{S_j}\tilde{r}_l H(\tilde{D}_l)\right)$

总的来说就是单独计算一个特征的信息增益时先考虑其完整数据的信息增益，然后乘一个衡量缺失比例的系数。

标签值缺失：若缺失样本 $\mathcal{x}$ 在特征（对所有特征） $x^{(j)}$ 上的特征值已知，那么将其划分到这个结点上。比如一个样本属性值 $x^{(1)} = x^{(1)}_1, x^{(2)} = x^{(2)}_1$ ，那么将该样本划分到 $x^{(1)} = x^{(1)}_1, x^{(2)} = x^{(2)}_1$ 的叶结点，并且样本的权值 $\mathcal{w}_{\mathcal{x}}$ 保持不变。如果同时有某个特征值缺失，比如特征 $x^{(j)}$ 缺失，那么先将样本点划分到特征 $x^{(j)}$ 分支后的所有结点中，并且在各结点中的权值变为 $\tilde{r}_l \cdot \mathcal{w}_{\mathcal{x}}$

1.2.3 CART 算法

1.2.3.1 CART 分类

分类与回归树（Classification And Regression Tree，CART）即可用于分类也可用于回归，CART假设决策树是二叉树，内部结点特征的取值为“是”和“否”，左分支是取值为“是”的分支，右分支是取值为“否”的分支。

输入：训练数据集 $D$ ，停止计算的条件

输出：CART 决策树

根据训练数据集，从根结点开始，递归地对每个结点进行以下操作，构建二叉决策树：

(1) 设结点的训练数据集为 $D$ ，计算现有特征对该数据集的基尼指数 $G i n i (D)$ 。此时对每一个特征 $A$ ，对其可能取的每一个值 $a$ ，根据样本点对 $A = a$ 的测试为“是”或“否”将 $D$ 分割成 $D_1$ 和 $D_2$ 两部分，然后计算 $A = a$ 时的基尼指数 $G i n i (D, A)$ ；

(2) 在所有可能的特征 $A$ 以及它们所有可能的切分点中，选择基尼指数最小的特征及其对应的切分点作为最优特征与最优切分点。依最优特征与最优切分点，从现结点生成两个子结点，将训练数据集依特征分配到两个子结点中去；

(3) 对两个子结点递归地调用 (1)，(2)，直到满足停止条件；

(4) 生成 CART 决策树

算法停止计算的条件是结点中的样本个数小于预定阈值，或样本集的基尼指数小于预定阈值（样本基本属于同一类），或者没有更多特征。

1.2.3.2 CART 回归

一个回归树把特征空间的一个划分 $R_m, m = 1, 2, \cdots, M$ 映射到一个固定的输出值 $c_m$ ，回归模型可以表示为

$\sum_{m = 1}^{M}c_m I(x \in R_m)$

当输入空间的划分确定后，可以用平方误差 $\sum_{x_i \in R_m} {(y_i - f(x_i))}^2$ 来表示回归树对于训练误差的预测误差，用平方误差最小的准则求解每个单元上的最优输出值，即均值（如果是绝对值误差最小，就是中位数）。那么重点就是怎样进行空间的划分。

我们先寻找最优切分点，对于一个特征 $x^{(j)}$ ，我们设切分点 $s (j)$ 将其特征空间划分为两部分

$R_1 (j, s(j)) = \{x | x^{(j)} \le s(j)\}, \ R_2 (j, s(j)) = \{x | x^{(j)} \gt s(j)\}$

于是，最优切分点就是使数据集在 $R_1, R_2$ 上平方误差最小的点。令

$\hat{c_1} (j, s(j)) = \bar{y_i}, \ x_i \in R_1 (j, s(j))$

$\hat{c_2} (j, s(j)) = \bar{y_i}, \ x_i \in R_2 (j, s(j))$

则特征 $j$ 的最优切分点s(j) 使下式达到最小

$\mathop{\min}_{c_1} \sum_{x_i \in R_1}{(y_i - c_1 (j, s(j)))}^2 + \mathop{\min}_{c_2} \sum_{x_i \in R_1}{(y_i - c_1 (j, s(j)))}^2$

这样对于所有的特征，我们得到了一个特征与最优切分点对 $(j, s (j))$ ，下一步就是选取最优特征。令

$\mathop{\min}_{s} g(s)$

于是最优特征就是最小 $m (j)$ 对应的特征，我们按照该特征及其最优切分点对数据集进行划分。接着重复上述过程，直到满足停止条件。

输入：训练数据集 $D$

输出：回归树 $f (x)$

在训练数据集所在的输入空间中，递归地将每个区域划分为两个子区域并决定每个子区域上的输出值，构建二叉决策树：

(1) 选择最优切分变量 $j$ 与切分点 $s$ ，求

$\mathop{\min}_{j,s}\left[ \mathop{\min}_{c_1} \sum_{x_i \in R_1 (j, s)} + \mathop{\min}_{c_1} \sum_{x_i \in R_1 (j, s)} \right]$

遍历变量 $j$ ，对固定的切分变量 $j$ 扫描切分点 $s$ ，选择使上式达到最小值的对 $(j, s)$ ；

(2) 用选定的对 $(j, s)$ 划分区域并决定相应的输出值：

$R_1 (j, s) = \{x | x^{(j)} \le s(j)\}, \ R_2 (j, s) = \{x | x^{(j)} \gt s(j)\}$

$\hat{c_1} (j, s(j)) = \bar{y_i}, \ x_i \in R_1 (j, s(j))$

$\hat{c_2} (j, s(j)) = \bar{y_i}, \ x_i \in R_2 (j, s(j))$

(3) 继续对两个子区域调用步骤(1)，(2)，直至满足停止条件；

(4) 将输入空间划分为 $M$ 个区域 $R_1, R_2, \cdots, R_M$ ，生成决策树：

$\sum_{m = 1}^{M}\hat{c_m}I(x \in R_m)$

1.2.4 ID3 Vs C4.5 Vs CART

三个算法最明显的区别就是对于特征选择的策略不同，不过目的都是降低数据集的不确定性。具体来说，ID3使用信息增益来衡量不确定性，C4.5使用信息增益比来衡量不确定性，CART使用基尼指数来衡量不确定性。

具体比较ID3和C4.5：信息增益等于熵减去条件熵。信息增益越大说明一个特征减少数据集不确定性的能力越强，也就是该特征的分类能力越强。但是也有例外的情况，考虑一个极端例子，对班上的同学进行分类，如果我们用学号作为特征，那么每个学生分成了一类，得到了深度为2的树，但显然这样的分类没有任何意义。于是我们引入对树的分支（一个特征的特征值）的惩罚，即数据集关于特征的熵，从而得到信息增益比。因此，当存在特征有较多可取的值时，C4.5比ID3表现更好。另一个不同点是ID3只能处理离散型特征，而C4.5可以通过对连续型特征进行离散化处理来对连续型特征进行分支

对于CART：最直观的感觉就是，基尼指数好算得多，毕竟不用求对数。另一个明显的区别是CART树是一个二叉树，这也进一步简化了求基尼指数。但也正是因为这一结构，CART树存在深度过大的问题，所以更适合处理二值特征问题。此外，CART树可以处理回归问题。

1.3 树的剪枝

前面生成的决策树往往对训练数据的分类很准确，但是对未知的测试数据的分类却没有那么准确，即出现过拟合现象。解决这一问题的办法就是考虑决策树的复杂度，对已生成的决策树进行剪枝（pruning）。这一过程往往通过极小化决策树整体的损失函数来实现。

设树 $T$ 的叶结点个数为 $∣ T ∣$ ， $t$ 是树 $T$ 的叶结点，该结点有 $N_t$ 个样本点，其中 $k$ 类样本点有 $N_{tk}$ 个， $\cdots, K$ ， $H_t(T)$ 为叶结点 $t$ 上的经验熵， $\alpha \ge 0$ 为参数，则决策树的损失函数可以定义为

$C_\alpha (T) = \sum_{t = 1}^{|T|}N_t H_t (T)$

其中经验熵为

$H_t (T) = - \sum_{k = 1}^{K}\frac{N_{tk}}{N_t} \log \frac{N_{tk}}{N_t}$

从损失函数表达式可以看出，其第一项表示模型对训练数据的预测误差，第二项为对模型复杂度的惩罚。较大的 $\alpha$ 促使选择更简单的模型，当 $\alpha = 0$ 时，不考虑模型的复杂度。剪枝就是当 $\alpha$ 确定时，选择损失函数最小的模型。

可以看出，决策树生成只考虑了通过信息增益（或信息增益比、基尼指数）对训练数据进行更好的拟合，而决策树的剪枝通过优化损失函数还考虑了减小模型的复杂度。决策树生成学习局部的模型，而决策树剪枝学习整体的模型。

1.3.1 ID3 & C4.5

1.3.1.1 后剪枝 & CCP 原则

输入：生成算法的整个树 $T$ ，参数 $\alpha$

输出：修剪后的子树 $T_\alpha$

(1) 计算每个结点的经验熵；

(2) 递归地从树的叶结点向上回缩：如果回缩后整体树的损失函数小于等于回缩前的损失函数，则进行剪枝，即将父结点变为新的叶结点；

(3) 返回(2)，直至不能继续为止，得到损失函数最小的子树 $T_\alpha$ 。

1.3.1.2 预剪枝 & REP 原则

每进行一次划分，对划分前后的树计算其在验证集上的准确率，如果划分后准确率降低，则不进行划分，否则继续进行树的生成

1.3.2 CART（后剪枝 & CCP）

CART 的剪枝使用同样形式的损失函数：

$C_\alpha (T) = C(T) + \alpha |T|$

其中， $T$ 为任意子树， $C (T)$ 为对训练数据的预测误差（基尼指数）， $∣ T ∣$ 为子树的叶结点个数， $\alpha$ 为参数， $C_\alpha (T)$ 为参数是 $\alpha$ 时的子树 $T$ 的整体损失。对于CART树的剪枝我们分成两个步骤进行。

1. 剪枝并得到子树序列

从整体树 $T_0$ 开始剪枝，对 $T_0$ 的任意内部结点 $t$ ，我们进行下列计算

显然当 $\alpha = 0$ 时，上面的损失函数更小，当 $\alpha$ 很大时下面的损失函数更小，于是存在 $\alpha (t) = \frac{C(t) - C(T_t)}{|T_t| - 1}$ 使得两个损失函数相同，这时上面的树结点更少，于是对 $T_t$ 进行剪枝得到子树 $T_\alpha$

因此，对于 $T_0$ 中的每个结点 $t$ ，我们可以求得对应的 $\alpha (t)$ 和一个剪枝后的子树 $T_\alpha$ （ $\alpha_0 = 0$ 对应整体树 $T_0$ ）。将刚刚得到的 $\alpha$ 从小到大排列并记为 $\alpha_0 = 0, \alpha_1, \alpha_2, \cdots$ ， $T_\alpha$ 进行对应的排列并记为 $T_0, T_1, T_2, \cdots$ ，于是 $T_i$ 为区间 $[\alpha_i, \alpha_{i+1}]$ 的最优子树。

相比ID3和C4.5算法的剪枝， $\alpha$ 没有给出一个固定的值，需要进一步判断这一系列子树中哪一个是最优的

2. 通过交叉验证法在子树序列中选取最优子树

对第 1 步中的到的子树序列在验证数据集上进行交叉验证（测试各子树的平方误差或基尼指数，平方误差或基尼指数最小的决策树被认为是最优的决策树）。当最优子树 $T_k$ 确定后，对应的 $\alpha_k$ 也确定了，即得到最优决策树 $T_\alpha$

下面是书中给出的伪代码，感觉是有问题的，会在之后提出我的问题

输入：CART算法生成的决策树 $T_0$

输出：最优决策树 $T_\alpha$

(1) 设 $k = 0$ ， $T = T_0$ ；

(2) 设 $\alpha = + \infty$ ；

(3) 自下而上地对各个内部结点 $t$ 计算（一个问题是内部结点是否包含根结点，如果包含那么可能与步骤(6)的结束条件产生矛盾） $C(T_t)$ ， $T_t|$ 以及

$\alpha (t) = \frac{C(t) - C(T_t)}{|T_t| - 1}$

$\alpha = \min (\alpha, \alpha(t))$

(4) 对 $\alpha (t) = \alpha$ 的内部结点 $t$ 进行剪枝（如果这轮迭代求得的 $\alpha (t)$ 比前一轮大，那么就不需要剪枝），并对叶结点 $t$ 以多数表决法决定其类，得到树 $T$ ；

(5) 设 $k = k + 1$ ， $\alpha_k = \alpha$ ， $T_k = T$ ；

(6) 如果 $T_k$ 不是由根结点及两个叶结点构成的树，则回到步骤(3)，否则令 $T_k = T_n$ ；

(7) 采用交叉验证法在子树序列 $T_0, T_1, \cdots, T_n$ 中选取最优子树 $T_\alpha$ 。

1.3.2.1 假设——给定 $\alpha$ ，一定存在使损失函数最小的子树，且这样的子树唯一

我们假设有下面这样一棵树，记为 $T_0$ ，对于给定的 $\alpha$ ，它有两个最优子树 $T_1, T_2$ ，且 $C_\alpha(T_1) = C_\alpha(T_2)$ ，因为剪枝操作是已经完成的，所以对于结点 $t_1, t_2$ ，有 $C(t_1) \le C(T_{t_1}), \ C(t_2) \le C(T_{t_2})$ ，那么在树 $T_1$ 中就应该继续在 $t_2$ 结点处进行剪枝，得到 $T_3$ ，那么一定有 $C_\alpha(T_3) \lt C_alpha(T_1)$ ，这与 $T_1$ 是最优子树矛盾。

1.3.2.2 没搞懂的问题

伪代码问题（由步骤(3)是否在当时就计算出每个内部结点对应的 $\alpha (t)$ 引起，如果认为是那么就不需要考虑下面的问题）：

如果只是计算一个节点的 $\alpha (t)$ 就向下进行：

如果是计算全部节点的 $\alpha (t)$ 再向下进行应该会是下面的情况

1.3.3 预剪枝 Vs 后剪枝

预剪枝是在生成决策树的过程中进行的，每进行一次分支就进行判断该分支的必要性（即剪枝），对剪枝后的树，用验证机上的数据计算其准确率，如果分支后准确率更高，就不进行剪枝。后剪枝是先生成树，然后自下而上地考察内部结点，若剪枝引起精度上升就进行剪枝。

实际操作能够发现，后剪枝通常比预剪枝保留更多分支，一般情形下后剪枝决策树欠拟合的风险更小，泛化性能也更高。但是后剪枝的过程是在树生成以后进行的，需要对所有内部结点逐一考察，因此时间上的花销更大。而预剪枝虽然降低了过拟合的风险，但是有些分支当前划分虽然不能提升泛化能力，但是在其基础上进行的后续划分却有可能导致性能显著提高（如从第3层到第4层，泛化性能下降，即树在验证集上的准确率降低，因此停止了划分。但是如果继续划分下去，在第5层可能获得比第3层高的准确率）。预剪枝基于“贪心”本质禁止这些分支展开，给预剪枝决策树带来了欠拟合的风险。

1.3.4 CCP Vs REP Vs PEP

CCP（Cost-Complelexity Pruning，代价复杂度剪枝）就是前面讲的CART的剪枝方法。方法自下而上地计算每个内部结点的损失，得到最优子树序列，然后根据其在验证集上的表现选出最优子树。

REP（Reduced-Error Pruning，错误率降低剪枝）借助决策树在验证集上的准确率判断是否进行剪枝。

PEP（Pessimistic-Error Pruning，悲观剪枝法）采取自上而下的剪枝并且不需要验证集，因此剪枝后错分率必定上升，所以计算错分率时添加了0.5的惩罚因子。考虑一个叶结点 $t$ 中有 $N_t$ 个样本， $E_t$ 个错分样本。那么该点的错分率 $\varepsilon_t = \frac{E_t + 0.5}{N_t}$ ，如果树 $T$ 有 $∣ T ∣$ 个叶结点，那么树 $T$ 的错分率为 $\varepsilon_T = \sum_{t = 1}^{|T|} \frac{E_t + 0.5}{N_t} = \frac{\sum_{t = 1}^{|T|}(E_t + 0.5)}{N}$ ，假设树 $T$ 的样本服从二项分布 $\varepsilon_T)$ ，那么其期望误判个数为 $\times \varepsilon_T = \sum_{t = 1}^{|T|}(E_t + 0.5)$ ，标准差为 $\sqrt{N \times \varepsilon_T \times (1 - \varepsilon_T)}$ 。当剪枝前的误判个数大于剪枝后的误判个数一个标准差时就决定剪枝

1.4 多变量决策树

多变量决策树（multivariate decision tree）并不是多个特征的意思，而是在进行分支时不仅仅只看一个特征的取值，而是多个特征的线性组合。比如单变量决策树进行分支的依据可能是 $x^{(1)} \le 5.5, x^{(1)} \gt 5.5$ 或者 $x^{(2)} \le 7.5, x^{(2)} \gt 7.5$ ，而多变量决策树进行分支的标准可能是 $0.3\times x^{(1)} + 0.7\times x^{(2)}\le 0, 0.3\times x^{(1)} + 0.7\times x^{(2)}\gt 0$ 。体现在特征空间中，单变量决策树对空间的划分是平行于坐标轴的，而多变量决策树是一条曲线。虽然单变量决策树有很好的解释性，但当学习任务非常复杂以至于需要进行多段划分时，多变量决策树就会变现的更好也更接近真实函数。下图中黑色折线就是多段的单变量划分结果，而红色曲线是多变量决策树的划分结果。

1.5 多输出决策树

有的时候我们想要得到的输出结果不是只有一个，比如我们根据某地的气象数据预测其未来某段时间的风向、风速和是否降雨等，显然这些输出不属于同一个问题，不能归结为单一输出的多标签问题。如果输出之间完全独立，这时我们可以对每一个输出建立一个单独的决策树进行预测，但是当输出变量之间有较强的相关性时，建立多输出决策树是一个更好的选择。

1.6 C5.0

C5.0是C4.5算法的改进。由于C4.5算法只适合于能够驻留于内存的数据集，面对大数据及十分乏力，因此提出了C5.0算法。C5.0使用熵的下降速度（因为找不到相关资料，这里不清楚这个速度是什么东西，个人感觉还是信息增益比啊）作为特征选择的依据，采用了Boosting方式提高了模型准确率；计算速度更快，占用内存更少；在面对数据遗漏和输入字段很多时表现稳健；相比其他模型更易于理解，模型退出的规则有非常直观的解释。

1.7 随机森林

决策树模型的最大问题是方差很大，不稳定，很小的数据扰动就可能产生一棵完全不同的决策树。解决这一问题的办法是集成学习，组合多棵决策树的预测结果进行预测，也就是非常有名的随机森林。这一部分笔记等到学习集成学习的时候再进行整理。

1.8 实例

1.8.1 决策树分类

通过下面贷款申请样本的数据学习一个贷款申请的决策树，用以对未来的贷款申请进行分类，即当新的客户提出贷款申请时，根据申请人的特征利用决策树决定是否批准贷款申请。

数据集用 $D$ 表示，年龄、有工作、有自己的房子和信贷情况4个特征用 $A_1, A_2, A_3, A_4$ 表示，并以 $1, 2, 3$ 表示年龄的值为青年、中年、老年，以 $1, 2$ 表示有工作和有自己的房子的值为是和否，以 $1, 2, 3$ 表示信贷情况的值为非常好、好和一般。

1.8.1.1 ID3

计算 $D$ 的经验熵

$\left( \frac{9}{15} \times \log_2 \frac{9}{15} + \frac{6}{15} \times \log_2 \frac{6}{15} \right) = 0.971$

计算特征 $A_i$ 给定条件下 $D$ 的条件经验熵

$\begin{aligned} H(D | A_1) & = \frac{5}{15}H(D | A_1 = 1) + \frac{5}{15}H(D | A_1 = 2) + \frac{5}{15}H(D | A_1 = 3) \\ & = \frac{5}{15}\left( -\frac{2}{5} \log_2 \frac{2}{5} -\frac{3}{5} \log_2 \frac{3}{5}\right) + \frac{5}{15}\left( -\frac{3}{5} \log_2 \frac{3}{5} -\frac{2}{5} \log_2 \frac{2}{5}\right) + \frac{5}{15}\left( -\frac{4}{5} \log_2 \frac{4}{5} -\frac{1}{5} \log_2 \frac{1}{5}\right) \\ & = 0.888 \\ H(D | A_2) & = \frac{5}{15}H(D | A_2 = 1) + \frac{10}{15}H(D | A_2 = 2) \\ & = 0.647 \\ H(D | A_3) & = \frac{6}{15}H(D | A_3 = 1) + \frac{9}{15}H(D | A_3 = 2) \\ & = 0.551 \\ H(D | A_4) & = \frac{5}{15}H(D | A_4 = 1) + \frac{6}{15}H(D | A_4 = 2) + \frac{4}{15}H(D | A_4 = 3) \\ & = 0.647 \end{aligned}$

计算信息增益

$\begin{aligned} g(D, A_1) & = H(D) - H(D | A_1) = 0.083 \\ g(D, A_2) & = H(D) - H(D | A_2) = 0.324 \\ g(D, A_3) & = H(D) - H(D | A_3) = 0.420 \\ g(D, A_4) & = H(D) - H(D | A_4) = 0.363 \\ \end{aligned}$

$D$ 关于特征 $A_3$ 的信息增益最大，所以选择 $A_3$ 为最优特征

根据 $A_3$ 对数据集进行分割后，得到了两个新的子集 $D_1, D_2$ ，其中 $D_1$ 都是同类样本，不需要再进行细分， $D_2$ 中有 3 个样本类别为“是”，6 个为“否”，需要进行进一步划分

计算 $D$ 的经验熵

$H(D_2) = - \left( \frac{1}{3} \times \log_2 \frac{1}{3} + \frac{2}{3} \times \log_2 \frac{2}{3} \right) = 0.918$

计算特征 $A_i$ 给定条件下 $D$ 的条件经验熵

$\begin{aligned} H(D_2 | A_1) & = \frac{4}{9}H(D_2 | A_1 = 1) + \frac{2}{9}H(D_2 | A_1 = 2) + \frac{3}{9}H(D_2 | A_1 = 3) \\ & = \frac{4}{9}\left( -\frac{1}{4} \log_2 \frac{1}{4} -\frac{3}{4} \log_2 \frac{3}{4}\right) + \frac{2}{9}\times 0 + \frac{3}{9}\left( -\frac{2}{3} \log_2 \frac{2}{3} -\frac{1}{3} \log_2 \frac{1}{3}\right) \\ & = 0.667 \\ H(D_2 | A_2) & = \frac{3}{9}H(D_2 | A_2 = 1) + \frac{6}{9}H(D_2 | A_2 = 2) \\ & = 0 \\ H(D_2 | A_4) & = \frac{4}{9}H(D_2 | A_4 = 1) + \frac{4}{9}H(D_2 | A_4 = 2) + \frac{1}{9}H(D_2 | A_4 = 3) \\ & = 0.444 \end{aligned}$

计算信息增益

$\begin{aligned} g(D_2, A_1) & = H(D_2) - H(D_2 | A_1) = 0.251 \\ g(D_2, A_2) & = H(D_2) - H(D_2 | A_2) = 0.918 \\ g(D_2, A_4) & = H(D_2) - H(D_2 | A_4) = 0.474 \\ \end{aligned}$

$D_2$ 关于特征 $A_2$ 的信息增益最大，所以选择 $A_2$ 为最优特征

此时所有子集的样本点都是同一类，结束

剪枝

记前面生成的决策树为 $T_0$ ,因为 $D_1, D_{21}, D_{22}$ 中的样本点都是同一类，所以 $H(D_1), H(D_{21}), H(D_{22})$ 都是 0 ，叶结点个数 $T_0| = 3$ ，易求得 $C_\alpha (T_0) = 3\alpha$

若在 $D_2$ 处进行剪枝，记剪枝后的树为 $T_1$ ，对于叶结点 $D_1, D_2$ ，知道 $H(D_1) = 0, H(D_2) = 0.918$ ，于是

$C_\alpha(T_1) = 6\ H(D_1) + 9\ H(D_2) + 2\alpha = 8.262 + 2\alpha$

故当 $3\alpha \ge 8.262 + 2\alpha$ ，即 $\alpha \ge 8.262$ 时应该剪枝（取等时根据奥卡姆剃刀原则选择结点更少的）

若继续对 $T_1$ 进行剪枝，记剪枝后的树为 $T_2$ ，即以根结点为单结点的树， $H (D) = 0.971$ ， $C_\alpha (T_2) = 15 H(D) + \alpha = 14.565 + \alpha$ ，故当 $2\alpha \ge 14.565 + \alpha$ ，即 $\alpha \ge 6.303$ 时应当剪枝

综上当 $\le \alpha \lt 6.303$ 时，不需要剪枝，最终子树为整体树 $T_0$ ，当 $\alpha \ge 6.303$ 时修剪后的子树为以根结点为单结点的树 $T_2$

1.8.1.2 C4.5

计算 $D$ 的经验熵

$\left( \frac{9}{15} \times \log_2 \frac{9}{15} + \frac{6}{15} \times \log_2 \frac{6}{15} \right) = 0.971$

计算特征 $A_i$ 给定条件下 $D$ 的条件经验熵

计算信息增益

计算 $D$ 关于特征的值的熵

$\begin{aligned} H_{A_1}(D) & = - \left( \frac{5}{15} \log_2 \frac{5}{15} + \frac{5}{15} \log_2 \frac{5}{15} + \frac{5}{15} \log_2 \frac{5}{15} \right) = 1.585 \\ H_{A_2}(D) & = - \left( \frac{5}{15} \log_2 \frac{5}{15} + \frac{10}{15} \log_2 \frac{10}{15} \right) = 1.585\\ H_{A_3}(D) & = - \left( \frac{6}{15} \log_2 \frac{6}{15} + \frac{9}{15} \log_2 \frac{9}{15} \right) = 0.971\\ H_{A_4}(D) & = - \left( \frac{5}{15} \log_2 \frac{5}{15} + \frac{6}{15} \log_2 \frac{6}{15} + \frac{4}{15} \log_2 \frac{4}{15} \right) = 1.566 \end{aligned}$

计算信息增益比

$\begin{aligned} g_R(D, A_1) & = \frac{g(D, A_1)}{H_{A_1}(D)} = 0.052 \\ g_R(D, A_2) & = \frac{g(D, A_2)}{H_{A_2}(D)} = 0.204 \\ g_R(D, A_3) & = \frac{g(D, A_3)}{H_{A_3}(D)} = 0.433 \\ g_R(D, A_4) & = \frac{g(D, A_4)}{H_{A_4}(D)} = 0.232 \end{aligned}$

$D$ 关于特征 $A_3$ 的信息增益比最大，所以选择 $A_3$ 为最优特征

计算 $D$ 的经验熵

$H(D_2) = - \left( \frac{1}{3} \times \log_2 \frac{1}{3} + \frac{2}{3} \times \log_2 \frac{2}{3} \right) = 0.918$

计算特征 $A_i$ 给定条件下 $D$ 的条件经验熵

计算信息增益

$\begin{aligned} g(D_2, A_1) & = H(D_2) - H(D_2 | A_1) = 0.251 \\ g(D_2, A_2) & = H(D_2) - H(D_2 | A_2) = 0.918 \\ g(D_2, A_4) & = H(D_2) - H(D_2 | A_4) = 0.474 \\ \end{aligned}$

计算 $D_2$ 关于特征的值的熵

$\begin{aligned} H_{A_1}(D_2) & = - \left( \frac{4}{9} \log_2 \frac{4}{9} + \frac{2}{9} \log_2 \frac{2}{9} + \frac{3}{9} \log_2 \frac{3}{9} \right) = 1.530 \\ H_{A_2}(D_2) & = - \left( \frac{3}{9} \log_2 \frac{3}{9} + \frac{6}{9} \log_2 \frac{6}{9} \right) = 0.918\\ H_{A_4}(D_2) & = - \left( \frac{1}{9} \log_2 \frac{1}{9} + \frac{4}{9} \log_2 \frac{4}{9} + \frac{4}{9} \log_2 \frac{4}{9} \right) = 1.392 \end{aligned}$

计算信息增益比

$\begin{aligned} g_R(D_2, A_1) & = \frac{g(D_2, A_1)}{H_{A_1}(D_2)} = 0.164 \\ g_R(D_2, A_2) & = \frac{g(D_2, A_2)}{H_{A_2}(D_2)} = 1.000 \\ g_R(D_2, A_4) & = \frac{g(D_2, A_4)}{H_{A_4}(D_2)} = 0.341 \end{aligned}$

$D_2$ 关于特征 $A_2$ 的信息增益比最大，所以选择 $A_2$ 为最优特征

此时所有子集的样本点都是同一类，结束

剪枝

若在 $D_2$ 处进行剪枝，记剪枝后的树为 $T_1$ ，对于叶结点 $D_1, D_2$ ，知道 $H(D_1) = 0, H(D_2) = 0.918$ ，于是

$C_\alpha(T_1) = 6\ H(D_1) + 9\ H(D_2) + 2\alpha = 8.262 + 2\alpha$

故当 $3\alpha \ge 8.262 + 2\alpha$ ，即 $\alpha \ge 8.262$ 时应该剪枝（取等时根据奥卡姆剃刀原则选择结点更少的）

若继续对 $T_1$ 进行剪枝，记剪枝后的树为 $T_2$

你可能感兴趣的:(python,机器学习)

系统学习Python——并发模型和异步编程：进程、线程和GIL
分类目录：《系统学习Python》总目录在文章《并发模型和异步编程：基础知识》我们简单介绍了Python中的进程、线程和协程。本文就着重介绍Python中的进程、线程和GIL的关系。Python解释器的每个实例都是一个进程。使用multiprocessing或concurrent.futures库可以启动额外的Python进程。Python的subprocess库用于启动运行外部程序（不管使用何种
Flask框架入门：快速搭建轻量级Python网页应用「已注销」 python-AI python基础网站网络 python flask 后端
转载：Flask框架入门：快速搭建轻量级Python网页应用1.Flask基础Flask是一个使用Python编写的轻量级Web应用框架。它的设计目标是让Web开发变得快速简单，同时保持应用的灵活性。Flask依赖于两个外部库：Werkzeug和Jinja2，Werkzeug作为WSGI工具包处理Web服务的底层细节，Jinja2作为模板引擎渲染模板。安装Flask非常简单，可以使用pip安装命令
Python Flask 框架入门：快速搭建 Web 应用的秘诀 Python编程之道 Python人工智能与大数据 Python编程之道 python flask 前端 ai
PythonFlask框架入门：快速搭建Web应用的秘诀关键词Flask、微框架、路由系统、Jinja2模板、请求处理、WSGI、Web开发摘要想快速用Python搭建一个灵活的Web应用？Flask作为“微框架”代表，凭借轻量、可扩展的特性，成为初学者和小型项目的首选。本文将从Flask的核心概念出发，结合生活化比喻、代码示例和实战案例，带你一步步掌握：如何用Flask搭建第一个Web应用？路由
python_虚拟环境阿_焦 python
第一、配置虚拟环境：virtualenv（1）pipvirtualenv>安装虚拟环境包（2）pipinstallvirtualenvwrapper-win>安装虚拟环境依赖包（3）c盘创建虚拟目录>C:\virtualenv>配置环境变量【了解一下】：（1）如何使用virtualenv创建虚拟环境a、cd到C:\virtualenv目录下：b、mkvirtualenvname>创建虚拟环境nam
Python爱心光波
系列文章序号直达链接Tkinter1Python李峋同款可写字版跳动的爱心2Python跳动的双爱心3Python蓝色跳动的爱心4Python动漫烟花5Python粒子烟花Turtle1Python满屏飘字2Python蓝色流星雨3Python金色流星雨4Python漂浮爱心5Python爱心光波①6Python爱心光波②7Python满天繁星8Python五彩气球9Python白色飘雪10Pyt
Python流星雨 Want595 python 开发语言
文章目录系列文章写在前面技术需求完整代码代码分析1.模块导入2.画布设置3.画笔设置4.颜色列表5.流星类(Star)6.流星对象创建7.主循环8.流星运动逻辑9.视觉效果10.总结写在后面系列文章序号直达链接表白系列1Python制作一个无法拒绝的表白界面2Python满屏飘字表白代码3Python无限弹窗满屏表白代码4Python李峋同款可写字版跳动的爱心5Python流星雨代码6Python
Python之七彩花朵代码实现 PlutoZuo Python python 开发语言
Python之七彩花朵代码实现文章目录Python之七彩花朵代码实现下面是一个简单的使用Python的七彩花朵。这个示例只是一个简单的版本，没有很多高级功能，但它可以作为一个起点，你可以在此基础上添加更多功能。importturtleastuimportrandomasraimportmathtu.setup(1.0,1.0)t=tu.Pen()t.ht()colors=['red','skybl
Python 脚本最佳实践2025版
前文可以直接把这篇文章喂给AI,可以放到AI角色设定里,也可以直接作为提示词.这样,你只管提需求,写脚本就让AI来.概述追求简洁和清晰：脚本应简单明了。使用函数(functions)、常量(constants)和适当的导入(import)实践来有逻辑地组织你的Python脚本。使用枚举(enumerations)和数据类(dataclasses)等数据结构高效管理脚本状态。通过命令行参数增强交互性
（Python基础篇）了解和使用分支结构 EternityArt 基础篇 python
目录一、引言二、Python分支结构的类型与语法（一）if语句（单分支）（二）if-else语句（双分支）（三）if-elif-else语句（多分支）三、分支结构的应用场景（一）提示用户输入用户名，然后再提示输入密码，如果用户名是“admin”并且密码是“88888”则提示正确，否则，如果用户名不是admin还提示用户用户名不存在,（二）提示用户输入用户名，然后再提示输入密码，如果用户名是“adm
（Python基础篇）循环结构 EternityArt 基础篇 python
一、什么是Python循环结构？循环结构是编程中重复执行代码块的机制。在Python中，循环允许你：1.迭代处理数据：遍历列表、字典、文件内容等。2.自动化重复任务：如批量处理数据、生成序列等。3.控制执行流程：根据条件决定是否继续或终止循环。二、为什么需要循环结构？假设你需要打印1到100的所有偶数：没有循环：需手动编写100行print()语句。print(0)print(2)print(4)
（Python基础篇）字典的操作 EternityArt 基础篇 python 开发语言
一、引言在Python编程中，字典（Dictionary）是一种极具灵活性的数据结构，它通过“键-值对”（key-valuepair）的形式存储数据，如同现实生活中的字典——通过“词语（键）”快速查找“释义（值）”。相较于列表和元组的有序索引访问，字典的优势在于基于键的快速查找，这使得它在处理需要频繁通过唯一标识获取数据的场景中极为高效。掌握字典的操作，能让我们更高效地组织和管理复杂数据，是Pyt
Python七彩花朵 Want595 python 开发语言
系列文章序号直达链接Tkinter1Python李峋同款可写字版跳动的爱心2Python跳动的双爱心3Python蓝色跳动的爱心4Python动漫烟花5Python粒子烟花Turtle1Python满屏飘字2Python蓝色流星雨3Python金色流星雨4Python漂浮爱心5Python爱心光波①6Python爱心光波②7Python满天繁星8Python五彩气球9Python白色飘雪10Pyt
用OpenCV标定相机内参应用示例（C++和Python）
下面是一个完整的使用OpenCV进行相机内参标定（CameraCalibration）的示例，包括C++和Python两个版本，基于棋盘格图案标定。一、目标：相机标定通过拍摄多张带有棋盘格图案的图像，估计相机的内参：相机矩阵（内参）K畸变系数distCoeffs可选外参（R,T）标定精度指标（如重投影误差）二、棋盘格参数设置（根据自己的棋盘格设置）：棋盘格角点数：9x6（内角点，9列×6行）；每个
Anaconda 详细下载与安装教程
Anaconda详细下载与安装教程1.简介Anaconda是一个用于科学计算的开源发行版，包含了Python和R的众多常用库。它还包括了conda包管理器，可以方便地安装、更新和管理各种软件包。2.下载Anaconda2.1访问官方网站首先，打开浏览器，访问Anaconda官方网站。2.2选择适合的版本在页面中，你会看到两个主要的下载选项：AnacondaIndividualEdition：适用于
python中 @注解及内置注解的使用方法总结以及完整示例慧一居士 Python python
在Python中，装饰器（Decorator）使用@符号实现，是一种修改函数/类行为的语法糖。它本质上是一个高阶函数，接受目标函数作为参数并返回包装后的函数。Python也提供了多个内置装饰器，如@property、@staticmethod、@classmethod等。一、核心概念装饰器本质：@decorator等价于func=decorator(func)执行时机：在函数/类定义时立即执行装饰
Python中的静态方法和类方法详解
在Python中，`@staticmethod`和`@classmethod`是两种装饰器，它们用于定义类中的方法，但是它们的行为和用途有所不同。###@staticmethod`@staticmethod`装饰器用于定义一个静态方法。静态方法不接收类或实例的引用作为第一个参数，因此它不能访问类的状态或实例的状态。静态方法可以看作是与类关联的普通函数，但它们可以通过类名直接调用。classMath
Python中类静态方法：@classmethod/@staticmethod详解和实战示例
在Python中，类方法(@classmethod)和静态方法(@staticmethod)是类作用域下的两种特殊方法。它们使用装饰器定义，并且与实例方法(deffunc(self))的行为有所不同。1.三种方法的对比概览方法类型是否访问实例(self)是否访问类(cls)典型用途实例方法✅是❌否访问对象属性类方法@classmethod❌否✅是创建类的替代构造器，访问类变量等静态方法@stati
Python多版本管理与pip升级全攻略：解决冲突与高效实践码界奇点 Python python pip 开发语言 python3.11 源代码管理虚拟现实依赖倒置原则
引言Python作为最流行的编程语言之一，其版本迭代速度与生态碎片化给开发者带来了巨大挑战。据统计，超过60%的Python开发者需要同时维护基于Python3.6+和Python2.7的项目。本文将系统解决以下核心痛点：如何安全地在同一台机器上管理多个Python版本pip依赖冲突的根治方案符合PEP标准的生产环境最佳实践第一部分：Python多版本管理核心方案1.1系统级多版本共存方案Wind
基于Python的健身数据分析工具的搭建流程day1 weixin_45677320 python 开发语言数据挖掘爬虫
基于Python的健身数据分析工具的搭建流程分数据挖掘、数据存储和数据分析三个步骤。本文主要介绍利用Python实现健身数据分析工具的数据挖掘部分。第一步：加载库加载本文需要的库，如下代码所示。若库未安装，请按照python如何安装各种库（保姆级教程）_python安装库-CSDN博客https://blog.csdn.net/aobulaien001/article/details/133298
seaborn又一个扩展heatmapz qq_21478261 #Python可视化 matplotlib
推荐阅读：Pythonmatplotlib保姆级教程嫌Matplotlib繁琐？试试Seaborn！
NGS测序基础梳理01-文库构建（Library Preparation） qq_21478261 #生物信息生物学
本文介绍Illumina测序平台文库构建（LibraryPreparation）步骤，文库结构。写作时间：2020.05。推荐阅读：10W字《Python可视化教程1.0》来了！一份由公众号「pythonic生物人」精心制作的PythonMatplotlib可视化系统教程，105页PDFhttps://mp.weixin.qq.com/s/QaSmucuVsS_DR-klfpE3-Q10W字《Rg
Python 常用内置函数详解（七）：dir()函数——获取当前本地作用域中的名称列表或对象的有效属性列表
目录一、功能二、语法和示例一、功能dir()函数获取当前本地作用域中的名称列表或对象的有效属性列表。二、语法和示例dir()函数有两种形式，如果没有实参，则返回当前本地作用域中的名称列表。如果有实参，它会尝试返回该对象的有效属性列表。如果对象有一个名为__dir__()的方法，那么该方法将被调用，并且必须返回一个属性列表。dir()函数的语法格式如下：C:\Users\amoxiang>ipyth
pythonjson中list操作_Python json.dumps 特殊数据类型的自定义序列化操作
场景描述：Python标准库中的json模块，集成了将数据序列化处理的功能；在使用json.dumps()方法序列化数据时候，如果目标数据中存在datetime数据类型，执行操作时，会抛出异常：TypeError:datetime.datetime(2016,12,10,11,04,21)isnotJSONserializable那么遇到json.dumps序列化不支持的数据类型，该怎么办！首先，
LangChain中的向量数据库接口－Weaviate 洪城叮当 langchain 数据库经验分享笔记交互人工智能知识图谱
文章目录前言一、原型定义二、代码解析1、add_texts方法1.1、应用样例2、from_texts方法2.1、应用样例3、similarity_search方法3.1、应用样例三、项目应用1、安装依赖2、引入依赖3、创建对象4、添加数据5、查询数据总结前言 Weaviate是一个开源的向量数据库，支持存储来自各类机器学习模型的数据对象和向量嵌入，并能无缝扩展至数十亿数据对象。它提供存储文档嵌
Python 日期格式转json.dumps的解决方法 douyaoxin python json 开发语言
classDateEncoder(json.JSONEncoder):defdefault(self,obj):ifisinstance(obj,datetime.datetime):returnobj.strftime('%Y-%m-%d%H:%M:%S')elifisinstance(obj,datetime.date):returnobj.strftime("%Y-%m-%d")json.d
Python 爬虫实战：视频平台播放量实时监控（含反爬对抗与数据趋势预测）西攻城狮北 python 爬虫音视频
一、引言在数字内容蓬勃发展的当下，视频平台的播放量数据已成为内容创作者、营销人员以及行业分析师手中极为关键的情报资源。它不仅能够实时反映内容的受欢迎程度，更能在竞争分析、营销策略制定以及内容优化等方面发挥不可估量的作用。然而，视频平台为了保护自身数据和用户隐私，往往会设置一系列反爬虫机制，对数据爬取行为进行限制。这就向我们发起了挑战：如何巧妙地突破这些限制，同时精准地捕捉并预测播放量的动态变化趋势
Python技能手册 - 模块module 金色牛神 Python python windows 开发语言
系列Python常用技能手册-基础语法Python常用技能手册-模块modulePython常用技能手册-包package目录module模块指什么typing数据类型int整数float浮点数str字符串bool布尔值TypeVar类型变量functools高阶函数工具functools.partial()函数偏置functools.lru_cache()函数缓存sorted排序列表排序元组排序
Ubuntu基础（Python虚拟环境和Vue） aaiier ubuntu python linux
Python虚拟环境sudoaptinstallpython3python3-venv进入项目目录cdXXX创建虚拟环境python3-mvenvvenv激活虚拟环境sourcevenv/bin/activate退出虚拟环境deactivateVue安装Node.js和npm#安装Node.js和npm（Ubuntu默认仓库可能版本较旧，适合入门）sudoaptinstallnodejsnpm#验
苦练Python第9天：if-else分支九剑 python后端前端人工智能
苦练Python第9天：if-else分支九剑前言大家好，我是倔强青铜三。是一名热情的软件工程师，我热衷于分享和传播IT技术，致力于通过我的知识和技能推动技术交流与创新，欢迎关注我，微信公众号：倔强青铜三。欢迎点赞、收藏、关注，一键三连！！！欢迎来到100天Python挑战第9天！今天我们不练循环，改磨“分支剑法”——ifelse三式：单分支、双分支、多分支，以及嵌套和三元运算符，全部实战演练，让
苦练Python第8天：while 循环之妙用 python后端前端人工智能
苦练Python第8天：while循环之妙用原文链接：https://dev.to/therahul_gupta/day-9100-while-loops-with-real-world-examples-528f作者：RahulGupta译者：倔强青铜三前言大家好，我是倔强青铜三。是一名热情的软件工程师，我热衷于分享和传播IT技术，致力于通过我的知识和技能推动技术交流与创新，欢迎关注我，微信公众
解读Servlet原理篇二---GenericServlet与HttpServlet 周凡杨 java HttpServlet 源理 GenericService 源码
在上一篇《解读Servlet原理篇一》中提到，要实现javax.servlet.Servlet接口（即写自己的Servlet应用），你可以写一个继承自javax.servlet.GenericServletr的generic Servlet ，也可以写一个继承自java.servlet.http.HttpServlet的HTTP Servlet（这就是为什么我们自定义的Servlet通常是exte
MySQL性能优化 bijian1013 数据库 mysql
性能优化是通过某些有效的方法来提高MySQL的运行速度，减少占用的磁盘空间。性能优化包含很多方面，例如优化查询速度，优化更新速度和优化MySQL服务器等。本文介绍方法的主要有： a.优化查询 b.优化数据库结构
ThreadPool定时重试 dai_lm java ThreadPool thread timer timertask
项目需要当某事件触发时，执行http请求任务，失败时需要有重试机制，并根据失败次数的增加，重试间隔也相应增加，任务可能并发。由于是耗时任务，首先考虑的就是用线程来实现，并且为了节约资源，因而选择线程池。为了解决不定间隔的重试，选择Timer和TimerTask来完成 package threadpool; public class ThreadPoolTest {
Oracle 查看数据库的连接情况周凡杨 sql oracle 连接
首先要说的是，不同版本数据库提供的系统表会有不同，你可以根据数据字典查看该版本数据库所提供的表。 select * from dict where table_name like '%SESSION%'; 就可以查出一些表，然后根据这些表就可以获得会话信息 select sid,serial#,status,username,schemaname,osuser,terminal,ma
类的继承朱辉辉33 java
类的继承可以提高代码的重用行，减少冗余代码；还能提高代码的扩展性。Java继承的关键字是extends 格式:public class 类名（子类）extends 类名（父类）{ } 子类可以继承到父类所有的属性和普通方法，但不能继承构造方法。且子类可以直接使用父类的public和 protected属性，但要使用private属性仍需通过调用。子类的方法可以重写，但必须和父类的返回值类
android 悬浮窗特效肆无忌惮_ android
最近在开发项目的时候需要做一个悬浮层的动画，类似于支付宝掉钱动画。但是区别在于，需求是浮出一个窗口，之后边缩放边位移至屏幕右下角标签处。效果图如下：一开始考虑用自定义View来做。后来发现开线程让其移动很卡，ListView+动画也没法精确定位到目标点。后来想利用Dialog的dismiss动画来完成。自定义一个Dialog后，在styl
hadoop伪分布式搭建林鹤霄 hadoop
要修改4个文件 1: vim hadoop-env.sh 第九行 2: vim core-site.xml <configuration> &n
gdb调试命令 aigo gdb
原文：http://blog.csdn.net/hanchaoman/article/details/5517362 一、GDB常用命令简介 r run 运行.程序还没有运行前使用 c cuntinue
Socket编程的HelloWorld实例 alleni123 socket
public class Client { public static void main(String[] args) { Client c=new Client(); c.receiveMessage(); } public void receiveMessage(){ Socket s=null; BufferedRea
线程同步和异步百合不是茶线程同步异步
多线程和同步 : 如进程、线程同步，可理解为进程或线程A和B一块配合，A执行到一定程度时要依靠B的某个结果，于是停下来，示意B运行；B依言执行，再将结果给A；A再继续操作。所谓同步，就是在发出一个功能调用时，在没有得到结果之前，该调用就不返回，同时其它线程也不能调用这个方法多线程和异步:多线程可以做不同的事情,涉及到线程通知 &
JSP中文乱码分析 bijian1013 java jsp 中文乱码
在JSP的开发过程中，经常出现中文乱码的问题。首先了解一下Java中文问题的由来： Java的内核和class文件是基于unicode的，这使Java程序具有良好的跨平台性，但也带来了一些中文乱码问题的麻烦。原因主要有两方面，
js实现页面跳转重定向的几种方式 bijian1013 JavaScript 重定向
js实现页面跳转重定向有如下几种方式：一.window.location.href <script language="javascript"type="text/javascript"> window.location.href="http://www.baidu.c
【Struts2三】Struts2 Action转发类型 bit1129 struts2
在【Struts2一】 Struts Hello World http://bit1129.iteye.com/blog/2109365中配置了一个简单的Action，配置如下 <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configurat
【HBase十一】Java API操作HBase bit1129 hbase
Admin类的主要方法注释： 1. 创建表 /** * Creates a new table. Synchronous operation. * * @param desc table descriptor for table * @throws IllegalArgumentException if the table name is res
nginx gzip ronin47 nginx gzip
Nginx GZip 压缩 Nginx GZip 模块文档详见：http://wiki.nginx.org/HttpGzipModule 常用配置片段如下： gzip on; gzip_comp_level 2; # 压缩比例，比例越大，压缩时间越长。默认是1 gzip_types text/css text/javascript; # 哪些文件可以被压缩 gzip_disable &q
java-7.微软亚院之编程判断俩个链表是否相交给出俩个单向链表的头指针，比如 h1 ， h2 ，判断这俩个链表是否相交 bylijinnan java
public class LinkListTest { /** * we deal with two main missions: * * A. * 1.we create two joined-List(both have no loop) * 2.whether list1 and list2 join * 3.print the join
Spring源码学习-JdbcTemplate batchUpdate批量操作 bylijinnan java spring
Spring JdbcTemplate的batch操作最后还是利用了JDBC提供的方法，Spring只是做了一下改造和封装 JDBC的batch操作： String sql = "INSERT INTO CUSTOMER " + "(CUST_ID, NAME, AGE) VALUES (?, ?, ?)";
[JWFD开源工作流]大规模拓扑矩阵存储结构最新进展 comsci 工作流
生成和创建类已经完成,构造一个100万个元素的矩阵模型,存储空间只有11M大,请大家参考我在博客园上面的文档"构造下一代工作流存储结构的尝试",更加相信的设计和代码将陆续推出......... 竞争对手的能力也很强.......,我相信..你们一定能够先于我们推出大规模拓扑扫描和分析系统的....
base64编码和url编码 cuityang base64 url
import java.io.BufferedReader; import java.io.IOException; import java.io.InputStreamReader; import java.io.PrintWriter; import java.io.StringWriter; import java.io.UnsupportedEncodingException;
web应用集群Session保持 dalan_123 session
关于使用 memcached 或redis 存储 session ，以及使用 terracotta 服务器共享。建议使用 redis，不仅仅因为它可以将缓存的内容持久化，还因为它支持的单个对象比较大，而且数据类型丰富，不只是缓存 session，还可以做其他用途，一举几得啊。1、使用 filter 方法存储这种方法比较推荐，因为它的服务器使用范围比较多，不仅限于tomcat ，而且实现的原理比较简
Yii 框架里数据库操作详解-[增加、查询、更新、删除的方法 'AR模式'] dcj3sjt126com 数据库
public function getMinLimit () { $sql = "..."; $result = yii::app()->db->createCo
solr StatsComponent（聚合统计） eksliang solr聚合查询 solr stats
StatsComponent 转载请出自出处：http://eksliang.iteye.com/blog/2169134 http://eksliang.iteye.com/ 一、概述 Solr可以利用StatsComponent 实现数据库的聚合统计查询，也就是min、max、avg、count、sum的功能二、参数
百度一道面试题 greemranqq 位运算百度面试寻找奇数算法 bitmap 算法
那天看朋友提了一个百度面试的题目：怎么找出{1,1,2,3,3,4,4,4,5,5,5,5} 找出出现次数为奇数的数字. 我这里复制的是原话，当然顺序是不一定的，很多拿到题目第一反应就是用map,当然可以解决，但是效率不高。还有人觉得应该用算法xxx,我是没想到用啥算法好...！还有觉得应该先排序... 还有觉
Spring之在开发中使用SpringJDBC ihuning spring
在实际开发中使用SpringJDBC有两种方式： 1. 在Dao中添加属性JdbcTemplate并用Spring注入； JdbcTemplate类被设计成为线程安全的，所以可以在IOC 容器中声明它的单个实例，并将这个实例注入到所有的 DAO 实例中。JdbcTemplate也利用了Java 1.5 的特定(自动装箱，泛型，可变长度
JSON API 1.0 核心开发者自述 | 你所不知道的那些技术细节 justjavac json
2013年5月，Yehuda Katz 完成了JSON API(英文，中文) 技术规范的初稿。事情就发生在 RailsConf 之后，在那次会议上他和 Steve Klabnik 就 JSON 雏形的技术细节相聊甚欢。在沟通单一 Rails 服务器库—— ActiveModel::Serializers 和单一 JavaScript 客户端库——&
网站项目建设流程概述 macroli 工作
一.概念网站项目管理就是根据特定的规范、在预算范围内、按时完成的网站开发任务。二.需求分析项目立项　　我们接到客户的业务咨询，经过双方不断的接洽和了解，并通过基本的可行性讨论够，初步达成制作协议，这时就需要将项目立项。较好的做法是成立一个专门的项目小组，小组成员包括：项目经理，网页设计，程序员，测试员，编辑/文档等必须人员。项目实行项目经理制。客户的需求说明书　　第一步是需
AngularJs 三目运算表达式判断 qiaolevip 每天进步一点点学习永无止境众观千象 AngularJS
事件回顾：由于需要修改同一个模板，里面包含2个不同的内容，第一个里面使用的时间差和第二个里面名称不一样，其他过滤器，内容都大同小异。希望杜绝If这样比较傻的来判断if-show or not，继续追究其源码。 var b = "{{", a = "}}"; this.startSymbol = function(a) {
Spark算子：统计RDD分区中的元素及数量 superlxw1234 spark spark算子 Spark RDD分区元素
关键字：Spark算子、Spark RDD分区、Spark RDD分区元素数量 Spark RDD是被分区的，在生成RDD时候，一般可以指定分区的数量，如果不指定分区数量，当RDD从集合创建时候，则默认为该程序所分配到的资源的CPU核数，如果是从HDFS文件创建，默认为文件的Block数。可以利用RDD的mapPartitionsWithInd
Spring 3.2.x将于2016年12月31日停止支持 wiselyman Spring 3
Spring 团队公布在2016年12月31日停止对Spring Framework 3.2.x（包含tomcat 6.x）的支持。在此之前spring团队将持续发布3.2.x的维护版本。请大家及时准备及时升级到Spring
fis纯前端解决方案fis-pure zccst JavaScript
作者：zccst FIS通过插件扩展可以完美的支持模块化的前端开发方案，我们通过FIS的二次封装能力，封装了一个功能完备的纯前端模块化方案pure。 1，fis-pure的安装 $ fis install -g fis-pure $ pure -v 0.1.4 2，下载demo到本地 git clone https://github.com/hefangshi/f

【机器学习笔记】——决策树（Decision Tree）

目 录

1 决策树

1.1 特征选择

1.1.1 基础定义

1.1.2 最优特征标准

1.2 树的生成

1.2.1 ID3 算法

1.2.2 C4.5 算法

1.2.2.1 如果特征是连续的

1.2.2.2 如果数据中有缺失值

1.2.3 CART 算法

1.2.3.1 CART 分类

1.2.3.2 CART 回归

1.2.4 ID3 Vs C4.5 Vs CART

1.3 树的剪枝

1.3.1 ID3 & C4.5

1.3.1.1 后剪枝 & CCP 原则

1.3.1.2 预剪枝 & REP 原则

1.3.2 CART（后剪枝 & CCP）

1.3.2.1 假设——给定 α \alpha α，一定存在使损失函数最小的子树，且这样的子树唯一

1.3.2.2 没搞懂的问题

1.3.3 预剪枝 Vs 后剪枝

1.3.4 CCP Vs REP Vs PEP

1.4 多变量决策树

1.5 多输出决策树

1.6 C5.0

1.7 随机森林

1.8 实例

1.8.1 决策树分类

1.8.1.1 ID3

1.8.1.2 C4.5

你可能感兴趣的:(python,机器学习)

目录

1.3.2.1 假设——给定 $\alpha$ ，一定存在使损失函数最小的子树，且这样的子树唯一