洪远

深入理解机器学习——基于决策树的模型（一）：分类树和回归树

分类目录：《深入理解机器学习》总目录
相关文章：
基于决策树的模型（一）分类树和回归树
基于树的模型（二）：集成学习之Bagging和Random Forest
基于树的模型（三）：集成学习之GBDT和XGBoost
基于树的模型（四）：随机森林的延伸——深度森林（gcForest）
基于树的模型（五）：从零开始用Python实现ID3决策树
基于树的模型（六）：Python实现CART决策树并利用Tkinter构建GUI对决策树进行调优
基于树的模型（七）：RF/XGBoost等算法实践与决策树Scala实践等（材料准备中）

决策树（Decision Tree）是一种基本的分类与回归方法，当决策树用于分类时称为分类树，用于回归时称为回归树。本文主要讨论决策树中的分类树与回归树的一些基本理论，后续文章会继续讨论决策树的Boosting和Bagging相关方法。

决策树由结点和有向边组成。结点有两种类型：内部结点和叶结点，其中内部结点表示一个特征或属性，叶结点表示一个类。一般的，一棵决策树包含一个根结点、若干个内部结点和若干个叶结点。叶结点对应于决策结果，其他每个结点则对应于一个属性测试。每个结点包含的样本集合根据属性测试的结果被划分到子结点中，根结点包含样本全集，从根结点到每个叶结点的路径对应了一个判定测试序列。在下图中，圆和方框分别表示内部结点和叶结点。决策树学习的目的是为了产生一棵泛化能力强，即处理未见示例能力强的决策树。

分类树

分类树是一种描述对实例进行分类的树形结构。在使用分类树进行分类时，从根结点开始，对实例的某一特征进行测试，根据测试结果，将实例分配到其子结点。这时，每一个子结点对应着该特征的一个取值。如此递归地对实例进行测试并分配，直至达到叶结点。最后将实例分到叶结点的类中。

假设给定训练数据集：
$D=\{(x_1, y_1), (x_2, y_2), ..., (x_N, y_N)\}$ 其中， $x_i=(x_i^{(1)}, x_i^{(2)}, ..., x_i^{(n)})^T,$ 为输入实例，即特征向量， $n$ 为特征个数， $i = 1 ， 2 \dots ， N$ ， $N$ 为样本容量， $y_i \in \{ 1, 2, ..., K\}$ 为类标。分类树学习的目标是根据给定的训练数据集构建一个决策树模型，使它能够对实例进行正确的分类。

决策树学习本质上是从训练数据集中归纳出一组分类规则。与训练数据集不相矛盾的决策树（即能对训练数据进行正确分类的决策树）可能有多个，也可能一个也没有。我们需要的是一个与训练数据矛盾较小的决策树，同时具有很好的泛化能力。从另一个角度看，决策树学习是由训练数据集估计条件概率模型。基于特征空间划分的类的条件概率模型有无穷多个，我们选择的条件概率模型应该不仅对训练数据有很好的拟合，而且对未知数据有很好的预测。

决策树学习用损失函数表示这一目标，其损失函数通常是正则化的极大似然函数，决策树学习的策略是以损失函数为目标函数的最小化。当损失函数确定以后，学习问题就变为在损失函数意义下选择最优决策树的问题。因为从所有可能的决策树中选取最优决策树是NP完全问题，所以现实中决策树学习算法通常采用启发式方法，近似求解这一最优化问题。这样得到的决策树是次最优的。

决策树分类算法
输入：
$\qquad$ 训练集： ${(x_1, y_1), (x_2, y_2), \cdots, (x_N, y_N)}$
$\qquad$ 属性集： ${a_1, a_2, \cdots, a_n}$
过程：
$\qquad$ 函数 $T r e e G e n e r a t e (D, A)$
输出：
$\qquad$ 以node为根节点的决策树
算法：
（ 1 ）生成结点根node
（ 2 ） if $D$ 中样本全属于同一类别 $C_k$ then
（ 3 ） $\quad$ 将node标记为 $C_k$ 类叶结点
（ 4 ） $\quad$ return
（ 5 ） end if
（ 6 ） if $\varnothing$ OR $D$ 中样本在 $A$ 上取值相同 then
（ 7 ） $\quad$ 将node标记为叶结点，其类别标记为 $D$ 中样本数最多的类
（ 8 ） $\quad$ return
（ 9 ）end if
（10）从 $A$ 中选择最优划分属性 $a_*$
（11）for $a_*$ 的每一个值 $a_*^v$ do
（12） $\quad$ 为node生成一个分支：令 $D_v$ 表示 $D$ 中在 $a_*$ 上取值为 $a_*^v$ 的样本子集
（13） $\quad$ if $D_v$ 为空 then
（14） $\qquad$ 将分支结点标记为叶结点，其类别标记为 $D$ 中样本最多的类
（15） $\qquad$ return
（16） $\quad$ else
（17） $\qquad$ 以 $TreeGenerate(D_v, A - \{a_*\})$ 为分支结点
（18） $\quad$ end if
（19）end for

决策树学习的算法通常是一个递归地选择最优特征，并根据该特征对训练数据进行分割，使得对各个子数据集有一个最好的分类的过程。这一过程对应着对特征空间的划分，也对应着决策树的构建。开始，构建根结点，将所有训练数据都放在根结点。选择一个最优特征，按照这一特征将训练数据集分割成子集，使得各个子集有一个在当前条件下最好的分类。如果这些子集已经能够被基本正确分类，那么构建叶结点，并将这些子集分到所对应的叶结点中去，如果还有子集不能被基本正确分类，那么就对这些子集选择新的最优特征，继续对其进行分割，构建相应的结点。如此递归地进行下去，直至所有训练数据子集被基本正确分类，或者没有合适的特征为止。最后每个子集都被分到叶结点上，即都有了明确的类。这就生成了一棵决策树。

从上述过程中就可以看出，决策树的生成是一个递归过程。在决策树基本算法中，有三种情形会导致递归返回

当前结点包含的样本全属于同一类别，无需划分
当前属性集为空，或是所有样本在所有属性上取值相同，无法划分
当前结点包含的样本集合为空，不能划分

在第二种情形下，我们把当前结点标记为叶结点，并将其类别设定为该结点所含样本最多的类别。在第三种情形下，同样把当前结点标记为叶结点，但将其类别设定为其父结点所含样本最多的类别。这两种情形的处理实质不同：第二种情况是在利用当前结点的后验分布，而第三种情况则是把父结点的样本分布作为当前结点的先验分布。

以上方法生成的决策树可能对训练数据有很好的分类能力，但对未知的测试数据却未必有很好的分类能力，即可能发生过拟合现象。我们需要对已生成的树自下而上进行剪枝，将树变得更简单，从而使它具有更好的泛化能力。具体地，就是去掉过于细分的叶结点，使其回退到父结点，甚至更高的结点，然后将父结点或更高的结点改为新的叶结点。如果特征数量很多，也可以在决策树学习开始的时候，对特征进行选择，只留下对训练数据有足够分类能力的特征。

可以看出，决策树学习算法包含特征选择、决策树的生成与决策树的剪枝过程。由于决策树表示一个条件概率分布，所以深浅不同的决策树对应着不同复杂度的概率模型。决策树的生成对应于模型的局部选择，决策树的剪枝对应于模型的全局选择。决策树的生成只考虑局部最优，相对地，决策树的剪枝则考虑全局最优。

决策树模型呈树形结构，在分类问题中，表示基于特征对实例进行分类的过程。它可以认为是if-then规则的集合，也可以认为是定义在特征空间与类空间上的条件概率分布。分类树具有良好的可读性与分类速度快的优点。分类树在学习时，利用训练数据，根据损失函数最小化的原则建立分类树模型，在预测时，对新的数据，利用分类树模型进行分类。决策树学习通常包括3个步骤：特征选择、决策树的生成和决策树的修剪。

决策树与if-then规则

可以将决策树看成一个if-then规则的集合：由决策树的根结点到叶结点的每一条路径构建一条规则，路径上内部结点的特征对应着规则的条件，而叶结点的类对应着规则的结论。决策树的路径或其对应的if-then规则集合具有一个重要的性质——互斥并且完备。这就是说，每一个实例都被一条路径或一条规则所覆盖，而且只被一条路径或一条规则所覆盖。这里所谓覆盖是指实例的特征与路径上的特征一致或实例满足规则的条件。

决策树与条件概率分布

决策树还表示给定特征条件下类的条件概率分布。这一条件概率分布定义在特征空间的一个划分上。将特征空间划分为互不相交的单元或区域，并在每个单元定义一个类的概率分布就构成了一个条件概率分布。决策树的一条路径对应于划分中的一个单元。决策树所表示的条件概率分布由各个单元给定条件下类的条件概率分布组成。假设 $X$ 为表示特征的随机变量， $Y$ 为表示类的随机变量，那么这个条件概率分布可以表示为 $P （ Y ∣ X ）$ 。 $X$ 取值于给定划分下单元的集合， $Y$ 取值于类的集合。各叶结点（单元）上的条件概率往往偏向某一个类，即属于某一类的概率较大。决策树分类时将该结点的实例强行分到条件概率大的那一类去。

决策树的优缺点

计算复杂度不高
对中间缺失值不敏感
解释性强，在解释性方面甚至比线性回归更强
与传统的回归和分类方法相比，决策树更接近人的决策模式
可以用图形表示，非专业人士也可以轻松理解
可以直接处理定性的预测变量而不需创建哑变量
决策树的预测准确性一般比回归和分类方法弱，但可以通过用集成学习方法组合大量决策树，显著提升树的预测效果

特征选择

特征选择在于选取对训练数据具有分类能力的特征。这样可以提高决策树学习的效率。如果利用一个特征进行分类的结果与随机分类的结果没有很大差别，则称这个特征是没有分类能力的。经验上扔掉这样的特征对决策树学习的精度影响不大。比如，我们希望构建一棵决策树来根据不同人的各种属性来预测每个人性别，那么对于属性“头发的长度”可能就要比属性“头发的颜色”所能包含的信息更多。因为一般来说，男生的头发要比女生的头发短，所以我们希望“头发的长度”这个属性处于决策树的上部。随着划分过程不断进行，我们希望决策树的分支结点所包含的样本尽可能属于同一类别，即结点的“纯度”（purity）越来越高。

信息增益

为了便于说明信息增益，先给出熵与条件熵的定义。在信息论与概率统计中，熵（entropy）是表示随机变量不确定性的度量。设 $X$ 是一个取有限个值的离散随机变量，其概率分布为:
$x_i) = p_i, i = 1, 2, \cdots, n$
则随机变量 $X$ 的熵定义为：
$-\sum_{i = 1}^n p_i \log p_i$
在上式中，若 $p_i = 0$ ，则定义 $p_i \log p_i = 0$ 。通常，上式中的对数以 $2$ 为底或以 $e$ 为底（自然对数），这时熵的单位分别称作比特（bit）或纳特（nat）.由定义可知，熵只依赖于 $X$ 的分布，而与 $X$ 的取值无关，所以也可将 $X$ 的熵记作 $H (p)$ ，即:
$-\sum_{i = 1}^n p_i \log p_i$
由此可见，熵越大，随机变量的不确定性就越大。从熵的定义可验证
$\leq H(p) \leq \log n$
当随机变量只取两个值，例如1，0时，即 $X$ 的分布为:
$p,\quad P(X = 0) = 1-p, \quad 0≤p≤1$
其熵为：
$H(p) = -p \log_2 p - (1 - p)\log_2 (1 - p)$
这时，熵 $H (p)$ 随概率 $p$ 变化的曲线如下图所示（单位为比特）：

当 $p = 0$ 或 $p = 1$ 时 $H (p) = 0$ ，随机变量完全没有不确定，当 $p = 0.5$ 时， $H (p) = 1$ ，熵取值最大，随机变量不确定性最大。

设有随机变量 $(X, Y)$ ，其联合概率分布为：

$x_i, Y = y_i) = p_{ij} \quad \begin{cases} i = 1, 2, \cdots, n \\ j = 1, 2, \cdots, m \end{cases}$

条件熵 $H (Y ∣ X)$ 表示在已知随机变量 $X$ 的条件下随机变量 $Y$ 的不确定性。随机变量 $X$ 给定的条件下随机变量 $Y$ 的条件熵（conditional entropy） $H (Y ∣ X)$ ，定义为 $X$ 给定条件下 $Y$ 的条件概率分布的熵对 $X$ 的数学期望：
$\sum_{i = 1}^n p_iH(Y|X = x_i)$

其中， $p_i = P(X = x_i), i = 1, 2, \cdots, n$ 。

当熵和条件熵中的概率由数据估计（如极大似然估计）得到时，所对应的熵与条件熵分别称为经验熵（empirical entropy）和经验条件熵（empirical conditional entropy）。此时，如果有0概率，令 $0\log0 = 0$ 。

信息增益（information gain）表示得知特征 $X$ 的信息而使得类 $Y$ 的信息的不确定性减少的程度。特征 $a_*$ 对训练数据集 $D$ 的信息增益 $g(D, a_*)$ ，定义为集合 $D$ 的经验熵 $H (D)$ 与特征 $a_*$ 给定条件下 $D$ 的经验条件熵 $H(D|a_*)$ 之差，即：
$g(D, a_*) = H(D) - H(D|a_*)$
一般地，熵 $H (Y)$ 与条件熵 $H (Y ∣ X)$ 之差称为互信息（mutual information）。决策树学习中的信息增益等价于训练数据集中类与特征的互信息。

决策树学习应用信息增益准则选择特征。给定训练数据集 $D$ 和特征 $a_*$ ，经验熵 $H (D)$ 表示对数据集 $D$ 进行分类的不确定性。而经验条件熵 $H(D|a_*)$ 表示在特征 $a_*$ 给定的条件下对数据集 $D$ 进行分类的不确定性。那么它们的差，即信息增益，就表示由于特征 $a_*$ 而使得对数据集 $D$ 的分类的不确定性减少的程度。显然，对于数据集 $D$ 而言，信息增益依赖于特征，不同的特征往往具有不同的信息增益，信息增益大的特征具有更强的分类能力。

根据信息增益准则的特征选择方法：对训练数据集（或子集） $D$ ，计算其每个特征的信息增益，并比较它们的大小，选择信息增益最大的特征。

设训练数据集为 $D$ ， $∣ D ∣$ 表示其样本容量，即样本个数。设有 $K$ 个类 $C_k$ ， $\cdots, K$ ， $C_k|$ 为属于类 $C_k$ 的样本个数， $\sum_{k=1}^K |C_k| = |D|$ 。设特征 $a_*$ 有 $V$ 个不同的取值 $\{ a_*^1, a_*^2, \cdots, a_*^V\}$ ，根据特征 $a_*$ 的取值将 $D$ 划分为 $V$ 个子集 $D_1, D_2, \cdots, D_V$ ， $D_t|$ 为 $D_t$ 的样本个数， $\sum_{i=1}^n|D_t|=|D|$ 。记子集 $D_i$ 中属于类 $C_k$ 的样本的集合为 $D_{ik}$ 。即 $D_{ik} = D_i \cap C_k$ ， $D_{ik}|$ 为 $D_{ik}$ 的样本个数。于是计算信息增益的方法如下：

信息增益
输入：训练数据集 $D$ 和特征 $a_*$
输出：特征 $a_*$ 对训练数据集 $D$ 的信息增益 $g(D, a_*)$
1.计算数据集 $D$ 的经验熵 $H (D)$ ： $-\sum_{k=1}^K \frac{C_k}{D}\log_2\frac{C_k}{D}$
2.计算特征 $A$ 对数据集 $D$ 的经验条件熵 $H (D ∣ A)$ ： $\sum_{i=1}^n\frac{|D_i|}{D}H(D_i)=-\sum_{i=1}^n\frac{|D_i|}{D}\sum_{k=1}^K\frac{D_{ik}}{D_i}\log_2\frac{D_{ik}}{D_i}$
3.计算信息增益： $g(D, a_*) = H(D) - H(D|a_*)$

一般而言，信息增益越大，则意味着使用特征 $a_*$ 来进行划分所获得的“纯度提升”越大。因此，我们可用信息增益来进行决策树的划分属性选择，即在上述决策树分类算法第10行使用 $a_* = \text{arg}\ \max_{a \in A}g(D, a)$ 选择最优划分属性。著名的ID3决策树学习算法就是以信息增益为准则来选择划分属性。

ID3算法的核心是在决策树各个结点上应用信息增益准则选择特征，递归地构建决策树。具体方法是：从根结点开始，对结点计算所有可能的特征的信息增益，选择信息增益最大的特征作为结点的特征，由该特征的不同取值建立子结点。之后，再对子结点递归地调用以上方法，构建决策树，直到所有特征的信息增益均很小或没有特征可以选择为止，最终得到一个决策树。ID3相当于用极大似然法进行概率模型的选择。

ID3算法
输入：训练数据集 $D$ ，特征集 $A$ ，阀值 $\epsilon$
输出：决策树 $T$
1.若 $D$ 中所有实例属于同一类 $C_k$ ，则 $T$ 为单结点树，并将类 $C_k$ 作为该结点的类标记，返回决策树 $T$
2.若 $\varnothing$ ，则 $T$ 为单结点树，并将 $D$ 中实例数最大的类 $C_k$ ，作为该结点的类标记，返回决策树 $T$
3.否则，计算 $A$ 中各特征对 $D$ 的信息增益，选择信息增益最大的特征 $a_*$
4.如果 $a_*$ 的信息增益小于阀值 $\epsilon$ ，则置 $T$ 为单结点树，并将 $D$ 中实例数最大的类 $C_k$ 作为该结点的类标记，返回决策树 $T$
5.否则，对 $a_*$ 的每一可能值 $a_*^v$ ，依 $a_* = a_*^v$ 将 $D$ 分割为若干非空子集 $D_v$ ，将 $D_v$ 中实例数最大的类作为标记，构建子结点，由结点及其子结点构成决策树 $T$ ，返回决策树 $T$
6.对第 $v$ 个子结点，以 $D_v$ 为训练集，以 $A - \{a_*\}$ 为特征集，递归地调用第(1)步~第(5)步，得到子树 $T_v$ ，并返回子树 $T_v$

信息增益率

信息增益值的大小是相对于训练数据集而言的，并没有绝对意义。在训练数据集的经验熵大的时候，信息增益值会偏大。反之，信息增益值会偏小。使用信息增益率（information gain ratio）可以对这一问题进行校正。这是特征选择的另一准则。特征 $a_*$ 对训练数据集 $D$ 的信息增益率 $g_g(D, a_*)$ 定义为其信息增益 $g(D, a_*)$ 与训练数据集 $D$ 的经验熵 $H (D)$ 之比：
$g_g(D, a_*) = \frac{g(D, a_*)}{H(D)}$

如前文所说，信息增益准则对可取值数目较多的属性有所偏好，为减少这种偏好可能带来的不利影响，著名的C4.5决策树算法不直接使用信息增益来选择划分属性，而是使用信息增益率来选择最优划分属性。

C4.5算法
输入：训练数据集 $D$ ，特征集 $A$ ，信息增益率阀值 $\epsilon$ ，信息增益阈值 $\alpha$
输出：决策树 $T$
1.若 $D$ 中所有实例属于同一类 $C_k$ ，则 $T$ 为单结点树，并将类 $C_k$ 作为该结点的类标记，返回决策树 $T$
2.若 $\varnothing$ ，则 $T$ 为单结点树，并将 $D$ 中实例数最大的类 $C_k$ ，作为该结点的类标记，返回决策树 $T$
3.否则，计算 $A$ 中各特征对 $D$ 的信息增益和信息增益率，在信息增益大于 $\alpha$ 的特征中选择信息增益率最大的特征 $a_*$
4.如果 $a_*$ 的信息增益率小于阀值 $\epsilon$ ，则置 $T$ 为单结点树，并将 $D$ 中实例数最大的类 $C_k$ 作为该结点的类标记，返回决策树 $T$
5.否则，对 $a_*$ 的每一可能值 $a_*^v$ ，依 $a_* = a_*^v$ 将 $D$ 分割为若干非空子集 $D_v$ ，将 $D_v$ 中实例数最大的类作为标记，构建子结点，由结点及其子结点构成决策树 $T$ ，返回决策树 $T$
6.对第 $v$ 个子结点，以 $D_v$ 为训练集，以 $A - \{a_*\}$ 为特征集，递归地调用第(1)步~第(5)步，得到子树 $T_v$ ，并返回子树 $T_v$

需注意的是，信息增益率准则对可取值数目较少的属性有所偏好，因此，C4.5算法并不是直接选择增益率最大的候选划分属性，而是使用了一个启发式的方法选择最优划分属性：先从候选划分属性中找出信息增益高于平均水平的属性，再从中选择增益率最高的.。

连续值处理

实际的任务中常会遇到连续属性，对于全部为连续属性的样本来说，我们一般使用回归决策树来处理。C4.5算法则采用了二分法对连续属性进行处理。由于连续属性的可取值数目不再有限，因此，不能直接根据连续属性的可取值来对结点进行划分。此时，连续属性离散化技术可派上用场。最简单的策略是采用二分法对连续属性进行处理。

给定样本集 $D$ 和连续属性 $a$ ，假定 $a$ 在 $D$ 上出现了 $n$ 个不同的取值，将这些值从小到大进行排序，记为 $\{a_1, a_2, a_3, \cdots, a_n\}$ 。基于划分点 $t$ 可将 $D$ 分为子集 $D_t^+$ 和 $D_t^-$ ，其中 $D_t^+$ 包含那些在属性 $a$ 上取值大于 $t$ 的样本，而 $D_t^-$ 则包含那些在属性 $a$ 上取值不大于 $t$ 的样本。显然，对相邻的属性取值 $a^i$ 与 $a^{i + 1}$ 来说， $t$ 在区间 $a^i, a^{i + 1})$ 中取任意值所产生的划分结果相同.因此，对连续属性 $a$ ，我们可考察包含 $n - 1$ 个元素的候选划分点集合：
$T_a = \{\frac{a^i + a^{i + 1}}{2} \ | \ 1 \leq i \leq n - 1\}$

即把区间 $a^i, a^{i + 1})$ 的中位点 $\frac{a^i + a^{i + 1}}{2}$ 作为候选划分点。然后，我们就可像离散属性值一样来考察这些划分点，选取最优的划分点进行样本集合的划分：
$\begin{aligned} Gain(D, a) &= \max_{t \in T_a} Gain(D, a, t)\\ & = \max_{t \in T_a} Ent(D) - \sum_{\lambda \in \{-, +\}} \frac{D^\lambda _t}{D}Ent(D^\lambda _t) \end{aligned}$

其中 $G a i n (D, a, t)$ 是样本集 $D$ 基于划分点 $t$ 二分后的信息增益。于是，我们就可选择使 $G a i n (D, a, t)$ 最大化的划分点。

缺失值处理

现实任务中常会遇到不完整样本，即样本的某些属性值缺失。且在属性数目较多的情况下，有时会有大量样本出现缺失值。如果简单地放弃不完整样本，仅使用无缺失值的样本来进行学习，显然是对数据信息极大的浪费。显然，有必要考虑利用有缺失属性值的训练样例来进行学习。

划分属性的选择

给定训练集 $D$ 和属性 $a$ ，令 $\tilde{D}$ 表示 $D$ 中在属性 $a$ 上没有缺失值的样本子集。显然，我们仅可根据 $\tilde{D}$ 来判断属性 $a$ 的优劣。假定属性 $a$ 有 $V$ 个可取值 $\{a^1, a^2, a^3, \cdots, a^V\}$ ，令 $\tilde{D}^v$ 表示 $\tilde{D}$ 中在属性 $a$ 上取值为 $a^v$ 的样本子集， $\tilde{D}_k$ 表示 $\tilde{D}$ 中属于第 $k$ 类 $\cdots, K)$ 的样本子集，则显然有 $\tilde{D} = \bigcup^K_{k = 1}\tilde{D}_k$ 与 $\tilde{D} = \bigcup^V_{v = 1}\tilde{D}^v$ 。假定我们为每个样本 $x$ 赋予一个权重 $\omega_x$ ，并定义：
$\begin{aligned} \rho & = \frac{\sum_{x \in \tilde{D}}\omega_x}{\sum_{x \in D}\omega_x}\\ \tilde{p}_k & = \frac{\sum_{x \in \tilde{D}_k}\omega_x}{\sum_{x \in \tilde{D}}\omega_x}\\ \tilde{r}_v & = \frac{\sum_{x \in \tilde{D}^v}\omega_x}{\sum_{x \in \tilde{D}}\omega_x} \end{aligned}$

直观地看，对于属性 $a$ ， $\rho$ 表示无缺失值样本所占的比例， $\tilde{p}_k$ 表示无缺失值样本中第 $k$ 类所占的比例， $\tilde{r}_v$ 则表示无缺失值样本中在属性 $a$ 上取值 $a^v$ 的样本所占的比例。基于上述定义，我们可将信息增益的计算式推广为：
$\begin{aligned} Gain(D, a) &= \rho \times Gain(\tilde{D}, a)\\ & = \rho \times (Ent(\tilde{D}) - \sum_{x = 1}^V \tilde{r}_v Ent((\tilde{D}^v)) \end{aligned}$

对样本进行划分

根据上面的定义，若样本 $x$ 在划分属性 $a$ 上的取值已知，则将 $x$ 划入与其取值对应的子结点，且样本权值在子结点中保持为 $\omega_x$ 。若样本 $x$ 在划分属性 $a$ 上的取值未知，则将 $x$ 同时划入所有子结点，且样本权值在与属性值 $a^v$ 对应的子结点中调整为 $\tilde{r}_v \times \omega_x$ 。直观地看，这就是让同一个样本以不同的概率划入到不同的子结点中去。

基尼指数

数据集 $D$ 的纯度还可用基尼值来度量：
$\sum^K_{k=1}p_k(1 - p_k) = 1 - \sum^K_{k=1}p_k^2$

其中， $K$ 为类别数， $p_k$ 为样本点属于第 $k$ 类的概率。对于二类分类问题，若样本点属于第1个类的概率是 $p$ ，则概率分布的基尼指数为：
$G i n i (D) = 2 p (1 - p)$

直观来说， $G i n i (D)$ 反映了从数据集 $D$ 中随机抽取两个样本，其类别标记不一致的概率。因此，$Gini(D) $越小，则数据集$ D $的纯度越高。对于属性$ a$的基尼指数定义为:
$Gini\_index(D, a) = \sum^V_{v = 1}\frac{D^v}{D}Gini(D^v)$

在CART算法中，我们在候选属性集合 $A$ 中，选择那个使得划分后基尼指数最小的属性作为最优划分属性，即： $a_* = \text{arg}\min_{a \in A}Gini\_index(D, a)$

在二类分类问题中，基尼指数 $G i n i (D)$ 、熵 $H (p)$ 的一半，和分类误差率的关系：

其中，横坐标表示概率 $p$ ，纵坐标表示损失。可以看出基尼指数和熵的一半的曲线很接近，都可以近似地代表分类误差率。

分类树的剪枝

剪枝（pruning）是决策树学习算法对付“过拟合”的主要手段。在决策树学习中，为了尽可能正确分类训练样本，结点划分过程将不断重复，有时会造成决策树分支过多，这时就可能因为对训练样本学习得“太好”了，以致于把训练集自身的一些特点当作所有数据都具有的一般性质而导致过拟合。因此，可通过主动去掉一些分支来降低过拟合的风险。决策树剪枝的基本策略有预剪枝和后剪枝。

预剪枝

预剪枝是指在决策树生成过程中，对每个结点在划分前先进行估计，若当前结点的划分不能带来决策树泛化性能提升，则停止划分并将当前结点标记为叶结点。停止决策树生长常用方法：

定义一个高度，当决策树达到该高度时就停止决策树的生长
达到某个节点的实例具有相同的特征向量，即使这些实例不属于同一类，也可以停止决策树的生长。这个方法对于处理数据的数据冲突问题比较有效。
定义一个阈值，当达到某个节点的实例个数小于阈值时就可以停止决策树的生长
定义一个阈值，通过计算每次扩张对系统性能的增益，并比较增益值与该阈值大小来决定是否停止决策树的生长。

后剪枝

后剪枝则是先从训练集生成一棵完整的决策树，然后自底向上地对非叶结点进行考察，若将该结点对应的子树替换为叶结点能带来决策树泛化性能提升，则将该子树替换为叶结点。相比于预剪枝，后剪枝更常用，因为在预剪枝中精确地估计何时停止树增长很困难。

错误率降低剪枝（REP，Reduced-Error Pruning）

错误率降低剪枝方法是一种比较简单的后剪枝的方法。在该方法中，可用的数据被分成两个样例集合：首先是训练集，它被用来形成学习到的决策树，另一个是与训练集分离的验证集，它被用来评估这个决策树在后续数据上的精度，确切地说是用来评估修剪这个决策树的影响。学习器可能会被训练集中的随机错误和巧合规律所误导，但验证集合不大可能表现出同样的随机波动。所以验证集可以用来对过度拟合训练集中的虚假特征提供防护检验。

错误率降低剪枝方法考将树上的每个节点作为修剪的候选对象，再决定是对该节点进行剪枝：

删除以此结点为根的子树
使其成为叶子结点
当修剪后的树对于验证集合的性能不比修剪前的树的性能差时，则确认删除该结点，否则恢复该节点

因为训练集合的过拟合，使得验证集合数据能够对其进行修正，反复进行上面的操作，从底向上的处理结点，删除那些能够提高验证集合的精度的结点，直到进一步修剪会降低验证集合的精度为止。

错误率降低剪枝方法是最简单的后剪枝方法之一，不过由于使用独立的测试集，原始决策树相比，修改后的决策树可能偏向于过度修剪。这是因为一些不会再次在测试集中出现的很稀少的训练集实例所对应的分枝在剪枝过程中往往会被剪枝。尽管错误率降低剪枝方法有这个缺点，不过错误率降低剪枝方法仍然作为一种基准来评价其它剪枝算法的性能。它对于两阶段决策树学习方法的优点和缺点提供了一个很好的学习思路。由于验证集合没有参与决策树的构建，所以用错误率降低剪枝方法剪枝后的决策树对于测试样例的偏差要好很多，能够解决一定程度的过拟合问题。

悲观错误剪枝（PEP，Pesimistic-Error Pruning）

悲观错误剪枝方法是根据剪枝前后的错误率来判定子树的修剪。它不需要像错误率降低修剪方法那样，需要使用部分样本作为测试数据，而是完全使用训练数据来生成决策树，并进行剪枝，即决策树生成和剪枝都使用训练集。

该方法引入了统计学中连续修正的概念弥补错误率降低剪枝方法中的缺陷，在评价子树的训练错误公式中添加了一个常数，即假定每个叶子结点都自动对实例的某个部分进行错误的分类。

把一颗具有多个叶子节点的子树的分类用一个叶子节点来替代的话，在训练集上的误判率肯定是上升的，但是在新数据上不一定。于是我们把子树的误判计算加上一个经验性的惩罚因子来做是否剪枝的考量指标。对于一个叶子节点，它覆盖了 $N$ 个样本，其中有 $E$ 个错误，那么该叶子节点的错误率为 $\frac{E + 0.5}{N}$ 。这个 $0.5$ 就是惩罚因子，那么一颗子树，它有 $L$ 个叶子节点，那么该子树的误判率估计为：
$\frac{\sum E_i +0.5 * L}{\sum N_i}$

这样的话，我们可以看到一棵子树虽然具有多个子节点，但由于加上了惩罚因子，所以子树的误判率计算未必占到便宜。剪枝后内部节点变成了叶子节点，其误判个数 $E$ 也需要加上一个惩罚因子，变成 $E + 0.5$ ，那么子树是否可以被剪枝就取决于剪枝后的错误 $E + 0.5$ 在的标准误差内。对于样本的误差率 $e$ ，我们可以根据经验把它估计成各种各样的分布模型，比如二项式分布、正态分布等。如果 $E+0.5 < E_i + SE(E_i)$ 则对 $i$ 进行剪枝。

代价复杂度剪枝（CCP，Cost-Complexity Pruning)

代价复杂度剪枝算法为子树 $T_t$ 定义了代价和复杂度，以及一个可由用户设置的衡量代价与复杂度之间关系的参数 $α$ 。其中，代价指在剪枝过程中因子树 $T_t$ 被叶节点替代而增加的错分样本，复杂度表示剪枝后子树 $T_t$ 减少的叶结点数， $α$ 则表示剪枝后树的复杂度降低程度与代价间的关系，定义为：
$\alpha = \frac{R(t) - R(T_t)}{|N_1| - 1}$

其中， $N_1|$ 是子树 $T_t$ 中的叶节点数， $R (t) = r (t) * p (t)$ 为结点 $t$ 的错误代价， $r (t)$ 为结点 $t$ 的错分样本率， $p (t)$ 为落入结点 $t$ 的样本占所有样本的比例， $R(T_t) = \sum R(i)$ 是子树 $T_t$ 错误代价， $i$ 为子树 $T_t$ 的叶节点。

对于完全决策树 $T$ 的每个非叶结点计算 $α$ 值，循环剪掉具有最小 $α$ 值的子树，直到剩下根节点，得到一系列的剪枝树 $\{ T_0, T_`1, T_2, \cdots, T_m \}$ ，其中 $T_0$ 为原有的完全决策树， $T_m$ 为根结点， $T_{i +1}$ 为对 $T_i$ 进行剪枝的结果
从子树序列中，根据真实的误差估计选择最佳决策树

	REP	PEP	CCP
剪枝方式	自底向上	自顶向下	自底向上
计算复杂度	$O (n)$	$O (n)$	$O(n^2)$
误差估计	测试集上误差估计	使用连续纠正	标准误差

回归树

建立回归树的过程大致可以分为两步：

将预测变量空间（ $X_1, X_2, X_3, \cdots, X_p$ ）的可能取值构成的集合分割成 $J$ 个互不重叠的区域 $\{ R_1, R_2, R_3, \cdots, R_J\}$
对落入区域 $R_j$ 的每个观测值作同样的预测，预测值等于 $R_j$ 上训练集的各个样本取值的算术平均数。

比如，在第一步中得到两个区域 $R_1$ 和 $R_2$ ， $R_1$ 中训练集的各个样本取值的算术平均数为10， $R_2$ 中训练集的各个样本取值的算术平均数为20。则对给定的观测值 $X = x$ ，若 $\in R_1$ ，给出的预测值为10，若 $\in R_2$ ，则预测值为20。

所以，类似于上述决策树分类算法的第(10)步，关键在于如何构建区域划分 $\{ R_1, R_2, R_3, \cdots, R_J\}$ 。事实上，区域的形状是可以为任意形状的，但出于模型简化和增强可解释性的考虑，这里将预测变量空间划分成高维矩形，我们称这些区域为称盒子。划分区域的目标是找到使模型的残差平方和 $R S S$ 最小的矩形区域 $\{ R_1, R_2, R_3, \cdots, R_J\}$ 。 $R S S$ 的定义为：
$\sum^J_{j=1} \sum_{i \in R_j}(y_i - \hat{y}_{R_j})^2$

其中， $\hat{y}_{R_j}$ 是第 $j$ 个矩形区域中训练集中各个样本取值的算术平均数。但是，要想考虑将特征空间划分为 $J$ 个矩形区域的所有可能性，在计算上是不可行的。因此一般采用一种自上而下的贪婪法：递归二又分裂。“自上而下”指的是它从树顶端开始依次分裂预测变量空间，每个分裂点都产生两个新的分支。“贪婪”意指在建立树的每一步中，最优分裂确定仅限于某一步进程，而不是针对全局去选择那些能够在未来进程中构建出更好的树的分裂点。

在执行递归二又分裂时，先选择预测变量 $X_j$ 和分割点 $s$ ，将预测变量空间分为两个区域 ${ X|X_j <s \}$ 和 $\{ X|X_j \geq s \}$ ，使 $R S S$ 尽可能地减小。也就是说，考虑所有预测变量 $X_1, X_2, X_3, \cdots, X_p$ 和与每个预测变量对应的 $s$ 的取值，然后选择预测变量和分割点，使构造出的树具有最小的 $R S S$ 。更详细地，对 $j$ 和 $s$ ，定义一对半平面：
$R_1(j, s) = \{ X|X_j <s \} \quad \text{和} \quad R_2(j, s) = \{ X|X_j \geq s \}$

寻找 $j$ 和 $s$ ，使得下式最小：
$\sum_{x_i \in R_1(j, s)}(y_i - \hat{y}_{R_1})^2 + \sum_{x_i \in R_2(j, s)}(y_i - \hat{y}_{R_2})^2$

重复上述步骤，寻找继续分割数据集的最优预测变量和最优分割点，使随之产生的区域中的 $R S S$ 达到最小。此时被分割的不再是整个预测变量空间，而是之前确定的两个区域之一。如此一来就能得到3个区域。接着进一步分割3个区域之一以最小化 $R S S$ 。这一过程不断持续，直到符合某个停止准则，如我们在分类决策树中讨论到的前剪枝中的停止准则。

区域 $\{ R_1, R_2, R_3, \cdots, R_J\}$ 产生后，就可以确定某一给定的测试数据所属的区域，并用这一区域训练集的各个样本取值的算术平均数作为与测试进行预测。

回归树的剪枝

上述方法生成的回归树会在训练集中取得良好的预测效果，却很有可能造成数据的过拟合，导致在测试集上效果不佳。原因在于这种方法产生的树可能过于复杂。一棵分裂点更少、规模更小（区域 $\{ R_1, R_2, R_3, \cdots, R_J\}$ 的个数更少）的树会有更小的方差和更好的可解释性（以增加微小偏差为代价）。针对上述问题，一种可能的解决办法是：仅当分裂使残差平方和 $R S S$ 的减小量超过某阀值时，才分裂树结点。这种策略能生成较小的树，但可能产生过于短视的问题，一些起初看来不值得的分裂却可能之后产生非常好的分裂。也就是说在下一步中， $R S S$ 会大幅减小。

因此，更好的策略是生成一棵很大的树 $T_0$ ，然后通过后剪枝得到子树。直观上看，剪枝的目的是选出使测试集预测误差最小的子树。子树的测试误差可以通过交叉验证或验证集来估计。但由于可能的子树数量极其庞大，对每一棵子树都用交叉验证来估计误差太过复杂。因此需要从所有可能的子树中选出一小部分再进行考虑。在回归树中，我们一般使用代价复杂度剪枝（CCP，Cost-Complexity Pruning），也称最弱联系剪枝（Weakest Link Pruning）。这种方法不是考虑每一棵可能的子树，而是考虑以非负调整参数 $\alpha$ 标记的一系列子树。每一个 $\alpha$ 的取值对应一棵子树 $\in T_0$ ，当 $\alpha$ 一定时，其对应的子树使下式最小：
$\sum_{m=1}^{|T|} \sum_{x_i \in R_m}(y_i - \hat{y}_{R_m})^2 + \alpha |T|$

这里的 $∣ T ∣$ 表示树 $T$ 的结点数， $R_m$ 是第 $m$ 个终端结点对应的矩形（预测向量空间的一个子集）， $\hat{y}_{R_m}$ 是与 $R_m$ 对应的预测值，也就是 $R_m$ 中训练集的平均值。调整系数 $\alpha$ 在子树的复杂性和与训练数据的契合度之间控制权衡。当 $\alpha = 0$ 时，子树 $T$ 等于原树 $T_0$ ，因为此时上式只衡量了训练误差。而当 $\alpha$ 增大时，终端结点数多的树将为它的复杂付出代价，所以使上式取到最小值的子树会变得更小。

当 $\alpha$ 从0开始逐渐增加时，树枝以一种嵌套的、可预测的模式被修剪，因此获得与 $\alpha$ 对应的所有子树序列是很容易的。可以用交又验证或验证集确定 $\alpha$ ，然后在整个数据集中找到与之对应的子树：

回归决策树算法
1.利用递归二叉分裂在训练集中生成一额大树，只有当终端结点包含的观测值个数低于某个最小值时才停止。
2.对大树进行代价复杂性剪枝，得到一系列最优子树，子树是 $\alpha$ 的函数。
3.利用 $K$ 折交叉验诞选择 $\alpha$ 。具体做法是将训练集分为 $K$ 折。对所有 $\cdots, K$ ，对训练集上所有不属于第 $k$ 折的数据重复第(1)步~第(2)步得到与 $\alpha$ 对应的子树，并求出上述子树在第 $k$ 折上的均方预测误差。
4.每个 $\alpha$ 会有相应的 $K$ 个均方预测误差，对这 $K$ 个值求平均，选出使平均误差最小的 $\alpha$ 。
5.找出选定的 $\alpha$ 在第(2)步中对应的子树。

决策树的基础即是上文所述的分类决策树与回归决策树，其预测准确性一般比回归和分类方法弱，但可以通过用集成学习方法组合大量决策树，显著提升树的预测效果，这些方法我将会在接下来的文章中继续阐述，欢迎关注学习讨论！

你可能感兴趣的:(机器学习,决策树,深入理解机器学习)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
遥感影像的切片处理 sand&wich 计算机视觉 python 图像处理
在遥感影像分析中，经常需要将大尺寸的影像切分成小片段，以便于进行详细的分析和处理。这种方法特别适用于机器学习和图像处理任务，如对象检测、图像分类等。以下是如何使用Python和OpenCV库来实现这一过程，同时确保每个影像片段保留正确的地理信息。准备环境首先，确保安装了必要的Python库，包括numpy、opencv-python和xml.etree.ElementTree。这些库将用于图像处理
ai绘画工具midjourney怎么下载？附作品管理教程设计师早上好
Midjourney是一款功能强大的AI绘画工具，它使用机器学习技术和深度神经网络等算法，可以生成各种艺术风格的绘画作品。在创意设计、广告宣传等方面有着广泛的应用前景。那么，ai绘画工具midjourney怎么下载？本文将为您介绍Midjourney的下载以及作品的相关管理。一、Midjourney下载Midjourney的下载非常简单，只需打开Midjourney官网（点击“GetMidjour
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
机器学习-聚类算法不良人龍木木机器学习机器学习算法聚类
机器学习-聚类算法1.AHC2.K-means3.SC4.MCL仅个人笔记，感谢点赞关注！1.AHC2.K-means3.SC传统谱聚类：个人对谱聚类算法的理解以及改进4.MCL目前仅专注于NLP的技术学习和分享感谢大家的关注与支持！
程序员架构师主要是做什么_程序员架构师：职责、技能与挑战绿色小猪
免费备考资料（2024年11月软考）：历年试题+视频课合集+电子讲义点击领取>>>免费刷题：2024年11月软考备考刷题点此进入>>>程序员架构师的角色定位在软件开发领域，程序员架构师是一个至关重要的角色。他们不仅需要深入理解业务需求，还要将其转化为技术上的解决方案。程序员架构师是项目中的技术领航者，负责制定和维护软件系统的整体架构，确保系统的可扩展性、可维护性和性能。他们的工作涉及从概念化到实现
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
深入理解Python中的“_,”：一个实用的语法特性小桥流水---人工智能 Python程序代码 Python常见bug 深度学习 python 开发语言
在Python编程中，你可能经常会看到一个特殊的标识符“_”。这个符号在Python中有多种用途，其具体含义依上下文而定。本文将探讨其中一种常见用法——作为一个临时性的占位符——并解释它在实际编程中的实用性和应用场景。1.“_”作为占位符在Python中，下划线（_）经常被用作一个临时或不重要的变量。当你在解包（unpacking）一个表达式但又不想使用其中某些值时，下划线可用作占位符。这样做的好
python中zeros用法_Python中的numpy.zeros()用法江平舟 python中zeros用法
numpy.zeros()函数是最重要的函数之一,广泛用于机器学习程序中。此函数用于生成包含零的数组。numpy.zeros()函数提供给定形状和类型的新数组,并用零填充。句法numpy.zeros(shape,dtype=float,order='C'参数形状：整数或整数元组此参数用于定义数组的尺寸。此参数用于我们要在其中创建数组的形状,例如(3,2)或2。dtype：数据类型(可选)此参数用于
【NumPy】深入解析numpy.zeros()函数二七830 numpy
欢迎莅临我的个人主页这里是我深耕Python编程、机器学习和自然语言处理（NLP）领域，并乐于分享知识与经验的小天地！博主简介：我是二七830，一名对技术充满热情的探索者。多年的Python编程和机器学习实践，使我深入理解了这些技术的核心原理，并能够在实际项目中灵活应用。尤其是在NLP领域，我积累了丰富的经验，能够处理各种复杂的自然语言任务。技术专长：我熟练掌握Python编程语言，并深入研究了机
【中国国际航空-注册_登录安全分析报告】风控牛验证码接口安全评测系列安全行为验证极验网易易盾智能手机
前言由于网站注册入口容易被黑客攻击，存在如下安全问题：1.暴力破解密码，造成用户信息泄露2.短信盗刷的安全问题，影响业务及导致用户投诉3.带来经济损失，尤其是后付费客户，风险巨大，造成亏损无底洞所以大部分网站及App都采取图形验证码或滑动验证码等交互解决方案，但在机器学习能力提高的当下，连百度这样的大厂都遭受攻击导致点名批评，图形验证及交互验证方式的安全性到底如何？请看具体分析一、中国国际航空PC
机器学习流形数据降维：UMAP 降维算法小嗷犬 Python 机器学习 #数据分析及可视化机器学习算法人工智能
✅作者简介：人工智能专业本科在读，喜欢计算机与编程，写博客记录自己的学习历程。个人主页：小嗷犬的个人主页个人网站：小嗷犬的技术小站个人信条：为天地立心，为生民立命，为往圣继绝学，为万世开太平。本文目录UMAP简介理论基础特点与优势应用场景在Python中使用UMAP安装umap-learn库使用UMAP可视化手写数字数据集UMAP简介UMAP（UniformManifoldApproximatio
七.正则化愿风去了
吴恩达机器学习之正则化（Regularization）http://www.cnblogs.com/jianxinzhou/p/4083921.html从数学公式上理解L1和L2https://blog.csdn.net/b876144622/article/details/81276818虽然在线性回归中加入基函数会使模型更加灵活，但是很容易引起数据的过拟合。例如将数据投影到30维的基函数上，模
机器学习-------数据标准化罔闻_spider 数据分析算法机器学习人工智能
什么是归一化，它与标准化的区别是什么？一作用在做训练时，需要先将特征值与标签标准化，可以防止梯度防炸和过拟合；将标签标准化后，网络预测出的数据是符合标准正态分布的—StandarScaler()，与真实值有很大差别。因为StandarScaler()对数据的处理是（真实值-平均值）/标准差。同时在做预测时需要将输出数据逆标准化提升模型精度：标准化/归一化使不同维度的特征在数值上更具比较性，提高分类
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
深入理解AOP（面向切面编程）及其应用自身就是太阳 java 开发语言 spring
目录AOP的核心概念AOP的实现方式1.定义DAO接口和实现类2.定义通知类3.开启AOP注解驱动切入点表达式通配符的使用：AOP通知类型案例分析：测量业务层接口的执行效率结论概述：AOP（Aspect-OrientedProgramming，面向切面编程）是一种编程范式，主要用于将共性功能从具体的业务逻辑中分离出来，实现松耦合的代码设计。其作用是在不修改原始代码的情况下，对现有方法进行增强，广泛
两种方法判断Python的位数是32位还是64位 sanqima Python编程电脑 python 开发语言
Python从1991年发布以来，凭借其简洁、清晰、易读的语法、丰富的标准库和第三方工具，在Web开发、自动化测试、人工智能、图形识别、机器学习等领域发展迅猛。 Python是一种胶水语言，通过Cython库与C/C++语言进行链接，通过Jython库与Java语言进行链接。 Python是跨平台的，可运行在多种操作系统上，包括但不限于Windows、Linux和macOS。这意味着用Py
使用最大边际相关性(MMR)选择示例：提高AI模型的多样性和相关性 aehrutktrjk 人工智能 easyui 前端 python
使用最大边际相关性(MMR)选择示例：提高AI模型的多样性和相关性引言在机器学习和自然语言处理领域，选择合适的训练示例对模型性能至关重要。最大边际相关性(MaximalMarginalRelevance,MMR)是一种优秀的示例选择方法，它不仅考虑了示例与输入的相关性，还注重保持所选示例之间的多样性。本文将深入探讨如何使用MMR来选择示例，以提高AI模型的性能和泛化能力。什么是最大边际相关性(MM
深入理解LangChain中的Callback机制：如何为Runnable添加回调函数 aehrutktrjk langchain python
深入理解LangChain中的Callback机制：如何为Runnable添加回调函数引言在LangChain中，回调（Callbacks）是一种强大的机制，允许开发者在运行过程中监控和干预各种操作。本文将深入探讨如何为Runnable对象添加回调函数，这对于调试、日志记录和性能监控等任务至关重要。我们将通过实际的代码示例来演示这一过程，并讨论一些常见的应用场景和最佳实践。理解Callback机制
LangChain集成指南:如何利用多样化的AI提供商 aehrutktrjk 人工智能 langchain python
LangChain集成指南:如何利用多样化的AI提供商引言在人工智能和机器学习领域,LangChain已成为一个强大而灵活的框架,允许开发者轻松集成各种AI服务提供商。本文将深入探讨LangChain的集成能力,介绍如何利用不同的AI提供商来增强你的应用程序,并提供实用的代码示例。LangChain集成概览LangChain支持多种AI提供商的集成,这些集成可以分为两类:独立包集成:这些提供商有独
机器学习VS深度学习 nfgo 机器学习
机器学习（MachineLearning,ML）和深度学习（DeepLearning,DL）是人工智能（AI）的两个子领域，它们有许多相似之处，但在技术实现和应用范围上也有显著区别。下面从几个方面对两者进行区分：1.概念层面机器学习：是让计算机通过算法从数据中自动学习和改进的技术。它依赖于手动设计的特征和数学模型来进行学习，常用的模型有决策树、支持向量机、线性回归等。深度学习：是机器学习的一个子领
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
【机器学习与R语言】1-机器学习简介苹果酱0567 面试题汇总与解析 java 中间件开发语言 spring boot 后端
1.基本概念机器学习：发明算法将数据转化为智能行为数据挖掘VS机器学习：前者侧重寻找有价值的信息，后者侧重执行已知的任务。后者是前者的先期准备过程：数据——>抽象化——>一般化。或者：收集数据——推理数据——归纳数据——发现规律抽象化：训练：用一个特定模型来拟合数据集的过程用方程来拟合观测的数据：观测现象——数据呈现——模型建立。通过不同的格式来把信息概念化一般化：一般化：将抽象化的知识转换成可用
Python前沿技术：机器学习与人工智能 4.0啊 Python 人工智能 python 机器学习
Python前沿技术：机器学习与人工智能一、引言随着科技的飞速发展，机器学习和人工智能（AI）已经成为了计算机科学领域的热门话题。Python作为一门易学易用且功能强大的编程语言，已经成为了这两个领域的首选语言之一。本文将深入探讨Python在机器学习和人工智能领域的应用，以及一些前沿技术和工具。二、Python机器学习基础2.1机器学习概述机器学习是人工智能（AI）的一个关键子集，它的核心在于让
PON光模块的独特类型和特性 audrey-luo 网络光模块 PON模块 PON技术
在当前互联网需求快速增长的背景下，PON光模块已成为实现光纤网络高速数据传输的重要组成部分。从住宅宽带到各种企业应用程序解决方案，PON光模块始终致力于实现高质量的数据传输与无缝通信。了解PON光模块的类型和特性对于深入理解现代网络基础设施至关重要，本文将探讨PON光模块的多种类型及其独特优势，展示其在现代网络连接中的重要作用。PON光模块又称无源光网络模块，是电信网络中的关键组件，有助于通过光纤
TOMCAT在POST方法提交参数丢失问题 357029540 java tomcat jsp
摘自http://my.oschina.net/luckyi/blog/213209 昨天在解决一个BUG时发现一个奇怪的问题，一个AJAX提交数据在之前都是木有问题的，突然提交出错影响其他处理流程。检查时发现页面处理数据较多，起初以为是提交顺序不正确修改后发现不是由此问题引起。于是删除掉一部分数据进行提交，较少数据能够提交成功。恢复较多数据后跟踪提交FORM DATA ，发现数
在MyEclipse中增加JSP模板删除-2008-08-18 ljy325 jsp xml MyEclipse
在D:\Program Files\MyEclipse 6.0\myeclipse\eclipse\plugins\com.genuitec.eclipse.wizards_6.0.1.zmyeclipse601200710\templates\jsp 目录下找到Jsp.vtl，复制一份，重命名为jsp2.vtl,然后把里面的内容修改为自己想要的格式，保存。然后在 D:\Progr
JavaScript常用验证脚本总结 eksliang JavaScript javaScript表单验证
转载请出自出处：http://eksliang.iteye.com/blog/2098985 下面这些验证脚本，是我在这几年开发中的总结，今天把他放出来，也算是一种分享吧，现在在我的项目中也在用！包括日期验证、比较，非空验证、身份证验证、数值验证、Email验证、电话验证等等...! &nb
微软BI（4） 18289753290 微软BI SSIS
1） Q:查看ssis里面某个控件输出的结果： A MessageBox.Show(Dts.Variables["v_lastTimestamp"].Value.ToString()); 这是我们在包里面定义的变量 2):在关联目的端表的时候如果是一对多的关系，一定要选择唯一的那个键作为关联字段。 3) Q：ssis里面如果将多个数据源的数据插入目的端一
定时对大数据量的表进行分表对数据备份酷的飞上天空大数据量
工作中遇到数据库中一个表的数据量比较大，属于日志表。正常情况下是不会有查询操作的，但如果不进行分表数据太多，执行一条简单sql语句要等好几分钟。。分表工具：linux的shell + mysql自身提供的管理命令原理：使用一个和原表数据结构一样的表，替换原表。 linux shell内容如下： =======================开始
本质的描述与因材施教永夜-极光感想随笔
不管碰到什么事,我都下意识的想去探索本质,找寻一个最形象的描述方式。我坚信,世界上对一件事物的描述和解释,肯定有一种最形象,最贴近本质,最容易让人理解 &
很迷茫。。。随便小屋随笔
小弟我今年研一，也是从事的咱们现在最流行的专业（计算机）。本科三流学校，为了能有个更好的跳板，进入了考研大军，非常有幸能进入研究生的行业（具体学校就不说了，怕把学校的名誉给损了）。先说一下自身的条件，本科专业软件工程。主要学习就是软件开发，几乎和计算机没有什么区别。因为学校本身三流，也就是让老师带着学生学点东西，然后让学生毕业就行了。对专业性的东西了解的非常浅。就那学的语言来说
23种设计模式的意图和适用范围 aijuans 设计模式
Factory Method 意图定义一个用于创建对象的接口，让子类决定实例化哪一个类。Factory Method 使一个类的实例化延迟到其子类。　　适用性当一个类不知道它所必须创建的对象的类的时候。　　当一个类希望由它的子类来指定它所创建的对象的时候。　　当类将创建对象的职责委托给多个帮助子类中的某一个，并且你希望将哪一个帮助子类是代理者这一信息局部化的时候。 Abstr
Java中的synchronized和volatile aoyouzi java volatile synchronized
说到Java的线程同步问题肯定要说到两个关键字synchronized和volatile。说到这两个关键字，又要说道JVM的内存模型。JVM里内存分为main memory和working memory。 Main memory是所有线程共享的，working memory则是线程的工作内存，它保存有部分main memory变量的拷贝，对这些变量的更新直接发生在working memo
js数组的操作和this关键字百合不是茶 js 数组操作 this关键字
js数组的操作; 一:数组的创建: 1、数组的创建 var array = new Array();　//创建一个数组 var array = new Array([size]);　//创建一个数组并指定长度，注意不是上限，是长度 var arrayObj = new Array([element0[, element1[, ...[, elementN]]]
别人的阿里面试感悟 bijian1013 面试分享工作感悟阿里面试
原文如下：http://greemranqq.iteye.com/blog/2007170 一直做企业系统，虽然也自己一直学习技术，但是感觉还是有所欠缺，准备花几个月的时间，把互联网的东西，以及一些基础更加的深入透析，结果这次比较意外，有点突然，下面分享一下感受吧！ &nb
淘宝的测试框架Itest Bill_chen spring maven 框架单元测试 JUnit
Itest测试框架是TaoBao测试部门开发的一套单元测试框架，以Junit4为核心，集合DbUnit、Unitils等主流测试框架，应该算是比较好用的了。近期项目中用了下，有关itest的具体使用如下： 1.在Maven中引入itest框架： <dependency> <groupId>com.taobao.test</groupId&g
【Java多线程二】多路条件解决生产者消费者问题 bit1129 java多线程
package com.tom; import java.util.LinkedList; import java.util.Queue; import java.util.concurrent.ThreadLocalRandom; import java.util.concurrent.locks.Condition; import java.util.concurrent.loc
汉字转拼音pinyin4j 白糖_ pinyin4j
以前在项目中遇到汉字转拼音的情况，于是在网上找到了pinyin4j这个工具包，非常有用，别的不说了，直接下代码： import java.util.HashSet; import java.util.Set; import net.sourceforge.pinyin4j.PinyinHelper; import net.sourceforge.pinyin
org.hibernate.TransactionException: JDBC begin failed解决方案 bozch ssh 数据库异常 DBCP
org.hibernate.TransactionException: JDBC begin failed: at org.hibernate.transaction.JDBCTransaction.begin(JDBCTransaction.java:68) at org.hibernate.impl.SessionImp
java-并查集（Disjoint-set）-将多个集合合并成没有交集的集合 bylijinnan java
import java.util.ArrayList; import java.util.Arrays; import java.util.HashMap; import java.util.HashSet; import java.util.Iterator; import java.util.List; import java.util.Map; import java.ut
Java PrintWriter打印乱码 chenbowen00 java
一个小程序读写文件，发现PrintWriter输出后文件存在乱码，解决办法主要统一输入输出流编码格式。读文件： BufferedReader 从字符输入流中读取文本，缓冲各个字符，从而提供字符、数组和行的高效读取。可以指定缓冲区的大小，或者可使用默认的大小。大多数情况下，默认值就足够大了。通常，Reader 所作的每个读取请求都会导致对基础字符或字节流进行相应的读取请求。因
[天气与气候]极端气候环境 comsci 环境
如果空间环境出现异变...外星文明并未出现,而只是用某种气象武器对地球的气候系统进行攻击,并挑唆地球国家间的战争,经过一段时间的准备...最大限度的削弱地球文明的整体力量,然后再进行入侵...... 那么地球上的国家应该做什么样的防备工作呢? &n
oracle order by与union一起使用的用法 daizj UNION oracle order by
当使用union操作时，排序语句必须放在最后面才正确，如下：只能在union的最后一个子查询中使用order by，而这个order by是针对整个unioning后的结果集的。So：如果unoin的几个子查询列名不同，如 Sql代码 select supplier_id, supplier_name from suppliers UNI
zeus持久层读写分离单元测试 deng520159 单元测试
本文是zeus读写分离单元测试,距离分库分表,只有一步了.上代码: 1.ZeusMasterSlaveTest.java package com.dengliang.zeus.webdemo.test; import java.util.ArrayList; import java.util.List; import org.junit.Assert; import org.j
Yii 截取字符串(UTF-8) 使用组件 dcj3sjt126com yii
1.将Helper.php放进protected\components文件夹下。 2.调用方法： Helper::truncate_utf8_string($content,20,false); //不显示省略号 Helper::truncate_utf8_string($content,20); //显示省略号 &n
安装memcache及php扩展 dcj3sjt126com PHP
安装memcache tar zxvf memcache-2.2.5.tgz cd memcache-2.2.5/ /usr/local/php/bin/phpize (?) ./configure --with-php-confi
JsonObject 处理日期 feifeilinlin521 java json JsonOjbect JsonArray JSONException
写这边文章的初衷就是遇到了json在转换日期格式出现了异常 net.sf.json.JSONException: java.lang.reflect.InvocationTargetException 原因是当你用Map接收数据库返回了java.sql.Date 日期的数据进行json转换出的问题话不多说直接上代码 &n
Ehcache（06）——监听器 234390216 监听器 listener ehcache
监听器 Ehcache中监听器有两种，监听CacheManager的CacheManagerEventListener和监听Cache的CacheEventListener。在Ehcache中，Listener是通过对应的监听器工厂来生产和发生作用的。下面我们将来介绍一下这两种类型的监听器。
activiti 自带设计器中chrome 34版本不能打开bug的解决 jackyrong Activiti
在acitivti modeler中，如果是chrome 34，则不能打开该设计器，其他浏览器可以，经证实为bug，参考 http://forums.activiti.org/content/activiti-modeler-doesnt-work-chrome-v34 修改为，找到 oryx.debug.js 在最头部增加 if (!Document.
微信收货地址共享接口-终极解决 laotu5i0 微信开发
最近要接入微信的收货地址共享接口，总是不成功，折腾了好几天，实在没办法网上搜到的帖子也是骂声一片。我把我碰到并解决问题的过程分享出来，希望能给微信的接口文档起到一个辅助作用，让后面进来的开发者能快速的接入，而不需要像我们一样苦逼的浪费好几天，甚至一周的青春。各种羞辱、谩骂的话就不说了，本人还算文明。如果你能搜到本贴，说明你已经碰到了各种 ed
关于人才 netkiller.github.com 工作面试招聘 netkiller 人才
关于人才每个月我都会接到许多猎头的电话，有些猎头比较专业，但绝大多数在我看来与猎头二字还是有很大差距的。与猎头接触多了，自然也了解了他们的工作，包括操作手法，总体上国内的猎头行业还处在初级阶段。总结就是“盲目推荐，以量取胜”。目前现状许多从事人力资源工作的人，根本不懂得怎么找人才。处在人才找不到企业，企业找不到人才的尴尬处境。企业招聘，通常是需要用人的部门提出招聘条件，由人
搭建 CentOS 6 服务器 - 目录 rensanning centos
(1) 安装CentOS ISO（desktop/minimal）、Cloud（AWS/阿里云）、Virtualization（VMWare、VirtualBox）详细内容 (2) Linux常用命令 cd、ls、rm、chmod...... 详细内容 (3) 初始环境设置用户管理、网络设置、安全设置...... 详细内容 (4) 常驻服务Daemon
【求助】mongoDB无法更新主键 toknowme mongodb
Query query = new Query(); query.addCriteria(new Criteria("_id").is(o.getId())); &n
jquery 页面滚动到底部自动加载插件集合 xp9802 jquery
很多社交网站都使用无限滚动的翻页技术来提高用户体验，当你页面滑到列表底部时候无需点击就自动加载更多的内容。下面为你推荐 10 个 jQuery 的无限滚动的插件： 1. jQuery ScrollPagination jQuery ScrollPagination plugin 是一个 jQuery 实现的支持无限滚动加载数据的插件。 2. jQuery Screw S