Elenstone

机器学习最易懂之决策树(DecisionTree)模型详解与python代码实现

0 前言
1 决策树模型
2 决策树模型的学习
- 2.1 决策树学习流程
3 决策树的特征选择准则
- 3.1 信息增益
- 3.2 信息增益比或者增益率
- 3.3 基尼指数
- 3.4 最小均方误差
4 决策树的剪枝
- 4.1 预剪枝
- 4.2 后剪枝
- 4.3 一种简单的决策树学习的剪枝算法。
5 ID3算法生成决策树
6 C4.5算法生成决策树
7 CART算法
- 6.1 CART生成
- - 7.1.1 回归树的生成
  - 7.1.2 分类树的生成
- 7.2 CART剪枝
- - 7.2.1 剪枝形成一个子树序列
  - 7.2.2 在剪枝得到的子树序列中通过交叉验证选择最优子树
总结

0 前言

决策树，也可以称为判定树，是一种最基本的算法，可以用于分类，也可以用于回归（本文主要讲用于分类的）。用于分类主要是借助每一个叶子节点对应一种属性判定，通过不断的判定导出最终的决策；用于回归则是用均值函数进行多次二分，用子树中数据的均值进行回归。决策树的思想和我们日常思考问题的方式相同，首先考虑自己觉得最重要的因素，再考虑次要的因素，而这的因素就对应机器学习中的特征。例如，我们要判断一个西瓜的好坏，在进行判断时，通常会进行一系列的判断或者子决策：

我们先看看西瓜是什么颜色的，青绿色的西瓜一般都是好瓜，如果不是青绿色，大概率是不好的西瓜；
然后再看看西瓜的根蒂是什么形态，如果是蜷缩的，那么大概率是好瓜；
最后再听听敲西瓜的声音，如果是浊响，那么一般是好瓜。
将上诉过程用树形图表示出来：

如上，决策的形式用树的形式进行示意和编码，就形成了决策树。

1 决策树模型

分类决策树模型是一种描述对实例进行分类的树形结构。
决策树的组成部分：

结点：
- 内部结点：内部结点表示一个特征或属性，例如上图中的色泽、根蒂、敲声等。
- 叶节点：叶节点表示一个类别，例如上图中的好瓜，当然上面的例子是一个二分类问题，决策树也可以用于多分类。
有向边：表示对于特征的值，例如上图的对于色泽的属性值是青绿。

用决策树进行分类，从根节点开始，对实例的某一特征进行测试，根据测试结果，将实例分配到其子节点进行下一个特征的测试；如此递归地对实例进行测试并分配，直至达到叶节点；最后将实例分到叶节点的类别中。
可以将决策树看成一个if-then规则的集合（早期人工智能几乎都是if-then的规则结构）。其实决策树在进行判断时也是if-then的结构。

2 决策树模型的学习

决策树学习，假设给定训练数据集
$D={(\boldsymbol{x}_1,y_1),(\boldsymbol{x}_2,y_2),...,(\boldsymbol{x}_N,y_N)}$
其中， $\boldsymbol{x}_i=(x_i^{(1)},x_i^{(2)},...,x_i^{(n)})$ 为输入实例，即一个特征向量，n为特征个数， $x_i^{(j)}$ 表示第i个实例的第j个特征的取值； $y_i\in \{1,2,...,K\}$ 是类别标记，一个有K个类别；N是训练集实例的个数。
学习的目标是：根据给定的训练数据集构建一个决策树模型，使它能够对实例进行正确的分类。

决策树学习在本质上是从训练数据中归纳出一组分类规则。与训练数据集不相矛盾的决策树（能对训练数据进行正确分类的决策树）可能有多个，也可能一个也没有。我们需要的是一个与训练数据集矛盾较小的决策树，同时具有很好的泛化能力。决策树模型的目标函数（损失函数）是正则化的极大似然函数，需要最小化目标函数。当损失函数确定以后，学习问题就变为在损失函数意义下选择最优决策树的问题。但是从所有可能的决策树种选取最优决策树是NP完全问题，所以现实中决策树学习算法通常采用启发式方法，近似求解这一最优化问题，这样得到的决策树不一定是最优的，有可能是次优的。

2.1 决策树学习流程

决策树学习的算法通常是一个递归地选择最优特征，并根据该特征对训练数据进行分割，使得对各个子数据集有一个最好的分类，这也对应着决策树的构建。

递归返回条件包括三种情况：

当前节点包含的样本全属于同一类别，无需划分。
当前没有未使用的特征，或是所有样本在所有未使用的特征上取值相同，无法划分。
当前节点包含的样本集合为空，不能划分。

在第2种情况下，我们把当前节点标记为叶节点，并将其类别设置为该节点所含样本最多的类别。
在第3种情况下，同样吧当前节点标记为叶节点，但其类别设定为其父节点所含样本最多的类别。
第2种情况是在利用当前节点的后验分布，而第3种情况则是把父节点的样本分布作为当前节点的先验分布。
以上方法生成的决策树可能对训练数据有很好的分类能力，但对未知的测试数据却未必有很好的分类能力，即可能发生过拟合。这时候需要对生成的额树自下而上进行剪枝，使树变得更简单，从而使它具有更好的额泛化能力。

如果特征数量过多，也可以在决策树学习开始的时候，对特征进行选择，只留下对训练数据有足够分类能力的特征。
决策树学习的算法包括：

特征选择
决策树的生成
决策树的剪枝

决策树学习常用的算法有ID3、C4.5与CART。

3 决策树的特征选择准则

对于决策树而言，每一个非叶子节点都是在进行一次属性的分裂，选择最佳的属性，把不同属性值的样本划分到不同的子树中，不断循环直到叶子节点。其中，如何选择最佳的属性是建树的关键，决策树的一个特征选择的指导思想是熵减思想。
特征选择在于选取对训练数据具有分类能力的特征，这样可以提高决策树学习的效率。如果利用一个特征进行分类的结果与随机分类的结果没有很大差别，则称这个特征是没有分类能力的，通常是直接扔掉这样的特征，对决策树学习的精度影响不大。通常特征选择的准则是信息增益或信息增益比。
先给出一个例子：

ID	年龄	有工作	有自己的房子	信贷情况	类别
1	青年	否	否	一般	否
2	青年	否	否	好	否
3	青年	是	否	好	是
4	青年	是	是	一般	是
5	青年	否	否	一般	否
6	中年	否	否	一般	否
7	中年	否	否	好	否
8	中年	是	是	好	是
9	中年	否	是	非常好	是
10	中年	否	是	非常好	是
11	老年	否	是	非常好	是
12	老年	否	是	好	是
13	老年	是	否	好	是
14	老年	是	否	非常好	是
15	老年	否	否	一般	否

上表由15个样本组成的贷款申请训练数据，包含4个特征：

年龄：青年，中年，老年；
有工作：是，否；
有自己的房子：是，否；
信贷情况：一般，好，非常好

最后一列是类别，是否同意贷款，有两个值：是，否。

3.1 信息增益

首先给出熵与条件熵的定义。
熵的定义：
在信息论与概率统计中，熵（entropy）是表示随机变量不确定性程度的一种度量方式，设 $\boldsymbol{X}$ 是一个取有限个值的离散随机变量，其概率分布为：
$P(\boldsymbol{X}=x_i)=p_i, \quad i=1,2,...,n$
则随机变量 $\boldsymbol{X}$ 的熵定义为：
$H(\boldsymbol{X})=-\sum\limits_{i=1}^np_i\log{p_i}$
其中，若 $p_i=0$ ，则定义 $0\log 0 = 0$ 。通常对数取以2为底或者以e为底，这时候熵的单位对应的称作比特（bit）或纳特（nat）。根据上式的定义可知：熵只依赖于随机变量 $\boldsymbol{X}$ 的分布，与 $\boldsymbol{X}$ 的具体取值无关。也可以将 $\boldsymbol{X}$ 的熵记作 $H (p)$ :
$H(p)=-\sum\limits_{i=1}^np_i\log{p_i}$
熵越大，随机变量的不确定性就越大，当随机变量完全不确定时， $\boldsymbol{X}$ 的取值有n种，此时熵最大；当随机变量完全确定时， $\boldsymbol{X}$ 的取值只有1种，此时熵最小，则：
$-1\times \log(1)\leq H(p) \leq -\sum\limits_{i=1}^n\frac{1}{n}\log(\frac{1}{n})$

$0\leq H(p) \leq \log(n)$

条件熵的定义：
设有随机变量 $(\boldsymbol{X},\boldsymbol{Y})$ ，其联合概率分布为：
$P(X=x_i,Y=y_i)=p_{ij},\quad i=1,2,...,n;\quad j=1,2,...,m$
条件熵 $H(\boldsymbol{Y}|\boldsymbol{X})$ 表示在已知随机变量 $\boldsymbol{X}$ 的条件下随机变量 $\boldsymbol{Y}$ 的不确定性。随机变量 $\boldsymbol{X}$ 给定的条件下随机变量 $\boldsymbol{Y}$ 的条件熵定义为 $\boldsymbol{X}$ 给定的条件下 $\boldsymbol{Y}$ 的条件概率分布的熵对 $\boldsymbol{X}$ 的数学期望：
$H(\boldsymbol{Y}|\boldsymbol{X})=\sum\limits_{i=1}^np_iH(\boldsymbol{Y}|X=x_i)$
其中， $p_i=P(X=x_i),\quad i=1,2,...,n$ 。
当熵和条件熵中的概率由数据估计（特别是极大似然估计）得到时，所对应的熵与条件熵分别称为经验熵（empirical entropy）和经验条件熵（empirical conditional entropy）。
信息增益（information gain）表示得知特征 $\boldsymbol{X}$ 的信息而使得类别 $\boldsymbol{Y}$ 的信息的不确定性减少的程度。信息增益的定义：特征A对训练数据集D的信息增益 $g (D, A)$ ，定义为集合D的经验熵 $H (D)$ 与特征A给定条件下D的经验条件熵 $H (D ∣ A)$ 之差，即：
$g (D, A) = H (D) - H (D ∣ A)$
一般的，熵 $H (Y)$ 与条件熵 $H (Y ∣ X)$ 之差称为互信息，决策树学习中的信息增益等价于训练数据集中类与特征的互信息。
决策树学习应用信息增益准则选择特征，给定训练数据集D和特征A，经验熵 $H (D)$ 表示对数据集D进行分类的不确定性；而经验条件熵 $H (D ∣ A)$ 表示在特征A给定的条件下对数据集D进行分类的不确定性。那么他们的差就是信息增益，表示由于特征A而使数据集D的分类不确定性减少的程度。显然对于不同的特征，有不同的信息增益，信息增益大的特征具有更强的分类能力。

根据信息增益准则的特征选择方法是：对训练数据集（或者数据集的子集）D，计算其每个特征的信息增益，并比较它们的大小，选择信息增益最大的特征。

设训练数据集为D， $∣ D ∣$ 表示样本容量，即样本个数。设有K个类 $C_k,\quad k=1,2,...,K$ ， $C_k|$ 为属于类 $C_k$ 的样本个数， $\sum\limits_{k=1}^K|C_k|=|D|$ 。设特征A有n个不同的取值 ${a_1,a_2,...,a_n\}$ ，根据特征A的取值将D划分为n个子集 $D_1,D_2,...,D_n$ ， $D_i|$ 表示 $D_i$ 的样本个数， $\sum\limits_{i=1}^n|D_i|=|D|$ 。记子集 $D_i$ 中属于类 $C_k$ 的样本的集合为 $D_{ik}$ ，即 $D_{ik}=D_i \cap C_k$ ， $D_{ik}|$ 为 $D_{ik}$ 的样本个数。
信息增益的计算方式：

输入：训练数据集D和特征A；
输出：特征A对训练数据集D的信息增益 $g (D, A)$
1 计算数据集D的经验熵 $H (D)$ :

$H(D)=-\sum\limits_{k=1}^K\frac{|C_k|}{|D|}\log_2\frac{|C_k|}{|D|}$

2 计算特征A对数据集D的经验条件熵 $H (D ∣ A)$

$H(D|A)=\sum\limits_{i=1}^n\frac{|D_i|}{|D|}H(D_i)=-\sum\limits_{i=1}^n\frac{|D_i|}{|D|}\sum\limits_{k=1}^K\frac{|D_{ik}|}{|D_i|}\log_2\frac{|D_{ik}|}{|D_i|}$

3 计算信息增益

$g (D, A) = H (D) - H (D ∣ A)$

求解上诉例子：
首先计算经验熵 $H (D)$ ：

$H(D)=-\frac{9}{15}\log_2\frac{9}{15}-\frac{6}{15}\log_2\frac{6}{15}=0.971$

然后甲酸各特征对数据集D的信息增益，分别以 $A_1,A_2,A_4,A_4$ 表示年龄、有工作、有自己的房子和信贷情况4个特征，则：

年龄	类别是的人数	类别否的人数	总人数
青年	3	2	5
中年	3	2	5
老年	4	1	5

$\begin{aligned} g(D,A_1)&=H(D)-[\frac{5}{15}H(D_1)+\frac{5}{15}H(D_2)+\frac{5}{15}H(D_3)]\\ &=0.971-[\frac{5}{15}(-\frac{2}{5}\log_2\frac{2}{5}-\frac{3}{5}\log_2\frac{3}{5})\\ &\quad\quad+\frac{5}{15}(-\frac{3}{5}\log_2\frac{3}{5}-\frac{2}{5}\log_2\frac{2}{5})\\ &\quad\quad+\frac{5}{15}(-\frac{4}{5}\log_2\frac{4}{5}-\frac{1}{5}\log_2\frac{1}{5})]\\ &=0.971-0.888\\ &=0.083 \end{aligned}$

有工作	类别是的人数	类别否的人数	总人数
是	5	0	5
否	4	6	10

$\begin{aligned} g(D,A_2)&=H(D)-[\frac{5}{15}H(D_1)+\frac{10}{15}H(D_2)]\\ &=0.971-[\frac{5}{15}(-\frac{5}{5}\log_2\frac{5}{5}-\frac{0}{5}\log_2\frac{0}{5})\\ &\quad\quad+\frac{10}{15}(-\frac{4}{10}\log_2\frac{4}{10}-\frac{6}{10}\log_2\frac{6}{10})]\\ &=0.324 \end{aligned}$

有自己的房子	类别是的人数	类别否的人数	总人数
是	6	0	6
否	3	6	9

$\begin{aligned} g(D,A_3)&=H(D)-[\frac{6}{15}H(D_1)+\frac{9}{15}H(D_2)]\\ &=0.971-[\frac{6}{15}(-\frac{6}{6}\log_2\frac{0}{6}-\frac{0}{5}\log_2\frac{0}{5})\\ &\quad\quad+\frac{9}{15}(-\frac{3}{9}\log_2\frac{3}{9}-\frac{6}{9}\log_2\frac{6}{9})]\\ &=0.971-0.051\\ &=0.420 \end{aligned}$

信贷情况	类别是的人数	类别否的人数	总人数
一般	1	4	5
好	4	2	6
非常好	4	0	4

$\begin{aligned} g(D,A_4)&=H(D)-[\frac{5}{15}H(D_1)+\frac{6}{15}H(D_2)+\frac{4}{15}H(D_3)]\\ &=0.971-[\frac{5}{15}(-\frac{4}{5}\log_2\frac{4}{5}-\frac{1}{5}\log_2\frac{1}{5})\\ &\quad\quad+\frac{6}{15}(-\frac{2}{6}\log_2\frac{2}{6}-\frac{4}{6}\log_2\frac{4}{6})\\ &\quad\quad+\frac{4}{15}(-\frac{4}{4}\log_2\frac{4}{4}-\frac{0}{4}\log_2\frac{0}{4})]\\ &=0.971-0.608\\ &=0.363 \end{aligned}$

比较各个特征对应的信息增益，特征 $A_3$ 的信息增益值最大，所有将特征 $A_3$ 作为最优特征。
信息增益是ID3算法使用的特征选择准则

3.2 信息增益比或者增益率

信息增益值的大小是相对于数据集而言的，并没有什么绝对意义。在分类问题苦难时，也就是说在训练数据集的经验熵较大的时候，信息增益就会偏大，反之，信息增益就会偏小。使用信息增益比可以对这一问题进行校正。信息增益比是特征选择的另一准则。（注：李航《统计学习方法》说的是C4.5算法用的是信息增益比，而周志华《机器学习》使用的是增益率，两者不同，个人偏向周志华。）
信息增益比定义为信息增益与经验熵之比：

$g_R(D,A)=\frac{g(D,A)}{H(D)}$

在周志华《机器学习》中C4.5用的是增益率，定义为：

$Gain_ration(D,A)=\frac{g(D,A)}{IV(a)}$

其中， $IV(a)=-\sum\limits_{v=1}^V\frac{|D^V|}{|D|}\log_2\frac{|D^V|}{|D|}$ ，称为特征A的固有值，特征A取值数目越多，即V越大， $I V (a)$ 的值通常也很大。需要注意的是，增益率准则对可取值数目较少的树形有所偏好，C4.5不是直接选择增益率最大的特征来划分，而是使用了一个启发式，从从候选特征中找出信息增益高于平均水平的特征，再从中选择增益率最高的。

3.3 基尼指数

首先定义基尼指数：
分类问题中，假设有 $K$ 个类，样本点属于第 $k$ 类的概率为 $p_k$ ，则概率分布的基尼指数定义为：
$Gini(p)=\sum\limits_{k=1}^Kp_k(1-p_k)=1-\sum\limits_{k=1}^Kp_k^2$
对于二分类问题，若样本属于第一个类的概率是 $p$ ，则概率分布的基尼指数为：
$G i n i (p) = 2 p (1 - p)$
对于给定的样本集合D，其基尼指数为：
$Gini(D)=1-\sum\limits_{k=1}^K(\frac{|C_k|}{|D|})^2$
这里， $C_k$ 是D中属于第 $k$ 类的样本子集，K是类的个数。
如果样本集合D根据特征A是否取某一可能值 $a$ 被分割成 $D_1$ 和 $D_2$ 两部分，即：
$D_1=\{(x,y)\in D|A(x)=a\},\quad D_2=D-D_1$
则在特征A的条件下，集合D的基尼指数定义为：
$Gini(D,A)=\frac{|D_1|}{|D|}Gini(D_1)+\frac{|D_2|}{|D|}Gini(D_2)$

基尼指数 $G i n i (D)$ 表示集合D的不确定性，基尼指数 $G i n i (D, A)$ 表示经过 $A = a$ 分割后集合D的不确定性。基尼指数值越大，样本集合的不确定性也就越大，这一点与熵相似。

如图，显示了二分类问题中基尼指数、熵之半（即 $\frac{1}{2}H(p)$ ）和分类误差率之间的关系，横坐标表示概率 $p$ ，纵坐标表示损失，可以看出基尼指数和熵之半的曲线很接近，都可以近似地代表分类误差率。

3.4 最小均方误差

4 决策树的剪枝

决策树生成算法递归地产生决策树，直到不能继续下去为止。这样产生的树，往往对训练数据的分类很正确，但对未知的测试数据的分类却没那么准确，即出现过拟合现象，例如ID3算法。过拟合的原因在于学习时过多考虑如何提高对训练数据的正确分类，从而构建出过于复杂的决策树，解决这个问题多的办法是考虑决策树的复杂度，对已生成的决策树进行简化，简化的过程称为剪枝。具体来讲，剪枝从已生成的树上裁掉一些子树或者叶节点，并将其根节点或者父节点作为新的叶节点，从而简化分类树模型。
决策树剪枝的策略有：

预剪枝
后剪枝

4.1 预剪枝

预剪枝是指在决策树生成过程中，对每个节点在划分前先进行估计，若当前节点的划分不能带来决策树泛化能力的提升，则停止划分并将当前节点标记为叶节点。

怎么判断决策树泛化能力是否提升呢？
通常的做法是将训练集分成两部分，一部分用来训练，记作训练集，另一部分用来验证分类的效果，记作验证集。
过程：首先从根节点开始，直接选取训练数据中类别最多的那一类作为根节点的类别，即所有数据都判断为这一类别，现在用验证集的数据来判断分类的效果，计算分类正确的准确率。然后按照信息增益准则来选取第一个最优特征，按照这个特征来生成一颗只有两层的决策树，然后用验证集的数据来判断分类效果，若当前准确率低于根节点的准确率，则直接取根节点作为决策树，也就是减掉生成的分支，所有数据都分成一类；若当前准确率高于根节点的准确率，则说明依据最优特征划分比不划分的效果好。然后按照这个方法递归下去。
周志华《机器学习中的例子》

第一张图是未剪枝的图，按照信息增益准则生成的决策树，第二章是边生成边剪枝的决策树。可以发现，预剪枝使得决策树的很多分支都没有“展开”，这不仅降低了过拟合的风险，还显著减少了决策树的训练时间开销和测试时间开销。但是另一方面，有些分支的当前划分虽然不能够提升泛化性能、甚至可能导致泛化性能暂时下降，但在其基础上进行的后续划分却有可能导致性能显著提高。预剪枝基于贪心本质禁止有些分支展开，给预剪枝决策树带来了欠拟合的风险。

4.2 后剪枝

后剪枝先从训练集生成一颗完整的决策树，然后自底向上地对非叶节点进行考察，若将该节点对应的子树替换为叶节点能带来决策树泛化性能提升，则将该子树替换为叶节点。仍然按照上一节讲的泛化性能评估方式来评估后剪枝的泛化性能。

首先从最底层的叶节点开始，用验证集来评估泛化性能，42.9%；然后去掉“纹理”引出的叶节点，将“纹理”标记为纹理那个节点的样本中类别最多的分类，用验证集的数据来评估泛化能力，57.1%，可以看出剪枝后的性能更好，所以选择剪枝。然后递推下去，直到剪枝不能提升性能为止，注意当从底层开始到一定程度后不能再剪枝时，需要换个叶节点继续。

对比两张图可以看出，后剪枝决策树通常比预剪枝决策树保留了更多的分支。一般情形下，后剪枝决策树的欠拟合风险很小，娿性能往往优于预剪枝决策树。但后剪枝过程是在生成完全决策树之后进行的，并且要自底向上地对树中的所有非叶节点进行逐一考察，因此其训练时间开销比未剪枝决策树和预剪枝决策树都要大得多。

4.3 一种简单的决策树学习的剪枝算法。

决策树的剪枝往往通过极小化决策树整体的损失函数或者代价函数来实现。设树T的叶节点个数为 $∣ T ∣$ ，在未剪枝之前是分类类别的个数，但是现在剪枝了就不是了， $t$ 是树T的叶节点，该叶节点上有 $N_t$ 个样本点，其中k类的样本点有 $N_{tk}$ 个，其中 $k = 1, 2, . . ., K$ ， $K$ 是分类类别的个数， $H_t(T)$ 为叶节点 $t$ 上的经验熵， $\alpha \geq 0$ 是参数，则决策树学习的损失函数可以定义为：

$C_{\alpha}(T)=\sum\limits_{t=1}^{|T|}N_tH_t(T)+\alpha |T|$

其中，经验熵为：

$H_t(T)=-\sum\limits_k\frac{N_{tk}}{N_t}\log\frac{N_{tk}}{N_t}$

令 $C(T)=\sum\limits_{t=1}^{|T|}N_tH_t(T)=-\sum\limits_{t=1}^{|T|}\sum\limits_{k=1}^KN_{tk}\log\frac{N_{tk}}{N_t}$ ，有：

$C_{\alpha}(T)=C(T)+\alpha |T|$

$C (T)$ 表示模型对训练数据的预测误差，即模型与训练数据的拟合程度， $∣ T ∣$ 表示模型的复杂程度，参数 $\alpha$ 控制两者之间的影响，较大的参数选择较简单的模型，较小的参数选择较复杂的模型， $\alpha =0$ 表示只考虑模型与训练数据的拟合程度，不考虑模型的复杂程度。
剪枝，就是 $\alpha$ 确定之后，选择损失函数最小的模型，即损失函数最小的子树。不难想到， $\alpha$ 的值确定后，形成的决策树越大，与训练数据的拟合效果较好，但是模型复杂度较高，较容易发生过拟合。
可以看出，决策树生成只考虑了通过提高信息增益（或信息增益比）对训练数据进行更好的拟合，而决策树剪枝通过优化损失函数还考虑了减小模型复杂度。决策树生成学习局部的模型，而决策树剪枝学习整体的模型。
损失函数的极小化等价于正则化的极大似然估计，所以利用损失函数最小原则进行剪枝就是用正则化的极大似然估计进行模型选择。
剪枝算法流程：

5 ID3算法生成决策树

ID3算法的核心在决策树各个节点上应用信息增益准则选择特征，递归地构建决策树。
具体方法：

开始：在根节点，计算所有可能的特征的信息增益，选择信息增益最大的特征作为根节点的特征；
递归：对子节点递归地调用以上方法，构建决策树；
最终：知道所有特征的信息增益均很小或者没有特征可以选择为止，最终得到一个决策树。

ID3相当于用极大似然法进行概率模型的选择
ID3算法流程：

根据前文例子，根节点选择 $A_3$ 特征，因为 $A_3$ 特征（是否有自己的房子）的增益值最大， $A_3$ 特征有两个取值，生成两个子节点，然后将训练数据集分为两个子集：

有自己的房子：一共6人，记为样本集 $D_1$
没有自己的房子：一共9人，记为样本集 $D_2$

由于样本集 $D_1$ 都是同一类别，即“是”，可以贷款，就将这一个节点变成叶节点，标记为“是”。
$D_2$ 样本集中的数据不属于同一类别，则需要从特征 $A_1,A_2,A_4$ 中选择一个新的特征，使信息增益最大。
$\begin{aligned} g(D_2,A_1)&=H(D_2)-H(D_2|A_1)=0.918-0.667=0.251\\ g(D_2,A_2)&=H(D_2)-H(D_2|A_2)=0.918\\ g(D_2,A_3)&=H(D_2)-H(D_2|A_3)=0.474 \end{aligned}$

选择信息增益最大的特征 $A_2$ （有工作）作为节点的特征，由于特征 $A_2$ 有两个取值，生成两个子节点，同时将D_2分成两个子集，记为： $D_1^’,D_2^’$ ，其中 $D_1^’$ 对应有工作，包含3个样本，它们属于同一类，即“是”，将这个节点变成叶节点，标记为“是”； $D_2^’$ 对应无工作，包含6个样本，它们也属于同一类，即“否”，将这个节点变成叶节点，标记为“否”。这样使用两个特征就可以将训练集分类完成，生成的决策树是：

ID3算法只有树的生成，所以这个算法生成的树容易产生过拟合。

6 C4.5算法生成决策树

C4.5算法与ID3算法相似，C4.5算法对ID3算法进行了改进，C4.5在生成的过程中，用信息增益比来选择特征。
C4.5算法流程：

7 CART算法

分类与回归树（classification andregression tree， CART）模型是由Breiman等人在1984年提出的，是应用广泛的决策树学习方法。CART同样是由特征选择、树的生成以及剪枝组成，既可以用于分类，也可以用于回归。

CART是在给定输入随机变量X条件下输出随机变量Y的条件概率分布的学习方法，假设决策树是二叉树，内部节点特征的取值为“是”或“否”，左分支是取值为“是”的分支，右分支是取值为“否”的分支。这样的决策树等价于递归的二分每个特征，将输入空间即特征空间划分为有限个单元，并在这些单元上确定预测的概率分布，也就是在输入给定的条件下输出的条件概率分布。

CART算法由以下两步组成：

决策树生成：基于训练数据生成决策树，生成的决策树要尽量大；
决策树剪枝：用验证数据集对已生成的树进行剪枝并选择最优子树，这时用损失函数最小作为剪枝的标准。

6.1 CART生成

决策树的生成就是递归地构建二叉决策树的过程，对回归树用平方误差最小化准则，对分类树用基尼指数（Gini index）最小化准则，进行特征选择，生成二叉树。

7.1.1 回归树的生成

假设X与Y分别为输入和输出变量，并且Y是连续变量，给定训练数据集：
$D=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\}$
那么如何生成回归树呢？回归问题一般采用最小均方差作为损失，。在特征选择的同时会测试不同的二分阈值的最小均方误差，选择最优的特征和阈值，表示为：

$\min\limits_{j,s}[\min\limits_{c_1}\sum\limits_{x_i\in R_1(j,s)}(y_i-c_1)^2+\min\limits_{c_2}\sum\limits_{x_i\in R_2(j,s)}(y_i-c_2)^2]$

公式解释：
一个回归树对应着输入空间（即特征空间）的一个划分以及在划分的单元上的输出值，假设已知输入空间划分为M个单元 $R_1,R_2,...,R_M$ ，并且在每个单元 $R_m$ 上有一个固定的输出值 $c_m$ ，于是回归树模型可表示为：

$f(x)=\sum\limits_{m=1}^Mc_mI(x\in R_m)$

当输入空间的划分确定时，可以用平方误差 $\sum\limits_{x_i\in R_m}(y_i-f(x_i))^2$ 来表示回归树对于训练数据的预测误差，用平方误差最小的准则求解每个单元上的最优输出值。可以知道，单元 $R_m$ 上的 $c_m$ 的最优值 $\hat c_m$ 是 $R_m$ 上的所有输入实例 $x_i$ 对应的输出 $y_i$ 的均值，即：

$\hat c_m=ave(y_i|x_i\in R_m)$

问题是怎么样对输入空间进行划分，这里采用启发式的方法，选择第 $j$ 个变量 $x^{(j)}$ 和它的取值 $s$ ，作为切分变量和切分点，并定义两个区域：

$R_1(j,s)=\{x|x^{(j)}\leq s\},\quad R_2(j,s)=\{x|x^{(j)}> s\}$

然后寻找最优切分变量 $j$ 和最优切分点 $s$ 。具体的，求解：

$\min\limits_{j,s}[\min\limits_{c_1}\sum\limits_{x_i\in R_1(j,s)}(y_i-c_1)^2+\min\limits_{c_2}\sum\limits_{x_i\in R_2(j,s)}(y_i-c_2)^2]$

对固定输入变量 $j$ 可以找到最优切分点 $s$ .

$\hat c_1=ave(y_i|x_i\in R_1(j,s)),\quad \hat c_2=ave(y_i|x_i\in R_2(j,s))$

遍历所有输入变量，摘到最优的切分变量 $j$ ，构成一个对(j,s)，依此将输入空间划分为链各个区域。接着，对每个区域重复上述划分过程，知道满足停止条件为止，这样生成一颗回归树，这样的回归树通常称为最小二乘回归树。
最小二乘回归树生成算法流程：

7.1.2 分类树的生成

分类树用基尼指数选择最优特征，同时决定该特征的最优二值切分点。
CART生成算法流程：

求解上诉例子：
仍以 $A_1,A_2,A_3,A_4$ 表示年龄、工作、房子和信贷情况4个特征。再以1,2,3代表各自的特征值。
则特征 $A_1$ 的基尼指数：

$Gini(D,A_1=1)=\frac{5}{15}(2\times\frac{2}{5}\times(1-\frac{2}{5}))+\frac{10}{15}(2\times\frac{7}{10}\times(1-\frac{7}{10}))=0.44$

$Gini(D,A_1=2)=0.48$

$Gini(D,A_1=3)=0.44$

由于 $Gini(D,A_1=3)，$ Gini(D,A_1=1) $相等且最小，所以都可以作为特征$ A_1$的最优切分点。

由于特征 $A_2，A_3$ 的特征值只有两个，即切分点只有一个。

$Gini(D,A_2=1)=0.32$

$Gini(D,A_3=1)=0.27$

特征 $A_4$ 的基尼指数：

$\begin{aligned} Gini(D,A_4=1)&=0.36\\ Gini(D,A_4=2)&=0.47\\ Gini(D,A_4=3)&=0.32\\ \end{aligned}$

在特征 $A_4$ 中，选择 $A_4=3$ 作为最优切分点。
在所有特征当中， $Gini(D,A_3=1)=0.27$ 最小，所以选择特征 $A_3$ 作为最优特征， $A_3=1$ 为其最优切分点。于是根节点生成两个子节点，一个是叶节点。对另一个叶节点继续使用以上方法在剩余的特征 $A_1,A_2,A_4$ 中选择最优特征及其最优切分点，以此类推下去。

7.2 CART剪枝

CART剪枝算法从"完全生成"的决策树的底端减去一些子树，是决策树变小（模型变简单），从而能够对未知数据有更准确的预测。CART剪枝算法由两步组成：

首先从生成算法产生的决策树 $T_0$ 底端开始不断剪枝，直到 $T_0$ 的根节点，形成一个子树序列 ${T_0,T_1,...,T_n\}$
然后通过交叉验证法在独立的验证数据集上对子树序列进行测试，从中选择最优子树。

7.2.1 剪枝形成一个子树序列

在剪枝过程中，计算子树的损失函数：

$C_{\alpha}(T)=C(T)+\alpha |T|$

其中，T为任意子树， $C (T)$ 为对训练数据的预测误差（如基尼指数)， $∣ T ∣$ 为子树的叶结点个数， $\alpha \geq 0$ 为参数， $C_{\alpha}(T)$ 为参数是 $\alpha$ 时的子树T的整体损失。参数 $\alpha$ 权衡训练数据的合程度与模型的复杂度。

对固定的 $\alpha$ ，一定存在使损失函数 $C_{\alpha}(T)$ 最小的子树，将其表示为 $T_{\alpha}$ 。 $T_{\alpha}$ 在损失函数 $C_{\alpha}(T)$ 最小的意义下是最优的。容易验证这样的最优子树是唯一的。当 $\alpha$ 大的时候，最优子树 $T_{\alpha}$ 偏小；当 $\alpha$ 小的时候，最优子树 $T_{\alpha}$ 偏大。极端情况，当 $\alpha ＝0$ 时，整体树是最优的。当 $\alpha \to \infty$ 时，根结点组成的单结点树是最优的。

Breiman等人以用递归的方法对树进行剪枝，将 $\alpha$ 从小增大， $0＝\alpha_0＜\alpha_1＜…＜\alpha_n<+\infty$ ，产生一系列的区间 $[\alpha_i,\alpha_{i+1}),i=0,1,2,...,n$ ；剪枝得到的子树序列对应着区间 $\alpha \in[\alpha_i,\alpha_{i+1}),i=0,1,2,...,n$ 的最优子树序列 ${T_0,T_1,...,T_n\}$ ，序列中的子树是嵌套的。

具体地，从整体树 $T_0$ 开始剪枝，对 $T_0$ 的任意内部结点 $t$ ，以 $t$ 为单结点树的损失函数是：

$C_{\alpha}(t)=c(t)+\alpha$

以 $t$ 为根节点的子树 $T_t$ 的损失函数为：

$C_{\alpha}(T_t)=C(T_t)+\alpha|T|$

当 $\alpha=0或者\alpha$ 充分小时，有不等式:

$C_{\alpha}(T_t)Cα(Tt)<Cα(t)$

当 $\alpha$ 增大时，在某一 $\alpha$ 有：

$C_{\alpha}(T_t)=C_{\alpha}(t)$

当 $\alpha$ 再增大时：

$C_{\alpha}(T_t)>C_{\alpha}(t)$

只要 $\alpha=\frac{C(t)-C(T_t)}{|T_t|-1}$ ， $T_t$ 与 $t$ 有相同的损失函数值，而 $t$ 的节点少，因此 $t$ 比 $T_t$ 更可取，对 $T_t$ 进行剪枝。

为此，对 $T_0$ 中每一内部节点 $t$ ，计算：

$g(t)=\frac{C(t)-C(T_t)}{|T_t|-1}$

它表示剪枝后整体损失函数减少的程度。在 $T_0$ 中减去 $g (t)$ 最小的 $T_t$ ，将得到的子树作为 $T_1$ ，同时将最小的 $g (t)$ 设为 $\alpha_1$ 。 $T_1$ 为区间 $[\alpha_1,\alpha_2)$ 的最优子树。

如此剪枝下去，直至得到根节点，在这一过程中，不断增加 $\alpha$ 的值，产生新的区间。

7.2.2 在剪枝得到的子树序列中通过交叉验证选择最优子树

具体地，利用独立的验证数据集，测试子树序列 $T_0,T_1,...,T_n$ 中各棵子树的平方误差或基尼指数。平方误差或基尼指数最小的决策树被认为是最优的决策树。在子树序列中，每棵子树 $T_1,T_2,...,T_n$ 都对应于一个参数 $\alpha_1,\alpha_2,...,\alpha_n$ 。所以当最优子树 $T_k$ 确定时，对应的 $\alpha_k$ 也确定了，即得到最优决策树 $T_{\alpha}$
CART剪枝算法：

代码实现见下篇文章，或者去我的github

总结

优点：
- 可解释性好，易可视化，特征工程中可用特征选择。
- 样本复杂度，维度灾难。
缺点：
- 易过拟合，学习最优模型N-P难，贪心搜索局部最优。
- 虽然是非线性模型，但不支持异或逻辑。
- 数据不均衡时不适合决策树。
- 决策属性不可逆。

你可能感兴趣的:(机器学习,决策树,算法,剪枝,python)

Python虚拟环境和包管理，到底怎么选？ Python资讯站 python 开发语言 python学习编程学习虚拟环境搭建虚拟环境包包管理
包含编程资料、学习路线图、源代码、软件安装包等！【[点击这里]】！在Python开发中，虚拟环境和包管理工具是必不可少的利器。它们帮助我们隔离项目依赖，避免版本冲突，提高开发效率。然而，面对众多工具如"venv"、“virtualenv”、“conda”、“pipenv”、“poetry"和"uv”，许多开发者常常感到困惑：到底该选择哪一个？本文将从优势、使用方法和适用场景等方面，深度对比这些工具
Python包管理不再头疼：uv工具快速上手马岛 python uv 开发语言
Python包管理生态中存在多种工具，如pip、pip-tools、poetry、conda等，各自具备一定功能。而今天介绍的uv是Astral公司推出的一款基于Rust编写的Python包管理工具，旨在成为“Python的Cargo”。它提供了快速、可靠且易用的包管理体验，在性能、兼容性和功能上都有出色表现，为Python项目的开发和管理带来了新的选择。1.为什么用uv与其他Python中的包管
Java对比Python，谁才是编程王者？ Java学研大本营 python java 开发语言
Python和Java是目前编程最受欢迎的两种语言，本文从多角度比较二者的相同点和差异，帮助你更深入地了解两种语言的特点，最终能根据你自身的需求来进行选择。微信搜索关注《Java学研大本营》Python和Java是当今世界上最流行的两种编程语言。两者都被广泛用于各种行业和应用，从网络开发到机器学习再到数据分析。但是这两种语言哪个更好呢？在这本中，我们将多方面比较Python和Java，探索二者的历
利用python 执行统计模型: 渔好学 python
利用python执行统计模型:http://www.statsmodels.org/stable/index.html
Python广东广州二手房源爬虫数据可视化分析大屏全屏系统开题报告 2401_84688466 程序员信息可视化 python 爬虫
如果需要联系我，可以在CSDN网站查询黄菊华老师在文章末尾可以获取联系方式Python****广东广州二手房源爬虫数据可视化分析大屏全屏系统开题报告XXXX大学**/学校/**学院毕业论文（设计）开题报告书学生姓名所属学院学号专业班级论文（设计）题目Python广东广州二手房源爬虫数据可视化分析大屏全屏系统设计与实现指导教师姓名（职称）开题日期选题依据：1.研究背景与意义；2.国内外研究（应用与发
Python江苏南京二手房源爬虫数据可视化分析大屏全屏系统开题报告 2401_84562041 程序员信息可视化 python 爬虫
Python****江苏南京二手房源爬虫数据可视化分析大屏全屏系统开题报告XXXX大学**/学校/**学院毕业论文（设计）开题报告书学生姓名所属学院学号专业班级论文（设计）题目Python江苏南京二手房源爬虫数据可视化分析大屏全屏系统设计与实现指导教师姓名（职称）开题日期选题依据：1.研究背景与意义；2.国内外研究（应用与发展）现状。1**：研究背景与意义**Python江苏南京二手房源爬虫数据可
python和java的本质区别,python和java有什么关系 2301_81900386 python 开发语言人工智能
本篇文章给大家谈谈python和java的本质区别，以及python和java有什么关系，希望对各位有所帮助，不要忘了收藏本站喔。一、主要区别：1.Python比Java简单，学习成本低，开发效率高2.Java运行效率高于Python，尤其是纯Python开发的程序，效率极低3.Java相关资料多，尤其是中文资料4.Java版本比较稳定，Python2和3不兼容导致大量类库失效5.Java开发偏向
HarmonyNext深度解析：ArkUI高效渲染与性能优化实战披光人 harmonyOS ubuntu linux 运维
一、HarmonyNext渲染引擎技术演进（约1200字技术解析）HarmonyOSNext在UI渲染架构层面实现了重大突破，其创新的ArkUI渲染引擎采用分层异步架构设计。核心改进包括：原子化渲染管线采用基于Vulkan的跨平台渲染后端，通过原子化渲染指令拆分技术，实现绘制指令的并行执行能力。在华为Mate60系列实测中，复杂界面渲染延迟降低42%智能脏区检测机制基于机器学习的区域更新预测算法，
Python多版本环境管理UV 坐吃山猪 Python python uv 开发语言
Python多版本环境管理UV1-参考网址Python虚拟环境UV管理工具-官网Python虚拟环境UV管理工具-快速开始pyproject.toml使用指导2-核心知识点1）python项目维护requirements.txt2）python机器学习环境Anaconda3）python轻量级环境管理uv4）uvx快速上手使用3-上手实操1-安装UV虚拟环境管理工具UV官网安装教程#Windows
数据结构 -- 字符串 _安晓数据结构数据结构
字符串串的定义串，即字符串（String）是由零个或多个字符组成的有限序列，一般记为S=‘a1a2a3a4’（n≥0）其中，S是串名，单引号括起来的是字符序列是串的值；ai可以是字母、数字或是其他字符；串中字符的个数n称为串的长度。n=0时的串称为空串（用∅表示）。例：（不同语言可能使用的边界符不同，Java、c等使用双引号（“”）Python等使用单引号（’‘））S="HelloWorld！"T
Python湖南长沙二手房源爬虫数据可视化分析大屏全屏系统开题报告黄菊华老师大数据库可视化二手房源数据可视化系统
博主介绍：《Vue.js入门与商城开发实战》《微信小程序商城开发》图书作者，CSDN博客专家，在线教育专家，CSDN钻石讲师；专注大学生毕业设计教育和辅导。所有项目都配有从入门到精通的基础知识视频课程，免费项目配有对应开发文档、开题报告、任务书、PPT、论文模版等项目都录了发布和功能操作演示视频；项目的界面和功能都可以定制，包安装运行！！！在文章末尾可以获取联系方式Python湖南长沙二手房源爬虫
Java与Python详细比对 -- Java与Python优缺点知之为 python 开发语言 java
系列文章-Java与PythonPython和Java都是比较流行的编程语言，它们各自有着独特的特性和应用场景。python用途最多的是脚本，java用途最多的是web。文章目录系列文章目录-Java与Python前言一、Java与Python整体区别二、Java与Python详细区别2.1语法结构方面2.2编程特性方面2.3语言执行及内存管理方面2.4多线程及网络编程方面2.5开发工具及相关功能
Development Problems Based On PyTorch woxiwangxuehaocpp pytorch 深度学习人工智能
问题解决RuntimeError:unabletowritetofile:Nospaceleftondevice(28)问题描述：Traceback(mostrecentcalllast):File"/opt/conda/lib/python3.10/multiprocessing/queues.py",line244,in_feedobj=_ForkingPickler.dumps(obj)Fi
如何使用Flask或Django框架构建一个简单的Web应用？清水白石008 Python题库 python flask django 前端
如何使用Flask或Django框架构建一个简单的Web应用？Flask和Django是两个流行的PythonWeb框架，用于构建Web应用。Flask是一个轻量级、易于扩展的框架，而Django则是一个功能全面的框架，包含了更多开箱即用的工具和功能。下面将分别介绍如何使用Flask和Django构建一个简单的Web应用。使用Flask构建简单Web应用1.安装Flask首先，确保安装了Flask
Flask 高并发部署方案详细教程！爬遍天下无敌手
前言虽然标题写的是Flask，但是下面这个教程不仅仅只适用于Flask,还适用于其他Pythonweb框架，记得帮忙点赞！众所周知Flask是一个同步的框架，处理请求的时候是以单进程的方式，当同时访问的人数过多时，Flask服务就会出现阻塞的情况。就像我们买火车票一样，当买火车票的人多的时候，排队的人就会很多，队伍就会很长，相应的等待的时间会变得很长！因此Flask,Django，webpy等框架
flask mysql orm_Flask的ORM和查询操作碍事的尾巴 flask mysql orm
Flask的ORMSQLAlchemySQLAlchemy是Python编程语言下的一个嵌入式软件。提供了SQL工具包以及对象关系映射(ORM)工具。SQLAlchemy“采用简单的Python语言，为高效和高级的数据库访问设计，实现完整的企业级持久模型”。SQLAlchemy首次发行于2006年2月，并迅速地在Python社区中最广泛使用的ORM工具之一，不亚于Django的ORM框架。Flas
数据架构与机器学习：如何构建智能系统 AI天才研究院 AI大模型应用入门实战与进阶大数据人工智能语言模型 AI LLM Java Python 架构设计 Agent RPA
1.背景介绍机器学习（MachineLearning）是一种使计算机程序在未被明确编程的情况下，通过经验的学习自动改善其行为的技术。机器学习的目标是使计算机能够自主地从数据中学习，以便在未来的问题中做出更好的决策。数据架构（DataArchitecture）是一种用于有效管理、存储和处理数据的系统结构和组件。数据架构涉及到数据的收集、存储、处理和分析，以及数据的存储和传输。数据架构是构建智能系统的
解锁高性能Web应用：Gunicorn、Flask与Docker的高并发部署秘籍我是瓦力前端 gunicorn flask
引言在当今的互联网时代，高并发Web应用已成为许多企业的核心需求。无论是电商平台、社交网络还是实时数据分析系统，高并发能力直接影响到用户体验和业务成败。本文将带你深入探讨如何利用Gunicorn、Flask和Docker，实现高性能、高并发的Web应用部署。Gunicorn、Flask和Docker的基本概念Gunicorn：GreenUnicorn(简称Gunicorn)是一个PythonWSG
【python】setuptools Eternal-Student Python python 开发语言
setuptools是Python的一个核心工具包，用于构建、打包和分发Python项目。它是Python生态系统中最重要的工具之一，主要用于定义项目的元数据（如名称、版本、依赖等）以及构建和安装过程。以下是关于setuptools的详细介绍：1.setuptools的主要功能setuptools提供了以下核心功能：项目元数据管理：定义项目的名称、版本、作者、描述、依赖等信息。通过setup()函
【Visual Studio 2019 C++ 编译器的路径添加到系统 PATH 环境变量】 Eternal-Student Windows visual studio c++java
对于某些Python包，特别是那些涉及本地扩展或需要编译C/C++代码的包，需要一个支持C++开发的环境。VisualStudio是一个全面的开发环境，它提供了编译器、调试器以及其他许多工具，这些工具对于开发和编译C++代码非常有用。下载网址：ThankYouforDownloadingVisualStudioCommunityEdition(microsoft.com)以下是安装VisualSt
元组（tuple）转换为列表（list） Eternal-Student Python list windows 数据结构
在编程中，特别是在Python中，经常需要将元组（tuple）转换为列表（list）。元组通常使用圆括号()表示，如(x,y)，而列表使用方括号[]表示，如[x,y]。以下是如何将(x,y)转换为[x,y]的详细方法和示例。一、单个元组转换为列表方法1：使用list()函数Python提供了内置的list()函数，可以将元组直接转换为列表。示例代码：#定义一个元组tuple_point=(3,5)
【python】flask-Web 应用程序框架 3L_csdn #python flask python 前端 python web框架 http
目录简介一、简单示例二、Flask详细使用总结1、HTML转义2、路由2.1、使用route()装饰器将函数绑定到URL。2.2、变量规则2.3、唯一的URLs/重定向行为2.4、网址构建2.5、HTTP方法2.5、有json体返回的HTTPGET请求示例(请求中不带参数)2.6、有json体返回的HTTPGET请求示例(请求中带参数)简介Flask是一个轻量级的WSGIWeb应用程序框架。它旨在
超详细的Numpy基础教程！！！不会爬虫的闲鱼 numpy 数据分析 python
Numpy是一个开源的Python库，用于支持大型多维数组和矩阵运算，同时提供了大量的数学函数库。它是科学计算中非常重要的工具。Numpy在数据科学中非常重要，因为它提供了高效的数组处理能力和广泛的数学函数库，这对于处理大规模数据集、进行科学计算和机器学习等任务至关重要。一、安装与设置如何安装Numpypipinstallnumpy验证安装的方法importnumpyprint(numpy.__v
Pycharm中import torch报错解决方案（Python+Pycharm+Pytorch cpu版）波波仔86 人工智能 python pycharm pytorch import 解释器配置
pycharm环境搭建完毕后，编写一个py文件demo，importtorch报错，提示没有。设置python解释器：选择conda环境，使用现有环境，conda执行文件找到Anaconda安装路径下Scripts文件夹内的conda.exe，最后选择含有torch软件包的虚拟环境，题主创建名为pytorch。创建完解释器后，下方会显示出该解释器/虚拟环境下的所有软件包，看到有pytorch包即选
flask--基础知识点--6--flask高并发处理 Raging__Fire #flask python flask
Flask是一个轻量级的PythonWeb框架，适合构建中小型应用。但是，对于高并发场景，Flask本身可能需要一些辅助工具和配置来提升性能。以下是一些优化Flask应用以处理高并发的方法：1.使用WSGI服务器Flask自带的开发服务器性能和稳定性不足以应对生产环境中的高并发请求，可以考虑使用更强大的WSGI服务器，如：Gunicorn:一个基于Python的WSGIHTTP服务器。uWSGI:
基于NXP+FPGA轨道交通3U机箱结构牵引控制单元深圳信迈主板定制专家轨道交通 NXP+FPGA X86+FPGA fpga开发边缘计算人工智能大数据嵌入式硬件
基于NXP+FPGA轨道交通异步电机牵引控制单元(TCU-IM)异步电机牵引控制单元（TCU-IM）用于牵引逆变器-异步电机构成的牵引电传动系统，可采用车控或架控方式。执行高性能异步电机复矢量控制策略，具有响应迅速、有效可靠的防空转·滑行控制功能以及平稳、无冲击的带速重投技术。无速度传感器控制通过转速观察算法，推算出准确的转速和转子位置，在实际应用中，达到省去速度传感器的目的，降低成本并减少故障点
【python error】cannot import name ‘TorchDispatchMode‘ from ‘torch.utils._python_dispatch‘ Eternal-Student Jetson Orin NX Python python 开发语言
报错：cannotimportname‘TorchDispatchMode’from‘torch.utils._python_dispatch’(/home/nvidia/.conda/envs/pytorch/lib/python3.8/site-packages/torch/utils/_python_dispatch.py)File“/media/nvidia/Ubuntu/xxxxx/ev
全自动量化交易软件是否真的可靠？使用过程中有哪些潜在风险需要注意财云量化 python炒股自动化量化交易程序化交易全自动量化交易软件可靠性潜在风险数据准确性股票量化接口股票API接口
炒股自动化：申请官方API接口，散户也可以python炒股自动化（0），申请券商API接口python炒股自动化（1），量化交易接口区别Python炒股自动化（2）：获取股票实时数据和历史数据Python炒股自动化（3）：分析取回的实时数据和历史数据Python炒股自动化（4）：通过接口向交易所发送订单Python炒股自动化（5）：通过接口查询订单，查询账户资产股票量化，Python炒股，CSDN
JVM内存监控及调优分析闲着无聊整些资料 JVM jvm java linux
一、内存监控背景在做JVM内存分析前，需要堆JVM内存及垃圾回收算法和垃圾回收器有一定了解，具体可以参考我之前的一篇文章：常见的垃圾回收器及垃圾回收算法1.1、为什么要做内存监控我们在做开发的时候不可避免的会遇到一些问题，诸如下面这些问题：生产环境发生了内存溢出该如何处理？生产环境应该给服务器分配多少内存合适？如何对垃圾回收器的性能进行调优？生产环境CPU负载飙高该如何处理？生产环境出现死锁该如何
GC 频率和触发条件百里自来卷 jvm
在Java中，垃圾回收（GC）的频率和触发条件取决于GC算法、堆内存分配、对象生命周期以及JVM参数的配置。下面详细介绍这些影响因素：1.GC触发条件GC主要触发的情况如下：(1)年轻代GC（MinorGC/YoungGC）触发条件：Eden区满了：当新对象分配到Eden区，如果Eden区没有足够的空间分配新对象，就会触发MinorGC。Survivor空间不足：当存活对象从Eden复制到Surv
多线程编程之join()方法周凡杨 java JOIN 多线程编程线程
现实生活中，有些工作是需要团队中成员依次完成的，这就涉及到了一个顺序问题。现在有T1、T2、T3三个工人，如何保证T2在T1执行完后执行，T3在T2执行完后执行？问题分析：首先问题中有三个实体，T1、T2、T3，因为是多线程编程，所以都要设计成线程类。关键是怎么保证线程能依次执行完呢？ Java实现过程如下： public class T1 implements Runnabl
java中switch的使用 bingyingao java enum break continue
java中的switch仅支持case条件仅支持int、enum两种类型。用enum的时候，不能直接写下列形式。 switch (timeType) { case ProdtransTimeTypeEnum.DAILY: break; default: br
hive having count 不能去重 daizj hive 去重 having count 计数
hive在使用having count()是，不支持去重计数 hive (default)> select imei from t_test_phonenum where ds=20150701 group by imei having count(distinct phone_num)>1 limit 10; FAILED: SemanticExcep
WebSphere对JSP的缓存周凡杨 WAS JSP 缓存
对于线网上的工程，更新JSP到WebSphere后，有时会出现修改的jsp没有起作用，特别是改变了某jsp的样式后，在页面中没看到效果，这主要就是由于websphere中缓存的缘故，这就要清除WebSphere中jsp缓存。要清除WebSphere中JSP的缓存，就要找到WAS安装后的根目录。现服务
设计模式总结朱辉辉33 java 设计模式
1.工厂模式 1.1 工厂方法模式 (由一个工厂类管理构造方法) 1.1.1普通工厂模式(一个工厂类中只有一个方法) 1.1.2多工厂模式(一个工厂类中有多个方法) 1.1.3静态工厂模式(将工厂类中的方法变成静态方法) &n
实例：供应商管理报表需求调研报告老A不折腾 finereport 报表系统报表软件信息化选型
引言随着企业集团的生产规模扩张，为支撑全球供应链管理，对于供应商的管理和采购过程的监控已经不局限于简单的交付以及价格的管理，目前采购及供应商管理各个环节的操作分别在不同的系统下进行，而各个数据源都独立存在，无法提供统一的数据支持；因此，为了实现对于数据分析以提供采购决策，建立报表体系成为必须。业务目标 1、通过报表为采购决策提供数据分析与支撑 2、对供应商进行综合评估以及管理，合理管理和
mysql 林鹤霄
转载源：http://blog.sina.com.cn/s/blog_4f925fc30100rx5l.html mysql -uroot -p ERROR 1045 (28000): Access denied for user 'root'@'localhost' (using password: YES) [root@centos var]# service mysql
Linux下多线程堆栈查看工具(pstree、ps、pstack) aigo linux
原文：http://blog.csdn.net/yfkiss/article/details/6729364 1. pstree pstree以树结构显示进程$ pstree -p work | grep adsshd(22669)---bash(22670)---ad_preprocess(4551)-+-{ad_preprocess}(4552) &n
html input与textarea 值改变事件 alxw4616 JavaScript
// 文本输入框(input) 文本域(textarea)值改变事件 // onpropertychange(IE) oninput(w3c) $('input,textarea').on('propertychange input', function(event) { console.log($(this).val()) });
String类的基本用法百合不是茶 String
字符串的用法; // 根据字节数组创建字符串 byte[] by = { 'a', 'b', 'c', 'd' }; String newByteString = new String(by); 1,length() 获取字符串的长度 &nbs
JDK1.5 Semaphore实例 bijian1013 java thread java多线程 Semaphore
Semaphore类一个计数信号量。从概念上讲，信号量维护了一个许可集合。如有必要，在许可可用前会阻塞每一个 acquire()，然后再获取该许可。每个 release() 添加一个许可，从而可能释放一个正在阻塞的获取者。但是，不使用实际的许可对象，Semaphore 只对可用许可的号码进行计数，并采取相应的行动。 S
使用GZip来压缩传输量 bijian1013 java GZip
启动GZip压缩要用到一个开源的Filter：PJL Compressing Filter。这个Filter自1.5.0开始该工程开始构建于JDK5.0，因此在JDK1.4环境下只能使用1.4.6。 PJL Compressi
【Java范型三】Java范型详解之范型类型通配符 bit1129 java
定义如下一个简单的范型类， package com.tom.lang.generics; public class Generics<T> { private T value; public Generics(T value) { this.value = value; } }
【Hadoop十二】HDFS常用命令 bit1129 hadoop
1. 修改日志文件查看器 hdfs oev -i edits_0000000000000000081-0000000000000000089 -o edits.xml cat edits.xml 修改日志文件转储为xml格式的edits.xml文件，其中每条RECORD就是一个操作事务日志 2. fsimage查看HDFS中的块信息等 &nb
怎样区别nginx中rewrite时break和last ronin47
在使用nginx配置rewrite中经常会遇到有的地方用last并不能工作，换成break就可以，其中的原理是对于根目录的理解有所区别，按我的测试结果大致是这样的。 location / { proxy_pass http://test;
java-21.中兴面试题输入两个整数 n 和 m ，从数列 1 ， 2 ， 3.......n 中随意取几个数 , 使其和等于 m bylijinnan java
import java.util.ArrayList; import java.util.List; import java.util.Stack; public class CombinationToSum { /* 第21 题 2010 年中兴面试题编程求解：输入两个整数 n 和 m ，从数列 1 ， 2 ， 3.......n 中随意取几个数 , 使其和等
eclipse svn 帐号密码修改问题开窍的石头 eclipse SVN svn帐号密码修改
问题描述： Eclipse的SVN插件Subclipse做得很好，在svn操作方面提供了很强大丰富的功能。但到目前为止，该插件对svn用户的概念极为淡薄，不但不能方便地切换用户，而且一旦用户的帐号、密码保存之后，就无法再变更了。解决思路：删除subclipse记录的帐号、密码信息，重新输入
[电子商务]传统商务活动与互联网的结合 comsci 电子商务
某一个传统名牌产品，过去销售的地点就在某些特定的地区和阶层，现在进入互联网之后，用户的数量群突然扩大了无数倍，但是，这种产品潜在的劣势也被放大了无数倍，这种销售利润与经营风险同步放大的效应，在最近几年将会频繁出现。。。。如何避免销售量和利润率增加的
java 解析 properties-使用 Properties-可以指定配置文件路径 cuityang java properties
#mq xdr.mq.url=tcp://192.168.100.15:61618; import java.io.IOException; import java.util.Properties; public class Test { String conf = "log4j.properties"; private static final
Java核心问题集锦 darrenzhu java 基础核心难点
注意，这里的参考文章基本来自Effective Java和jdk源码 1)ConcurrentModificationException 当你用for each遍历一个list时，如果你在循环主体代码中修改list中的元素，将会得到这个Exception，解决的办法是： 1)用listIterator, 它支持在遍历的过程中修改元素， 2)不用listIterator, new一个
1分钟学会Markdown语法 dcj3sjt126com markdown
markdown 简明语法基本符号 *,-,+ 3个符号效果都一样，这3个符号被称为 Markdown符号空白行表示另起一个段落 `是表示inline代码，tab是用来标记代码段，分别对应html的code，pre标签换行单一段落( <p>) 用一个空白行连续两个空格会变成一个 <br> 连续3个符号，然后是空行
Gson使用二（GsonBuilder） eksliang json gson GsonBuilder
转载请出自出处：http://eksliang.iteye.com/blog/2175473 一.概述 GsonBuilder用来定制java跟json之间的转换格式二.基本使用实体测试类：温馨提示：默认情况下@Expose注解是不起作用的,除非你用GsonBuilder创建Gson的时候调用了GsonBuilder.excludeField
报ClassNotFoundException: Didn't find class "...Activity" on path: DexPathList gundumw100 android
有一个工程，本来运行是正常的，我想把它移植到另一台PC上，结果报： java.lang.RuntimeException: Unable to instantiate activity ComponentInfo{com.mobovip.bgr/com.mobovip.bgr.MainActivity}: java.lang.ClassNotFoundException: Didn't f
JavaWeb之JSP指令 ihuning javaweb
要点 JSP指令简介 page指令 include指令 JSP指令简介 JSP指令（directive）是为JSP引擎而设计的，它们并不直接产生任何可见输出，而只是告诉引擎如何处理JSP页面中的其余部分。 JSP指令的基本语法格式： <%@ 指令属性名="
mac上编译FFmpeg跑ios 啸笑天 ffmpeg
1、下载文件：https://github.com/libav/gas-preprocessor，复制gas-preprocessor.pl到/usr/local/bin/下，修改文件权限：chmod 777 /usr/local/bin/gas-preprocessor.pl 2、安装yasm-1.2.0 curl http://www.tortall.net/projects/yasm
sql mysql oracle中字符串连接 macroli oracle sql mysql SQL Server
有的时候，我们有需要将由不同栏位获得的资料串连在一起。每一种资料库都有提供方法来达到这个目的： MySQL: CONCAT() Oracle: CONCAT(), || SQL Server: + CONCAT() 的语法如下： Mysql 中 CONCAT(字串1, 字串2, 字串3, ...): 将字串1、字串2、字串3，等字串连在一起。请注意，Oracle的CON
Git fatal: unab SSL certificate problem: unable to get local issuer ce rtificate qiaolevip 学习永无止境每天进步一点点 git 纵观千象
// 报错如下： $ git pull origin master fatal: unable to access 'https://git.xxx.com/': SSL certificate problem: unable to get local issuer ce rtificate // 原因：由于git最新版默认使用ssl安全验证，但是我们是使用的git未设
windows命令行设置wifi surfingll windows wifi 笔记本wifi
还没有讨厌无线wifi的无尽广告么，还在耐心等待它慢慢启动么教你命令行设置笔记本电脑wifi： 1、开启wifi命令 netsh wlan set hostednetwork mode=allow ssid=surf8 key=bb123456 netsh wlan start hostednetwork pause 其中pause是等待输入，可以去掉 2、
Linux（Ubuntu）下安装sysv-rc-conf wmlJava linux ubuntu sysv-rc-conf
安装：sudo apt-get install sysv-rc-conf 使用：sudo sysv-rc-conf 操作界面十分简洁，你可以用鼠标点击，也可以用键盘方向键定位，用空格键选择，用Ctrl+N翻下一页，用Ctrl+P翻上一页，用Q退出。背景知识 sysv-rc-conf是一个强大的服务管理程序，群众的意见是sysv-rc-conf比chkconf
svn切换环境，重发布应用多了javaee标签前缀 zengshaotao javaee
更换了开发环境，从杭州，改变到了上海。svn的地址肯定要切换的，切换之前需要将原svn自带的.svn文件信息删除，可手动删除，也可通过废弃原来的svn位置提示删除.svn时删除。然后就是按照最新的svn地址和规范建立相关的目录信息，再将原来的纯代码信息上传到新的环境。然后再重新检出，这样每次修改后就可以看到哪些文件被修改过，这对于增量发布的规范特别有用。检出