风度78

机器学习入门基础-决策树

九、决策树

9.1 决策树原理

9.1.1 决策树概述

决策树(Decision Tree)是在已知各种情况发生概率的基础上，通过构成决策树来求取净现值的期望值大于等于零的概率，评价项目风险，判断其可行性的决策分析方法，是直观运用概率分析的一种图解法。由于这种决策分支画成图形很像一棵树的枝干，故称决策树。决策树是一个非常常见并且优秀的机器学习算法，它易于理解、可解释性强，其可作为分类算法，也可用于回归模型。

决策树将算法组织成一颗树的形式。其实这就是将平时所说的if-then语句构建成了树的形式。这个决策树主要包括三个部分：内部节点、叶节点和边。内部节点是划分的属性，边代表划分的条件，叶节点表示类别。构建决策树就是一个递归地选择内部节点，计算划分条件的边，最后到达叶子节点的过程。

图9-1决策树结构

决策树算法有以下7个特点：

(1) 决策树是从训练数据中学习得出一个树状结构的模型，通过做出一系列决策(选择)来对数据进行划分，这类似于针对一系列问题进行选择。

(2) 决策树属于判别模型。

(3) 决策树的决策过程就是从根节点开始，测试待分类项中对应的特征属性，并按照其值选择输出分支，直到叶子节点，将叶子节点的存放的类别作为决策结果。

(4) 决策树算法是一种归纳分类算法，它通过对训练集的学习，挖掘出有用的规则，用于对新数据进行预测。

(5) 决策树算法属于监督学习方法。

(6) 决策树归纳的基本算法是贪心算法，自顶向下来构建决策树。(贪心算法：在每一步选择中都采取在当前状态下最好优的选择。)

(7) 在决策树的生成过程中，分割方法即属性选择的度量是关键。

9.1.2 决策树算法思想

决策树的算法思想如下：

输入：训练数据集，特征集，阈值。

其中：数据集，特征，是数据集的熵，是中特征取第个值的样本子集，是数据集的熵，是数据集对特征的条件熵，是中属于第类的样本子集。是特征取值的个数，是类的个数。

输出：决策树。

(1) 如果中所有实例属于同一类，则置为单结点树，并将作为该结点的类，返回。

(2) 如果，则置为单结点树，并将中最多的类作为该节点的类，返回。

否则，根据相应公式计算中各个特征对的信息增益、信息增益率和基尼指数，选择最合适的特征。

(3) 如果的得分小于，则置为单结点树，并将作为该结点的类，返回。

否则，根据特征取值，对数据进行划分，继续递归构造决策树，返回。

建立决策树的关键，即在当前状态下选择哪个属性作为分类依据。

根据不同的目标函数，建立决策树主要有一下三种算法：ID3(Iterative Dichotomiser)、C4.5、CART(Classification And Regression Tree)。

9.2 ID3算法

9.2.1 ID3算法概述

ID3(Iterative Dichotomiser)算法最早是由罗斯昆(J. Ross Quinlan)于1975年提出的一种决策树构建算法，算法的核心是“信息熵”，期望信息越小，信息熵越大，从而样本纯度越低。ID3 算法是以信息论为基础，以信息增益为衡量标准，从而实现对数据的归纳分类。

算法是参考了奥卡姆剃刀(用较少的东西，同样可以做好事情)的原则：越是小型的决策树越优于大的决策树。

ID3 算法的核心思想就是以信息增益来度量特征选择，选择信息增益最大的特征进行分裂。算法采用自顶向下的贪婪搜索遍历可能的决策树空间(C4.5 也是贪婪搜索)。

其大致步骤为：

(1) 初始化特征集合和数据集合。

(2) 计算数据集合信息熵和所有特征的条件熵，选择信息增益最大的特征作为当前决策节点。

(3) 更新数据集合和特征集合(删除上一步使用的特征，并按照特征值来划分不同分支的数据集合)。

(4) 重复 2，3 两步，若子集值包含单一特征，则为分支叶子节点。

9.2.2 ID3划分标准

ID3 使用的分类标准是信息增益，它表示得知特征的信息而使得样本集合不确定性减少的程度。

信息增益越大表示使用特征来划分所获得的“纯度提升越大”。对信息增益率进行计算，会使用到信息熵、条件熵和信息增益等概念。

信息熵

信息熵是信息论中用于度量信息量的一个概念。一个系统越是有序，信息熵就越低；反之，一个系统越是混乱，随机变量的不确定性就越大信息熵就越高。所以，信息熵也可以说是系统有序化程度的一个度量。信息熵的公式如下：

表9-1训练数据

序号	年龄	有工作	有自己的房子	信贷情况	类别
0	青年	否	否	一般	否
1	青年	否	否	好	否
2	青年	是	否	好	是
3	青年	是	是	一般	是
4	青年	否	否	一般	否
5	中年	否	否	一般	否
6	中年	否	否	好	否
7	中年	是	是	好	是
8	中年	否	是	非常好	是
9	中年	否	是	非常好	是
10	老年	否	是	非常好	是
11	老年	否	是	好	是
12	老年	是	否	好	是
13	老年	是	否	非常好	是
14	老年	否	否	一般	否

以表9-1的数据为例，特征为：：“年龄”、：“有工作”、：“有自己的房子”、：“信贷情况”；标签为“类别”，这里只有“是、否”两类，因此代表类别，本训练数据总共有15个样本，因此，类别1有9个样本(类别为“是”)，类别2有6个样本(类别为“否”)，根据信息熵的公式，得到：

条件熵

针对某个特征，对于数据集的条件熵为：

是特征，是特征取值。

表9-1的训练数据按年龄特征划分：可以得到表9-2的结果:

表9-2按年龄划分的统计信息

年龄	数量	是	否
青年	5	2	3
中年	5	3	2
老年	5	4	1

根据表9-2计算得到的条件熵：

青年

中年

老年

年龄

信息增益

信息增益表示得知特征的信息条件下，信息不确定性减少的程度。

信息增益 = 信息熵 - 条件熵：

老年老年

同理可以求出其它特征的信息增益，选择信息增益最大的特征进行分裂。

9.2.3 ID3算法总结

ID3 算法的核心思想就是以信息增益来度量特征选择，选择信息增益最大的特征进行分裂。ID3算法有以下缺点：

(1) ID3 没有剪枝策略，容易过拟合。

(2) 信息增益准则对可取值数目较多的特征有所偏好，类似“编号”的特征其信息增益接近于1。

(3) 只能用于处理离散分布的特征。

(4) 没有考虑缺失值。

9.3 C4.5算法

9.3.1 C4.5算法概述

C4.5 算法是对 ID3 算法的改进，主要改进点如下：

(1) ID3选择属性用的是子树的信息增益， C4.5 算法最大的特点是克服了 ID3 对特征数目的偏重这一缺点，引入信息增益率来作为分类标准。

(2) 在决策树构造过程中进行剪枝，引入悲观剪枝策略进行后剪枝。

(3) 对非离散数据也能处理。

(4) 能够对不完整数据进行处理。通过将连续特征离散化，假设个样本的连续特征有个取值，C4.5 将其排序并取相邻两样本值的平均数，个取值总共个划分点，分别计算以该划分点作为二元分类点时的信息增益，并选择信息增益最大的点作为该连续特征的二元离散分类点。

对于缺失值的处理可以分为两个子问题：

(1) 在特征值缺失的情况下进行划分特征的选择？即，如何计算特征的信息增益率？C4.5 的做法是：对于具有缺失值特征，用没有缺失的样本子集所占比重来折算。

(2) 选定该划分特征，对于缺失该特征值的样本如何处理？即，到底把这个样本划分到哪个结点里？C4.5 的做法是：将样本同时划分到所有子节点，不过要调整样本的权重值，其实也就是以不同概率划分到不同节点中。

9.3.2 C4.5划分标准

C4.5用的是信息增益率作为划分标准，利用信息增益率可以克服信息增益的缺点，其公式为：

称为特征的固有值，是特征的取值个数。

继续使用表9-1的训练数据，综合利用信息熵和信息增益的公式，计算可得：

老年老年

则：

老年老年

这里需要注意，信息增益率对可取值较少的特征有所偏好(分母越小，整体越大)，因此 C4.5 并不是直接用增益率最大的特征进行划分，而是使用一个启发式方法：先从候选划分特征中找到信息增益高于平均值的特征，再从中选择增益率最高的。

9.3.3 C4.5剪枝处理

剪枝(Pruning)是决策树学习算法应对过拟合的主要手段。

在决策树学习中，为了尽可能正确分类训练样本，节点划分过程将不断地重复，有时候会造成决策树的分支过多，这时就可能因训练样本学的太好了，以至于把训练样本自身的一些特点当作所有数据都具有的一般性质而导致过拟合。因此，需要主动去掉一些分支来降低过拟合的风险。

剪枝策略

决策树剪枝的基本策略有预剪枝(Pre-Pruning)和后剪枝(Post-Pruning)：

(1) 预剪枝是指在决策树生成的过程中，对每个节点在划分前先进行估计，若当前节点的划分不能带来决策树泛化能力的提升，则停止划分并将当前节点标记为叶节点。预剪枝不仅可以降低过拟合的风险而且还可以减少训练时间，但另一方面它是基于“贪心”策略，会带来欠拟合风险。

(2) 后剪枝则是先从训练集生成一棵完整的决策树，然后自底向上地对非叶节点进行考察，若将该节点对应的子树替换为叶节点能带来决策树泛化性能的提升，则将该子树替换为叶节点。

剪枝案例

对于判断性能是否得到了提升，我们可以将数据集划分成两部分，一部分用于训练，另一部分用于验证，对性能进行评估。如我们对上面的西瓜数据集随机分成两部分，表9-3 是训练集，表9-4 是验证集：

表9-3 西瓜数据训练集

编号	色泽	根蒂	敲声	纹理	脐部	触感	好瓜
1	青绿	蜷缩	浊响	清晰	凹陷	硬滑	是
2	乌黑	蜷缩	沉闷	清晰	凹陷	硬滑	是
3	乌黑	蜷缩	浊响	清晰	凹陷	硬滑	是
6	青绿	稍蜷	浊响	清晰	稍凹	软粘	是
7	乌黑	稍蜷	浊响	稍糊	稍凹	软粘	是
10	青绿	硬挺	清脆	清晰	平坦	软粘	否
14	浅白	稍蜷	沉闷	稍糊	凹陷	硬滑	否
15	乌黑	稍蜷	浊响	清晰	稍凹	软粘	否
16	浅白	蜷缩	浊响	模糊	平坦	硬滑	否
17	青绿	蜷缩	沉闷	稍糊	稍凹	硬滑	否

表9-4西瓜数据验证集

编号	色泽	根蒂	敲声	纹理	脐部	触感	好瓜
4	青绿	蜷缩	沉闷	清晰	凹陷	硬滑	是
5	浅白	蜷缩	浊响	清晰	凹陷	硬滑	是
8	乌黑	稍蜷	浊响	清晰	稍凹	硬滑	是
9	乌黑	稍蜷	沉闷	稍糊	稍凹	硬滑	否
11	浅白	硬挺	清脆	模糊	平坦	硬滑	否
12	浅白	蜷缩	浊响	模糊	平坦	软粘	否
13	青绿	稍蜷	浊响	稍糊	凹陷	硬滑	否

预剪枝

预剪枝在节点划分前来确定是否继续增长，及早停止增长的主要方法有：

(1) 节点内数据样本低于某一阈值；

(2) 所有节点特征都已分裂；

(3) 节点划分前准确率比划分后准确率高。

假设我们按照信息增益的原则来进行属性的划分，可以得到如下的决策树：

图9-2 基于表生成未剪枝的决策树

首先，基于信息增益我们会选择“脐部”进行划分，产生 3 个分支，如上图的①。是否进行这个划分呢，这时候就需要对划分前后的性能进行评估。

在划分前所有的样本集中在根节点。若不进行划分，根据算法该节点被标记为叶节点，类别标记为训练样本数最多的类别(最多的样本的类不唯一时，可以任选其中一类)。假设我们将这个叶节点标记为好瓜(上表训练集中的正例与负例一样多，选择其中好瓜作为标签)，用上表中的测试集对这个单点决策树进行评估，那么编号{4,5,8}的样本被正确分类，另外四个样本被错误分类，于是验证集的精度为$。

图9-3 基于表生成预剪枝的决策树

在使用属性“脐部”划分之后，上图的②③④三个节点被标记为“好瓜”、“好瓜”、“坏瓜”。此时验证集中编号为{4,5,8,11,12}的样本被正确的分类，验证集的精度为。因此，可以选择用“脐部”对瓜进行有效的划分。

然后决策算法要对节点②进行划分，基于信息增益的原则选出属性“色泽”进行划分，可以看到青绿和乌黑的样本被划分为正例，浅白的样本被划分为负例。然而使用色泽进行划分之后，验证集中编号为{4,8,11,12}的样本被正确分类，可以看到与上面的相比，验证集编号为{5}的样本的分类结果由正确变成了错误，使得样本集的精度下降为57.1% 。因此，预剪枝策略禁止在②节点处划分。

对节点③我们使用“根蒂”进行划分，划分后验证集的精度不改变，没有能提升验证集的精度，因此，根据预剪枝的策略，禁止在③几点处进行划分。

对于节点④，所有的训练样本已经属于同一类别，因此不需要进行划分。

因此最终生成的决策树就是上图，验证集的精度为 71.4% 。这是一棵仅有一层的决策树，亦成为决策树桩(Decision Dtump)。

预剪枝的优点：对比剪枝前与剪枝后可以发现，预剪枝是的决策树的很多分支都没有“展开”，这不仅降低了过拟合的风险，还显著的降低了训练的时间开销和测试时间开销。

缺点：有些分支的当前划分虽然不能提升泛化性能、甚至是导致泛化性能的下降，但在其基础上进行后续的划分却有可能导致性能显著提高；预剪枝是基于贪心本质禁止这些分支展开，给预剪枝决策树带来了欠拟合的风险。

后剪枝

后剪枝在已经生成的决策树上进行剪枝，从而得到简化版的剪枝决策树。

C4.5 采用的悲观剪枝方法，用递归的方式从低往上针对每一个非叶子节点，评估用一个最佳叶子节点去代替这课子树是否有益。如果剪枝后与剪枝前相比其错误率是保持或者下降，则这棵子树就可以被替换掉。C4.5 通过训练数据集上的错误分类数量来估算未知样本上的错误率。

后剪枝决策树的欠拟合风险很小，泛化性能往往优于预剪枝决策树。但同时其训练时间会大的多。

后剪枝先从训练一棵完整的决策树，如上图的未剪枝的决策树，可以知道此时的验证集精度为 42.9%。

图9-4基于表生成未剪枝的决策树

后剪枝策略首先考察上图的⑥节点。将其领衔的分支剪除，相当于把节点⑥标记为叶节点。替换后的叶节点包含编号为{7,15}的训练样本，于是该节点被标记为“好瓜”，此时决策树验证集的精度提升到了57.1%，于是节点⑥进行后剪枝。如下图所示：

图9-5 基于表生成后剪枝的决策树

然后考察节点⑤，将其领衔的子树替换为叶节点，替换后的节点包含{6,7,15}的训练样例，叶节点类别标记为好瓜，此时验证集的精度为57.1%，因此不进行剪枝。

对节点②，将其领衔的子树替换为叶节点，则替换后的叶节点包含编号为{1,2,3,14}的训练样本，叶节点被标记为“好瓜”。此时验证集的精度为71.4%，因此，记性剪枝的操作。

对于节点③和①，若将其领衔的子树替换为叶节点，获得验证集精度分别为71.4%和42.9%，均没有提高，因此不进行剪枝。

最终得到的结果就是上图，验证集的精度为 71.4%。

对比预剪枝和后剪枝可以看出，后剪枝决策树通常比预剪枝决策树保留了更多的分支。

剪枝总结

一般情况下，后剪枝的欠拟合风险更小，泛化性能往往优于预剪枝决策树。但后剪枝决策过程是在生产完全决策树之后进行的，并且要自底向上的对树种的所有非叶子节点进行逐一考察，因此训练时间开销比未剪枝决策树和预剪枝决策树都要打很多。

9.3.4 C4.5算法总结

C4.5算法的核心思想就是以信息增益率来度量特征选择，选择信息增益率最大的特征进行分裂。C4.5算法有以下缺点：

(1) C4.5剪枝策略可以再优化。

(2) C4.5用的是多叉树，用二叉树效率更高。

(3) C4.5 只能用于分类。

(4) C4.5 使用的熵模型拥有大量耗时的对数运算，连续值还有排序运算。

(5) C4.5 在构造树的过程中，对数值属性值需要按照其大小进行排序，从中选择一个分割点，所以只适合于能够驻留于内存的数据集，当训练集大得无法在内存容纳时，程序无法运行。

9.4 CART算法

9.4.1 CART算法概述

CART(Classification and Regression Tree,分类回归树)，CART算法既可以用于创建分类树(Classification Tree)，也可以用于创建回归树(Regression Tree)。回归树算法上与分类树相似，在分类和回归时，其算法流程大致相同，但是其特征划分、输出预测结果等步骤是不同的。

CART分类时候用基尼指数来选择属性，CART回归时候用均方差来选择属性。

如果目标变量是离散的，称为分类树。

如果目标变量是连续的，称为回归树。

CART算法是一种二分递归分割技术，把当前样本划分为两个子样本，使得生成的每个非叶子结点都有两个分支，因此CART算法生成的决策树是结构简洁的二叉树。由于CART算法构成的是一个二叉树，它在每一步的决策时只能是“是”或者“否”，即使一个特征有多个取值，也是把数据分为两部分。

9.4.2 CART分类树

CART分类树输出的是样本的类别，属性选择的标准度量方法是基尼指数。

当基尼指数越小的时候，说明样本之间的差异性小，不确定程度低。基尼指数最小为根节点，逐节分裂。

ID3中使用了信息增益选择特征，增益大优先选择。C4.5中，采用信息增益率选择特征，减少因特征值多导致信息增益大的问题。CART分类树算法使用基尼指数来代替信息增益率，基尼指数代表了模型的不纯度，基尼指数越小，不纯度越低，特征越好。这和信息增益(比)相反。

对于决策树建立后做预测的方式，CART分类树采用叶子节点里概率最大的类别作为当前节点的预测类别。

基尼指数

基尼指数也称为基尼系数，表示在样本集合中一个随机选中的样本被分错的概率。

假设一个数据集中有个类别，第个类别的概率为，则基尼指数的表达式为：

上面的公式中，表示第个类别出现的概率，那么显然就是当前数据集中，除了第个类别以外的其他所有类别出现的概率，所以两者相乘就是当前数据集中，第个类别和其他所有类别都出现的概率，这个概率越高，数据集越不纯。

设代表特征集，样本集合的基尼指数：假设集合中有个类别，每个类别的概率是，其中表示类别的样本类别个数，表示样本总数，第个类别的数量为，则样本的基尼指数表达式为：

对于样本,如果根据特征集的某个值，把分成、到部分，则在特征集的条件下，的基尼指数表达式为：

2.离散值划分决策树的例子

根据表9-1的数据，应用CART算法，使用基尼指数划分，生成决策树：

根据公式：

青年

中年

老年

由于青年和老年相等，都为，且最小，所以青年和老年都可以选a作的最优切分点。

求特征和的基尼指数：

是

由于和只有一个切分点，所以它们就是最优切分点。

求特征的基尼指数：

非常好

好

一般

一般最小，所以一般为的最优切分点。

在、、、几个特征中，是最小，所以选择特征为最优特征，是为其最优切分点。于是根结点生成两个子结点，一个是叶结点。对另一个结点继续使用以上方法在、、中选择最优特征及其最优切分点，结果是是。依此计算得知，所得结点都是叶结点。

离散值处理

CART分类树算法对离散值的处理，采用的思路：不停地二分离散特征。

在ID3、C4.5，特征被选取建立决策树节点，如果它有多个类别我们会在决策树上建立一个多叉点，这样决策树是多叉树。CART采用的是不停的二分，决策树为二叉树。

假设特征有个离散值。分类标准是：每一次将其中一个特征分为一类，其他非该特征分为另一类。依照这个标准遍历所有分类情况，计算每个分类下的基尼指数，最后选择最小的作为最终的特征划分。

如图9-6，第1次取为类别1，那么剩下的特征 ,,……, 为类别2，由此遍历，第次取为类别1，那么剩下的特征为类别2。

CART的特征会多次参与节点的建立，而在ID3或C4.5的一颗子树中，离散特征只会参与一次节点的建立。

图9-6 CART算法对离散值的划分 4.连续值处理

具体思路：个样本的连续特征有个，从小到大排列，CART取相邻两样本值的平均数做划分点，一共取个，其中第个划分点表示为：。分别计算以这个点作为二元分类点时的基尼指数。选择基尼数最小的点为该连续特征的二元离散分类点。

比如取到的基尼指数最小的点为，则小于的值为类别1，大于的值为类别2，这样就做到了连续特征的离散化，接着采用基尼指数的大小来度量特征的各个划分点。

划分例子见图9-7。

图9-7 CART算法对连续值的划分

9.4.3 CART回归树

回归树：输出的是一个数值，特征选择采用均方差。

CART(Classification and Regression Tree,分类回归树)，从名字就可以看出其不仅可以用于分类，也可以应用于回归。其回归树的建立算法上与分类树部分相似，这里简单介绍下不同之处。

在回归模型中，我们使用常见的均方差度量方式，对于任意划分特征，对应的任意划分点

两边划分成的数据集和，求出使和各自集合的均方差最小，同时和的均方差之和最小所对应的特征和特征值划分点。表达式为：

其中，为数据集的样本输出均值，为数据集的样本输出均值。

相比ID3，CART遍历所有的特征和特征值，然后使用二元切分法划分数据子集，也就是每个节点都只会分裂2个分支。接着计算数据子集的总方差来度量数据子集的混乱程度，总方差越小数据子集越纯，最后选择总方差最小的划分方式对应的特征和特征值，而二元切分的依据就是将小于等于这个特征值和大于这个特征值的数据划分为两块。这里说的总方差一般就是通过数据子集的样本输出值的均方差乘以数据子集的样本个数来计算。最后的输出结果是取各叶子节点数据的中位数或均值。

9.4.4 CART剪枝处理

CART算法采用一种“基于代价复杂度的剪枝”方法进行后剪枝，这种方法会生成一系列树，每个树都是通过将前面的树的某个或某些子树替换成一个叶节点而得到的，这一系列树中的最后一棵树仅含一个用来预测类别的叶节点。然后用一种成本复杂度的度量准则来判断哪棵子树应该被一个预测类别值的叶节点所代替。

这种方法需要使用一个单独的测试数据集来评估所有的树，根据它们在测试数据集熵的分类性能选出最佳的树。

核心思想：

(1) 计算每一个结点的条件熵。

(2) 递归的从叶子节点开始往上遍历，减掉叶子节点，然后判断损失函数的值是否减少，如果减少，则将父节点作为新的叶子节点。

(3) 重复第二步，直到完全不能剪枝。

9.4.5 CART算法总结

CART算法既可以用于分类，也可以用于回归。在分类和回归时，其算法流程大致相同，但是其特征划分、树结构、使用数据和剪枝等方面是不同的。

1.特征划分

CART算法用基尼指数来选择属性(分类)，或用均方差来选择属性(回归)。

2.树结构

CART算法是一种二分递归分割技术，把当前样本划分为两个子样本，使得生成的每个非叶子结点都有两个分支，因此CART算法生成的决策树是结构简洁的二叉树。

3.使用数据

CART算法既可以使用连续型的数据，也可以使用离散型的数据，同时支持特征的多次使用。

4.剪枝

CART算法支持剪枝操作，采用一种“基于代价复杂度的剪枝”方法进行后剪枝。

9.5 决策树总结

9.5.1 三种决策树算法的差异

建立决策树主要有一下三种算法：ID3、C4.5 和 CART，总结对比下三者之间的差异。ID3、C4.5、CART这三种算法划分的基本标准、剪枝策略，总结如表9-5：

表9-5三种决策树算法的差异

算法	支持模型	树结构	特征选择	连续值处理	缺失值处理	剪枝	特征属性多次使用
ID3	分类	多叉树	信息增益	不支持	不支持	不支持	不支持
C4.5	分类	多叉树	信息增益率	支持	支持	支持	不支持
CART	分类回归	二叉树	基尼指数均方差	支持	支持	支持	支持

9.5.2 决策树的优缺点

1.优点

(1) 便于理解和解释。计算简单，树的结构可视化，可解释性强。

(2) 训练需要的数据少，不需要数据规范化。

(3) 能够处理连续型数据和离散型数据。

(4) 可自动忽略目标变量没有贡献的属性变量，也为判断属性变量的重要性，减少变量的数目提供参考。

(5) 比较适合处理有缺失属性的样本。

2.缺点

(1) 容易造成过拟合，需要采用剪枝操作。

(2) 忽略了数据之间的相关性。

(3) 对于各类别样本数量不一致的数据，信息增益会偏向于那些更多数值的特征。

(4) 对新增加的样本，需要重新调整树结构。

参考文献

[1] QUINLAN J R . Introduction of decision trees[J]. Machine Learning, 1986, 1(1):81-106.

[2] QUINLAN J R. C4. 5: programs for machine learning[M]. Boston: Morgan Kaufmann,1993.

[3] BREIMAN L, FRIEDMAN J H, OLSHEN R A, et al. Classification and regression trees[M]. New York: Chapman and Hall/CRC,1984

[4] 李航. 统计学习方法[M]. 北京: 清华大学出版社,2019.

[5] 周志华. 机器学习[M]. 北京: 清华大学出版社,2016.

[6] Hastie T., Tibshirani R., Friedman J. The Elements of Statistical Learning[M]. New York: Springer,2001.

[7] Peter Harrington.机器学习实战[M]. 北京:人民邮电出版社,2013.

[8] CHRISTOPHER M. BISHOP. Pattern Recognition and Machine Learning[M]. New York: Springer,2006.

本文节选自《机器学习入门基础（微课版）》一书，作者：黄海广，徐震，张笑钦。

你可能感兴趣的:(机器学习,决策树,人工智能,算法,数据挖掘)

大整数加、减法（Java实现）与debug找错 gfu_ java 算法数据结构
前言这篇文章主要内容涉及大整数加法的实现以及debug使用的简单记录。以前当我碰到程序报错时，总是想找别人帮忙，感觉debug太难了，自己根本看不懂。这次，自己在做一道算法题时，程序能够运行，结果却出错了。本来想找别人帮忙，但想着学习还是要脚踏实地，于是自己硬着头皮上了，先在网上了解如何debug，然后一步一步找到了错误所在。主要是想记录下第一次debug找到问题的快乐。一、大整数加法（java）
谷歌准备斥资 230 亿收购网络安全初创公司 Wiz 网络研究观网络研究观谷歌
Alphabet正在就收购Wiz进行深入谈判，这将显著增强其安全能力。这将是谷歌母公司有史以来最大规模的收购。这是路透社根据匿名消息来源撰写的内容。目标收购金额为230亿美元，即211亿欧元。Wiz拥有实时检测和响应网络威胁的技术。通过实施人工智能，Wiz能够在短时间内吸引许多公司作为客户。Alphabet的收购目标定于2020年初。到2023年，Wiz的收入将达到3.5亿美元。当时，全球40%的
数学领域的跨时代进化与升级：从公理化到智能化的破茧之路夏末之花算法
作者：夏末之花|发布时间：2025-03-16|阅读量：10万+|点赞数：5.6万引言：数学的“破茧时刻”与文明跃迁人类历史上，数学的每一次重大突破都像一次“破茧时刻”，推动文明跨越式发展。从古希腊的几何公理化到牛顿的微积分，再到20世纪的计算机理论，数学始终是科学革命的基石。而在21世纪的今天，随着量子计算、人工智能、生物信息等技术的爆发，数学正迎来新一轮的进化与升级——从纯粹的逻辑工具，演变为
精准测试：软件开发中的高效质量保障利器霍格沃兹软件测试开发精准化测试测试用例安全性测试测试覆盖率模块测试 selenium 测试工具压力测试
全面解析软件测试开发：人工智能测试、自动化测试、性能测试、测试左移、测试右移到DevOps如何驱动持续交付在现代软件开发中，测试效率与测试质量直接影响产品竞争力。精准测试作为一项兼具效率与精度的创新测试方法，已经成为众多企业提升软件质量的重要手段。本篇文章围绕精准测试的落地实施、对质量指标的提升、数据统计与效果评估方法以及如何提高投入产出比进行全面解读，帮助企业掌握精准测试的价值与实践路径。精准测
提升敏感力，“工具人”破圈的唯一解！技能咖 GAI认证生成式人工智能认证人工智能
在当今这个日新月异的数字化时代，个人与组织面临着前所未有的挑战与机遇。随着科技的飞速发展，尤其是生成式人工智能（GenerativeAI）的兴起，职场生态正在发生深刻变革。如何在这场变革中提升敏感力，实现从“工具人”到行业佼佼者的跨越，成为了众多职场人士关注的焦点。本文将探讨提升敏感力的重要性，并引入生成式人工智能认证（GAI认证），为您揭示“工具人”破圈的唯一解。提升敏感力：职场竞争的关键什么是
Web3身份验证技术对数据保护的影响研究清晨反侦测指纹浏览器社交媒体 web3 ClonBrowser 跨境电商隐私保护
Web3身份验证技术对数据保护的影响研究在这个数字化时代，我们的身份和数据安全比以往任何时候都更加重要。Web3技术以其去中心化和用户主权的核心理念，为个人数据的管理和保护提供了新的视角。本文将探讨Web3身份验证技术如何影响数据保护，并分析其对我们数字生活的影响。Web3身份验证技术简介Web3身份验证技术依托于区块链和先进的加密技术，如非对称加密算法和智能合约，为用户提供了一种全新的身份验证方
金三银四快过去一半了，是时候加把劲了后端go找工作面试
从复旦春招会的15000+岗位争夺战，到AI算法岗年薪百万的“神仙打架”，再到游戏行业20:1的残酷竞争比，今年的金三银四像极了《三体》里的黑暗森林：机会看似遍地，但稍有不慎就成了别人的“背景板”。但现实真的是“投晚了就凉了”吗？数据告诉你真相：智联研究院统计显示，算法工程师、机器人算法工程师等岗位需求同比激增44%，而中小企业的“捡漏窗口”才刚开启。这半个月，我整理了20+场面试实录（含小鹅通、
新浪财经App喜娜AI助手通过大模型登记，已上线AI摘要和个股公告AI解读量子位
3月14日，官方发布的信息显示，新浪财经App喜娜AI助手近日已通过北京市生成式人工智能服务登记。目前，喜娜AI助手已上线两项创新功能：喜娜AI摘要和个股公告AI解读。这两项功能旨在通过先进的人工智能技术，提升用户对财经资讯和上市公司公告的理解与分析效率，这标志着AI技术在信息服务领域的又一重大突破。喜娜AI摘要：快速提炼财经资讯核心要点AI时代，资讯信息迎来爆炸性增长，用户每天都要面对海量资讯，
模型微调：让AI更懂你的魔法棒带上一无所知的我 pytorch 人工智能 python
模型微调：让AI更懂你的魔法棒✨在人工智能的世界里，模型微调（Fine-tuning）就像是一位魔法师用魔法棒对预训练模型进行“个性化改造”，让它更适应特定的任务。今天，我们就来深入探讨模型微调的技术细节，让你也能像魔法师一样，轻松驾驭AI模型！什么是模型微调？模型微调是指在预训练模型的基础上，通过少量的特定任务数据进行训练，使模型更好地适应新任务的技术。预训练模型通常是基于大规模数据集（如Ima
动态规划算法优化在资源分配问题中的应用 suyang199312 课程设计
摘要资源分配问题广泛存在于各类生产与管理场景，合理分配资源以实现效益最大化至关重要。本文深入剖析动态规划算法在资源分配问题中的应用，详细阐述其基本原理与常规解法，针对常规解法的不足提出创新优化思路，并给出具体实现步骤。通过实际案例分析与实验验证，展示优化后的动态规划算法在提升资源分配效率和效益方面的显著优势，为相关领域的决策制定提供有力支持。引言在经济、工程、计算机科学等众多领域，资源分配问题无处
加密算法的性能优化与安全性平衡研究 sigen520520 笔记
摘要在数字化信息飞速发展的当下，数据安全至关重要，加密算法作为数据保护的核心手段，其性能与安全性直接关乎信息系统的稳定运行。本文深入剖析常见加密算法，详细分析其性能指标与安全性特点，全面探讨在提升加密速度的同时确保安全的有效方法与实践，旨在为构建高效、安全的加密体系提供理论支撑与实践指导。引言随着互联网的普及和信息技术的广泛应用，数据在传输与存储过程中面临诸多安全威胁，如数据泄露、篡改、伪造等。加
从 DeepSeek 到 AI 工具箱：Websoft9 应用托管平台赋能高校教学与科研人工智能deepseek
从DeepSeek到AI工具箱：Websoft9应用托管平台赋能高校教学与科研人工智能技术的快速发展正在重塑高校的教学与科研生态。从智能教学辅助到跨学科研究，AI工具的应用场景不断扩展，而技术落地的复杂性也带来新的挑战。在这一背景下，如何将大模型能力与多样化AI工具无缝整合，构建安全、易用的科研教学环境，成为高校数字化转型的关键命题。一、高校智能化转型的三大痛点技术门槛高•AI工具部署依赖专业运维
聊聊关于Python与人工智能那些事小G-biu- python 人工智能 tensorflow
Python与人工智能：介绍Python在人工智能方面的应用Python是一种广泛使用的编程语言，也是人工智能领域中最受欢迎的语言之一。Python提供了许多用于构建和训练人工智能模型的库和框架。本文将介绍一些常见的人工智能技术以及Python在这些技术中的应用。OpenAIOpenAI是一个非营利组织，旨在推动人工智能的发展并促进其对人类的利益。OpenAI通过开发人工智能技术、研究人工智能的影
Matlab 基于最小二乘向量机 LSSVM + NSGAII 多目标优化算法的工艺参数优化前程算法屋私信获取源码工艺参数优化 matlab 算法多目标优化
Matlab基于最小二乘向量机LSSVM+NSGAII多目标优化算法的工艺参数优化一、引言1.1研究背景与意义在现代工业生产中，工艺参数优化占据着举足轻重的地位。它犹如工业生产的核心引擎，直接影响着企业的生产效率、产品质量以及成本控制。从生产效率角度看，优化工艺参数能够显著提升生产速度。合理的参数设置可使生产设备处于最佳运行状态，减少不必要的停机与等待时间，让生产流程更加顺畅。以汽车制造业为例，通
获取网站流量的方法有哪些？ liuliangpuzi 互联网流量运营数据搜索引擎百度大数据
不同流量源的比例反映了网站所有者不同的管理策略和网站的发展阶段。那么，网站流量来源都有哪些？接下来小编就跟大家浅析下网站流量来源的三大途径，一起来看看吧！1、直接访问来源搜索引擎源和外部链源依赖于外部，因此通常存在较大的不确定性，如搜索引擎算法调整、业务模型调整、策略监管等，这可能会使网站的流量从每天数十万IP急剧下降到数千。对于小型商业站来说，从搜索引擎获取流量是一种更经济实惠、廉价的选择，但对
当现代教育技术遇上仓颉---探秘华为仓颉编程语言与未来教育技术的接轨想成为高手499 华为服务器 php
引言随着人工智能、物联网、区块链等新兴技术的发展，编程语言的需求也在不断演化。据市场研究机构发布的数据显示，全球编程语言市场规模预计在未来五年内将以每年10%的速度增长。此外，越来越多的企业和高校正在积极推动基于分布式系统和硬件优化的新型语言开发，这进一步表明对高性能编程语言的需求日益旺盛。近年来，华为推出了自研编程语言“仓颉”，以其高效的语法设计、灵活的语义表达能力和强大的跨平台适配性能引发了编
Python在人工智能与机器人开发中的应用与实践一键难忘 python 人工智能机器人
Python在人工智能与机器人开发中的应用与实践Python已经成为人工智能和机器人开发的主要编程语言之一，凭借其简洁的语法、强大的库支持和广泛的社区资源，Python为开发者提供了一个高效且易于学习的平台。在这篇文章中，我们将深入探讨如何使用Python进行人工智能（AI）和机器人开发，并通过实际代码示例展示核心技术和应用。1.Python在人工智能中的应用人工智能（AI）领域的核心任务包括机器
Python 生成数据(使用Pygal模拟掷骰子) 钢铁男儿 Python 从入门到精通 python 开发语言
数据可视化指的是通过可视化表示来探索数据，它与数据挖掘紧密相关，而数据挖掘指的是使用代码来探索数据集的规律和关联。数据集可以是用一行代码就能表示的小型数字列表，也可以是数以吉字节的数据。使用Pygal模拟掷骰子在本节中，我们将使用Python可视化包Pygal来生成可缩放的矢量图形文件。对于需要在尺寸不同的屏幕上显示的图表，这很有用，因为它们将自动缩放，以适合观看者的屏幕。如果你打算以在线方式使用
计算机专业毕业设计题目推荐（新颖选题）本科计算机科学专业相关毕业设计选题大全✅ 会写代码的羊毕设选题课程设计计算机网络毕设选题毕设系统毕设题目计算机科学专业
文章目录前言最新毕设选题（建议收藏起来）本科计算机科学专业相关的毕业设计选题毕设作品推荐前言2025全新毕业设计项目博主介绍：✌全网粉丝10W+,CSDN全栈领域优质创作者，博客之星、掘金/华为云/阿里云等平台优质作者。技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、大数据、机器学习等设计与开发。主要内容：免费功能设计
智慧交通是什么，可以帮助我们解决什么问题? Guheyunyi 运维大数据人工智能信息可视化前端
智慧交通是什么？智慧交通（SmartTransportation）是指利用物联网（IoT）、大数据、人工智能（AI）、云计算、5G通信等先进技术，对交通系统进行智能化管理和优化，以提高交通效率、减少拥堵、降低事故率、提升出行体验，并实现交通资源的合理配置和可持续发展。智慧交通的核心是通过数据采集、分析和应用，实现交通系统的智能化、自动化和协同化，从而构建一个高效、安全、绿色、便捷的交通生态系统。智
LeetCode 热题 100_跳跃游戏（78_55_中等_C++）（贪心算法） Dream it possible！ LeetCode 热题 100 leetcode c++贪心算法算法
LeetCode热题100_跳跃游戏（78_55）题目描述：输入输出样例：题解：解题思路：思路一（贪心算法）：代码实现代码实现（思路一（贪心算法））：以思路一为例进行调试题目描述：给你一个非负整数数组nums，你最初位于数组的第一个下标。数组中的每个元素代表你在该位置可以跳跃的最大长度。判断你是否能够到达最后一个下标，如果可以，返回true；否则，返回false。输入输出样例：示例1：输入：num
第十四届蓝桥杯省赛C++C组——子矩阵（蓝桥杯篇章完结撒花） Dawn_破晓蓝桥杯一个月速成日志蓝桥杯 c++c语言
本来想写的速成日志也没写多少，cb国二，最后一题树形DP调了一小时发现h数组没置-1，最后无果，如果没马虎可能有国一水平了，正儿八经准备用了两个月，因为要考研，每天只学2-3小时的算法，一共刷了300多道题吧，由于之前选过ACM（实验课因为周六去，懒得去还给我挂了）和算法分析课，所以还是有点基础的，如果算上一年前刷的题总共加起来也就400多道题吧。说一下历程吧，一年前的题都是老师布置的作业，迫不得
医疗行业的数据安全怎么防护？ jinan886 网络大数据安全开源软件数据分析
医疗行业的数据安全防护是一个系统工程，需要政府、医疗机构、技术提供商及社会各界共同努力，形成合力。通过构建全方位、多层次的数据安全防护体系，不断提升数据安全防护能力，才能为患者提供更加安全、高效的医疗服务，同时保障医疗行业的稳健发展。医疗行业的数据安全防护至关重要，以下是一些关键措施：1.数据加密传输加密：使用SSL/TLS等协议保护数据传输。存储加密：采用国标算法256位等上邦加密软件算法。2.
【C++篇】排队的艺术：用生活场景讲解优先级队列的实现 far away4002 C++c++stl 优先级队列向下（向上）调整算法
文章目录须知欢迎讨论：如果你在学习过程中有任何问题或想法，欢迎在评论区留言，我们一起交流学习。你的支持是我继续创作的动力！点赞、收藏与分享：觉得这篇文章对你有帮助吗？别忘了点赞、收藏并分享给更多的小伙伴哦！你们的支持是我不断进步的动力！分享给更多人：如果你觉得这篇文章对你有帮助，欢迎分享给更多对C++感兴趣的朋友，让我们一起进步！深入理解与实现：C++优先级队列的模拟实现1.引言在算法和数据结构中
实战LLM强化学习——使用GRPO（DeepSeek R1出圈算法）大富大贵7 程序员知识储备1 程序员知识储备2 程序员知识储备3 经验分享
引言近年来，深度强化学习（DRL）已经成为解决复杂决策问题的一个强有力工具，尤其是在自然语言处理（NLP）领域的广泛应用。通过不断优化决策策略，DRL能在大量数据中学习最佳行为，尤其是大型语言模型（LLM）在任务中展现出的巨大潜力。然而，随着模型规模的扩大和任务复杂性的增加，传统的强化学习算法开始暴露出训练效率低、收敛速度慢等问题。为了解决这些挑战，DeepSeek公司提出了一个新的强化学习算法—
量子密码学技术架构解析与程序员视角算法
量子计算威胁模型分析传统公钥密码体系（RSA/ECC）的安全假设基于：大数分解问题的计算复杂度（RSA）椭圆曲线离散对数问题（ECC）有限域离散对数问题（DSA）Shor算法的时间复杂度为O((logN)^3)，当量子比特数达到阈值时：2048位RSA可在8小时内破解（理论值）ECC-256的破解时间将降至多项式级别Grover算法对对称密码的影响：AES-256的有效安全性降至2^128哈希函数
在线视频创作平台（Vidnami） deepdata_cn 视频生成视频剪辑视频创作
Vidnami是一款功能强大的在线视频创作平台，前身为ContentSamurai，于2015年推出，2020年更名为Vidnami。它运用人工智能技术，能够分析输入的文本，自动从大量素材中选取合适的图像和视频片段，将文字快速转化为具有专业外观的视频，无需用户具备视频编辑经验。该平台提供多种视频模板、全主题定制功能以及内置的免版权媒体库，包括3000万张图片和3万首音乐，还支持自动配音，用户可以录
OpenCV第1课OpenCV 介绍及其树莓派下环境的搭建嵌入式老牛树莓派之OpenCV opencv 人工智能计算机视觉
1.机器是如何“看”的我们人类可以通过眼睛看到五颜六色的世界，是因为人眼的视觉细胞中存在分别对红、绿、蓝敏感的3种细胞。其中的光感色素根据光线的不同进行不同比例的分解，从而让我们识别到各种颜色。对人工智能而言，学会“看”也是非常关键的一步。那么机器人是如何看到这个世界的呢？这就涉及到人工智能方向重要的分支--机器视觉。机器视觉即用机器人代替人眼来做测量和判断，通过机器视觉产品（即图像摄取装置，分C
Opencv计算机视觉编程攻略-第一节图像读取与基本处理 weixin_44242403 深度学习 opencv 计算机视觉
1.图像读取导入依赖项的h文件#include#include#include#include项目Valuecore.hpp基础数据结构和操作（图像存储、矩阵运算、文件I/O）highgui.hpp图像显示、窗口管理、用户交互（图像/视频显示、用户输入处理、结果保存）imgproc.hpp图像处理算法（图像滤波、几何变换、边缘检测、形态学操作）二读取图片Matimage;//图像矩阵std::co
什么是hessian矩阵红廉骑士兽矩阵线性代数算法机器学习 numpy
Hessian矩阵是一个数学概念，是用来表示函数关于其自变量的二阶偏导数的矩阵。它是一个实对称矩阵，对于多元函数来说，每一个元素是对应自变量关于该函数的二阶偏导数。Hessian矩阵在优化算法和最优化等领域有着重要的应用。
web报表工具FineReport常见的数据集报错错误代码和解释老A不折腾 web报表 finereport 代码可视化工具
在使用finereport制作报表，若预览发生错误，很多朋友便手忙脚乱不知所措了，其实没什么，只要看懂报错代码和含义，可以很快的排除错误，这里我就分享一下finereport的数据集报错错误代码和解释，如果有说的不准确的地方，也请各位小伙伴纠正一下。 NS-war-remote=错误代码\:1117 压缩部署不支持远程设计 NS_LayerReport_MultiDs=错误代码
Java的WeakReference与WeakHashMap bylijinnan java 弱引用
首先看看 WeakReference wiki 上 Weak reference 的一个例子： public class ReferenceTest { public static void main(String[] args) throws InterruptedException { WeakReference r = new Wea
Linux——（hostname）主机名与ip的映射 eksliang linux hostname
一、什么是主机名无论在局域网还是INTERNET上，每台主机都有一个IP地址，是为了区分此台主机和彼台主机，也就是说IP地址就是主机的门牌号。但IP地址不方便记忆，所以又有了域名。域名只是在公网（INtERNET)中存在，每个域名都对应一个IP地址，但一个IP地址可有对应多个域名。域名类型 linuxsir.org 这样的；主机名是用于什么的呢？答：在一个局域网中，每台机器都有一个主
oracle 常用技巧 18289753290
oracle常用技巧 ①复制表结构和数据 create table temp_clientloginUser as select distinct userid from tbusrtloginlog ②仅复制数据如果表结构一样 insert into mytable select * &nb
使用c3p0数据库连接池时出现com.mchange.v2.resourcepool.TimeoutException 酷的飞上天空 exception
有一个线上环境使用的是c3p0数据库，为外部提供接口服务。最近访问压力增大后台tomcat的日志里面频繁出现 com.mchange.v2.resourcepool.TimeoutException: A client timed out while waiting to acquire a resource from com.mchange.v2.resourcepool.BasicResou
IT系统分析师如何学习大数据蓝儿唯美大数据
我是一名从事大数据项目的IT系统分析师。在深入这个项目前需要了解些什么呢？学习大数据的最佳方法就是先从了解信息系统是如何工作着手，尤其是数据库和基础设施。同样在开始前还需要了解大数据工具，如Cloudera、Hadoop、Spark、Hive、Pig、Flume、Sqoop与Mesos。系统分析师需要明白如何组织、管理和保护数据。在市面上有几十款数据管理产品可以用于管理数据。你的大数据数据库可能
spring学习——简介 a-john spring
Spring是一个开源框架，是为了解决企业应用开发的复杂性而创建的。Spring使用基本的JavaBean来完成以前只能由EJB完成的事情。然而Spring的用途不仅限于服务器端的开发，从简单性，可测试性和松耦合的角度而言，任何Java应用都可以从Spring中受益。其主要特征是依赖注入、AOP、持久化、事务、SpringMVC以及Acegi Security 为了降低Java开发的复杂性，
自定义颜色的xml文件 aijuans xml
<?xml version="1.0" encoding="utf-8"?> <resources> <color name="white">#FFFFFF</color> <color name="black">#000000</color> &
运营到底是做什么的？ aoyouzi 运营到底是做什么的？
文章来源：夏叔叔（微信号：woshixiashushu），欢迎大家关注！很久没有动笔写点东西，近些日子，由于爱狗团产品上线，不断面试，经常会被问道一个问题。问：爱狗团的运营主要做什么？答：带着用户一起嗨。为什么是带着用户玩起来呢？究竟什么是运营？运营到底是做什么的？那么，我们先来回答一个更简单的问题——互联网公司对运营考核什么？以爱狗团为例，绝大部分的移动互联网公司，对运营部门的考核分为三块——用
js面向对象类和对象百合不是茶 js 面向对象函数创建类和对象
接触js已经有几个月了,但是对js的面向对象的一些概念根本就是模糊的,js是一种面向对象的语言但又不像java一样有class,js不是严格的面向对象语言 ,js在java web开发的地位和java不相上下 ,其中web的数据的反馈现在主流的使用json,json的语法和js的类和属性的创建相似下面介绍一些js的类和对象的创建的技术一:类和对
web.xml之资源管理对象配置 resource-env-ref bijian1013 java web.xml servlet
resource-env-ref元素来指定对管理对象的servlet引用的声明，该对象与servlet环境中的资源相关联 <resource-env-ref> <resource-env-ref-name>资源名</resource-env-ref-name> <resource-env-ref-type>查找资源时返回的资源类
Create a composite component with a custom namespace sunjing
https://weblogs.java.net/blog/mriem/archive/2013/11/22/jsf-tip-45-create-composite-component-custom-namespace When you developed a composite component the namespace you would be seeing would
【MongoDB学习笔记十二】Mongo副本集服务器角色之Arbiter bit1129 mongodb
一、复本集为什么要加入Arbiter这个角色回答这个问题，要从复本集的存活条件和Aribter服务器的特性两方面来说。什么是Artiber？ An arbiter does not have a copy of data set and cannot become a primary. Replica sets may have arbiters to add a
Javascript开发笔记白糖_ JavaScript
获取iframe内的元素通常我们使用window.frames["frameId"].document.getElementById("divId").innerHTML这样的形式来获取iframe内的元素，这种写法在IE、safari、chrome下都是通过的，唯独在fireforx下不通过。其实jquery的contents方法提供了对if
Web浏览器Chrome打开一段时间后，运行alert无效 bozch Web chorme alert 无效
今天在开发的时候，突然间发现alert在chrome浏览器就没法弹出了，很是怪异。试了试其他浏览器，发现都是没有问题的。开始想以为是chorme浏览器有啥机制导致的，就开始尝试各种代码让alert出来。尝试结果是仍然没有显示出来。这样开发的结果，如果客户在使用的时候没有提示，那会带来致命的体验。哎，没啥办法了就关闭浏览器重启。结果就好了，这也太怪异了。难道是cho
编程之美-高效地安排会议图着色问题贪心算法 bylijinnan 编程之美
import java.util.ArrayList; import java.util.Collections; import java.util.List; import java.util.Random; public class GraphColoringProblem { /**编程之美高效地安排会议图着色问题贪心算法 * 假设要用很多个教室对一组
机器学习相关概念和开发工具 chenbowen00 算法 matlab 机器学习
基本概念：机器学习(Machine Learning, ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域，它主要使用归纳、综合而不是演绎。开发工具 M
[宇宙经济学]关于在太空建立永久定居点的可能性 comsci 经济
大家都知道,地球上的房地产都比较昂贵,而且土地证经常会因为新的政府的意志而变幻文本格式........ 所以,在地球议会尚不具有在太空行使法律和权力的力量之前,我们外太阳系统的友好联盟可以考虑在地月系的某些引力平衡点上面,修建规模较大的定居点
oracle 11g database control 证书错误 daizj oracle 证书错误 oracle 11G 安装
oracle 11g database control 证书错误 win7 安装完oracle11后打开 Database control 后，会打开em管理页面，提示证书错误，点“继续浏览此网站”，还是会继续停留在证书错误页面解决办法：是 KB2661254 这个更新补丁引起的，它限制了 RSA 密钥位长度少于 1024 位的证书的使用。具体可以看微软官方公告：
Java I/O之用FilenameFilter实现根据文件扩展名删除文件游其是你 FilenameFilter
在Java中，你可以通过实现FilenameFilter类并重写accept(File dir, String name) 方法实现文件过滤功能。在这个例子中，我们向你展示在“c:\\folder”路径下列出所有“.txt”格式的文件并删除。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
C语言数组的简单以及一维数组的简单排序算法示例，二维数组简单示例 dcj3sjt126com c array
# include <stdio.h> int main(void) { int a[5] = {1, 2, 3, 4, 5}; //a 是数组的名字 5是表示数组元素的个数，并且这五个元素分别用a[0], a[1]...a[4] int i; for (i=0; i<5; ++i) printf("%d\n",
PRIMARY, INDEX, UNIQUE 这3种是一类 PRIMARY 主键。就是唯一且不能为空。 INDEX 索引，普通的 UNIQUE 唯一索引 dcj3sjt126com primary
PRIMARY, INDEX, UNIQUE 这3种是一类PRIMARY 主键。就是唯一且不能为空。INDEX 索引，普通的UNIQUE 唯一索引。不允许有重复。FULLTEXT 是全文索引，用于在一篇文章中，检索文本信息的。举个例子来说，比如你在为某商场做一个会员卡的系统。这个系统有一个会员表有下列字段：会员编号 INT会员姓名
java集合辅助类 Collections、Arrays shuizhaosi888 Collections Arrays HashCode
Arrays、Collections 1 ）数组集合之间转换 public static <T> List<T> asList(T... a) { return new ArrayList<>(a); } a）Arrays.asL
Spring Security（10）——退出登录logout 234390216 logout Spring Security 退出登录 logout-url LogoutFilter
要实现退出登录的功能我们需要在http元素下定义logout元素，这样Spring Security将自动为我们添加用于处理退出登录的过滤器LogoutFilter到FilterChain。当我们指定了http元素的auto-config属性为true时logout定义是会自动配置的，此时我们默认退出登录的URL为“/j_spring_secu
透过源码学前端之 Backbone 三 Model 逐行分析JS源代码 backbone 源码分析 js学习
Backbone 分析第三部分 Model 概述： Model 提供了数据存储，将数据以JSON的形式保存在 Model的 attributes里，但重点功能在于其提供了一套功能强大，使用简单的存、取、删、改数据方法，并在不同的操作里加了相应的监听事件，如每次修改添加里都会触发 change，这在据模型变动来修改视图时很常用，并且与collection建立了关联。
SpringMVC源码总结（七）mvc:annotation-driven中的HttpMessageConverter 乒乓狂魔 springMVC
这一篇文章主要介绍下HttpMessageConverter整个注册过程包含自定义的HttpMessageConverter，然后对一些HttpMessageConverter进行具体介绍。 HttpMessageConverter接口介绍： public interface HttpMessageConverter<T> { /** * Indicate
分布式基础知识和算法理论 bluky999 算法 zookeeper 分布式一致性哈希 paxos
分布式基础知识和算法理论 BY [email protected] 本文永久链接：http://nodex.iteye.com/blog/2103218 在大数据的背景下，不管是做存储，做搜索，做数据分析，或者做产品或服务本身，面向互联网和移动互联网用户，已经不可避免地要面对分布式环境。笔者在此收录一些分布式相关的基础知识和算法理论介绍，在完善自我知识体系的同
Android Studio的.gitignore以及gitignore无效的解决 bell0901 android gitignore
　　github上.gitignore模板合集，里面有各种.gitignore ： https://github.com/github/gitignore 　　自己用的Android Studio下项目的.gitignore文件，对github上的android.gitignore添加了　　　　　　# OSX files　　　　　　//mac os下　　　　　　.DS_Store
成为高级程序员的10个步骤 tomcat_oracle 编程
What 软件工程师的职业生涯要历经以下几个阶段：初级、中级，最后才是高级。这篇文章主要是讲如何通过 10 个步骤助你成为一名高级软件工程师。 Why 得到更多的报酬！因为你的薪水会随着你水平的提高而增加提升你的职业生涯。成为了高级软件工程师之后，就可以朝着架构师、团队负责人、CTO 等职位前进历经更大的挑战。随着你的成长，各种影响力也会提高。
mongdb在linux下的安装 xtuhcy mongodb linux
一、查询linux版本号： lsb_release -a LSB Version: :base-4.0-amd64:base-4.0-noarch:core-4.0-amd64:core-4.0-noarch:graphics-4.0-amd64:graphics-4.0-noarch:printing-4.0-amd64:printing-4.0-noa