clvsit

模型选择-决策树

决策树（decision tree）是一种基本的分类与回归方法。在分类问题中，表示基于特征对实例进行分类的过程。它可以认为是 if-then 规则的集合，也可以认为是定义在特征空间与类空间上的条件概率分布。

【决策树组成】：

根决策点：对应一个特征判断。
决策节点：对应一个特征判断。
叶子节点：对应决策结果。

根决策点和决策节点又可统一用内部节点来表示。

【分类过程】：从根节点开始，对实例的某一特征进行判断，根据判断结果，将实例分配到其对应的子节点；这时，每个子节点对应该特征的一个取值。如此递归地对实例进行测试并分配，直至达到叶节点，最后将实例分到叶节点的类中。

“决策树可以认为是 if-then 规则的集合”

由决策树的根节点到每个叶子节点的路径对应一条规则，路径上内部节点的特征对应规则的条件，而叶节点的类对应规则的结论。为了更好地理解这句话，可以查看下图以及图所对应的 if-then 规则。

假设，此时有一位年龄25岁，长相中等收入高的靓仔路过，那么是否要见一面呢？根据上图决策树的流程来看，最终的结果是要见上一面。我们再将其转换为代码中的 if-then 规则。

if 年龄 <= 30:
    then if 长相 is '帅或中等':
        then if 收入 is '高':
            then 见

因此，从根决策点到叶子节点的每一条路径都可视为 if-then 规则，那么整棵决策树可视为 if-then 规则的集合。并且 if-then 规则集合具有一个重要的性质：互斥并且完备，每一个实例都被一条规则所覆盖，而且只被一条规则所覆盖（覆盖：实例的特征与规则上的特征一致或满足规则的条件）。

“决策树可以认为是定义在特征空间与类空间上的条件概率分布”

从概率的角度来说，路径的每一个决策节点表示样本的特征 $x^{(i)}$ ，叶子节点为因变量或输出值 y，那么该路径可表示为 $P(y|x^{(1)}x^{(2)}\cdots x^{(n)}) = P(Y|X)$ 。因此，决策树的分类过程实际上可以理解：在指定特征序列的条件下，选择能使条件概率 P(Y|X) 最大的 Y。

从空间的角度来说，如果大家对 KD 树有了解的话应该能够很快理解决策树对空间的划分。假设我们现在有一个二维数据集，决策树根节点的判断条件是 x < 5，在二维坐标系上相当于在 x = 5 处划了一刀，将整个空间一分为二，形成两个子空间，左边是 x < 5，右边是 x > 5（或 x >= 5）。然后，在各自子空间内又可以继续进行划分。因此决策树的构建过程实质上是对特征空间的一个划分，最终将特征空间划分为互不相交的区域。

在完成对特征空间的划分后，在每个区域内定义每一个类的概率分布，从而构成一个条件概率分布。例如，二分类任务，在区域 x < 5，y > 3 内分类 1 和 -1 的概率分别为 0.8 和 0.2，条件概率可写为 P(Y=1|x < 5, y > 3) = 0.8，P(Y=-1|x < 5, y > 3) = 0.2。那么决策树的分类过程相当于先找到对应的区域，然后根据极大似然估计选择能使条件概率最大的分类结果。

决策树模型与学习

决策树学习的目的是为了产生一棵泛化能力强，即处理未见示例能力强的决策树。本质是从训练集中归纳出一组分类规则，或由训练集估计条件概率模型。

说到决策树算法，无论如何都绕不开以下三个步骤：

特征选择
决策树的生成
决策树的修剪

特征选择

特征选择在于选取对训练数据具有分类能力的特征，这样可以提高决策树学习的效率。如果利用一个特征进行分类的结果与随机分类的结果没有很大差别，则称这个特征是没有分类能力的，经验上扔掉这样的特征对决策树学习的精度影响大不。从这一点来看，决策树模型的特征选择实际上和特征工程的特征选择没有什么区别，这也是为什么特征选择的嵌入式方法中有基于树模型的特征选择法。

一般而言，随着划分过程不断进行，我们希望决策树的分支节点所包含的样本尽可能属于同一类别，即节点的“混乱度”越来越低。那么问题来了，什么是“混乱度”呢？

混乱度是指集合中数据的不确定性，在信息学中通常以信息熵来进行定量描述。

【熵（entropy）】：表示随机变量不确定性的度量。设 X 是一个取有限个值的离散随机变量，其概率分布为
$P(X=x_i) = p_i, i=1,2,...,n$
则随机变量 X 的熵定义为
$-\sum_{i=1}^{n}p_ilogp_i$
通常，对数以 2 为底（单位：比特 bit）或以 e 为底（自然对象，单位：纳特 nat）。

由定义可知，熵只依赖于 X 的分布，而与 X 的取值无关，所以也可将 X 的熵记作 H§，即
$-\sum_{i=1}^{n}p_ilogp_i$
熵越大，随机变量的不确定就越大。当随机变量只取两个值，例如 1，0 时，即 X 的分布为
$\leq p \leq 1$
熵为
$H(p) = -plog_2p-(1-p)log_2(1-p)$
此时，熵 H§ 随概率 p 变化的曲线如下图所示。

当 p = 0 或 p = 1 时 H§ = 0，随机变量完全没有不确定性。当 p = 0.5 时，H§ = 1，熵取值最大，随机变量不确定最大。

举个不怎么恰当的例子，假设现在有 A、B、C 三个报刊，A 报道有 80% 的正确率，B 有 50% 的正确率，C 有 20% 的正确率。那么哪一个报刊最不可信？C 的正确率最低，应该是 C 吧？错，是 B。虽然 C 只有 20% 的正确率，但反过来想 C 有 80% 的错误率，那么我们把 C 报道的内容反过来看不就有 80% 的正确率了吗？比如说 C 报刊今日报道“喜迎 5G，4G 流量全免费”，我们看到这一条新闻，立马就在脑海中取反操作一下“哦，4G 流量没有免费呀”。有的时候，谎言说多了反而成为识别真伪的一种手段，而B 报刊因为正确与错误的概率对半，因此你无法确定这一条新闻到底是真还是假。

设有随机变量 (X, Y)，其联合概率分布为
$P(X=x_i, Y=y_j) = p_{ij}, i=1,2,...,n; j=1,2,...,m$
条件熵 H(Y|X) 表示在已知随机变量 X 的条件下随机变量 Y 的不确定性。随机变量 X 给定的条件下随机变量 Y 的条件熵（conditional entropy）H(Y|X)，定义为 X 给定条件下 Y 的条件概率分布的熵对 X 的数学期望
$\sum_{i=1}^{n}p_iH(Y|X=x_i)$
这里， $p_i = P(X=x_i), i=1,2,...,n$ 。

当熵和条件熵中的概率由数据统计（特别是极大似然估计）得到时，所对应的熵与条件熵分别称为经验熵（empirical entropy）和经验条件熵（empirical conditional entropy）。此时，如果有 0 概率，令 0log0 = 0。

为了更好地理解信息熵以及特征选择等相关概念，先引入数据集，数据集取自周志华老师的西瓜书。

观察上述数据集可以发现只存在两类标签，即“是”与“否”。令随机变量 Y 表示数据集的标签数据，根据信息熵的定义可求得数据集的信息熵：
$P(y_1 = \text{'是'}) = \frac{8}{17} = p_1 \\ P(y_2 = \text{'否'}) = \frac{9}{17} = p_2 \\ H(Y) = -\sum_{y_i = 1}^2 p_i log_2 p_i = -(\frac{8}{17}log_2\frac{8}{17} + \frac{9}{17}log_2\frac{9}{17}) = 0.998$

在了解什么是信息熵以及条件熵之后，我们再来了解特征选择常用的准则：

信息增益准则
信息增益比准则

信息增益准则

【信息增益（information gain）】：表示得知特征 X 的信息而使得类 Y 的信息的不确定性减少的程度。通俗地讲，先对原始数据集计算一次信息熵，然后对每个特征划分数据集的结果（数据子集）计算一次信息熵，这两个信息熵的差值即为信息增益。

因此信息增益表示一个过程，而非具体的状态值。它代表前一个状态（划分前的数据集）的信息熵与后一个状态（划分后的数据集）的信息熵之间的差值。而信息熵代表随机变量的不确定性，即随机性。那么信息熵之间的差值越大，说明随机性减小，后一个状态的信息熵小，即不确定性（混乱度）更小，也可以说纯度越高。

上面是通过状态的变更来理解，也可以通过信息增益本身行为的含义进行理解：对样本集的划分使得信息的不确定性减小。那么信息增益越大，不确定性减小越多，处理后的样本集的纯度也就越高。

基于上述理解，我们自然是选择能让划分后的数据集不确定性小的特征，将该特征作为划分特征，这也是计算信息增益的目的。

【计算过程】：
假设离散特征 a 有 V 个可能的取值 $\{a^1, a^2, \cdots, a^V\}$ ，若使用 a 来对样本集 D 进行划分，则会产生 V 个分支以及决策节点，其中第 i 个决策节点包含数据集 D 中所有在特征 a 且取值为 $a^v$ 的样本，记为 $D^v$ 。再考虑到不同的决策节点所包含的样本数不同，给决策节点赋予权重 $D^v| / |D|$ ，既样本数越多的决策节点的影响越大，于是可计算出用特征 a 对样本集 D 进行划分所获得的“信息增益”。
$\sum_{i=1}^V \frac{|D^v|}{|D|}H(D^v)$
一般而言，信息增益越大，则意味着使用特征 a 进行划分后的数据集的不确定性低。因此，我们可以用信息增益来进行决策树的特征选择，著名的 ID3 决策树学习算法就是以信息增益为准则。

以西瓜数据集为例，计算出当前特征集合 {色泽，根蒂，敲声，纹理，脐部，触感} 中每个特征的信息增益。以属性“色泽”为例，它有 3 个可能的取值 {青绿，乌黑，浅白}。若使用该特征对数据集 D 进行划分，则可得到 3 个数据子集，分别记为 D1(色泽=青绿)，D2(色泽=乌黑)，D3(色泽=浅白)。

D1 包含编号为 {1，4，6，10，13，17} 6 个实例，其中好瓜的概率 $p_1 = \frac{3}{6}$ ，坏瓜的概率 $p_2 = \frac{3}{6}$ ；
D2 包含编号为 {2，3，7，8，9，15} 6 个实例，其中好瓜的概率 $p_1 = \frac{4}{6}$ ，坏瓜的概率 $p_2 = \frac{2}{6}$ ；
D3 包含编号为 {5，11，12，14，16} 5 个实例，其中好瓜的概率 $p_1 = \frac{1}{5}$ ，坏瓜的概率 $p_2 = \frac{4}{5}$ 。

根据信息熵的公式计算按此“色泽”特征划分后的 3 个数据子集的信息熵：
$H(D^1) = -(\frac{3}{6}log_2\frac{3}{6} + \frac{3}{6}log_2\frac{3}{6}) = 1.000 \\ H(D^2) = -(\frac{4}{6}log_2\frac{4}{6} + \frac{2}{6}log_2\frac{2}{6}) = 0.918 \\ H(D^3) = -(\frac{1}{5}log_2\frac{1}{5} + \frac{4}{5}log_2\frac{4}{5}) = 0.722$

然后再根据信息增益的公式计算“色泽”特征的信息增益：
$\text{色泽}) = H(D) - \sum_{i=1}^3 \frac{|D^v|}{|D|} H(D^v) = 0.998 - (\frac{6}{17} \times 1.000 + \frac{6}{17} \times 0.918 + \frac{5}{17} \times 0.722) = 0.109$

类似的，我们可计算出其他特征的信息增益：
$\text{根蒂}) = 0.143 \quad Gain(D, \text{敲声}) = 0.141 \quad Gain(D, \text{纹理}) = 0.381 \quad \\ Gain(D, \text{脐部}) = 0.289 \quad Gain(D, \text{触感}) = 0.006 \quad$
通过比较各特征的信息增益，可以发现特征“纹理”的信息增益最大，因此该特征被选为根决策点的划分特征。接着，将数据集按照特征进行划分，

【注意】：按特征划分后的数据子集不存在划分特征，例如按色泽划分后的三个数据子集 D1、D2 和 D3 不存在特征“色泽”，上图之所以仍然存在，是为了方便读者更容易识别划分后的数据子集。

完成根决策点的特征划分后，决策树学习算法将对新生成的决策节点做进一步的划分。以上图分支“纹理=清晰”所对应的决策节点为例，该节点包含的数据子集 D1 包含编号为 {1，2，3，4，5，6，8，10，15} 9 个实例，可用特征集合为 {色泽，根蒂，敲声，脐部，触感}。继续按照先前的步骤进行计算，仍然以特征“色泽”为例，它有 3 个可能的取值 {青绿，乌黑，浅白}。

D1-1（色泽=青绿）包含编号 {1，4，6，10} 4 个实例，其中好瓜的概率 $p_1 = \frac{3}{4}$ ，坏瓜的概率 $p_2 = \frac{1}{4}$ ；
D1-2（色泽=乌黑）包含编号 {2，3，8，15} 4 个实例，其中好瓜的概率 $p_1 = \frac{3}{4}$ ，坏瓜的概率 $p_2 = \frac{1}{4}$ ；
D1-3（色泽=浅白）包含编号 {5} 1 个实例，其中好瓜的概率 $p_1 = 1$ ，坏瓜的概率 $p_2 = 0$ ；

计算按“色泽”特征划分后的 3 个数据子集的信息熵：
$H(D^1) = -(\frac{7}{9}log_2\frac{7}{9} + \frac{2}{9}log_2\frac{2}{9}) = 0.764 \\ H(D^{1-1}) = -(\frac{3}{4}log_2\frac{3}{4} + \frac{1}{4}log_2\frac{1}{4}) = 0.811 \\ H(D^{1-2}) = -(\frac{3}{4}log_2\frac{3}{4} + \frac{1}{4}log_2\frac{1}{4}) = 0.811 \\ H(D^{1-3}) = -(1 \ log_2 1 + 0 \ log_2 0) = 0$

计算“色泽”特征的信息增益：
$\text{色泽}) = 0.764 - (\frac{4}{9} \times 0.811 + \frac{4}{9} \times 0.811 + \frac{1}{9} \times 0) = 0.043$

再计算其他特征的信息增益：
$Gain(D^1, \text{色泽}) = 0.043 \quad Gain(D^1, \text{根蒂}) = 0.458 \quad Gain(D^1, \text{敲声}) = 0.331 \\ Gain(D^1, \text{脐部}) = 0.458 \quad Gain(D^1, \text{触感}) = 0.458$
根蒂、脐部和触感，这三个特征均取得最大的信息增益，可任选其一作为划分特征。类似的，对每个决策节点进行上述操作，最终得到的决策树如下图所示。

代码实现

【前提】：数据集通过 pandas 读取。

所需库：pandas、numpy。
Python 版本：3.6

首先，编写计算信息熵的函数。

def cal_shannon_entropy(dataset):
    """
    计算数据集的信息熵
    :param dataset: 数据集
    """
    # 获取数据集中的标签类别数
    labels, length = set(dataset[:, -1]), dataset.shape[0]
    shannon_sum = 0
    for label in labels:
        # 计算每个标签的概率
        p_label = dataset[dataset[:, -1] == label].shape[0] / length
        shannon_sum += -p_label * np.log(p_label)
    return shannon_sum

先获取数据集中的标签类别数（在西瓜数据集中标签只有两类“是”与“否”）以及数据集的数目；
在循环过程中计算每个标签的概率， $d a t a s e t [d a t a s e t [:, - 1] = = l a b e l] . s h a p e [0]$ 这段代码用以获取符合当前标签值的数据个数，即标签个数。标签个数除以数据集的数目，即为当前标签的概率；
获得标签的概率之后，即可套入公式 $p_label * np.log(p_label)$ ，最后返回累加的结果。

接着，编写划分数据集的函数。

def split_dataset(dataset, feature, feature_value):
    """
    按照特征以及特征值划分数据集
    :param dataset: 数据集
    :param feature: 划分特征
    :param feature_value: 划分特征值
    """
    split_data = dataset[dataset[:, feature] == feature_value]
    return np.delete(split_data, feature, axis=1)

根据划分特征和划分并特征值从数据集中找出符合要求的数据子集，需要注意的是当前特征子集包含当前划分并特征，因此我们需要将其删除；
通过 np.delete() 函数将数据子集中划分特征那一列数据全部删除，np.delete() 具体用法请参考官方文档传送门。

最后，编写选择划分特征的函数。

def choose_best_feature(dataset):
    """
    选择最优的划分特征
    :param dataset: 数据集
    """
    # 获取数据集的特征数以及数据集的数目
    features, lentgh = dataset.shape[1] - 1, dataset.shape[0]
    # 计算划分前数据集的信息熵
    base_shannon = cal_shannon_entropy(dataset)
    # 存放划分后各数据子集的信息熵
    split_shannon = []
    for feature in features:
        # 获取当前特征的特征值
        feature_values = set(dataset[:, feature])
        shannon = 0
        for feature_value in feature_values:
            # 获取划分后的数据子集
            dataset_feature = split_dataset(dataset, feature, feature_value)
            # 当前数据子集的权重，即 |Dv| / |D|
            dataset_feature_p = dataset_feature.shape[0] / length
            shannon += dataset_feature_p * cal_shannon_entropy(dataset_feature)
        # 计算当前特征的信息增益，并添加到 split_shannon 列表中
        split_shannon.append(base_shannon - shannon)
    # 返回信息增益最大的特征
    return np.argmax(split_shannon)

首先，获取数据集的特征数、数目以及信息熵；
接着，通过循环依次计算每个特征的信息增益；
- 获取当前特征的特征值，并初始化信息熵 shannon = 0；
- 计算当前特征的信息增益，并添加到 split_shannon 列表；
最后，通过 np.argmax() 函数找出 split_shannon 列表中最大值的下标，该下标即为特征（feature），将该下标返回。关于 np.argmax() 函数的用法请参考官方文档传送门。

信息增益的“偏好”

在上述示例中，如果我们将“编号”也作为特征集合的一员，那么会发生什么情况？根据信息增益公式计算，“编号”的信息增益远大于其他特征的信息增益！为什么会这样？因为按照“编号”进行划分，将产生 17 条分支，每个分支的决策节点只包含一个实例，也就是说编号唯一对应一个结果（好瓜还是坏瓜），根据信息熵公式，划分后的数据子集的信息熵为 0。

在数据集不变的前提下，特征取值越多，分配给每个特征取值的数据子集也就越少，那么就有可能会出现该特征取值下的实例全部属于同一个类别的情况，因此信息增益也就越大。正是由于这种情况的存在，信息增益准则对可取数目较多的属性有所偏好。

信息增益比准则

由于信息增益准则对特征取值数目较多的属性有所偏好，为减少这种偏好可能带来的不利影响，使用“信息增益比（gain ratio）”准则来选择最优划分特征。

【信息增益比】：沿用信息增益准则的符号表示。
$Gain_ratio(D, a) = \frac{Gain(D, a)}{IV(a)} \\ IV(a) = -\sum_{i=1}^V \frac{|D^v|}{|D|}log_2 \frac{|D^v|}{|D|}$
其中，IV(a) 称为特征 a 的“固有值”（intrinsic value）。特征 a 的可能取值数目越多，则 IV(a) 的值通常会越大，且增长的速率要大于 Gain_ratio(D, a)。因此，信息增益比准则对特征取值数目较少的特征有所偏好。

代码实现

计算信息熵以及划分数据集都可以沿用信息增益准则代码实现部分的 cal_shannon_entropy() 以及 split_dataset() 函数。唯一需要修改的是挑选最优特征函数 choose_best_feature()。

def choose_best_feature(dataset):
    """
    选择最优的划分特征
    :param dataset: 数据集
    """
    features, lentgh = dataset.shape[1] - 1, dataset.shape[0]
    base_shannon = cal_shannon_entropy(dataset)
    split_shannon = []
    for feature in features:
        feature_values = set(dataset[:, feature])
        shannon = 0
        # 新增 ratio 变量，用以保存 IV(a)
        ratio = 0
        for feature_value in feature_values:
            dataset_feature = split_dataset(dataset, feature, feature_value)
            dataset_feature_p = dataset_feature.shape[0] / length
            shannon += dataset_feature_p * cal_shannon_entropy(dataset_feature)
            # 累加 ratio 变量
            ratio += -dataset_feature_p * np.log(dataset_feature_p)
        # 计算当前特征的信息增益比，并添加到 split_shannon 列表中
        split_shannon.append((base_shannon - shannon) / ratio)
    # 返回信息增益比最大的特征
    return np.argmax(split_shannon)

信息增益比的实现方式可以在信息增益的基础上计算 IV(a)，然后将信息增益除以 IV(a)。

著名的 C4.5 算法采用信息增益比来选择最优划分特征，需要注意的是，C4.5 算法不是直接选择信息增益比最大的划分特征，而是使用了一个启发式方法：先从特征集合中找出信息增益高于平均水平的特征，再从中选择信息增益比最高的特征。这样可以尽量避免信息增益以及信息增益比的偏好影响。

【C4.5 启发式方法代码】：

初始化 split_shannon 列表，用以存放信息增益以及信息增益比。

split_shannon = []

在循环计算各划分特征的信息增益和信息增益比的过程中，以元组的形式将信息增益和信息增益比保存到 split_shannon 列表中。

split_shannon.append((base_shannon - shannon, (base_shannon - shannon) / ratio))

按照信息增益升序的方式进行排序。

split_shannon.sort(key=lambda x:x[0])

从中挑选部分划分特征，挑选准则可以自行定义，例如选择列表的后半部分划分特征。

split_shannon = split_shannon[len(split_shannon) // 2:]

再按照信息增益比升序的方式进行排序。

split_shannon.sort(key=lambda x:x[1])

选择信息增益比最大的划分特征。

best_feature = split_shannon[-1]

基尼系数

关于基尼系数的介绍放到 CART 算法中。

决策树的生成

决策树的生成是一个递归过程。在决策树生成算法中，有三种情形会导致递归返回。

（1）当前结点包含的样本全属于同一类别，无需划分；
（2）当前特征集为空，或是所有样本在所有特征上取值相同（但类别不同，这应该就是样本本身的问题了），无法划分。
（3）当前结点包含的样本集合为空，不能划分。

第（1）种情形下，把当前结点标记为叶结点，并将其类别设定为唯一类别。

第（2）种情形下，把当前结点标记为叶结点，并将其类别设定为该结点所含样本最多的类别；

第（3）种情形下，把当前结点标记为叶结点，但将其类别设定为其父结点所含样本最多的类别。

因篇幅有限，ID3、C4.5 以及 CART 的具体实现放到其他博客中。

ID3 算法：传送门
C4.5 算法：传送门
CART 算法（上）：传送门
CART 算法（下）：传送门

【三类算法的比较】：

算法	支持模型	树结构	特征选择	连续值处理	剪枝
ID3	分类	多叉树	信息增益	不支持	不支持
C4.5	分类	多叉树	信息增益比	支持	支持
CART	分类、回归	二叉树	基尼系数、均方误差	支持	支持

决策树的剪枝

决策树生成算法递归地产生决策树，这样产生的树往往对训练数据的分类很准确，但对未知的测试数据的分类却没有那些准确，即出现过拟合现象。

【原因】：学习时过多地考虑如何提高对训练数据的正确分类，从而构建出复杂的决策树。

【办法】：考虑决策树的复杂度，对已生成的决策树进行简化，主动去掉一些分支来降低过拟合的风险。

【剪枝】：在决策树学习中将已生成的树进行简化的过程称为剪枝（pruning）。具体地，剪枝从已生成的决策树上裁掉一些子树或叶结点，并将其根结点或父结点作为新的叶结点，从而简化分类树模型。

决策树的剪枝往往通过极小化决策树整体的损失函数（loss function）或代价函数（cost function）来实现。

设决策树 T 的叶结点个数为 |T|，t 是树 T 的叶结点，该叶结点有 $N_t$ 个样本点，其中 k 类的样本点有 $N_tk$ 个，k = 1, 2, …, K， $H_t(T)$ 为叶结点 t 上的经验熵，a >= 0为参数，则决策树学习的损失函数可以定义为
$C_a(T) = \sum_{t=1}^{|T|}N_tH_t(T) + \alpha|T|$
其中经验熵为
$H_t(T) = -\sum_k\frac{N_{tk}}{N_t}log\frac{N_{tk}}{N_t}$
这时有
$C_\alpha(T) = C(T) + \alpha|T|$
【说明】：

C(T)：表示模型对训练数据的预测误差，即模型与训练数据的拟合程度。
|T|：表示模型复杂度。
a >= 0：控制预测误差与模型复杂度两者之间的影响。
- 较大的 a 促使选择较简单的模型。
- 较小的 a 促使选择较复杂的模型。
- a = 0，意味着只考虑模型与训练数据的拟合程度，不考虑模型的复杂度。

剪枝，就是当 a 确定时，选择损失函数最小的模型，即损失函数最小的子树。子树越大，往往与训练数据拟合的越好，但是模型的复杂度就越高；相反，子树越小，模型的复杂度就越低，但是往往与训练数据的拟合不好。损失函数正好表示了对两者的平衡。

可以看出，决策树生成只考虑了通过提高信息增益（或信息增益比）对训练数据进行更好的拟合。而决策树剪枝通过优化损失函数还考虑了减小模型复杂度。

决策树生成学习局部的模型。
决策树剪枝学习整体的模型。

【算法】：决策树的剪枝算法。

输入：生成算法产生的整个决策树 T，参数 a。
输出：修剪后的子树 $T_\alpha$ 。
过程：

计算每个结点的经验熵。
递归地从树的叶结点向上回缩。设一组叶结点回缩到其父结点之前与之后的整体树分别为 Tb 和 Ta，其对应的损失函数值分别是 Ca(Tb) 与 Ca(Ta)，如果
$C_\alpha(T_a) \leq C_\alpha(T_b)$
则进行剪枝，即将父结点变为新的叶结点。
返回（2），直至不能继续为止，得到损失函数最小的子树 Ta。

【注意】：根据过程（2）中的式子，只需考虑两个树的损失函数的差，其计算可以在局部进行。所以，决策树的剪枝算法可以由一种动态规划的算法实现。

【基本策略】：

预剪枝（prepruning）：在决策树生成过程中，对每个结点在划分前先进行估计，若当前结点的划分不能带来决策树泛化性能提升，则停止划分并将当前结点标记为叶结点；
后剪枝（postpruning）：先从训练集生成一颗完整的决策树，然后自底向上地对非叶结点进行考察，若将该结点对应的子树替换为叶结点能带来决策树泛化性能提升，则将该子树替换为叶结点。

关于树的剪枝操作，《机器学习》中讲解得非常清晰且出彩，读者可以阅读《机器学习》来理解这部分内容。

总结

参考

《统计学习方法》李航
《机器学习》周志华
《百面机器学习》

你可能感兴趣的:(机器学习)

Transformer动画讲解 - 工作原理 ghx3110 transformer 深度学习人工智能
Transformer模型在多模态数据处理中扮演着重要角色，其能够高效、准确地处理包含不同类型（如图像、文本、音频、视频等）的多模态数据。Transformer工作原理四部曲：Embedding（向量化）、Attention（注意力机制）、MLPs（多层感知机）和Unembedding（模型输出）。阶段一：Embedding（向量化）“Embedding”在字面上的翻译是“嵌入”，但在机器学习和自
Java：AI 浪潮中的隐形支柱 —— 探秘 Java 在人工智能领域的独特地位琢磨先生David 人工智能
引言在人工智能技术席卷全球的今天，当人们谈论AI开发时，Python、R语言、C++等工具总是最先被提及。然而在这个充满创新的领域，有一个"老兵"正悄然发挥着不可替代的作用——自1995年诞生至今的Java语言，凭借其独特的工程化基因，正在构建起AI世界的底层基础设施。本文将揭示Java如何在大数据、机器学习、企业级AI系统等领域持续创造价值。一、Java的AI基因解码跨平台优势的现代意义"一次编
【大一新生必收藏系列】❤机器学习7大方面，30个数据集。纯干货分享❤ .Boss. 机器学习人工智能 python 算法开发语言笔记 #大一新生
.记住了就可以跟同学装起来了嗷....目录.纯干货回归问题分类问题图像分类文本情感分析自然语言处理自动驾驶金融类...........纯干货..................在刚刚开始学习算法的时候，大家有没有过这种感觉，最最重要的那必须是算法本身！其实在一定程度上忽略了数据的重要性。而事实上一定是，质量高的数据集可能是最重要的！数据集在机器学习算法项目中具有非常关键的重要性，数据集的大小、质量
机器学习中的梯度到底是什么？（chat-gpt问答）湫怿机器学习 gpt 人工智能梯度
1、梯度是对损失函数求导吗？是的，梯度是对损失函数（或目标函数）求导数值化后的结果。梯度告诉我们目标函数在某个点上的方向性和变化率，这些信息是优化算法推进参数评估和更新的重要指标。在机器学习中，我们通过不断调整参数，使目标函数达到最小值，从而实现模型的训练和学习。2、为什么梯度要求偏导来求解？梯度是一个向量，它的方向指向函数值增加最快的方向，其大小表示函数值的变化率。为了确定梯度的方向和大小，需要
机器学习中的梯度下降是什么意思？ yuanpan 机器学习人工智能
梯度下降（GradientDescent）是机器学习中一种常用的优化算法，用于最小化损失函数（LossFunction）。通过迭代调整模型参数，梯度下降帮助模型逐步逼近最优解，从而提升模型的性能。1.核心思想梯度下降的核心思想是利用损失函数的梯度（即导数）来指导参数的更新方向。具体来说：梯度：梯度是损失函数对模型参数的偏导数，表示损失函数在当前参数点上的变化率。下降：通过沿着梯度的反方向（即损失函
CIR-DFENet：结合跨模态图像表示和双流特征增强网络进行活动识别是Dream呀神经网络计算机视觉人工智能神经网络深度学习
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学业升学和求职工作的先行者！【优惠信息】•新专栏订阅前200名享9.9元优惠•订阅量破200
机器学习-----决策树多巴胺与内啡肽. 机器学习机器学习决策树人工智能
文章目录1、概念2.决策树的构建过程2.1特征选择2.2树的生成2.3树的剪枝3.决策树的优缺点4.决策树的应用4.1分类任务4.2回归任务4.3集成学习代码示例总结1、概念1.1决策树是什么决策树是通过对样本的训练，建立出分类规则，并对新样本进行预测，属于有监督学习。根节点：最上面的节点。叶子节点：能直接看到结果的节点。非叶子节点：位于中间的节点。1.2决策树的类型分类树：用于分类任务，叶节点代
机器学习驱动的智能化电池管理技术与应用萌萌可爱郭德纲机器学习人工智能
电池管理技术概述电池的工作原理与关键性能指标电池管理系统的核心功能ØSOC估计ØSOH估计Ø寿命预测Ø故障诊断人工智能机器学习基础人工智能的发展机器学习的关键概念机器学习在电池管理中的应用案例介绍人工智能在电池荷电状态估计中的应用荷电状态估计方法概述基于迁移学习的SOC估计(1)基于迁移学习的SOC估计方法数据集、估计框架、估计结果(2)全生命周期下的SOC估计方法数据集、估计框架、估计结果基于数
机器学习_重要知识点整理嘉羽很烦机器学习机器学习
机器学习重要知识点整理一、数学与理论基础1.概率与统计术语作用使用场景概率分布描述随机变量的取值概率，如正态分布、二项分布。数据建模（如高斯分布假设）、生成模型（如贝叶斯网络）。贝叶斯定理计算条件概率，更新先验知识以获得后验概率。贝叶斯分类器、文本分类（如垃圾邮件检测）。最大似然估计（MLE）通过数据最大化似然函数，估计模型参数。线性回归、逻辑回归参数估计。假设检验判断假设是否成立（如t检验、卡方
用Python打造智能家居安防系统，让科技守护你的家 Echo_Wish Python 笔记 Python 算法 python 智能家居科技
友友们好！我是Echo_Wish，我的的新专栏《Python进阶》以及《Python！实战！》正式启动啦！这是专为那些渴望提升Python技能的朋友们量身打造的专栏，无论你是已经有一定基础的开发者，还是希望深入挖掘Python潜力的爱好者，这里都将是你不可错过的宝藏。在这个专栏中，你将会找到：●深入解析：每一篇文章都将深入剖析Python的高级概念和应用，包括但不限于数据分析、机器学习、Web开发
Java对比Python，谁才是编程王者？ Java学研大本营 python java 开发语言
Python和Java是目前编程最受欢迎的两种语言，本文从多角度比较二者的相同点和差异，帮助你更深入地了解两种语言的特点，最终能根据你自身的需求来进行选择。微信搜索关注《Java学研大本营》Python和Java是当今世界上最流行的两种编程语言。两者都被广泛用于各种行业和应用，从网络开发到机器学习再到数据分析。但是这两种语言哪个更好呢？在这本中，我们将多方面比较Python和Java，探索二者的历
HarmonyNext深度解析：ArkUI高效渲染与性能优化实战披光人 harmonyOS ubuntu linux 运维
一、HarmonyNext渲染引擎技术演进（约1200字技术解析）HarmonyOSNext在UI渲染架构层面实现了重大突破，其创新的ArkUI渲染引擎采用分层异步架构设计。核心改进包括：原子化渲染管线采用基于Vulkan的跨平台渲染后端，通过原子化渲染指令拆分技术，实现绘制指令的并行执行能力。在华为Mate60系列实测中，复杂界面渲染延迟降低42%智能脏区检测机制基于机器学习的区域更新预测算法，
Python多版本环境管理UV 坐吃山猪 Python python uv 开发语言
Python多版本环境管理UV1-参考网址Python虚拟环境UV管理工具-官网Python虚拟环境UV管理工具-快速开始pyproject.toml使用指导2-核心知识点1）python项目维护requirements.txt2）python机器学习环境Anaconda3）python轻量级环境管理uv4）uvx快速上手使用3-上手实操1-安装UV虚拟环境管理工具UV官网安装教程#Windows
数据架构与机器学习：如何构建智能系统 AI天才研究院 AI大模型应用入门实战与进阶大数据人工智能语言模型 AI LLM Java Python 架构设计 Agent RPA
1.背景介绍机器学习（MachineLearning）是一种使计算机程序在未被明确编程的情况下，通过经验的学习自动改善其行为的技术。机器学习的目标是使计算机能够自主地从数据中学习，以便在未来的问题中做出更好的决策。数据架构（DataArchitecture）是一种用于有效管理、存储和处理数据的系统结构和组件。数据架构涉及到数据的收集、存储、处理和分析，以及数据的存储和传输。数据架构是构建智能系统的
超详细的Numpy基础教程！！！不会爬虫的闲鱼 numpy 数据分析 python
Numpy是一个开源的Python库，用于支持大型多维数组和矩阵运算，同时提供了大量的数学函数库。它是科学计算中非常重要的工具。Numpy在数据科学中非常重要，因为它提供了高效的数组处理能力和广泛的数学函数库，这对于处理大规模数据集、进行科学计算和机器学习等任务至关重要。一、安装与设置如何安装Numpypipinstallnumpy验证安装的方法importnumpyprint(numpy.__v
Python 科学计算与机器学习入门：NumPy + Scikit-Learn 实战指南吴师兄大模型 python numpy scikit-learn 人工智能开发语言机器学习编程
Langchain系列文章目录01-玩转LangChain：从模型调用到Prompt模板与输出解析的完整指南02-玩转LangChainMemory模块：四种记忆类型详解及应用场景全覆盖03-全面掌握LangChain：从核心链条构建到动态任务分配的实战指南04-玩转LangChain：从文档加载到高效问答系统构建的全程实战05-玩转LangChain：深度评估问答系统的三种高效方法（示例生成、手
吴恩达机器学习笔记复盘（二）监督学习和无监督学习 wgc2k 机器学习机器学习笔记学习
监督学习经济价值以及定义监督学习是机器学习中创造了99%经济价值的类型，它是学习输入到输出映射的算法，关键在于给学习算法提供包含正确答案（即给定输入X的正确标签Y）的学习例子。生活中的例子邮件分类，输入是电子邮件，输出是判断邮件是否为垃圾邮件。语音识别，输入音频剪辑，输出文本记录。机器翻译，输入一种语言文本，输出其他语言的相应翻译。在线广告，输入广告和用户信息，预测用户是否点击广告，为公司带来大量
安全中心建设关键技术之机器学习 sinfoyou 安全机器学习人工智能
1.1.1功能要求针对目前广为流行的网银、掌上银行撞库行为，需要围绕撞库防护建立针对性的发现、预警、拦截体系。在本课题在大量数据中自动分析获得规律，并利用规律对未知数据进行预测。通过机器学习重点解决目前无法在识别撞库攻击源IP地址的基础上，进一步识别出被撞库成功的账号。由于机器学习算法需要从数据中自动分析获得规律，所以必须要有历史数据。在针对撞库攻击行为分析的场景中，首先需要获取手机银行和网上银行
人工智能：重塑未来生活与工作的科技力量 Geektec 问答专栏人工智能应用创新
方向一：介绍人工智能技术的发展历程和现状，指出它的应用领域和前景一、人工智能技术的发展历程人工智能（ArtificialIntelligence,AI）作为一门学科，其起源可以追溯到20世纪50年代。最初，AI的研究主要集中在逻辑推理、机器学习和自然语言处理等领域，目标是使机器能够模拟人类的智能行为。尽管在早期的探索中，AI遭遇了诸多挑战和瓶颈，但其发展潜力逐渐被认可，并在随后几十年中得到了迅速的
Prompt工程：大模型沟通指南（人工智能到大模型） Harry技术 AI prompt 人工智能
文章目录人工智能到大模型机器学习深度学习大模型Prompt工程：大模型沟通的桥梁在人工智能的广袤领域中，大模型无疑是最为璀璨的明珠之一。它仿佛是一座连接人类与人工智能的桥梁，让我们能够更加深入地探索和利用人工智能的强大能力。而要实现与大模型的高效沟通，Prompt工程扮演着至关重要的角色。让我们一起走进Prompt工程的奇妙世界，探寻大模型沟通的奥秘。人工智能到大模型“人工智能是一种模拟人类智能的
大语言模型（LLMs）全面学习指南（非常详细）零基础入门到精通，收藏这一篇就够了网络安全大白科技程序员人工智能语言模型人工智能自然语言处理
大语言模型（LLMs）作为人工智能（AI）领域的一项突破性发展，已经改变了自然语言处理（NLP）和机器学习（ML）应用的面貌。这些模型，包括OpenAI的GPT-4o和Google的gemini系列等，已经展现出了在理解和生成类人文本方面的令人印象深刻的能力，使它们成为各行各业的宝贵工具。如下这份指南将涵盖LLMs的基础知识、训练过程、用例和未来趋势……一.WhatareLargeLanguage
大模型生成人物关系思维导图的实战教程 herosunly 大模型生成人物关系生成思维导图实战教程
大家好，我是herosunly。985院校硕士毕业，现担任算法研究员一职，热衷于机器学习算法研究与应用。曾获得阿里云天池比赛第一名，CCF比赛第二名，科大讯飞比赛第三名。拥有多项发明专利。对机器学习和深度学习拥有自己独到的见解。曾经辅导过若干个非计算机专业的学生进入到算法行业就业。希望和大家一起成长进步。本文主要介绍了大模型生成人物关系思维导图的实战教程，希望对使用大语言模型的同学们有所帮
轻松掌握：Milvus向量数据库部署与RAG使用技巧威研威语人工智能数据库 milvus 数据库人工智能 RAG
Milvus简介Milvus是一款开源的向量数据库，由Zilliz开发并维护，适合用于机器学习和人工智能领域。是一款专为处理向量查询而设计的数据库，Milvus能够对万亿级向量进行索引。Milvus官网：https://milvus.io/Milvus中文文档：https://www.milvus-io.com/Milvus部署环境准备Linux操作系统Docker19.03或更高版本Docker
PINN物理信息网络 | 基于物理信息神经网络PINN求解Burger方程算法如诗物理信息网络（PINN）神经网络人工智能深度学习物理信息网络
基于物理信息神经网络（PINN）求解Burger方程的研究背景源于对非线性偏微分方程（PDE）求解方法的不断探索和改进。传统的数值方法，如有限差分法和有限元法，通常需要进行网格离散化和迭代求解，对于复杂的非线性问题计算成本较高。因此，研究人员开始探索基于机器学习和神经网络的新方法来求解PDEs。神经网络在近年来取得了显著的发展，能够通过学习大量数据来建立输入和输出之间的复杂映射关系。然而，将神经网
python实现KNN算法的手写数字识别：深入解析与完整项目流程快撑死的鱼 Python算法精解算法
随着人工智能和机器学习的快速发展，图像识别技术在多个领域得到广泛应用。而手写数字识别作为图像识别的典型场景之一，已经成为研究者和开发者学习、应用机器学习算法的经典项目。本文将深入解析如何使用Python编程语言，结合KNN（K-最近邻）算法实现手写数字识别系统。文章不仅介绍了算法的核心原理，还从用户交互、图像处理、数据预处理等多个角度对整个项目进行了全方位的讲解。读者通过本文，可以全面掌握手写数字
云原生周刊：基于 KubeSphere LuBan 架构打造DeepSeek 插件云计算
开源项目推荐KubeAIKubeAI是一个K8s上的AI推理操作器，旨在简化在生产环境中部署和管理大型语言模型（LLM）、向量嵌入和语音处理等机器学习模型。它提供与OpenAI兼容的API，支持在CPU和GPU上运行，并具备按需自动扩缩容的能力。KubeAI无需依赖Istio、Knative等其他系统，能够在几乎任何K8s集群中开箱即用。此外，它内置了模型代理，优化了键值缓存利用率，从而显著提升系
AI 之路——数据分析（1）Pandas小结与框架整理 Robin_Pi 机器学习之路数据分析数据分析 python 人工智能可视化
目录1.写在前面1.1AI之路：1.2工具/技能：2.数据分析2.1数据分析的流程2.2数据的基本操作方法2.2.1Pandas概览2.2.2使用Pandas操作数据的核心(1)选择数据(2)操作数据2.2.2数据详解3.写在最后1.写在前面主要是阶段性框架总结1.1AI之路：数据分析——机器学习——深度学习——CV/NLP1.2工具/技能：Python、NumPy、Pandas、Matplotl
2025 年最值得收听的 AI 播客推荐！助你轻松掌握人工智能前沿动态！真智AI 人工智能开发语言机器学习
如今，几乎每个人都被告知需要提升技能，而当前许多组织最看重的技能之一就是人工智能（AI）。学习AI相关技能通常涉及数学、统计学和机器学习，但除此之外，你还需要了解行业趋势、业内人士的观点以及各大公司的动态。然而，学习并不意味着时刻都要埋头苦读！有时候，你需要给大脑一个喘息的机会，同时依然能获取有价值的信息。而收听AI相关的播客，就是一个轻松高效的方式。以下是2025年你必须关注的AI播客！1.Th
人工智能概念 zhangpeng455547940 计算机人工智能
机器学习、深度学习、大模型机器学习提供框架，使得系统可以从数据中学习算法：线性回归、逻辑回归、支持向量机、决策树、随机森林、K近邻算法深度学习是实现这一目标的工具，模仿人脑，使用多层神经网络进行学习算法：多层感知器、卷积神经网络、循环神经网络、长短期记忆网络大模型指参数量巨大的深度学习模型人工智能应用：自然语言处理、图像识别与生成、语音识别、政务与企业服务...
机器学习(二) 本文(2.5万字) | KNN算法原理及Python复现 | 小酒馆燃着灯机器学习算法 k近邻算法
文章目录一KNN算法原理二KNN三要素三机器学习中标准化四KNN分类预测规则五KNN回归预测规则六KNN算法实现方式七KDTree7.1构造KDtree7.2KDtree查找最近邻八KNN特点九KNN算法实现案例一案例二1.机器学习2.深度学习与目标检测3.YOLOv54.YOLOv5改进5.YOLOv8及其改进6.Python与PyTorch7.工具8.小知识点9.杂记一KNN算法原理K近邻分类
windows下源码安装golang 616050468 golang安装 golang环境 windows
系统： 64位win7，开发环境：sublime text 2， go版本： 1.4.1 1. 安装前准备(gcc, gdb, git) golang在64位系
redis批量删除带空格的key bylijinnan redis
redis批量删除的通常做法： redis-cli keys "blacklist*" | xargs redis-cli del 上面的命令在key的前后没有空格时是可以的，但有空格就不行了： $redis-cli keys "blacklist*" 1) "blacklist:12: [email protected]
oracle正则表达式的用法 0624chenhong oracle 正则表达式
方括号表达示方括号表达式描述 [[:alnum:]] 字母和数字混合的字符 [[:alpha:]] 字母字符 [[:cntrl:]] 控制字符 [[:digit:]] 数字字符 [[:graph:]] 图像字符 [[:lower:]] 小写字母字符 [[:print:]] 打印字符 [[:punct：]] 标点符号字符 [[:space:]]
2048源码(核心算法有，缺少几个anctionbar，以后补上) 不懂事的小屁孩 2048
2048游戏基本上有四部分组成， 1：主activity，包含游戏块的16个方格，上面统计分数的模块 2：底下的gridview，监听上下左右的滑动，进行事件处理， 3：每一个卡片，里面的内容很简单，只有一个text，记录显示的数字 4：Actionbar，是游戏用重新开始，设置等功能(这个在底下可以下载的代码里面还没有实现) 写代码的流程 1：设计游戏的布局，基本是两块，上面是分
jquery内部链式调用机理换个号韩国红果果 JavaScript jquery
只需要在调用该对象合适(比如下列的setStyles)的方法后让该方法返回该对象（通过this 因为一旦一个函数称为一个对象方法的话那么在这个方法内部this（结合下面的setStyles）指向这个对象） function create(type){ var element=document.createElement(type); //this=element;
你订酒店时的每一次点击背后都是NoSQL和云计算蓝儿唯美 NoSQL
全球最大的在线旅游公司Expedia旗下的酒店预订公司，它运营着89个网站，跨越68个国家，三年前开始实验公有云，以求让客户在预订网站上查询假期酒店时得到更快的信息获取体验。云端本身是用于驱动网站的部分小功能的，如搜索框的自动推荐功能，还能保证处理Hotels.com服务的季节性需求高峰整体储能。 Hotels.com的首席技术官Thierry Bedos上个月在伦敦参加“2015 Clou
java笔记1 a-john java
1，面向对象程序设计（Object-oriented Propramming，OOP）：java就是一种面向对象程序设计。 2，对象：我们将问题空间中的元素及其在解空间中的表示称为“对象”。简单来说，对象是某个类型的实例。比如狗是一个类型，哈士奇可以是狗的一个实例，也就是对象。 3，面向对象程序设计方式的特性： 3.1 万物皆为对象。
C语言 sizeof和strlen之间的那些事 C/C++软件开发求职面试题必备考点（一） aijuans C/C++求职面试必备考点
找工作在即，以后决定每天至少写一个知识点，主要是记录，逼迫自己动手、总结加深印象。当然如果能有一言半语让他人收益，后学幸运之至也。如有错误，还希望大家帮忙指出来。感激不尽。后学保证每个写出来的结果都是自己在电脑上亲自跑过的，咱人笨，以前学的也半吊子。很多时候只能靠运行出来的结果再反过来
程序员写代码时就不要管需求了吗？ asia007 程序员不能一味跟需求走
编程也有2年了，刚开始不懂的什么都跟需求走，需求是怎样就用代码实现就行，也不管这个需求是否合理，是否为较好的用户体验。当然刚开始编程都会这样，但是如果有了2年以上的工作经验的程序员只知道一味写代码，而不在写的过程中思考一下这个需求是否合理，那么，我想这个程序员就只能一辈写敲敲代码了。我的技术不是很好，但是就不代
Activity的四种启动模式百合不是茶 android 栈模式启动 Activity的标准模式启动栈顶模式启动单例模式启动
android界面的操作就是很多个activity之间的切换,启动模式决定启动的activity的生命周期 ; 启动模式xml中配置 <activity android:name=".MainActivity" android:launchMode="standard&quo
Spring中@Autowired标签与@Resource标签的区别 bijian1013 java spring @Resource @Autowired @Qualifier
Spring不但支持自己定义的@Autowired注解，还支持由JSR-250规范定义的几个注解，如：@Resource、 @PostConstruct及@PreDestroy。 1. @Autowired @Autowired是Spring 提供的，需导入 Package:org.springframewo
Changes Between SOAP 1.1 and SOAP 1.2 sunjing Changes Enable SOAP 1.1 SOAP 1.2
JAX-WS SOAP Version 1.2 Part 0: Primer (Second Edition) SOAP Version 1.2 Part 1: Messaging Framework (Second Edition) SOAP Version 1.2 Part 2: Adjuncts (Second Edition) Which style of WSDL
【Hadoop二】Hadoop常用命令 bit1129 hadoop
以Hadoop运行Hadoop自带的wordcount为例， hadoop脚本位于/home/hadoop/hadoop-2.5.2/bin/hadoop，需要说明的是，这些命令的使用必须在Hadoop已经运行的情况下才能执行 Hadoop HDFS相关命令 hadoop fs -ls 列出HDFS文件系统的第一级文件和第一级
java异常处理（初级）白糖_ java DAO spring 虚拟机 Ajax
从学习到现在从事java开发一年多了，个人觉得对java只了解皮毛，很多东西都是用到再去慢慢学习，编程真的是一项艺术，要完成一段好的代码，需要懂得很多。最近项目经理让我负责一个组件开发，框架都由自己搭建，最让我头疼的是异常处理，我看了一些网上的源码，发现他们对异常的处理不是很重视，研究了很久都没有找到很好的解决方案。后来有幸看到一个200W美元的项目部分源码，通过他们对异常处理的解决方案，我终
记录整理-工作问题 braveCS 工作
1）那位同学还是CSV文件默认Excel打开看不到全部结果。以为是没写进去。同学甲说文件应该不分大小。后来log一下原来是有写进去。只是Excel有行数限制。那位同学进步好快啊。 2）今天同学说写文件的时候提示jvm的内存溢出。我马上反应说那就改一下jvm的内存大小。同学说改用分批处理了。果然想问题还是有局限性。改jvm内存大小只能暂时地解决问题，以后要是写更大的文件还是得改内存。想问题要长远啊
org.apache.tools.zip实现文件的压缩和解压，支持中文 bylijinnan apache
刚开始用java.util.Zip，发现不支持中文（网上有修改的方法，但比较麻烦）后改用org.apache.tools.zip org.apache.tools.zip的使用网上有更简单的例子下面的程序根据实际需求，实现了压缩指定目录下指定文件的方法 import java.io.BufferedReader; import java.io.BufferedWrit
读书笔记-4 chengxuyuancsdn 读书笔记
1、JSTL 核心标签库标签 2、避免SQL注入 3、字符串逆转方法 4、字符串比较compareTo 5、字符串替换replace 6、分拆字符串 1、JSTL 核心标签库标签共有13个，学习资料：http://www.cnblogs.com/lihuiyy/archive/2012/02/24/2366806.html 功能上分为4类： (1)表达式控制标签：out
[物理与电子]半导体教材的一个小问题 comsci 问题
各种模拟电子和数字电子教材中都有这个词汇-空穴书中对这个词汇的解释是; 当电子脱离共价键的束缚成为自由电子之后,共价键中就留下一个空位,这个空位叫做空穴我现在回过头翻大学时候的教材,觉得这个
Flashback Database --闪回数据库 daizj oracle 闪回数据库
Flashback 技术是以Undo segment中的内容为基础的，因此受限于UNDO_RETENTON参数。要使用flashback 的特性，必须启用自动撤销管理表空间。在Oracle 10g中， Flash back家族分为以下成员： Flashback Database， Flashback Drop，Flashback Query(分Flashback Query,Flashbac
简单排序:插入排序 dieslrae 插入排序
public void insertSort(int[] array){ int temp; for(int i=1;i<array.length;i++){ temp = array[i]; for(int k=i-1;k>=0;k--)
C语言学习六指针小示例、一维数组名含义，定义一个函数输出数组的内容 dcj3sjt126com c
# include <stdio.h> int main(void) { int * p; //等价于 int *p 也等价于 int* p; int i = 5; char ch = 'A'; //p = 5; //error //p = &ch; //error //p = ch; //error p = &i; //
centos下php redis扩展的安装配置3种方法 dcj3sjt126com redis
方法一 1.下载php redis扩展包代码如下复制代码 #wget http://redis.googlecode.com/files/redis-2.4.4.tar.gz 2 tar -zxvf 解压压缩包，cd /扩展包（进入扩展包然后运行phpize 一下是我环境中phpize的目录，/usr/local/php/bin/phpize (一定要
线程池(Executors) shuizhaosi888 线程池
在java类库中，任务执行的主要抽象不是Thread，而是Executor，将任务的提交过程和执行过程解耦 public interface Executor { void execute(Runnable command); } public class RunMain implements Executor{ @Override pub
openstack 快速安装笔记 haoningabc openstack
前提是要配置好yum源版本icehouse，操作系统redhat6.5 最简化安装，不要cinder和swift 三个节点 172 control节点keystone glance horizon 173 compute节点nova 173 network节点neutron control /etc/sysctl.conf net.ipv4.ip_forward =
从c面向对象的实现理解c++的对象（二） jimmee C++面向对象虚函数
1. 类就可以看作一个struct，类的方法，可以理解为通过函数指针的方式实现的，类对象分配内存时，只分配成员变量的，函数指针并不需要分配额外的内存保存地址。 2. c++中类的构造函数，就是进行内存分配(malloc)，调用构造函数 3. c++中类的析构函数，就时回收内存(free) 4. c++是基于栈和全局数据分配内存的，如果是一个方法内创建的对象，就直接在栈上分配内存了。专门在
如何让那个一个div可以拖动 lingfeng520240 html
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml
第10章高级事件（中） onestopweb 事件
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
计算两个经纬度之间的距离 roadrunners 计算纬度 LBS 经度距离
要解决这个问题的时候，到网上查了很多方案，最后计算出来的都与百度计算出来的有出入。下面这个公式计算出来的距离和百度计算出来的距离是一致的。 /** * * @param longitudeA * 经度A点 * @param latitudeA * 纬度A点 * @param longitudeB *
最具争议的10个Java话题 tomcat_oracle java
1、Java8已经到来。什么！？ Java8 支持lambda。哇哦，RIP Scala！　　随着Java8 的发布，出现很多关于新发布的Java8是否有潜力干掉Scala的争论，最终的结论是远远没有那么简单。Java8可能已经在Scala的lambda的包围中突围，但Java并非是函数式编程王位的真正觊觎者。　　2、Java 9 即将到来　　 Oracle早在8月份就发布
zoj 3826 Hierarchical Notation(模拟) 阿尔萨斯 rar
题目链接：zoj 3826 Hierarchical Notation 题目大意：给定一些结构体，结构体有value值和key值，Q次询问，输出每个key值对应的value值。解题思路：思路很简单，写个类词法的递归函数，每次将key值映射成一个hash值，用map映射每个key的value起始终止位置，预处理完了查询就很简单了。这题是最后10分钟出的，因为没有考虑value为{}的情