Le0v1n

[学习笔记] [机器学习] 6. [上]决策树算法（熵Entropy、信息增益（率）、基尼值（指数）、CART剪枝、特征工程特征提取、回归决策树）

视频链接
数据集下载地址：无需下载

学习目标：

掌握决策树实现过程
知道信息熵的公式以及作用
知道信息增益、信息增益率和基尼指数的作用
知道id3、c4.5、cart算法的区别
了解cart剪枝的作用
知道特征提取的作用
应用DecisionTreeClassifier实现决策树分类

1. 决策树算法简介

1.1 决策树算法简介

学习目标：

知道什么是决策树

决策树思想的来源非常朴素，程序设计中的条件分支结构就是if-else结构，最早的决策树就是利用这类结构分割数据的一种分类学习方法。

决策树是一种树形结构，其中每个内部节点表示一个属性上的判断，每个分支代表一个判断结果的输出，最后每个叶节点（没有子节点的节点就叫叶子节点）代表一种分类结果，本质是一颗由多个判断节点组成的树。

想一想这个女生为什么把年龄放在最上面判断？

上面案例是女生通过定性的主观意识，把年龄放到最上面，那么如果需要对这一过程进行量化，该如何处理呢？

此时就需要用到信息论中的知识：

信息熵
信息增益

小结：

决策树定义：
- 是一种树形结构
- 本质上是一颗由多个判断节点组成的树

2. 决策树分类原理

学习目标：

知道如何求解信息熵
知道信息增益的求解过程
知道信息增益率的求解过程
知道基尼系数的求解过程
知道信息增益、信息增益率和基尼系数三者之间的区别、联系

2.1 熵

2.1.1 概念

熵（shāng）是热力学中表征物质状态的参量之一，用符号 $S$ 表示，其物理意义是体系混乱程度的度量。它也被社会科学用以借喻人类社会某些状态的程度。熵的概念是由德国物理学家克劳修斯于1865年提出的。

简单来说，在物理学上，熵（Entropy）是用来表示“混乱”程度的量度。

从上面的图我们可以知道：

系统越有序，熵值越低
系统越混乱或者分散，熵值越高

1948 年香农提出了信息熵（Entropy）的概念。

克劳德·艾尔伍德·香农（Claude Elwood Shannon，1916年4月30日—2001年2月24日）是一位美国数学家、电子工程师和密码学家，被誉为信息论的创始人。他是密西根大学学士，麻省理工学院博士。1948年，香农发表了划时代的论文——《通讯的数学理论》，奠定了现代信息论的基础。

信息理论：信息熵是用来度量样本集合纯度的一种指标，它可以从信息的完整性和有序性两个方面进行描述。

1. 从信息的完整性上进行的描述

当系统的有序状态一致时，数据越集中的地方熵值越小，数据越分散的地方熵值越大。

2. 从信息的有序性上进行的描述

当数据量一致时，系统越有序，熵值越低；系统越混乱或者分散，熵值越高。

“信息熵” （Information Entropy）是度量样本集合纯度最常用的一种指标。

假定当前样本集合 $D$ 中第 $k$ 类样本所占的比例为 $p_k$ （ $k = 1, 2, ..., ∣ y ∣$ ）， $p_k = \frac{C^k}{D}$ ， $D$ 为样本的所有数量， $C^k$ 为第 $k$ 类样本的数量。

则 $D$ 的信息熵定义为：

$\begin{aligned} \mathrm{Ent}(D) & = -\sum_{k=1}^n \log \frac{C^k}{D} \\ & = -\sum_{k=1}^n p_k \log_2^{p_k} \\ & = -p_1 \log_2^{p_1} - p_2\log_2^{p2} - ... - p_n\log_2^{p_n} \end{aligned}$

其中：

$\log$ 是以 2 为底， $\lg$ 是以 10 为底。
$D$ ：表示样本集合。
$k$ ：表示样本集合中的第 $k$ 类样本。
$n$ ：表示样本集合中类别的总数。
$∣ y ∣$ 表示样本集合中类别的总数。 $∣ y ∣$ 和 $n$ 是等价的。
$p_k$ ：表示第 $k$ 类样本在样本集合中所占的比例，即 $p_k = \frac{C^k}{D}$ ，其中 $C^k$ 为第 $k$ 类样本的数量。
$\mathrm{Ent}(D)$ ：表示样本集合 $D$ 的信息熵。

因此，根据公式，样本集合 $D$ 的信息熵 $\mathrm{Ent}(D)$ 可以计算为：

$\mathrm{Ent}(D) = -\sum_{k=1}^n p_k \log_2^{p_k}$

其中， $\sum_{k=1}^n$ 表示对样本集合中所有类别进行求和， $log_2^{p_k}$ 表示以 2 为底， $p_k$ 的对数。

根据公式可知：

$\mathrm{Ent}(D)$ 的值越小，则 $D$ 的纯度越高。

2.1.2 案例

案例介绍：

假设我们没有看世界杯的比赛，但是想知道哪支球队会是冠军，我们只能猜测某支球队是或不是冠军，然后观众用对或不对来回答，我们想要猜测次数尽可能少，你会用什么方法？

答案：二分法。

假如有 16 支球队，编号为1-16。先问是否在 1~8 之间，如果是就继续问是否在 1~4 之间，以此类推，直到最后判断出冠军球队是哪支。

如果球队数量是 16，我们需要问 4 次来得到最后的答案。那么世界冠军这条消息的信息熵就是 4。

那么信息熵等于 4，是如何进行计算的呢？

$\mathrm{Ent}(D) = -(p_1 \times \log_2{p_1} + p_2 \times \log_2{p_2} + ... + p_{16} \times \log_2{p_{16}})$

其中 $p_1, ..., p_{16}$ 分别是这 16 支球队夺冠的概率。

当每支球队夺冠概率相等（都是 $\frac{1}{16}$ ）时：

$\begin{aligned} \mathrm{Ent}(D) &= - 16 \times ( \frac{1}{16} \times \log_2{\frac{1}{16}})\\ &= - 16 \times ( \frac{1}{16} \times \log_2{4^{-2}})\\ &= - 16 \times ( \frac{1}{16} \times -2\times \log_2{4})\\ &= 16 \times ( \frac{1}{8}\times 2)\\ &= 4 \end{aligned}$

每个事件概率相同时，熵最大，这件事越不确定。

2.1.3 随堂练习

篮球比赛里，有4个球队 {A, B, C, D}，获胜概率分别为 {1/2, 1/4, 1/8, 1/8}求 $\mathrm{Ent}(D)$ 。

答案：

$\begin{aligned} \mathrm{Ent}(D) & = -p_1 \log_2^{p_1} - p_2\log_2^{p2} - ... - p_n\log_2^{p_n}\\ & = -(\frac{1}{2}\log_2^{\frac{1}{2}} + \frac{1}{4}\log_2^{\frac{1}{4}} + \frac{1}{8}\log_2^{\frac{1}{8}} + \frac{1}{8}\log_2^{\frac{1}{8}}) \\ & = -(\frac{1}{2}\log_2^{2^{-1}} + \frac{1}{4}\log_2^{2^{-2}} + \frac{1}{8}\log_2^{2^{-3}} + \frac{1}{8}\log_2^{2^{-3}}) \\ & = -(-\frac{1}{2} -\frac{1}{2} -\frac{3}{8} -\frac{3}{8}) \\ & = \frac{1}{2} + \frac{1}{2} + \frac{3}{8} + \frac{3}{8} \\ & = 1 + \frac{3}{4} \\ & = \frac{7}{4} \end{aligned}$

2.2 信息增益（Information Gain）【决策树的划分依据·一】

2.2.1 概念

信息增益（Information Gain）是一个统计量，用来描述一个属性区分数据样本的能力。它定义为一个特征能够为分类系统带来多少信息，带来的信息越多，说明该特征越重要，相应的信息增益也就越大。在决策树算法中，信息增益是特征选择的一个重要指标。它表示在一个条件下，信息复杂度（不确定性）减少的程度。如果选择一个特征后，信息增益最大（信息不确定性减少的程度最大），那么我们就选取这个特征。

Q：意思就是说，如果有一个特征它足够简单，那么它的信息增益就越强吗？
A：不完全是这样的。信息增益衡量的是一个特征对于数据分类的贡献，而不是特征本身的复杂度。信息增益越大，说明这个特征对于数据分类的贡献越大，也就是说，使用这个特征进行分类可以更好地区分数据。

举个例子，假设我们要根据一些特征来预测一个人是否喜欢运动。其中一个特征是“身高”，另一个特征是“喜欢的颜色”。显然，“身高”这个特征比“喜欢的颜色”更能够帮助我们预测一个人是否喜欢运动。因此，“身高”这个特征的信息增益会比“喜欢的颜色”这个特征的信息增益大。
总之，信息增益衡量的是一个特征对于数据分类的贡献，而不是特征本身的复杂度。

信息增益是以某特征划分数据集前后的熵的差值。熵可以表示样本集合的不确定性，熵越大，样本的不确定性就越大。因此可以使用划分前后集合熵的差值来衡量使用当前特征对于样本集合 $D$ 划分效果的好坏。

$\rm 信息增益 = Entropy_前 - Entropy_后$

注意：信息增益表示得知特征 $X$ 的信息而使得类 $Y$ 的信息熵减少的程度

2.2.2 定义与公式

假定离散属性 $a$ 有 $V$ 个可能的取值： $a^1, a^2, ..., a^V$ 。这里我们假设离散属性性别有 2 个可能的取值（男或女）。

若使用 $a$ 来对样本集 $D$ 进行划分，则会产生 $V$ 个分支结点。其中第 $v$ 个分支结点包含了 $D$ 中所有在属性 $a$ 上且取值为 $a^v$ 的样本，记为 $D^{'}$ 。

我们可以根据前面给出的信息熵公式计算出 $D^{'}$ 的信息熵。再考虑到不同的分支结点所包含的样本数不同，给分支结点赋予权重 $\frac{|D^v|}{|D|}$ 。（注意：绝对值符号只是用来表示集合中元素的数量，而不是数值的绝对值）

即样本数越多的分支结点的影响越大，于是可计算出用属性 $a$ 对样本集 $D$ 进行划分所获得的“信息增益（Information Gain）”。

其中：特征 $a$ 对训练数据集 $D$ 的信息增益 $\mathrm{Gain}(D, a)$ 定义为：集合 $D$ 的信息熵 $\mathrm{Ent}(D)$ 与给定特征 $a$ 条件下 $D$ 的信息条件熵 $\mathrm{Ent}(D|a)$ 之差，即公式为：

$\begin{aligned} \mathrm{Gain}(D, a) &= \mathrm{Ent}(D) - \mathrm{Ent}(D|a) \\ & = \mathrm{Ent}(D) - \sum_{v=1}^V \frac{|D^v|}{|D|} \mathrm{Ent}(D^v) \end{aligned}$

其中：

$D$ ：表示样本集合。
$a$ ：表示离散属性。
$V$ ：表示离散属性 $a$ 的可能取值个数。
$a^v$ ：表示离散属性 $a$ 的第 $v$ 个可能取值。
$D^v$ ：表示样本集合 $D$ 中所有在属性 $a$ 上取值为 $a^v$ 的样本。
$\mathrm{Gain}(D, a)$ ：表示特征 $a$ 对训练数据集 $D$ 的信息增益。
$\mathrm{Ent}(D)$ ：表示样本集合 $D$ 的信息熵。
$\mathrm{Ent}(D|a)$ ：表示给定特征 $a$ 条件下 $D$ 的信息条件熵。
$\sum_{v=1}^V$ 表示对离散属性 $a$ 的所有可能取值进行求和
$\frac{|D^v|}{|D|}$ 表示分支结点的权重
$\mathrm{Ent}(D^v)$ 表示分支结点 $D^v$ 的信息熵。
注意：绝对值符号只是用来表示集合中元素的数量，而不是数值的绝对值

这个公式的意义是：对于一个离散属性 $a$ ，它有 $V$ 个可能的取值。如果使用这个属性来对样本集合 $D$ 进行划分，则会产生 $V$ 个分支结点。每个分支结点包含了样本集合中所有在属性 $a$ 上取值为 $a^v$ 的样本。我们可以根据前面给出的信息熵公式计算出每个分支结点的信息熵。由于不同的分支结点所包含的样本数不同，所以我们需要给每个分支结点赋予一个权重 $\frac{|D^v|}{|D|}$ ，表示样本数越多的分支结点的影响越大。最后，将所有分支结点的信息熵加权求和，就得到了给定特征 $a$ 条件下 $D$ 的信息条件熵 $\mathrm{Ent}(D|a)$ 。

因此，特征 $a$ 对训练数据集 $D$ 的信息增益 $\mathrm{Gain}(D, a)$ 可以理解为：在给定特征 $a$ 的条件下，样本集合 $D$ 的信息不确定性减少的程度。如果选择一个特征后，信息增益最大（信息不确定性减少的程度最大），那么我们就选取这个特征。

公式的详细解释如下：

信息熵的计算：

$\mathrm{Ent}(D) = -\sum^n_{k=1}\frac{C^k}{D}\log_2^{\frac{C^k}{D}}$

条件熵的计算：

$\begin{aligned} \mathrm{Ent}(D, a) & = \sum_{v=1}^V \frac{|D^v|}{|D|} \mathrm{Ent}(D^v)\\ & = -\sum_{v=1}^V \frac{|D^v|}{|D|} \sum_{k=1}^K \frac{C^{kv}}{D_v} \log\frac{C^{kv}}{D_v} \end{aligned}$

其中：

$D^v$ 表示 $a$ 属性中第 $v$ 个分支节点包含的样本数
$C^{kv}$ 表示 $a$ 属性中第 $v$ 个分支节点包含的样本数中，第 $k$ 个类别下包含的样本数
注意：绝对值符号只是用来表示集合中元素的数量，而不是数值的绝对值

一般而言，信息增益越大，则意味着使用属性 $a$ 来进行划分所获得的“纯度提升”越大。因此，我们可用信息增益来进行决策树的划分属性选择，著名的 ID3 决策树学习算法就是以信息增益为准则来选择划分属性。

ID3 决策树学习算法是一种贪心算法，用来构造决策树。它的全称是 Iterative Dichotomiser 3，即迭代二分器 3。ID3 算法起源于概念学习系统（CLS），以信息熵的下降速度为选取测试属性的标准，即在每一个节点选取还尚未被用来划分的具有最高信息增益的属性作为划分标准，然后继续这个过程，直到生成的决策树能完美的分类训练样例。

ID3 算法主要用于决策树分类问题。它通过计算每个特征的信息增益来选择最优划分属性，然后递归地构建决策树。ID3 算法能够自动地从数据中学习规律，并用生成的决策树对新数据进行分类。

2.2.3 案例

如下图，第一列为论坛号码，第二列为性别，第三列为活跃度，最后一列用户是否流失。我们要解决一个问题：通过性别和活跃度两个特征，判断哪个特征对用户流失影响更大？

通过计算信息增益可以解决这个问题，统计如右表信息。

其中，Positive为正样本（已流失），Negative为负样本（未流失），下面的数值为不同划分下对应的人数。

因此我们可以得到三个熵：

a. 计算类别信息熵（算计整体熵）

$\begin{aligned} \mathrm{Ent}(D) & = -\sum^n_{k=1}\frac{C^k}{D}\log_2^{\frac{C^k}{D}} \\ & = -\frac{5}{15}\log_2^{\frac{5}{15}} - \frac{10}{15}\log_2^{\frac{10}{15}}\\ & = 0.9182 \end{aligned}$

b1. 计算性别属性的信息熵（a=“性别”）

$\begin{aligned} \mathrm{Ent}(D, 性别) & = \sum_{v=1}^V \frac{|D^v|}{|D|} \mathrm{Ent}(D^v)\\ & = \frac{|D^1|}{|D|}\mathrm{Ent}(D^1) + \frac{|D^2|}{|D|}\mathrm{Ent}(D^2) \end{aligned}$

$\mathrm{Ent}(D^1) = -\frac{3}{8}\log_2^{\frac{3}{8}} - \frac{5}{8}\log_2^{\frac{5}{8}} = 0.9543$

$\mathrm{Ent}(D^2) = -\frac{2}{7}\log_2^{\frac{2}{7}} - \frac{5}{7}\log_2^{\frac{5}{7}} = 0.8631$

c1. 计算性别的信息增益（a=“性别”）

$\begin{aligned} \mathrm{Gain}(D, 性别) &= \mathrm{Ent}(D) - \mathrm{Ent}(D|a) \\ & = \mathrm{Ent}(D) - \sum_{v=1}^V \frac{|D^v|}{|D|} \mathrm{Ent}(D^v)\\ &= \mathrm{Ent}(D) - \frac{8}{15}\mathrm{Ent}(D^1) - \frac{7}{15}\mathrm{Ent}(D^2)\\ &=0.0064 \end{aligned}$

b2. 计算活跃度属性的信息熵（a=“活跃度”）

$\begin{aligned} \mathrm{Ent}(D, 活跃度) & = \sum_{v=1}^V \frac{|D^v|}{|D|} \mathrm{Ent}(D^v)\\ & = \frac{|D^1|}{|D|}\mathrm{Ent}(D^1) + \frac{|D^2|}{|D|}\mathrm{Ent}(D^2) \end{aligned}$

$\begin{aligned} \mathrm{Ent}(D^1) & = -\frac{0}{6}\log_2^{\frac{0}{6}} - \frac{6}{6}\log_2^{\frac{6}{6}} \\ & = -0 - 0 \\ & = 0 \end{aligned}$

$\begin{aligned} \mathrm{Ent}(D^2) & = -\frac{1}{5}\log_2^{\frac{1}{5}} - \frac{4}{5}\log_2^{\frac{4}{5}} \\ & = 0.7219 \end{aligned}$

$\begin{aligned} \mathrm{Ent}(D^3) & = -\frac{4}{4}\log_2^{\frac{4}{4}} - \frac{0}{4}\log_2^{\frac{0}{4}} \\ & = -0 - 0 \\ & = 0 \end{aligned}$

注意：当 $\log$ 函数中的参数为 $0$ 或 $1$ 时， $\log(0)$ 和 $\log(1)$ 的值分别为未定义和 $0$ 。因此，在计算信息熵时，我们通常会忽略这些项。

c2. 计算活跃度的信息增益（a=“活跃度”）

$\begin{aligned} \mathrm{Gain}(D, 活跃度) &= \mathrm{Ent}(D) - \mathrm{Ent}(D|a) \\ & = \mathrm{Ent}(D) - \sum_{v=1}^V \frac{|D^v|}{|D|} \mathrm{Ent}(D^v)\\ &= \mathrm{Ent}(D) - \frac{6}{15}\mathrm{Ent}(D^1) - \frac{5}{15}\mathrm{Ent}(D^2) - \frac{4}{15}\mathrm{Ent}(D^3)\\ &= 0.6776 \end{aligned}$

我们对比一下两种不同特征的信息增益：

特征名称	信息增益
性别	$\mathrm{Gain}(D, 性别)=0.0064$
活跃度	$\mathrm{Gain}(D, 活跃度)=0.6776$

很明显，活跃度的信息增益比性别的信息增益大。也就是说，活跃度对用户流失的影响比性别大。在做特征选择或者数据分析的时候，我们应该重点考察活跃度这个指标。

2.3 信息增益率（Information Gain Rate）【决策树的划分依据·二】

2.3.1 概念

在上面的介绍中，我们有意忽略了“编号”这一列。若把“编号”也作为一个候选划分属性，则根据信息增益公式可计算出它的信息增益为 $0.9182$ ，这远大于其他候选划分属性。

计算每个属性的信息熵过程中，我们发现，该属性的值为0，也就是其信息增益为0.9182。但是很明显如果这么分类，那么最后出现的结果不具有泛化效果，即无法对新样本进行有效预测。

实际上，信息增益（Information Gain）准则对可取值数目较多的属性有所偏好。为了减少这种偏好可能带来的不利影响，著名的 C4.5 决策树算法被提出。C4.5 算法不直接使用信息增益，而是使用“增益率” （Information Gain Ratio）来选择最优的划分属性。

增益率：增益率是用前面的信息增益 $\mathrm{Gain}(D, a)$ 和属性 $a$ 对应的“固有值”（Intrinsic Value，IV）的比值来共同定义的。

$\mathrm{Gain \ ratio}(D,a) = \frac{\mathrm{Gain}(D, a)}{IV(a)}$

其中：

$D$ 表示数据集
$a$ 表示属性
$V$ 表示属性 $a$ 的可能取值的数目
$D^v$ 表示数据集 $D$ 中属性 $a$ 取值为 $v$ 的样本子集
因此， $\frac{D^v}{D}$ 表示数据集 $D$ 中属性 $a$ 取值为 $v$ 的样本所占的比例。

固有值 $I V$ 的求解：

$-\sum^V_{v=1}\frac{D^v}{D}\log{\frac{D^v}{D}}$

其中：

$I V$ 是固有值（Intrinsic Value）。固有值是用来衡量属性 $a$ 的固有信息量的一个指标。
$V$ 表示属性 $a$ 的可能取值的数目
$D^v$ 表示数据集 $D$ 中属性 $a$ 取值为 $v$ 的样本子集

属性 $a$ 的可能取值的数目越多(即 $V$ 越大)，则 $I V (a)$ 的值通常会越大。

2.3.2 案例

2.3.2.1 案例一

a. 计算类别信息熵

b. 计算性别属性的信息熵（性别、活跃度）

c. 计算活跃度的信息增益（性别、活跃度）

d. 计算属性分裂信息度量（也就是固有值 $I V$ ）

用分裂信息度量来考虑某种属性进行分裂时分支的数量信息和尺寸信息，我们把这些信息称为属性的内在信息(Intrinsic Information)。信息增益率 IGR 用信息增益 IG / 内在信息，会导致属性的重要性随着内在信息 IV 的增大而减小（也就是说，如果这个属性本身不确定性就很大，那我就越不倾向于选取它），这样算是对单纯用信息增益有所补偿。

$\begin{aligned} IV(性别) & = -\sum^V_{v=1}\frac{D^v}{D}\log{\frac{D^v}{D}}\\ & = -\frac{7}{15}\log_2^{\frac{7}{15}} -\frac{8}{15}\log_2^{\frac{8}{15}}\\ & = 0.9968 \end{aligned}$

$\begin{aligned} IV(活跃度) & = -\sum^V_{v=1}\frac{D^v}{D}\log{\frac{D^v}{D}}\\ & = -\frac{6}{15}\log_2^{\frac{6}{15}} -\frac{5}{15}\log_2^{\frac{5}{15}}\\ & = 1.5656 \end{aligned}$

e. 计算信息增益率

$\begin{aligned} \mathrm{Gain \ ratio}(D,性别) & = \frac{\mathrm{Gain}(D, a)}{IV(a)} \\ & = \frac{0.0064}{0.9968}\\ & = 0.0064 \end{aligned}$

$\begin{aligned} \mathrm{Gain \ ratio}(D,活跃度) & = \frac{\mathrm{Gain}(D, a)}{IV(a)} \\ & = \frac{0.6776}{1.5656}\\ & = 0.4328 \end{aligned}$

活跃度的信息增益率更高一些（ $\mathrm{Gain \ ratio}(D,活跃度) = 0.4328$ > $\mathrm{Gain \ ratio}(D,性别) = 0.0064$ ），所以在构建决策树的时候，优先选择。

通过这种方式，在选取节点的过程中，我们可以降低取值较多的属性的选取偏好。

2.3.2.2 案例二

如下图，第一列为天气，第二列为温度，第三列为湿度，第四列为风速，最后一列该活动是否进行。

我们要解决：根据下面表格数据，判断在对应天气下，活动是否会进行？

该数据集有四个属性，属性集合 $A=\{天气，温度，湿度，风速\}$ ，类别标签有两个，类别集合 $L=\{进行，取消\}$ 。

a. 计算类别信息熵

类别信息熵 $\mathrm{Ent}(D)$ 表示的是所有样本中各种类别出现的不确定性之和。根据熵的概念，熵越大，不确定性就越大，把事情搞清楚所需要的信息量就越多。

$\begin{aligned} \mathrm{Ent}(D) & = -\sum^n_{k=1}\frac{C^k}{D}\log_2^{\frac{C^k}{D}} \\ & = -\frac{9}{14}\log_2^{\frac{9}{14}} - \frac{5}{14}\log_2^{\frac{5}{14}}\\ & = 0.940 \end{aligned}$

b. 计算每个属性的信息熵

每个属性的信息熵相当于一种条件熵 $\mathrm{Ent}(D|a)$ 。它表示的是在某种属性 $a$ 的条件下，各种类别出现的不确定性之和。属性的信息熵越大，表示这个属性中拥有的样本类别越不“纯”。

a = “天气”（5 个“晴”，4 个“阴”，5 个“雨”）

$\begin{aligned} \mathrm{Ent}(D | 天气) &= \sum_{v=1}^V \frac{D^v}{D} \mathrm{Ent}(D^v)\\ &=\frac{5}{14} \times [-\frac{2}{5}\log_2^{\frac{2}{5}} -\frac{3}{5}\log_2^{\frac{3}{5}}] + \frac{4}{14} \times [-\frac{4}{4}\log_2^{\frac{4}{4}}] + \frac{5}{14} \times [-\frac{2}{5}\log_2^{\frac{2}{5}}-\frac{3}{5}\log_2^{\frac{3}{5}}]\\ &=0.694 \end{aligned}$

a = “温度”（4 个"寒冷"，6 个“适中"，4 个“炎热”）

$\begin{aligned} \mathrm{Ent}(D|温度) & = \sum_{v=1}^V \frac{|D^v|}{|D|} \mathrm{Ent}(D^v)\\ & = \frac{4}{14} \times [-\frac{2}{4}\log_2^{\frac{2}{4}} -\frac{2}{4}\log_2^{\frac{2}{4}}] + \frac{6}{14} \times [-\frac{4}{6}\log_2^{\frac{4}{6}} -\frac{2}{6}\log_2^{\frac{2}{6}}] + \frac{4}{14} \times [-\frac{3}{4}\log_2^{\frac{3}{4}} -\frac{1}{4}\log_2^{\frac{1}{4}}]\\ & = 0.911 \end{aligned}$

a = “湿度”（7 个“正常”，7个“高”）

$\mathrm{Ent}(D|湿度) = 0.789$

a = “风速”（8 个“弱”，6 个“强”）

$\mathrm{Ent}(D|风速) = 0.892$

c. 计算信息增益

信息增益 = 熵 - 条件熵，在这里就是类别信息熵 - 属性信息熵，它表示的是信息不确定性减少的程度。如果一个属性的信息增益越大，就表示用这个属性进行样本划分可以更好的减少划分后样本的不确定性，当然，选择该属性就可以更快更好地完成我们的分类目标。

信息增益越大越好

信息增益就是 ID3 算法的特征选择指标。

$G ain (D, 天气) = 0.940 - 0.694 = 0.246$

$G ain (D, 温度) = 0.940 - 0.911 = 0.029$

$G ain (D, 湿度) = 0.940 - 0.789 = 0.15$

$G ain (D, 风速) = 0.940 - 0.892 = 0.048$

假设我们在上面表格 1 的数据前面添加一列，取名为“编号”，取值为 1~14。若把“编号”也作为一个候选划分属性，则根据前面步骤：计算每个属性的信息熵过程中，我们发现，该属性的值为 0，也就是其信息增益为 0.940。

但是很明显，如果这么分类，最后出现的结果并不具有泛化效果。此时根据信息增益就无法选择出有效分类特征。所以，C4.5 选择使用信息增益率对 ID3 进行改进。

d. 计算属性分裂信息度量（固有值IV）

用分裂信息度量（固有值IV）来考虑某种属性进行分裂时分支的数量信息和尺寸信息，我们把这些信息称为属性的内在信息(Intrinsic Information)。信息增益率用信息增益 / 内在信息，会导致属性的重要性随着内在信息的增大而减小（也就是说，如果这个属性本身不确定性就很大，那我就越不倾向于选取它），这样算是对单纯用信息增益有所补偿。

$\begin{aligned} IV(天气) & = -\sum^V_{v=1}\frac{D^v}{D}\log{\frac{D^v}{D}}\\ & = -\frac{5}{14}\log_2^{\frac{5}{14}} -\frac{5}{14}\log_2^{\frac{5}{14}} -\frac{4}{14}\log_2^{\frac{4}{14}}\\ & = 1.577 \end{aligned}$

$\begin{aligned} IV(温度) & = -\frac{4}{14}\log_2^{\frac{4}{14}} -\frac{6}{14}\log_2^{\frac{6}{14}} -\frac{4}{14}\log_2^{\frac{4}{14}}\\ & = 1.556 \end{aligned}$

$\begin{aligned} IV(湿度) & = -\frac{7}{14}\log_2^{\frac{7}{14}} -\frac{7}{14}\log_2^{\frac{7}{14}}\\ & = 1.0 \end{aligned}$

$\begin{aligned} IV(风速) & = -\frac{9}{14}\log_2^{\frac{9}{14}} -\frac{5}{14}\log_2^{\frac{5}{14}}\\ & = 0.985 \end{aligned}$

e. 计算信息增益率

$\begin{aligned} \mathrm{Gain \ ratio}(D,天气) & = \frac{\mathrm{Gain}(D, 天气)}{IV(天气)} \\ & = \frac{0.246}{1.577}\\ & = 0.156 \end{aligned}$

$\begin{aligned} \mathrm{Gain \ ratio}(D,温度) & = \frac{\mathrm{Gain}(D, 温度)}{IV(温度)} \\ & = \frac{0.026}{1.556}\\ & = 0.0167 \end{aligned}$

$\begin{aligned} \mathrm{Gain \ ratio}(D,湿度) & = \frac{\mathrm{Gain}(D, 湿度)}{IV(湿度)} \\ & = \frac{0.151}{1.0}\\ & = 0.151 \end{aligned}$

$\begin{aligned} \mathrm{Gain \ ratio}(D,风速) & = \frac{\mathrm{Gain}(D, 风速)}{IV(风速)} \\ & = \frac{0.048}{0.985}\\ & = 0.0487 \end{aligned}$

天气的信息增益率最高，选择天气为分裂属性。发现分裂了之后，天气是“阴”的条件下，类别是“纯”的，所以把它定义为叶子节点，选择不“纯”的结点继续分裂。

在子结点当中重复过程 1~5，直到所有的叶子结点足够“纯”。

现在我们来总结一下 C4.5 的算法流程

while (当前节点"不纯"):
    1. 计算当前节点的类别熵(以类别取值计算)
    2. 计算当前阶段的属性熵(按照属性求得类别取值计算)
    3. 计算信息增益
    4. 计算各个属性的分裂信息度量(固有值)
    5. 计算各个属性的信息增益率
    
    if 设置的所有值都为叶子结点:
        return  # 结束

Q：这里的“值”具体指的是什么？
A：在 C4.5 算法中，这里的“值”指的是属性值。在决策树算法中，每个节点都代表一个属性，而每个分支代表该属性的一个可能取值。因此，当我们说“所有设置的值都为叶子结点”时，我们指的是当前节点的所有子节点都是叶子节点，即它们都属于同一类别。

2.3.3 为什么使用 C4.5 会更好？

采用信息增益率来选择属性：克服了用信息增益来选择属性时偏向选择值多的属性的问题。
采用了一种后剪枝方法：避免树的高度无节制的增长，从而避免模型过度拟合数据
增加了对于缺失值的处理：在某些情况下，可供使用的数据可能缺少某些属性的值。
- 假如< $x$ , $c (x)$ > 是样本集 $S$ 中的一个训练实例，但是其属性 $A$ 的值 $A (x)$ 未知。
- 处理缺少属性值一般有两种策略：
  - 一种策略是赋给它结点 $n$ 所对应的训练实例中该属性的最常见值；
  - 另外一种更复杂的策略是为 $A$ 的每个可能值赋予一个概率。
- 例如：给定一个布尔属性 $A$ ，如果结点 $n$ 包含 6 个已知 $A = 1$ 和 4 个 $A = 0$ 的实例，那么 $A (x) = 1$ 的概率是 0.6，而 $A (x) = 0$ 的概率是0.4。于是，实例 $x$ 的 $60\%$ 被分配到 $A = 1$ 的分支， $40\%$ 被分配到另一个分支。
- C4.5 就是使用这种方法处理缺少的属性值。

2.4 基尼值（Gini Value）和基尼指数（Gini Index）【决策树的划分依据·三】

2.4.1 概念

CART 决策树使用基尼指数（Gini Index）来选择划分属性。

CART 是Classification and Regression Tree（分类和回归树）的简称，这是一种著名的决策树学习算法，分类和回归任务都可用。

基尼值和基尼指数的定义：

一、基尼值

基尼值（Gini Value） $\mathrm{Gini}(D)$ 的定义：是一种用于衡量数据集纯度的指标。

从数据集 $D$ 中随机抽取两个样本，其类别标记不一致的概率。故 $\mathrm{Gini}(D)$ 值越小，数据集 $D$ 的纯度越高（越好）。

换言之，数据集 $D$ 的纯度可用基尼值来量化：

$\begin{aligned} \mathrm{Gini}(D) & = \sum_{k=1}^{|y|}\sum_{k' \neq k}p_kp_{k'} \\ & = 1 - \sum_{k=1}^{|y|}p_k^2 \end{aligned}$

其中：

$∣ y ∣$ 表示类别数
$p_k = \frac{C^k}{D}$ 表示第 $k$ 类样本在数据集 $D$ 中所占的比例
$C^k$ 为第 $k$ 类样本的数量、
$k^{'}$ 是一个指标，表示类别。它与 $k$ 不同，即 $\neq k$ 。在计算基尼值时，我们需要计算所有类别之间的组合，因此需要使用两个指标 $k$ 和 $k^{'}$ 来表示不同的类别

二、基尼指数

基尼指数 $\mathrm{Gini \ index}(D)$ 的定义：是一种用于选择最优划分属性的指标。一般选择使划分后基尼系数最小的属性作为最优化分属性。

$\mathrm{Gini \ index}(D, a) = \sum_{v=1}^V \frac{|D^v|}{|D|}\mathrm{Gini}(D^v)$

其中：

$D$ 表示数据集。
$a$ 表示属性。
$V$ 表示属性 $a$ 的取值个数。
$v$ 是一个指标，表示属性 $a$ 的第 $v$ 个取值。
$D^v$ 表示数据集 $D$ 中属性 $a$ 取值为 $a^v$ 的样本子集。
$\mathrm{Gini}(D^v)$ 表示数据集 $D^v$ 的基尼值。
$\frac{|D^v|}{|D|}$ 表示数据集 $D^v$ 在数据集 $D$ 中所占的比例。

因此，基尼指数 $\mathrm{Gini \ index}(D, a)$ 表示在属性 $a$ 上对数据集 $D$ 进行划分后，各个子集的基尼值的加权平均值。

Q1：什么是基尼指数？
A1：基尼系数（Gini coefficient）是 20 世纪初意大利学者科拉多·基尼根据洛伦兹曲线所定义的判断年收入分配公平程度的指标，是比例数值，在 0 和 1 之间。基尼指数（Gini index）是基尼系数乘 100 倍作百分比表示。

基尼系数 $\in$ [0, 1]
基尼指数 $\in$ [0%, 100%]

Q2：基尼系数只能用于判断年收入分配公平程度吗？
A2：基尼系数通常用来衡量一个国家或地区居民收入差距的常用指标之一。它包括收入基尼系数（Income Gini）和财富基尼系数（Wealth Gini）。两者的算法大致相同，区别在于收入基尼系数的数据是来自于某地区的家庭收入统计，财富基尼系数的数据是来自于某地区的家庭总资产统计。

除了收入不平等，基尼系数也可以用来衡量其他方面的不平等情况，比如教育水平、健康状况和政治参与等。

Q3：意思是，基尼系数（基尼指数）是用来衡量不平等情况的吗？
A3：是的，基尼系数（基尼指数）通常用来衡量一个国家或地区居民收入差距的常用指标之一。它也可以用来衡量其他方面的不平等情况，比如教育水平、健康状况和政治参与等。

Q4：基尼系数（基尼指数）越大代表着什么？
A4：基尼系数（基尼指数）越大，代表着收入分配或其他方面的不平等程度越高。基尼系数最大为 “1”，最小等于 “0”。前者表示居民之间的收入分配绝对不平均，即 100% 的收入被一个单位的人全部占有了；而后者则表示居民之间的收入分配绝对平均，即人与人之间收入完全平等，没有任何差异。因此，基尼系数的实际数值只能介于 0～1 之间，基尼系数越小收入分配越平均，基尼系数越大收入分配越不平均。

Q5：基尼系数（基尼指数）是否可以应用到机器学习中？
A5：是的，基尼系数（基尼指数）可以应用到机器学习中。在决策树算法中，基尼系数（基尼指数）常用作衡量数据集的不纯度（impurity）的指标。在构建决策树时，算法会选择基尼系数最小的特征进行分裂，以便得到更纯净的子数据集。

Q6：什么是基尼值？
A6：基尼值（Gini value）是指在决策树算法中，用来衡量数据集的不纯度（impurity）的指标。它是基于基尼系数（Gini coefficient）的概念计算而来。基尼值越小，表示数据集的不纯度越低，即数据集中的样本属于同一类别的可能性越大。

2.4.2 案例

请根据下方表格，按照基尼指数的划分依据，做出决策树。

序号	是否有房	婚姻状况	年收入	是否拖欠贷款
1	yes	single	125k	no
2	no	married	100k	no
3	no	single	70k	no
4	yes	married	120k	no
5	no	divorced	95k	yes
6	no	married	60k	no
7	yes	divorced	220k	no
8	no	single	85k	yes
9	no	married	75k	no
10	no	single	90k	yes

1. 对数据集非序列标号属性（是否有房、婚姻状况、年收入）分别计算它们的 Gini 指数，取 Gini 指数最小的属性作为决策树的根节点属性。

第一次大循环

2. 根节点的 Gini 值为：

$\begin{aligned} \mathrm{Gini}(是否拖欠贷款) & = 1 - \sum_{k=1}^{|y|}p_k^2\\ & = 1 - [(\frac{3}{10})^2 + (\frac{7}{10})^2]\\ & = 0.42 \end{aligned}$

在决策树算法中，我们通常会选择一个类别属性作为决策属性，然后根据这个属性的取值来划分数据集。这里我们选择“是否拖欠贷款”这个属性作为决策属性，则可以计算出数据集 $D$ 的 Gini 值为 0.42。

3. 当根据是否有房来进行划分时，Gini 指数计算过程为：

$\begin{aligned} \mathrm{Gini}(左子节点) & = 1 - \sum_{k=1}^{|y|}p_k^2\\ & = 1 - [(\frac{0}{3})^2 + (\frac{3}{3})^2]\\ & = 0 \end{aligned}$

$\begin{aligned} \mathrm{Gini}(右子节点) & = 1 - \sum_{k=1}^{|y|}p_k^2\\ & = 1 - [(\frac{3}{7})^2 + (\frac{4}{7})^2]\\ & = 0.4898 \end{aligned}$

$\begin{aligned} \mathrm{Gini \ index}(D, 是否有房) & = \sum_{v=1}^V \frac{|D^v|}{|D|}\mathrm{Gini}(D^v)\\ & = \frac{7}{10} \times 0.4898 + \frac{3}{10} \times 0\\ & = 0.343 \end{aligned}$

其中：

左子节点：有房(yes)
右子节点：没房(no)

4. 若按婚姻状况属性来划分，属性婚姻状况有三个可能的取值：

{married} | {single, divorced}
{single} | {married, divorced}
{divorced} | {single, married}

4.1 当分组为 {married} | {single, divorced} 时：

$\begin{aligned} \mathrm{Gini \ index}(D, 婚姻状况) & = \sum_{v=1}^V \frac{|D^v|}{|D|}\mathrm{Gini}(D^v)\\ & = \frac{4}{10} \times 0 + \frac{6}{10} \times [1 - (\frac{3}{6})^2 - (\frac{3}{6})^2] \\ & = 0.3 \end{aligned}$

4.2 当分组为 {single} | {married, divorced} 时：

$\begin{aligned} \mathrm{Gini \ index}(D, 婚姻状况) & = \sum_{v=1}^V \frac{|D^v|}{|D|}\mathrm{Gini}(D^v)\\ & = \frac{4}{10} \times [1 - (\frac{2}{4})^2 - (\frac{2}{4})^2] + \frac{6}{10} \times [1 - (\frac{1}{6})^2 - (\frac{5}{6})^2] \\ & = 0.367 \end{aligned}$

4.3 当分组为 {divorced} | {single, married} 时：

$\begin{aligned} \mathrm{Gini \ index}(D, 婚姻状况) & = \sum_{v=1}^V \frac{|D^v|}{|D|}\mathrm{Gini}(D^v)\\ & = \frac{2}{10} \times [1 - (\frac{2}{4})^2 - (\frac{2}{4})^2] + \frac{8}{10} \times [1 - (\frac{2}{8})^2 - (\frac{6}{8})^2] \\ & = 0.4 \end{aligned}$

对比计算结果，根据婚姻状况属性来划分根节点时取 Gini 指数最小的分组作为划分结果，即：{married} | {single, divorced}。

5. 同理可得年收入的 Gini 指数：

对于年收入属性为数值型属性，首先需要对数据按升序排序，然后从小到大依次用相邻值的中间值作为分隔将样本划分为两组。例如当面对年收入为 60k 和 70k 这两个值时，我们算得其中间值为 65k。以中间值 65k 作为分割点求出 Gini 指数。

以中间值为 65k 为例，小于 65 的归为一类，大于 65 的归为一类，这样就可以计算 Gini 指数了

根据计算知道，三个属属性划分根节点的指数最小的有两个：年收入属性和婚姻状况，它们的指数都为 0.3。此时，选取首先出现的属性【married】作为第一次划分。

第二次大循环

6. 接下来，采用同样的方法，分别计算剩下属性，其中根节点的 Gini 系数为（此时是否拖欠贷款的各有 3 个 records）

$\begin{aligned} \mathrm{Gini}(是否拖欠贷款) & = 1 - \sum_{k=1}^{|y|}p_k^2\\ & = 1 - [(\frac{3}{6})^2 + (\frac{3}{6})^2]\\ & = 0.5 \end{aligned}$

7. 对于是否有房属性，可得：

$\begin{aligned} \mathrm{Gini \ index}(D, 是否有房) & = \sum_{v=1}^V \frac{|D^v|}{|D|}\mathrm{Gini}(D^v)\\ & = \frac{2}{6} \times 0 + \frac{4}{6} \times [1 - (\frac{3}{4})^2 - (\frac{1}{4})^2] \\ & = 0.25 \end{aligned}$

8. 对于年收入属性则有：

经过如上流程，构建的决策树，如下图：

现在我们来总结一下 CART（Classification and Regression Tree，分类和回归树）的算法流程：

while(当前节点"不纯"):
    1. 遍历每个变量的每一种分割方式，找到最好的分割点
    2. 分割成两个节点 N1 和 N2

    if 每个节点足够"纯":
        return  # 结束

2.5 总结

2.5.1 常见决策树的启发函数比较

一、信息熵

$\mathrm{Ent}(D) = -\sum_{k = 1}^n p_k \log_2^{p_k}$

$D$ 表示数据集
$n$ 表示数据集中类别的个数
$p_k$ 表示数据集中第 $k$ 类样本所占的比例

二、信息增益：ID3 决策树

$\begin{aligned} \mathrm{Gain}(D, a) & = \mathrm{Ent}(D) - \mathrm{Ent}(D|a)\\ & = \mathrm{Ent}(D) - \sum_{v=1}^V \frac{D^v}{D} \mathrm{Ent}(D^v) \end{aligned}$

$\mathrm{Gain}(D, a)$ 表示使用属性 $a$ 对数据集 $D$ 进行划分所获得的信息增益
$\mathrm{Ent}(D|a)$ 表示使用属性 $a$ 对数据集 $D$ 进行划分后的条件熵
$V$ 表示属性 $a$ 的可取值个数
$\frac{D^v}{D}$ 表示数据集 $D$ 中属性 $a$ 取值为 $v$ 的样本所占的比例
$\mathrm{Ent}(D^v)$ 表示数据集 $D$ 中属性 $a$ 取值为 $v$ 的样本子集的信息熵。

三、信息增益率：C4.5 决策树

$\mathrm{Gain \ Ratio}(D, a) = \frac{\mathrm{Gain}(D, a)}{IV(a)}$

$\mathrm{Gain \ Ratio}(D, a)$ 表示使用属性 $a$ 对数据集 $D$ 进行划分所获得的信息增益率
$\mathrm{Gain}(D, a)$ 表示使用属性 $a$ 对数据集 $D$ 进行划分所获得的信息增益
$I V (a)$ 表示属性 $a$ 的固有值（Intrinsic Value）
- $\mathrm{IV}(a) = - \sum_{v=1}^V \frac{D^v}{D} \log_2 \frac{D^v}{D}$
- 其中：
  - $V$ 表示属性 $a$ 的可取值个数
  - $\frac{D^v}{D}$ 表示数据集 $D$ 中属性 $a$ 取值为 $v$ 的样本所占的比例
- 固有值 $I V (a)$ 反映了属性 $a$ 对数据集 $D$ 的划分能力。 $I V (a)$ 值越大，表示属性 $a$ 对数据集 $D$ 的划分能力越强。

四、基尼值

$\begin{aligned} \mathrm{Gini}(D) & = \sum_{k=1}^{|y|}\sum_{k'\neq k}p_k p_k'\\ & = 1 - \sum_{k=1}^{|y|}p_k^2 \end{aligned}$

$\mathrm{Gini}(D)$ 表示数据集 $D$ 的基尼值
$∣ y ∣$ 表示数据集中类别的个数
$p_k$ 表示数据集中第 $k$ 类样本所占的比例

五、基尼指数：CART 决策树

$\mathrm{Gini \ index}(D, a) = \sum_{v = 1}^V \frac{D^v}{D} \mathrm{Gini}(D^v)$

$\mathrm{Gini \ index}(D, a)$ 表示使用属性 $a$ 对数据集 $D$ 进行划分所获得的基尼指数
$\frac{D^v}{D}$ 表示数据集 $D$ 中属性 $a$ 取值为 $v$ 的样本所占的比例
$\mathrm{Gini}(D^v)$ 表示数据集 $D$ 中属性 $a$ 取值为 $v$ 的样本子集的基尼值

名称	提出时间	提出作者	分支方式	备注
ID3	1986	Ross Quinlan	信息增益	ID3 只能对离散属性的数据集构成决策树
C4.5	1993	Ross Quinlan	信息增益率	解决了 ID3 分支过程中总喜欢偏向选择值较多的属性
CART	1984	Breiman	Gini 指数	可以进行分类和回归，可以处理离散属性，也可以处理连续属性

Q1：这些公式都是用来干什么的？
A1：这些公式都是用于决策树学习中的概念。

信息熵（Entropy）：衡量数据集合纯度的指标，值越小表示数据集合越纯。
信息增益（Information Gain）：衡量使用属性 $a$ 对数据集 $D$ 进行划分所获得的纯度提升。
信息增益率（Information Gain Ratio）：对信息增益进行了归一化，以解决信息增益对可取值数目较多的属性有所偏好的问题。
基尼值（Gini Value）：与信息熵类似，也是衡量数据集合纯度的指标。
基尼指数（Gini Index）：CART 决策树使用基尼指数来选择最优划分属性。

总之，这些公式都是用于选择最优划分属性，从而构建决策树。

Q2：什么是决策树？
A2：决策树（Decision Tree）是一种常用的监督学习方法，可以用于分类和回归问题。它通过对数据集的递归划分，构建一棵树形结构来进行预测。

决策树的每个非叶子节点表示一个属性测试，每个分支代表一个测试输出，而每个叶子节点存储一个类别标签。使用决策树进行预测时，从根节点开始，对实例进行测试，根据测试结果选择对应的分支进入下一层节点，直到到达叶子节点，最终将叶子节点存储的类别标签作为预测结果。

决策树具有易于理解和解释、计算复杂度较低、能够处理类别型和数值型数据等优点。

Q3：决策树有什么应用？
A3：决策树在各个领域都有广泛的应用，包括金融、医疗、电子商务、市场营销等。它可以用于分类和回归问题，例如：

银行可以使用决策树来预测客户是否会违约。
医生可以使用决策树来辅助诊断疾病。
电子商务网站可以使用决策树来预测用户是否会购买某个产品。
市场营销人员可以使用决策树来划分客户群体，以便更好地进行营销活动。

此外，决策树还可以用作其他机器学习算法的基础模型，例如随机森林和梯度提升树等。

Q4：决策树有什么缺点？
A4：尽管决策树具有很多优点，但它也有一些缺点，主要包括：

容易过拟合：决策树容易生成过于复杂的模型，导致过拟合。为了避免过拟合，需要对决策树进行剪枝。
不稳定性：决策树对数据中的微小变化非常敏感，这可能导致生成的模型不稳定。可以通过集成学习方法来提高模型的稳定性。
局部最优：决策树学习算法采用贪心策略，每次选择最优划分属性，但这并不能保证生成的决策树是全局最优的。

尽管存在这些缺点，但决策树仍然是一种非常实用的机器学习方法。

Q5：如何构建决策树？
A5：构建决策树通常包括以下步骤：

选择最优划分属性：使用某种指标（如信息增益、信息增益率、基尼指数等）来选择最优划分属性。
划分数据集：根据最优划分属性的取值，将数据集划分为若干个子集。
递归构建决策树：对每个子集递归地构建决策树，直到满足停止条件（如子集中所有样本属于同一类别、子集中样本数量小于阈值等）。

构建好的决策树可能会过拟合，因此需要对其进行剪枝。剪枝通常包括预剪枝和后剪枝两种方法。预剪枝是在构建决策树的过程中进行剪枝，而后剪枝是在构建好决策树后进行剪枝。

构建决策树的具体方法可能会因算法而异，常见的决策树算法包括 ID3、C4.5 和 CART 等。

2.5.1.1 ID3 算法

ID3 算法是一种决策树算法，它的优点包括简单易懂，理论清晰，方法简单，学习能力较强，健壮性好，不受噪声影响，可以训练缺少属性值的实例。

但是，ID3 算法也有一些缺点：

它只考虑分类型的特征，没有考虑连续特征，比如长度、密度都是连续值，无法在 ID3 运用，这大大限制了ID3的用途 —— ID3 算法只能对描述属性为离散型的数据集构建决策树
ID3 算法对于缺失值没有进行考虑，没有考虑过拟合的问题
ID3 算法在选择根节点和各内部节点中的分支属性时，采用信息增益作为评价标准。而信息增益的缺点是倾向于选择取值较多的属性，在有些情况下这类属性可能不会提供太多有价值的信息

2.5.1.2 C4.5 算法

C4.5 算法是一种决策树算法，它是 ID3 算法的一种延伸和优化。 C4.5 算法对 ID3 算法进行了改进，改进点主要有：

用信息增益率来选择划分特征，克服了用信息增益选择的不足
能够处理离散型和连续型的属性类型，即将连续型的属性进行离散化处理
能够处理具有缺失属性值的训练数据；在构造树的过程中进行剪枝。

C4.5 算法具有条理清晰，能处理连续型属性，防止过拟合，准确率较高和适用范围广等优点。但是，C4.5 算法也有一些缺点：

C4.5 对数据进行多次顺序扫描和排序，效率较低
虽然使用了更加先进的信息增益率，但信息增益率会对可取值数目较少的属性有所偏好
C4.5 只适合于能够驻留于内存的数据集，当训练集大得无法在内存中容纳时，程序无法运行

2.5.1.3 CART 算法

CART 算法是一种二叉决策树算法，它既可以用于分类问题，也可以用于回归问题。在分类问题中，CART 算法使用基尼系数作为特征选择准则。CART 算法可以处理连续型和离散型的属性类型，并且可以处理具有缺失属性值的训练数据。

与 ID3 和 C4.5 相比，CART 算法的优点如下：

使用简化的二叉树结构，运算速度更快
CART 算法不仅可以用于分类问题，还可以用于回归问题

缺点：

与 C4.5 相比，CART 算法没有剪枝策略。

注意：

C4.5 不一定是二叉树，但 CART 一定是二叉树

2.5.1.4 多变量决策树（Multi-variate Decision Tree）

无论是 ID3、C4.5 还是 CART，在做特征选择的时候都是选择最优的一个特征来做分类决策。但是大多数时候，分类决策不应该是由某一个特征决定的，而是应该由一组特征决定的。这样得到的决策树更加准确。这种由一组特征生成的决策树叫做多变量决策树（Multi-variate Decision Tree）。

在选择最优特征的时候，多变量决策树不是选择某一个最优特征，而是选择最优的一个特征线性组合来做决策。这个算法的代表是 OC1，这里不多介绍。

一般情况下，当样本发生一点点的改动，就会导致树结构的剧烈改变。这个问题可以通过集成学习里面的随机森林之类的方法解决。

2.5.2 决策树变量的两种类型

一、数字型（Numeric）

变量类型是整数或浮点数，如前面例子中的“年收入”。用>=、>、<或<=作为分割条件（排序后，利用已有的分割情况，可以优化分割算法的时间复杂度）。

二、名称型（Nominal）

类似编程语言中的枚举类型，变量只能从有限的选项中选取，比如前面例子中的“婚姻情况”，只能是“单身”，“已婚”或“离婚”，并使用=来分割。

2.5.3 如何评估分割点的好坏？

如果一个分割点可以将当前的所有节点分为两类，使得每一类都很“纯”，也就是同一类的记录较多，那么就是一个好分割点。

比如上面的例子，“拥有房产”，可以将记录分成两类，“是”的节点全部都可以偿还债务（没有拖欠贷款），非常“纯”；“否”的节点，拖欠贷款和不拖欠贷款的人都有，不是很“纯”，但是两个节点加起来的纯度之和与原始节点的纯度之差最大，所以按照这种方法分割。

构建决策树采用贪心算法，只考虑当前纯度差最大的情况作为分割点。

2.5.4 【拓展】贪心算法、动态规划和分治算法

Q1：什么是贪心算法？
A1：贪心算法是一种在每一步选择中都采取在当前状态下最好或最优（即最有利）的选择，从而希望导致结果是最好或最优的算法。贪心算法在有最优子结构的问题中尤为有效。最优子结构的意思是局部最优解能决定全局最优解。简单地说，问题能够分解成子问题来解决，子问题的最优解能递推到最终问题的最优解。

贪心算法并不保证能够得到全局最优解，因为它并不总是做出在某种意义上的最佳选择。但对于许多问题来说，贪心算法能产生非常接近最优解的结果，甚至是最优解。

Q2：什么是动态规划？
A2：动态规划是一种用来解决最优化问题的算法。它通过将问题分解为更小的子问题来解决，通常使用递归或迭代的方法。动态规划通常用于求解具有重叠子问题和最优子结构性质的问题。

重叠子问题意味着子问题会被多次计算，因此动态规划算法会将已经计算过的子问题的解存储起来，避免重复计算。最优子结构性质意味着问题的最优解可以通过其子问题的最优解来构造。

动态规划算法通常用于求解组合优化问题，如最短路径、最长公共子序列和背包问题等。

Q3：什么是分治算法？
A3：分治算法是一种解决问题的方法，它将一个复杂的问题分解为若干个更小的子问题，然后递归地解决这些子问题，最后将子问题的解组合起来得到原问题的解。分治算法通常用于解决具有递归结构的问题。

分治算法的基本步骤包括：

分解：将原问题分解为若干个规模较小的子问题。
解决：递归地解决每个子问题。如果子问题的规模足够小，则直接求解。
合并：将子问题的解组合起来，构成原问题的解。

分治算法的经典应用包括快速排序、归并排序和二分查找等。

Q4：贪心算法、动态规划和分治算法有什么区别？
A4：贪心算法、动态规划和分治算法都是用来解决最优化问题的算法，但它们之间存在一些区别。

贪心算法在每一步都采取当前状态下最优的选择，希望能够得到全局最优解。它并不保证能够得到全局最优解，但对于许多问题来说，贪心算法能产生非常接近最优解的结果，甚至是最优解。

动态规划通过将问题分解为更小的子问题来解决，通常使用递归或迭代的方法。它通常用于求解具有重叠子问题和最优子结构性质的问题。动态规划算法会将已经计算过的子问题的解存储起来，避免重复计算。

分治算法将一个复杂的问题分解为若干个更小的子问题，然后递归地解决这些子问题，最后将子问题的解组合起来得到原问题的解。分治算法通常用于解决具有递归结构的问题。

总之，贪心算法、动态规划和分治算法都是用来解决最优化问题的算法，但它们采取的方法不同。贪心算法在每一步都采取局部最优选择；动态规划通过分解问题并存储子问题的解来避免重复计算；分治算法通过分解问题并递归地解决子问题来得到原问题的解。

3. CART 剪枝

学习目标：

了解为什么要进行 CART 剪枝
知道常用的 CART 剪枝方法

3.1 为什么要剪枝

图形描述：

横轴表示在决策树创建过程中树的结点总数（决策树的结点总数可以理解为模型的复杂度，结点越多，模型越复杂），纵轴表示决策树的预测精度
实线显示的是决策树在训练集上的精度，虚线显示的是在一个独立的测试集上的精度

随着树的增长，在训练样集上的精度是单调上升的，然而在独立的测试样例上测出的精度先上升后下降。很明显，模型（决策树）出现了过拟合！

出现这种情况的原因：

原因 1：噪声、样本冲突，即错误的样本数据（学习到了错误的样本和特征）
原因 2：特征（即属性）不能完全作为分类标准
原因 3：学习到了巧合的现律性，这些规律并不是真正的规律，一般是因为数据量不够大

剪枝（Pruning）是决策树学习算法对付"过拟合"的主要手段。

Pruning：英[ˈpruːnɪŋ] 美[ˈpruːnɪŋ]
v. 修剪树枝; 打杈; 裁减; 削减; 精简;
n. 修剪；剪枝;
adj. 修剪用的;

在决策树学习中，为了尽可能正确分类训练样本，结点划分过程将不断重复，有时会造成决策树分支过多，这时就可能因训练样本学得“太好”了，以致于把训练集自身的一些特点当作所有数据都具有的一般性质而导致过拟合。因此，可通过主动去掉一些分支来降低过拟合的风险。

Q：如何判断决策树泛化性能是否提升呢？
A：可使用前面介绍的留出法，即预留一部分数据用作“验证集”以进行性能评估。

例如对下表的西瓜数据集，我们将其随机划分为两部分，其中编号为 {1, 2, 3, 6, 7, 10, 14, 15, 16, 17}的样例组成训练集，编号为{4, 5, 8, 9, 11, 12, 13}的样例组成验证集。

训练集：

编号	色泽	根蒂	敲声	纹理	脐部	触感	好瓜
1	青绿	蜷缩	浊响	清晰	凹陷	硬滑	是
2	乌黑	蜷缩	沉闷	清晰	凹陷	硬滑	是
3	乌黑	蜷缩	浊响	清晰	凹陷	硬滑	是
6	青绿	稍蜷	浊响	清晰	稍凹	软粘	是
7	乌黑	稍蜷	浊响	稍糊	稍凹	软粘	是

10	青绿	硬挺	清脆	清晰	平坦	软粘	否
14	浅白	稍蜷	沉闷	稍糊	凹陷	硬滑	否
15	乌黑	稍蜷	浊响	清晰	稍凹	软粘	否
16	浅白	蜷缩	浊响	模糊	平坦	硬滑	否
17	青绿	蜷缩	沉闷	稍糊	稍凹	硬滑	否

验证集：

编号	色泽	根蒂	敲声	纹理	脐部	触感	好瓜
4	青绿	蜷缩	沉闷	清晰	凹陷	硬滑	是
5	浅白	蜷缩	浊响	清晰	凹陷	硬滑	是
8	乌黑	稍蜷	浊响	清晰	稍凹	硬滑	是

9	乌黑	稍蜷	沉闷	稍糊	稍凹	软粘	否
11	浅白	硬挺	清脆	模糊	平坦	硬滑	否
12	浅白	蜷缩	浊响	模糊	平坦	软粘	否
13	青绿	稍蜷	浊响	稍糊	凹陷	硬滑	否

假定咱们采用信息增益准则来划分属性选择，则上表中训练集将会生成一棵决策树，如下所示。为便于讨论，我们对圈中的部分结点做了编号。

接下来，我们一起看一下，如何对这一棵树进行剪枝。

3.2 常用的剪枝方法

决策树剪枝的基本策略有“预剪枝”（pre-pruning）和“后剪枝”（post- pruning）：

预剪枝 是指在决策树生成过程中，对每个结点在划分前先进行估计，若当前结点的划分不能带来决策树泛化性能提升，则停止划分并将当前结点标记为叶结点（没有子节点了）
后剪枝 则是先从训练集生成一棵完整的决策树，然后自底向上地对非叶结点进行考察，若将该结点对应的子树替换为叶结点能带来决策树泛化性能提升，则将该子树替换为叶结点

3.2.1 预剪枝

首先，基于信息增益准则，我们会选取属性“脐部”来对训练集进行划分，并产生 3 个分支，如下图所示。然而，是否应该进行这个划分呢？预剪枝要对划分前后的泛化性能进行估计。

在划分之前，所有样例集中在根结点。

若不进行划分，该结点将被标记为叶结点（没有子节点了），其类别标记为训练样例数最多的类别，假设我们将这个叶结点标记为“好瓜”。
那么我们用前面表的验证集对这个单结点决策树进行评估。则编号为 {4, 5, 8} 的样例被分类正确。另外 4 个样例分类错误，于是验证集精度为 $\frac{3}{7}\times 100\% = 42.9\%$ 。

在用属性“脐部”划分之后，上图中的结点②、③、④分别包含编号为 {1, 2, 3, 14}、{6, 7, 15, 17}、{10, 16} 的训练样例，因此这 3 个结点分别被标记为叶结点“好瓜”、“好瓜”、“坏瓜”。

此时，验证集中编号为 {4, 5, 8, 11, 12} 的样例被分类正确，验证集精度为 $\frac{5}{7}\times 100\% = 71.4\% > 42.9\%$ 。

于是，用“脐部”进行划分得以确定（确定“脐部”为根节点了）。

然后，决策树算法应该对结点 2 进行划分，基于信息增益准则将挑选出划分属性“色泽”。然而，在使用“色泽”划分后，编号为 {5} 的验证集样本分类结果会由正确转为错误，使得验证集精度下降为 $57.1\%$ 。于是，预剪枝策略将禁止结点 2 被划分。

对结点 3 ，最优划分属性为“根蒂”，划分后验证集精度仍为 $71.4\%$ ，这个划分不能提升验证集精度，于是预剪枝策略禁止结点 3 被划分。

对结点 4，其所含训练样例己属于同一类，不再进行划分。

于是，基于预剪枝策略从上表数据所生成的决策树如上图所示，其验证集精度为 $71.4\%$ 。这是一棵仅有一层划分的决策树，亦称“决策树桩”（Decision Stump）。

3.2.2 后剪枝

后剪枝先从训练集生成一棵完整决策树，继续使用上面的案例.从前面可知，我们前面构造的决策树的验证集精度为 $42.9\%$ 。

后剪枝首先考察结点 6。若将其领衔的分支剪除（相当于把结点 6 替换为叶子结点），替换后的叶结点包含编号为 {7, 15} 的训练样本，于是该叶结点的类别标记为“好瓜”，此时决策树的验证集精度提高至 $57.1\%$ 。于是，后剪枝策略决定剪枝，如下图所示。

然后考察结点 5。若将其邻衔的子树替换为叶结点，则替换后的叶结点包含编号为 {6, 7, 15} 的训练样例，叶结点类别标记为“好瓜”，此时决策树验证集精度仍为 $57.1\%$ 。于是，可以不进行剪枝。

对结点 2。若将其领衔的子树替换为叶结点，则替换后的叶结点包含编号为 {1, 2, 3, 14} 的训练样例，叶结点标记为“好瓜”，此时决策树的验证集精度提高至 $71.4\%$ 。于是，后剪枝策略决定剪枝。

对结点 3 和 1，若将其领衔的子树替换为叶结点，则所得决策树的验证集精度分别为 $71.4\%$ 与 $42.9\%$ ，均未得到提高，于是它们被保留。

最终，基于后剪枝策略所生成的决策树就如上图所示（就剪了一下），其验证集精度为 $71.4%。

对比两种剪枝方法：

后剪枝决策树通常比预剪枝决策树保留了更多的分支。
一般情形下，后剪枝决策树的欠拟合风险很小，泛化性能往往优于预剪枝决策树。
但后剪枝过程是在生成完全决策树之后进行的。并且要自底向上地对树中的所有非叶结点进行逐一考察，因此其训练时间开销比未剪枝决策树和预剪枝决策树都要大得多。

Q1：在剪枝的过程中，如果精度不变呢？
A1：如果剪枝前后的精度没有变化，那么剪枝的决策取决于具体情况。

在预剪枝中，由于提前终止树的生长可以减少计算量，所以通常会进行剪枝。
在后剪枝中，由于剪枝可以简化模型，减少模型复杂度，所以也可能会进行剪枝。但是，这些都不是绝对的，具体决策取决于实际应用场景和需求。

Q2：预剪枝和后剪枝哪个更好？
A2：预剪枝和后剪枝都有各自的优缺点，它们哪个更好取决于具体的应用场景。

预剪枝的优点是计算速度快，因为它在构建决策树的过程中提前终止树的生长，减少了计算量。但是，预剪枝有时会过于简化模型，导致欠拟合。
后剪枝的优点是能够更好地避免欠拟合，因为它在构建完整的决策树后再进行剪枝。但是，后剪枝的计算量比预剪枝大，计算速度较慢。

总之，预剪枝和后剪枝都是有效的防止过拟合的方法。在实际应用中，可以根据数据集的大小、模型复杂度和计算能力等因素来选择合适的方法。

小结：

剪枝原因【了解】
- 噪声、样本冲突，即错误的样本数据
- 特征即属性不能完全作为分类标准
- 巧合的规律性，数据量不够大
常用剪枝方法【知道】
- 预剪枝：在构建树的过程中，同时剪枝
  - 限制节点最小样本数
  - 指定数据高度
  - 指定熵值的最小值
- 后剪枝：把一棵树，构建完成之后，再进行从下往上的剪枝

4. 特征工程-特征提取

学习目标：

了解什么是特征提取
知道字典特征提取操作流程
知道文本特征提取操作流程
知道 TF-IDF 的实现思想

什么是特征提取呢？

我们想让机器去识别文字时，并不能很好的把文字识别出来，此时我们可以将文字转换为数字，以提高机器的识别效果。

4.1 特征提取

4.1.1 定义

将任意数据（如文本或图像）转换为可用于机器学习的数字特征。

注意：将特征数值化是为了计算机更好的去理解数据。

特征提取的分类：
- 字典特征提取（特征离散化）
- 文本特征提取
- 图像特征提取（在深度学习将介绍）

4.1.2 特征提取API

sklearn.feature_extraction

4.2 字典特征提取

sklearn.feature_extraction.DictVectorizer 是一个类，它可以将特征值映射列表转换为向量。这个转换器将特征名称映射到特征值的映射列表（类似于字典的对象）转换为Numpy数组或scipy.sparse矩阵，以便与scikit-learn估计器一起使用。

sklearn.feature_extraction.DictVectorizer(sparse=True,...)

作用：对字典数据进行特征值化。
参数：
- dtype：默认为 np.float64。特征值的类型。作为 dtype 参数传递给 Numpy 数组或 scipy.sparse 矩阵构造函数。
- separator：默认为 '='。在进行一键编码时构造新特征时使用的分隔符字符串。
- sparse：默认为 True。是否应该产生 scipy.sparse 矩阵。
- sort：默认为 True。在拟合时是否应对 feature_names_ 和 vocabulary_ 进行排序。

sparse: 英[spɑːs] 美[spɑːrs]
adj. 稀少的; 稀疏的; 零落的;

类方法：

DictVectorizer.fit_transform(X)

作用：用于学习特征名称到索引的映射列表，并将输入数据转换为向量。
参数：
- X：输入数据，应该是一个字典列表，其中每个字典表示一个样本，键表示特征名称，值表示特征值。
- y：可选参数，默认为 None。目标值，仅用于兼容 scikit-learn 的管道(pipeline)和模型选择工具。

类属性：

DictVectorizer.get_feature_names_out()

作用：该方法返回一个包含特征名称的列表，列表中的元素顺序与转换后的向量中的特征顺序相同。
参数：
- input_features：可选参数，默认为 None。输入特征名称，用于生成输出特征名称。

4.2.1 应用

我们对以下数据进行特征提取：

[{'city': '北京', 'temperature': 100}, 
 {'city': '上海', 'temperature': 60}, 
 {'city': '深圳', 'temperature': 30}]

4.2.2 流程分析

实例化类DictVectorizer
调用fit_transform方法输入数据并转换（注意返回格式）

from sklearn.feature_extraction import DictVectorizer


data = [{'city': '北京', 'temperature': 100},
        {'city': '上海', 'temperature': 60},
        {'city': '深圳', 'temperature': 30}]

# 1. 实例化一个转换器类
transfer = DictVectorizer(sparse=False)  # 不产生 `scipy.sparse` 矩阵

# 2. 调用fit_transform方法
data = transfer.fit_transform(data)
print(f"返回的结果：\r\n {data}")

print(f"特征名称：\r\n {transfer.get_feature_names_out()}")

结果：

返回的结果：
[[  0.   1.   0. 100.]
 [  1.   0.   0.  60.]
 [  0.   0.   1.  30.]]
特征名称：
['city=上海' 'city=北京' 'city=深圳' 'temperature']

注意：如果没有加上sparse=False参数，则结果为：

返回的结果：
  (0, 1)	1.0
  (0, 3)	100.0
  (1, 0)	1.0
  (1, 3)	60.0
  (2, 2)	1.0
  (2, 3)	30.0
特征名称：
['city=上海' 'city=北京' 'city=深圳' 'temperature']

(x, y)为坐标，右边的为数值

拓展内容：One-hot编码

之前在学习 pandas 中的离散化的时候，也实现了类似的效果。我们把这个处理数据的技巧叫做“one-hot”编码。

原始数据：

转换后的数据：

我们做的是为每个类别生成一个布尔列。这些列中只有一列可以为每个样本取值 1。因此，术语为一个热编码。

小结：

对于特征当中存在类别信息的，我们都会做one-hot编码处理

4.3 文本特征提取

sklearn.feature_extraction.text.CountVectorizer 是一个类，它可以将文本文档集合转换为令牌计数矩阵。该实现使用 scipy.sparse.csr_matrix 生成计数的稀疏表示。

sklearn.feature_extraction.text.CountVectorizer(stop_words=[])

作用：对文本数据进行特征值化（转换为数字）。
参数：
- stop_words。该参数用于指定停用词列表。
  - 如果设置为 'english'，则使用内置的英语停用词列表。
  - 如果设置为一个列表，则该列表被认为包含停用词，所有这些停用词都将从结果令牌中删除。
  - 如果设置为 None，则不使用停用词。在这种情况下，将 max_df 设置为较高的值（例如在 0.7 到 1.0 的范围内）可以根据术语的语料库文档频率自动检测和过滤停用词。

方法一：fit_transform

CountVectorizer.fit_transform(X)

作用：用于学习词汇表并将文本文档集合转换为令牌计数矩阵。
参数：
- X：输入数据，应该是一个字符串列表，其中每个字符串表示一个文档。
- y：可选参数，默认为 None。目标值，仅用于兼容 scikit-learn 的管道和模型选择工具。
  返回值：该方法返回一个稀疏矩阵（sparse matrix），表示文本文档集合中每个文档的令牌计数。矩阵中的每一行表示一个文档，每一列表示一个特征（即一个令牌），元素值表示该令牌在该文档中出现的次数。

方法二：CountVectorizer.get_feature_names_out()

CountVectorizer.get_feature_names_out()

作用：返回一个包含特征名称的列表，列表中的元素顺序与转换后的向量中的特征顺序相同。
参数：
- input_features：可选参数，默认为 None。输入特征名称，用于生成输出特征名称。

sklearn.feature_extraction.text.TfidfVectorizer

后面再对其说明。

4.3.1 应用

我们对以下数据进行特征提取：

["life is short, i like python",
"life is too long, i dislike python"]

4.3.2 流程分析

实例化类 CountVectorizer
调用 fit_transform 方法输入数据并转换（注意返回格式，利用 toarray()进行sparse矩阵转换array数组）

from sklearn.feature_extraction.text import CountVectorizer


data = ["life is short, i like python",
        "life is too long, i dislike python"]

# 1. 实例化一个转换器类
transfer = CountVectorizer()

# 2. 调用fit_transform方法
data = transfer.fit_transform(raw_documents=data)

# 这里要使用toarray将sparse矩阵转换为ndarray矩阵
print("返回的特征名称为：", transfer.get_feature_names_out())
print("文本特征抽取的结果为：\r\n", data.toarray())

# 如果输出为sparse矩阵
print("\r\n文本特征抽取的结果为（sparse矩阵）：\r\n", data)

结果如下：

返回的特征名称为： ['dislike' 'is' 'life' 'like' 'long' 'python' 'short' 'too']
文本特征抽取的结果为：
 [[0 1 1 1 0 1 1 0]
 [1 1 1 0 1 1 0 1]]

文本特征抽取的结果为（sparse矩阵）：
   (0, 2)	1
  (0, 1)	1
  (0, 6)	1
  (0, 3)	1
  (0, 5)	1
  (1, 2)	1
  (1, 1)	1
  (1, 5)	1
  (1, 7)	1
  (1, 4)	1
  (1, 0)	1

上面的代码使用了sklearn.feature_extraction.text模块中的CountVectorizer类来对给定数据进行文本特征提取。调用fit_transform方法将数据转换为令牌计数的稀疏矩阵表示。然后使用toarray方法将稀疏矩阵转换为密集的numpy数组。使用get_feature_names_out方法获取与转换后数据的列对应的特征名称。输出显示了这些操作的结果。

CountVectorizer类用于将文本数据转换为数值特征向量。它通过统计每个文本中每个单词出现的次数来实现这一点。

在这个例子中，给定的数据包含两个文本字符串：“life is short, i like python” 和 “life is too long, i dislike python”。CountVectorizer首先对这些文本进行分词，得到8个不同的单词：‘dislike’, ‘is’, ‘life’, ‘like’, ‘long’, ‘python’, ‘short’ 和 ‘too’。然后，它统计每个文本中每个单词出现的次数，并将其转换为数值特征向量。

因此，第一个文本字符串"life is short, i like python"被转换为特征向量[0 1 1 1 0 1 1 0]，表示其中’dislike’出现0次，'is’出现1次，'life’出现1次，'like’出现1次，'long’出现0次，'python’出现1次，'short’出现1次，'too’出现0次。

同理，第二个文本字符串"life is too long, i dislike python"被转换为特征向量[1 1 1 0 1 1 0 1]，表示其中’dislike’出现1次，'is’出现1次，'life’出现1次，'like’出现0次，'long’出现1次，'python’出现1次，'short’出现0次，'too’出现1次。

Q：分词的依据是什么，i为什么不算呢？
A：分词是指将文本字符串分割成单独的单词或词语的过程。在英文文本中，分词通常是基于空格和标点符号进行的，因为英文单词之间通常用空格分隔。

在这个例子中，CountVectorizer使用了默认的分词器，它基于空格和标点符号对文本进行分词。因此，给定的两个文本字符串被分割成了如下单词：‘life’, ‘is’, ‘short’, ‘i’, ‘like’, ‘python’, ‘life’, ‘is’, ‘too’, ‘long’, ‘i’, ‘dislike’ 和 ‘python’。

然而，在生成特征向量时，CountVectorizer默认会忽略掉英文停用词。停用词是指在文本中经常出现，但对文本意义影响不大的词语，例如’I’, ‘me’, ‘my’, ‘myself’, 'we’等。在这个例子中，'i’被认为是一个停用词，因此在生成特征向量时被忽略掉了。

如果希望保留停用词，可以在创建CountVectorizer对象时指定stop_words=None参数，例如：

transfer = CountVectorizer(stop_words=None)

这样，在生成特征向量时就不会忽略掉任何单词了。

简单来说，停用词就是不统计的词

Q：如果我们将数据替换成中文呢？

"人生苦短，我喜欢Python", "生活太长久，我不喜欢Python"

那么最终得到的结果是：

返回的特征名称为： ['人生苦短' '我不喜欢python' '我喜欢python' '生活太长久']
文本特征抽取的结果为：
 [[1 0 1 0]
 [0 1 0 1]]

文本特征抽取的结果为（sparse矩阵）：
   (0, 0)	1
  (0, 2)	1
  (1, 3)	1
  (1, 1)	1

正确的划分应该是：'人生' '苦短' '不喜欢' 'python' '喜欢' '生活' '太长久'。这是因为CountVectorizer本身并不支持中文分词。它默认的分词器是基于空格和标点符号进行分词的，这对于英文文本来说是有效的，但对于中文文本来说并不适用，因为中文单词之间通常没有空格。

4.3.3 jieba分词处理

jieba.cut方法是jieba库中用于对文本进行分词的主要方法。它接受一个字符串作为输入，并返回一个生成器，其中包含分词后的单词。

jieba：结巴

jieba.cut()

作用：对中文文本进行分词
参数：
- sentence：要分词的文本字符串。
- cut_all：是否使用全模式。
  - 如果为True，则返回所有可能的分词结果；
  - 如果为False，则返回最精确的分词结果。默认为False。
- HMM：是否使用隐马尔科夫模型（HMM）进行未登录词识别。默认为True。
- use_paddle：是否使用PaddlePaddle深度学习框架进行分词。默认为False。

下面是一个简单的例子，展示了如何使用jieba.cut方法对文本进行分词：

import jieba

text = "人生苦短，我喜欢Python"

# 使用精确模式进行分词
words = jieba.cut(text, cut_all=False)
print("精确模式分词结果：", "/".join(words))

# 使用全模式进行分词
words = jieba.cut(text, cut_all=True)
print("全模式分词结果：", "/".join(words))

输出结果为：

精确模式分词结果： 人生/苦短/，/我/喜欢/Python
全模式分词结果： 人生/苦短///我/喜欢/Python

可以看到，使用不同的参数会影响分词的结果。

如果要使用CountVectorizer处理中文文本，需要自定义一个中文分词器，并将其传递给CountVectorizer。可以使用第三方中文分词库，例如jieba，来实现这一点。

下面是一个简单的例子，展示了如何使用jieba库和CountVectorizer对中文文本进行特征提取：

import jieba
from sklearn.feature_extraction.text import CountVectorizer

def cut_word(text):
    # 使用jieba库进行中文分词
    return " ".join(list(jieba.cut(text)))

data = ["人生苦短，我喜欢Python", 
        "生活太长久，我不喜欢Python"]

# 对中文文本进行分词
data = [cut_word(text) for text in data]

# 创建CountVectorizer对象，并指定自定义的分词器
transfer = CountVectorizer(tokenizer=lambda text: text.split())

# 调用fit_transform方法
data = transfer.fit_transform(raw_documents=data)

# 输出结果
print("返回的特征名称为：", transfer.get_feature_names_out())
print("文本特征抽取的结果为：\n", data.toarray(

你可能感兴趣的:(学习笔记,Python,机器学习,机器学习,决策树,算法)

游戏寻路之A*算法（GUI演示） jforgame 从零开始搭建游戏服务器框架 java A星自动寻路
一、A*算法介绍A*算法是一种路径搜索算法，用于在图形网络中找到最短路径。它结合了Dijkstra算法和启发式搜索的思想，通过综合利用已知的最短路径和估计的最短路径来优化搜索过程。在游戏自动寻路得到广泛应用。二、A*算法的基本思想在图形网络中选择一个起点和终点。维护两个列表：开放列表和关闭列表。开放列表用于存储待考虑的节点，关闭列表用于存储已考虑过的节点。将起点加入开放列表。循环以下工作当open
【Python】如何使用.whl文件安装Python包？ civilpy python 开发语言
基本原理在Python的世界中，.whl文件是一种分发格式，它代表“Wheel”。Wheel是一种Python包格式，旨在提供一种快速、可靠且兼容的方式，用于安装Python库。与源代码包相比，Wheel文件是预编译的，这意味着它们已经包含了编译后的扩展模块，这使得安装过程更快，更简单。代码示例以下是使用.whl文件安装Python包的示例步骤：示例1：基本安装假设你已经下载了一个名为exampl
疲劳检测与行为分析：工厂智能化实践智驱力人工智能安全智慧城市行为识别人员属性识别疲劳检测抽烟检测徘徊检测
视觉分析算法赋能工厂疲劳与安全管理一、背景与需求在制造业中，疲劳作业是导致安全事故和效率下降的核心因素之一。传统人工巡检存在覆盖面不足、响应滞后等问题，而基于视觉分析的智能监控系统通过多算法协同，可实现全天候、高精度的疲劳检测与行为管理。本文围绕疲劳检测算法、人员计数算法、抽烟检测算法及徘徊检测算法，探讨其在工厂场景中的技术实现与应用价值。二、技术实现疲劳检测算法原理：基于PERCLOS（眼睑闭合
如何安装 `.whl` 文件（Python Wheel 包）喝醉酒的小白 Liunx Python模块 python 开发语言
目录标题如何安装`.whl`文件（PythonWheel包）安装前提安装方法（3种）方法1：直接使用pip安装（推荐）方法2：先进入文件目录再安装方法3：使用绝对路径（适合脚本中调用）⚠️常见问题解决问题1：版本不兼容错误问题2：缺少依赖问题3：权限不足验证安装进阶技巧如何安装.whl文件（PythonWheel包）.whl文件是Python的二进制分发格式（Wheel格式），用于快速安装Pyth
Python 数据挖掘实战：关联规则与聚类分析，解锁数据价值的钥匙清水白石008 python Python题库 python 数据挖掘动画
Python数据挖掘实战：关联规则与聚类分析，解锁数据价值的钥匙引言在数字化浪潮席卷全球的今天，数据已成为企业和组织最重要的战略资产。海量数据蕴藏着巨大的价值，等待我们去挖掘和发现。数据挖掘(DataMining)，作为从海量数据中提取有价值知识和模式的关键技术，正日益受到各行各业的重视。它如同探矿者的火眼金睛，能够穿透数据的迷雾，发现隐藏在背后的规律和趋势，为商业决策、科学研究和社会发展提供强有
PyWavelets shangjg3 PyTorch pytorch 人工智能 python
PyWavelets（pywt）是Python中用于小波变换的核心库，提供了丰富的信号处理和图像处理功能。以下是其核心功能的详细介绍：1.小波变换基础（1）离散小波变换（DWT）将信号分解为近似系数（Approximation）和细节系数（Detail）。importpywtimportnumpyasnp#示例信号signal=np.array([1
010 【入门】链表入门题目-合并两个有序链表要天天开心啊算法专栏链表数据结构
合并两个有序链表|[算法]-[中级]-[链表]▶JDK8+|⏱️O(m+n)核心代码实现packageclass010;//将两个升序链表合并为一个新的升序链表并返回//新链表是通过拼接给定的两个链表的所有节点组成的//测试链接:https://leetcode.cn/problems/merge-two-sorted-lists/publicclassMergeTwoLists{//链表节点定义
008 【入门】算法和数据结构简介要天天开心啊算法专栏算法数据结构
算法与数据结构系统概览|[算法]-[基础]-[通用]一、算法分类与应用1.硬计算类算法|[算法]-[中级]-[通用]特点应用场景复杂度特征-精确求解问题-可能带来较高计算复杂度-大厂笔试/面试-ACM竞赛-所有程序员岗位必考⏱️通常为O(n)~O(n²)//[示例]快速排序算法-分治思想核心实现publicvoidquickSort(int[]arr,intleft,intright){if(le
Anaconda插件开发 lyh1344 数据库开发
开发环境准备安装Anaconda或Miniconda，确保conda命令可用。推荐使用Python3.7及以上版本。创建独立的开发环境以避免依赖冲突：condacreate-nplugin_devpython=3.8condaactivateplugin_dev插件结构设计Anaconda插件通常采用Python包的标准结构。核心文件包括__init__.py和setup.py。典型目录结构如下：
Python3 数字(Number) froginwe11 开发语言
Python3数字(Number)引言在编程语言中，数字是构成程序的基础元素之一。Python3作为一种高级编程语言，提供了丰富的数字类型和操作方法。本文将详细介绍Python3中的数字类型，包括整数、浮点数、复数等，并探讨它们的特性和应用。整数（Integer）整数是Python3中最基本的数据类型之一，用于表示没有小数部分的数值。在Python3中，整数类型没有大小限制，可以表示任意大小的整数
Python编程：使用Opencv进行图像处理
【参考】https://github.com/opencv/opencv/tree/4.x/samples/pythonPython使用OpenCV进行图像处理OpenCV(OpenSourceComputerVisionLibrary)是一个开源的计算机视觉和机器学习软件库。下面将从基础到高阶介绍如何使用Python中的OpenCV进行图像处理。一、安装首先需要安装OpenCV库：pipinst
莫队算法 —— 将暴力玩出花秒啦算法
莫队算法——将暴力玩出花一、为什么需要莫队？——暴力法的瓶颈我们已经学会了用分块处理一些在线的区间问题。现在，我们来看一类特殊的离线区间查询问题。“离线”意味着我们可以把所有查询先读进来，再按我们喜欢的顺序去处理它们。思考一个问题：给定一个长度为N的数组，M次询问。每次询问一个区间[l,r]，问区间内有多少种数字至少出现了2次？那我们回到最朴素的暴力。纯暴力：对于每个询问(l,r)，都for一遍，
Web3前沿科技：开启数字资产交易新征程 AI天才研究院 AI大模型企业级应用开发实战 Agentic AI 实战 AI人工智能与大数据 web3 科技 ai
Web3前沿科技：开启数字资产交易新征程关键词：Web3、数字资产交易、区块链、智能合约、去中心化金融摘要：本文聚焦于Web3前沿科技在数字资产交易领域的应用与发展。详细阐述了Web3的核心概念、相关技术原理，包括区块链、智能合约等。通过具体的算法原理和Python代码示例，深入剖析了数字资产交易在Web3环境下的运行机制。同时，结合实际项目案例，讲解了开发环境搭建、代码实现与解读。探讨了Web3
区块链技术概述：从比特币到Web3.0 闲人编程 Python区块链50讲区块链 web3 python 元宇宙比特币安全
目录区块链技术概述：从比特币到Web3.0引言：数字革命的下一篇章1.区块链技术基础1.1区块链定义与核心特征1.2区块链数据结构可视化2.比特币：区块链的开端2.1比特币的核心创新2.2比特币交易生命周期3.以太坊与智能合约革命3.1以太坊的核心创新3.2智能合约执行流程4.Web3.0：互联网的新范式4.1Web3.0的核心特征4.2Web3技术栈5.Python实现简易区块链系统5.1区块类
API测试(一)：PortSwigger靶场笔记 h4ckb0ss 笔记网络安全 web安全
写在前面这篇文章是关于作者在学习PortSwigger的APITest类型漏洞时的记录和学习笔记使用到的工具为BurpSuitePro漏洞简介什么是apiAPI全称为ApplicationInterface，是应用程序对外提供功能的接口，现在主要有三种api风格，分别是JSON风格的api，RESTful风格的api以及Graphic风格的apiJSON风格请求获取用户信息POST/api/get
【Python常用模块】_Pandas模块3-DataFrame对象失心疯_2023 Python常用模块数据分析 pandas 数据挖掘 python 数据统计数据处理
课程推荐我的个人主页：失心疯的个人主页入门教程推荐：Python零基础入门教程合集虚拟环境搭建：Python项目虚拟环境(超详细讲解)PyQt5系列教程：PythonGUI(PyQt5)教程合集Oracle数据库教程：Oracle数据库教程合集MySQL数据库教程：MySQL数据库教程合集优质资源下载：资源下载合集
高斯混合模型GMM&K均值（十三-1）——K均值是高斯混合模型的特例 phoenix@Capricornus 模式识别与机器学习均值算法机器学习算法
EM算法与K均值算法的关系K均值可以看成是高斯混合模型的特例。对K均值算法与EM算法进行比较后，可以发现它们之间有很大的相似性。K均值算法将数据点硬（hard）分配到聚类中，每个数据点唯一地与一个聚类相关联，而EM算法基于后验概率进行软（soft）分配。事实上，可以从EM算法推导出K均值算法。考虑一个高斯混合模型，其中混合分量的协方差矩阵由σ2I{\sigma^2}Iσ2I给出，其中σ2{\sig
基于机器学习的智能文本分类技术研究与应用
在当今数字化时代，文本数据的爆炸式增长给信息管理和知识发现带来了巨大的挑战。从新闻文章、社交媒体帖子到企业文档和学术论文，海量的文本数据需要高效地分类和管理，以便用户能够快速找到所需信息。传统的文本分类方法主要依赖于人工规则和关键词匹配，这些方法不仅效率低下，而且难以应对复杂多变的文本内容。近年来，机器学习技术的快速发展为文本分类提供了一种高效、自动化的解决方案。一、机器学习在文本分类中的应用概述
《Python数据分析与挖掘实战》Chapter8中医证型关联规则挖掘笔记茫茫大地真干净机器学习 Python 数据挖掘
最近在学习《Python数据分析与挖掘实战》中的案例，写写自己的心得。代码分为两大部分：1.读取数据并进行聚类分析2.应用Apriori关联规则挖掘规律1.聚类部分函数分析：defprogrammer_1():datafile="C:/Users/longming/Desktop/chapter8/data/data.xls"processedfile="C:/Users/longming/Des
Practical TLA+ 项目中的Dekker算法形式化验证焦习娜Samantha
PracticalTLA+项目中的Dekker算法形式化验证practical-tla-plusSourceCodefor'PracticalTLA+'byHillelWayne项目地址:https://gitcode.com/gh_mirrors/pr/practical-tla-plus概述本文分析PracticalTLA+项目中关于Dekker互斥算法的形式化规范。Dekker算法是解决多线
【C++算法竞赛】前缀和+桶数组 YLCHUP C++算法技巧算法 c++开发语言数据结构哈希算法 c语言笔记
文章目录1.前缀和基础2.算法原理3.例题讲解[P1114“非常男女”计划](https://www.luogu.com.cn/problem/P1114)[P11965[GESP202503七级]等价消除](https://www.luogu.com.cn/problem/P11965)[P10724[GESP202406七级]区间乘积](https://www.luogu.com.cn/pro
【机器学习与数据挖掘实战 | 医疗】案例18：基于Apriori算法的中医证型关联规则分析 Francek Chen 机器学习与数据挖掘实战机器学习数据挖掘 Apriori python 关联规则人工智能
【作者主页】FrancekChen【专栏介绍】⌈⌈⌈机器学习与数据挖掘实战⌋⌋⌋机器学习是人工智能的一个分支，专注于让计算机系统通过数据学习和改进。它利用统计和计算方法，使模型能够从数据中自动提取特征并做出预测或决策。数据挖掘则是从大型数据集中发现模式、关联和异常的过程，旨在提取有价值的信息和知识。机器学习为数据挖掘提供了强大的分析工具，而数据挖掘则是机器学习应用的重要领域，两者相辅相成，共同推动
小程序学习笔记：自定义组件创建、引用、应用场景及与页面的区别 you4580 小程序
在微信小程序开发中，自定义组件是一项极为实用的功能，它能有效提高代码的复用性，降低开发成本，提升开发效率。本文将深入剖析微信小程序自定义组件的各个关键方面，包括创建、引用、应用场景以及与页面的区别，并附上详细代码示例，帮助开发者全面掌握这一技术。一、自定义组件的创建创建自定义组件主要分为以下三个步骤：创建components文件夹：在项目根目录下，通过鼠标右键新建一个名为“components”的
利用chatGPT提取复杂json数据到excel文件中 z日火工具使用 excel chatgpt json
利用chatGPT提取复杂json数据到excel文件中1利用swagger导出json类型的接口数据2使用hiJson工具查看json结构3利用ChatGPT写python代码解析数据4复制代码到vscode运行任务说明：整理一个项目的所有接口，保存到excel文档中。在这里插入图片描述1利用swagger导出json类型的接口数据2使用hiJson工具查看json结构我需要json数据的"pa
TensorFlow Serving学习笔记3: 组件调用关系
一、整体架构TensorFlowServing采用模块化设计，核心组件包括：Servables：可服务对象（如模型、查找表）Managers：管理Servable生命周期（加载/卸载）Loaders：负责Servable的初始化状态管理Sources：提供新版本Servable的LoaderAspiredVersions：Servable的期望状态集合Core：连接所有组件的核心枢纽APIs：gR
提示词编程语言设计艺术探索 AI天才研究院计算 AI人工智能与大数据 AI大模型企业级应用开发实战 java python javascript kotlin golang 架构人工智能大厂程序员硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM 系统架构设计软件哲学 Agent 程序员实现财富自由
《提示词编程语言设计艺术探索》关键词：提示词编程语言，设计艺术，编程语言设计，核心算法，实例分析，项目实战摘要：本文旨在深入探讨提示词编程语言的设计艺术，从基础概念到核心算法，再到实际应用和未来趋势，全面解析这一领域的关键技术和设计理念。通过具体的实例分析和项目实战，帮助读者更好地理解和掌握提示词编程语言的设计与实现。引言与概述1.1提示词编程语言的背景和重要性提示词编程语言（Prompt-Bas
【Python深度学习】零基础掌握Pytorch Pooling layers nn.MaxPool方法 Mr数据杨 Python 深度学习 python 深度学习 pytorch
在深度学习的世界中，MaxPooling是一种关键的操作，用于降低数据的维度并保留重要特征。这就像是从一堆照片中挑选出最能代表某个场景的那张。PyTorch提供了多种MaxPooling层，包括nn.MaxPool1d、nn.MaxPool2d和nn.MaxPool3d，它们分别适用于不同维度的数据处理。如果处理的是声音信号（一维数据），就会用到nn.MaxPool1d。而处理图像（二维数据）时，
误差的回响：反向传播算法与神经网络的惊天逆转田园Coder 人工智能科普人工智能科普
当专家系统在20世纪80年代初期大放异彩，成为人工智能实用化的耀眼明星时，另一股曾经被宣判“死刑”的力量——连接主义（神经网络）——正在寒冬的冻土下悄然涌动，孕育着一场惊天动地的复苏。马文·明斯基和西摩·帕尔特在1969年《感知机》专著中那精准而冷酷的理论批判，如同沉重的封印，将多层神经网络的研究禁锢了近二十年。他们指出的核心死结——缺乏有效算法来训练具有隐藏层的网络——仿佛一道无法逾越的天堑。单
根包含文件——Luaconf.h (src) LLLLLLLLLLLLLL265161 Inside Lua lua integer 编译器 alignment c++dll
Luaconf.h是配置的总集，定义了平台相关的设置，是所有文件都包含的，即RootlyIncluded。0.前言开始关注Lua也是06年六月的事情，《程序员》的2006年第六期中，我独独看中了Lua，而不是当时我已经比较熟悉的Python和Ruby，即使它们我都关注了好几年，但是都没有Lua给我的震撼大。于是那个夏天，稍微地尝试读了Lua的代码。开学后，我突然觉得自己有点受唆使，轻信了动态的福音
Python3获取5000个元素的单字符表 DechinPhy
技术背景此前考虑过一个问题，有没有办法获取到python里面所有定义好的单字符的表，比如我们获取5000个不一样的单字符，但是常用的chr(number)的方法里面包含了太多的非字母条目，比如缩进换行符等，也会被识别为长度为1的符号。因此需要在此基础上加一个isalpha()的判断。输出5000个字符示例先解释一下思路，我们还是遍历chr中所包含的字符，此时得到的是所有的长度为1的字符，再用str
java工厂模式 3213213333332132 java 抽象工厂
工厂模式有 1、工厂方法 2、抽象工厂方法。下面我的实现是抽象工厂方法, 给所有具体的产品类定一个通用的接口。 package 工厂模式; /** * 航天飞行接口 * * @Description * @author FuJianyong * 2015-7-14下午02:42:05 */ public interface SpaceF
nginx频率限制+python测试 ronin47 nginx 频率 python
部分内容参考：http://www.abc3210.com/2013/web_04/82.shtml 首先说一下遇到这个问题是因为网站被攻击，阿里云报警，想到要限制一下访问频率，而不是限制ip（限制ip的方案稍后给出）。nginx连接资源被吃空返回状态码是502，添加本方案限制后返回599，与正常状态码区别开。步骤如下：
java线程和线程池的使用 dyy_gusi ThreadPool thread Runnable timer
java线程和线程池一、创建多线程的方式 java多线程很常见，如何使用多线程，如何创建线程，java中有两种方式，第一种是让自己的类实现Runnable接口，第二种是让自己的类继承Thread类。其实Thread类自己也是实现了Runnable接口。具体使用实例如下： 1、通过实现Runnable接口方式 1 2
Linux 171815164 linux
ubuntu kernel http://kernel.ubuntu.com/~kernel-ppa/mainline/v4.1.2-unstable/ 安卓sdk代理 mirrors.neusoft.edu.cn 80 输入法和jdk sudo apt-get install fcitx su
Tomcat JDBC Connection Pool g21121 Connection
Tomcat7 抛弃了以往的DBCP 采用了新的Tomcat Jdbc Pool 作为数据库连接组件，事实上DBCP已经被Hibernate 所抛弃，因为他存在很多问题，诸如：更新缓慢，bug较多，编译问题，代码复杂等等。 Tomcat Jdbc P
敲代码的一点想法永夜-极光 java 随笔感想
入门学习java编程已经半年了,一路敲代码下来,现在也才1w+行代码量,也就菜鸟水准吧,但是在整个学习过程中,我一直在想,为什么很多培训老师,网上的文章都是要我们背一些代码?比如学习Arraylist的时候,教师就让我们先参考源代码写一遍,然
jvm指令集程序员是怎么炼成的 jvm 指令集
转自：http://blog.csdn.net/hudashi/article/details/7062675#comments 将值推送至栈顶时 const ldc push load指令 const系列该系列命令主要负责把简单的数值类型送到栈顶。(从常量池或者局部变量push到栈顶时均使用) 0x02 &nbs
Oracle字符集的查看查询和Oracle字符集的设置修改 aijuans oracle
本文主要讨论以下几个部分：如何查看查询oracle字符集、修改设置字符集以及常见的oracle utf8字符集和oracle exp 字符集问题。一、什么是Oracle字符集 Oracle字符集是一个字节数据的解释的符号集合,有大小之分,有相互的包容关系。ORACLE 支持国家语言的体系结构允许你使用本地化语言来存储，处理，检索数据。它使数据库工具，错误消息，排序次序，日期，时间，货
png在Ie6下透明度处理方法 antonyup_2006 css 浏览器 Firebug IE
由于之前到深圳现场支撑上线，当时为了解决个控件下载，我机器上的IE8老报个错，不得以把ie8卸载掉，换个Ie6,问题解决了，今天出差回来，用ie6登入另一个正在开发的系统，遇到了Png图片的问题，当然升级到ie8(ie8自带的开发人员工具调试前端页面JS之类的还是比较方便的，和FireBug一样，呵呵)，这个问题就解决了，但稍微做了下这个问题的处理。我们知道PNG是图像文件存储格式，查询资
表查询常用命令高级查询方法(二) 百合不是茶 oracle 分页查询分组查询联合查询
----------------------------------------------------分组查询 group by having --平均工资和最高工资 select avg(sal)平均工资,max(sal) from emp ; --每个部门的平均工资和最高工资
uploadify3.1版本参数使用详解 bijian1013 JavaScript uploadify3.1
使用：绑定的界面元素<input id='gallery'type='file'/>$("#gallery").uploadify({设置参数，参数如下}); 设置的属性： id: jQuery(this).attr('id'),//绑定的input的ID langFile: 'http://ww
精通Oracle10编程SQL(17)使用ORACLE系统包 bijian1013 oracle 数据库 plsql
/* *使用ORACLE系统包 */ --1.DBMS_OUTPUT --ENABLE:用于激活过程PUT,PUT_LINE,NEW_LINE,GET_LINE和GET_LINES的调用 --语法：DBMS_OUTPUT.enable(buffer_size in integer default 20000); --DISABLE:用于禁止对过程PUT,PUT_LINE,NEW
【JVM一】JVM垃圾回收日志 bit1129 垃圾回收
将JVM垃圾回收的日志记录下来，对于分析垃圾回收的运行状态，进而调整内存分配(年轻代，老年代，永久代的内存分配)等是很有意义的。JVM与垃圾回收日志相关的参数包括： -XX:+PrintGC -XX:+PrintGCDetails -XX:+PrintGCTimeStamps -XX:+PrintGCDateStamps -Xloggc -XX:+PrintGC 通
Toast使用白糖_ toast
Android中的Toast是一种简易的消息提示框，toast提示框不能被用户点击，toast会根据用户设置的显示时间后自动消失。创建Toast 两个方法创建Toast makeText(Context context, int resId, int duration) 参数：context是toast显示在
angular.identity boyitech AngularJS AngularJS API
angular.identiy 描述: 返回它第一参数的函数. 此函数多用于函数是编程. 使用方法: angular.identity(value); 参数详解: Param Type Details value * to be returned. 返回值: 传入的value 实例代码: <!DOCTYPE HTML>
java-两整数相除，求循环节 bylijinnan java
import java.util.ArrayList; import java.util.List; public class CircleDigitsInDivision { /** * 题目：求循环节，若整除则返回NULL，否则返回char*指向循环节。先写思路。函数原型：char*get_circle_digits(unsigned k,unsigned j)
Java 日期周年 Chen.H java C++c C#
/** * java日期操作(月末、周末等的日期操作) * * @author * */ public class DateUtil { /** */ /** * 取得某天相加(减)後的那一天 * * @param date * @param num *
[高考与专业]欢迎广大高中毕业生加入自动控制与计算机应用专业 comsci 计算机
不知道现在的高校还设置这个宽口径专业没有,自动控制与计算机应用专业,我就是这个专业毕业的,这个专业的课程非常多,既要学习自动控制方面的课程,也要学习计算机专业的课程,对数学也要求比较高.....如果有这个专业,欢迎大家报考...毕业出来之后,就业的途径非常广..... 以后
分层查询（Hierarchical Queries） daizj oracle 递归查询层次查询
Hierarchical Queries If a table contains hierarchical data, then you can select rows in a hierarchical order using the hierarchical query clause: hierarchical_query_clause::= start with condi
数据迁移 daysinsun 数据迁移
最近公司在重构一个医疗系统，原来的系统是两个.Net系统，现需要重构到java中。数据库分别为SQL Server和Mysql，现需要将数据库统一为Hana数据库，发现了几个问题，但最后通过努力都解决了。 1、原本通过Hana的数据迁移工具把数据是可以迁移过去的，在MySQl里面的字段为TEXT类型的到Hana里面就存储不了了，最后不得不更改为clob。 2、在数据插入的时候有些字段特别长
C语言学习二进制的表示示例 dcj3sjt126com c basic
进制的表示示例 # include <stdio.h> int main(void) { int i = 0x32C; printf("i = %d\n", i); /* printf的用法 %d表示以十进制输出 %x或%X表示以十六进制的输出 %o表示以八进制输出 */ return 0; }
NsTimer 和 UITableViewCell 之间的控制 dcj3sjt126com ios
情况是这样的: 一个UITableView, 每个Cell的内容是我自定义的 viewA viewA上面有很多的动画, 我需要添加NSTimer来做动画, 由于TableView的复用机制, 我添加的动画会不断开启, 没有停止, 动画会执行越来越多. 解决办法: 在配置cell的时候开始动画, 然后在cell结束显示的时候停止动画查找cell结束显示的代理
MySql中case when then 的使用 fanxiaolong casewhenthenend
select "主键", "项目编号", "项目名称","项目创建时间", "项目状态","部门名称","创建人" union (select pp.id as "主键", pp.project_number as &
Ehcache（01）——简介、基本操作 234390216 cache ehcache 简介 CacheManager crud
Ehcache简介目录 1 CacheManager 1.1 构造方法构建 1.2 静态方法构建 2 Cache 2.1&
最容易懂的javascript闭包学习入门 jackyrong JavaScript
http://www.ruanyifeng.com/blog/2009/08/learning_javascript_closures.html 闭包（closure）是Javascript语言的一个难点，也是它的特色，很多高级应用都要依靠闭包实现。下面就是我的学习笔记，对于Javascript初学者应该是很有用的。一、变量的作用域要理解闭包，首先必须理解Javascript特殊
提升网站转化率的四步优化方案 php教程分享数据结构 PHP 数据挖掘 Google 活动
网站开发完成后,我们在进行网站优化最关键的问题就是如何提高整体的转化率，这也是营销策略里最最重要的方面之一，并且也是网站综合运营实例的结果。文中分享了四大优化策略：调查、研究、优化、评估，这四大策略可以很好地帮助用户设计出高效的优化方案。 PHP开发的网站优化一个网站最关键和棘手的是，如何提高整体的转化率，这是任何营销策略里最重要的方面之一，而提升网站转化率是网站综合运营实力的结果。今天，我就分
web开发里什么是HTML5的WebSocket？ naruto1990 Web html5 浏览器 socket
当前火起来的HTML5语言里面，很多学者们都还没有完全了解这语言的效果情况，我最喜欢的Web开发技术就是正迅速变得流行的 WebSocket API。WebSocket 提供了一个受欢迎的技术，以替代我们过去几年一直在用的Ajax技术。这个新的API提供了一个方法，从客户端使用简单的语法有效地推动消息到服务器。让我们看一看6个HTML5教程介绍里的 WebSocket API：它可用于客户端、服
Socket初步编程——简单实现群聊 Everyday都不同 socket 网络编程初步认识
初次接触到socket网络编程，也参考了网络上众前辈的文章。尝试自己也写了一下，记录下过程吧：服务端：（接收客户端消息并把它们打印出来） public class SocketServer { private List<Socket> socketList = new ArrayList<Socket>(); public s
面试：Hashtable与HashMap的区别（结合线程） toknowme
昨天去了某钱公司面试，面试过程中被问道 Hashtable与HashMap的区别？当时就是回答了一点，Hashtable是线程安全的，HashMap是线程不安全的，说白了，就是Hashtable是的同步的，HashMap不是同步的，需要额外的处理一下。今天就动手写了一个例子，直接看代码吧 package com.learn.lesson001; import java
MVC设计模式的总结 xp9802 设计模式 mvc 框架 IOC
随着Web应用的商业逻辑包含逐渐复杂的公式分析计算、决策支持等，使客户机越来越不堪重负，因此将系统的商业分离出来。单独形成一部分，这样三层结构产生了。其中‘层’是逻辑上的划分。三层体系结构是将整个系统划分为如图2.1所示的结构[3] （1）表现层（Presentation layer）：包含表示代码、用户交互GUI、数据验证。该层用于向客户端用户提供GUI交互，它允许用户