Pijriler

机器学习笔记-决策树

文章目录

前言
1、决策树思想
2、特征选择
3 常见的几种决策树生成算法
- 3.1、ID3算法
- 3.2、C4.5算法
- 3.3、CART算法
4、决策树的剪枝
- 4.1、ID3和C4.5算法的剪枝
- 4.2、CART算法的剪枝
5、总结

前言

本章的决策树旨在了解最基础的决策树知识以及常见的几个决策树算法，至于更近阶的集成学习则不加以介绍。

1、决策树思想

决策树是机器学习一个非常重要的分支，作为最重要的机器学习算法之一，掌握决策树成为学习机器学习的重要目标。
首先需要明确的是，决策树可以解决回归和分类问题，但是这里主要讨论的是分类问题。决策树的学习的基本形式是一种树型结构，和svm、感知机这类的机器学习算法不同，决策树不能学习出来具体的表达式，但能学习出一系列if-then规则。所以我们也认为决策树是定义在特征空间与类空间上的条件概率分布。并且决策树的主要优点有可读性强，分类速度快。而一般的决策树学习过程主要分为三步：特征选择、决策树的生成、决策树的剪枝。下面我们就一般决策树的三种步骤进行详细的介绍。

2、特征选择

要想生成一棵决策树，第一步就是特征选择，那么什么是特征选择呢？
假设给定的训练数据集为：
$D={\{(x_1,y_1),(x_2,y_2),\cdots ,(x_N,y_N)}\}$
其中 $x_i=(x^{(1)}_i,x^{(2)}_i,\cdots,x^{(n)}_i)^T$ 为输入实例（特征向量）, $n$ 为特征的个数， $y_i\in\{1,2,\cdots,K\}$ 为类标记， $i=1,2,\cdots,N$ ， $N$ 为样本容量。其中 $x$ 叫做输入的特征向量, $x^{(1)}$ 称为特征，我们在进行生成决策树时，总要选择先从那个特征进行分类，后从那个特征进行分类，这就叫特征选择，我们首先应该选择最具有分类能力的特征作为我们的特征，因为这样能提高学习的效率。到底怎么看出哪个特征是最具分类能力的呢？
这就需要引入一个评判标准叫做信息增益和信息增益比，而信息增益是建立在什么是信息的基础上的，于是又需要引入一个能反映信息多少的概念：熵。
熵表示随机变量不确定性的度量。设 $X$ 是一个取有限个值得离散随机变量，其概率分布为：
$P(X=x_i)=p_i,\,\,\,\,\,i=1,2,\cdots,n$
则随机变量 $X$ 的熵定义为：
$H(X)=-\sum\limits_{i=1}^n{p_i\log p_i}$

在上述式子中，如果 $p_i$ 等于0，那么定义 $H (X)$ 也等于0，说明熵的值为0，不携带任何信息，且 $\log$ 一般取值为 $log_2$ 。
假设随机变量只取两个值时，例如抛硬币问题，结果只会出现正面和反面，则此时 $X$ 的分布为：
$P(X=正面)=p,\,\,\,\,P(X=反面)=1-p,\,\,\,\,\,0\le p\le1$
此时的熵为 $H(p)=-p\log_2p-(1-p)log_2(1-p)$
而条件熵 $H (Y ∣ X)$ 表示在已知随机变量 $X$ 的条件下随机变量 $Y$ 的不确定性。且有：
$H(Y|X)=\sum\limits_{i=1}^n{p_iH(Y|X=x_i)}$
这里的， $p_i=P(X=x_i),i=1,2\cdots,n$ 。
信息增益的含义就是得知特征 $X$ 的信息而使得类 $Y$ 的信息的不确定性减少的程度。计算方式如下：
$g (D, A) = H (D) - H (D ∣ A)$
一般的，熵 $H (Y)$ 与条件熵 $H (Y ∣ X)$ 之差称为互信息。决策树学习中的信息增益等价于训练数据集中类与特征的互信息。
在使信息增益选择特征时，信息增益大的特征往往具有更强的分类能力，于是就有了决策树采用比较特征的信息增益来选择的特征的方法。下面给出一个样本集特征的信息增益的计算方式。
假设：训练集为 $D$ ， $∣ D ∣$ 表示样本容量(样本个数)。设有 $K$ 个类别 $C_k,\,\,\,\,\,\,\,k=1,2,\cdots,K$ ， $C_k|$ 表示属于 $C_k$ 的样本个数，含义与 $D$ 类似。于是我们有 $\sum\limits_{k=1}^K{|C_k|}=|D|$ 。设特征 $A$ 有 $n$ 个不同的取值 $\{a_1,a_2,\cdots,a_n\}$ ,根据特征 $A$ 的取值将训练集 $D$ 划分为 $n$ 个子集 $D_1,D_2,\cdots,D_n$ , $D_i|$ 表示子集 $D_i$ 所含样本个数，同样有： $\sum\limits_{i=1}^n{|D_I|}=|D|$ 。记子集 $D_i$ 中属于类 $C_k$ 的样本的集合为 $D_{ik}$ ， $D_{ik}|$ 为 $D_{ik}$ 的样本个数。这一系列定义就是为了后续方便表示信息增益的算法公式。于是便有了信息增益的计算方法如下：
（1）先计算数据集 $D$ 的经验熵 $H (D)$
$H(D)=-\sum\limits_{k=1}^K{\frac{|C_k|}{|D|}\log_2\frac{|C_k|}{|D|}}$
（2）计算特征 $A$ 对数据集 $D$ 的经验条件熵 $H (D ∣ A)$
$H(D|A)=\sum\limits_{i=1}^n{\frac{|D_i|}{|D|}}H(D_i)=-\sum\limits_{i=1}^n{\frac{|D_i|}{|D|}\sum\limits_{i=1}^n{\frac{|D_{ik}|}{|D_i|}\log_2\frac{|D_{ik}|}{|D_i|}}}$
（3）计算信息增益
$g (D, A) = H (D) - H (D ∣ A)$
这就得到了信息增益的计算方法。
除了信息增益以外，我们还可以用信息增益比来作为选择特征的标准，信息增益比的计算方式如下：
$g_R(D,A)=\frac{g(D,A)}{H_A(D)}\\ H_A(D)=-\sum\limits_{i=1}^n{\frac{|D_i|}{|D|}\log_2\frac{|D_i|}{|D|}}$
由此可知 $g_R(D,A)$ 和 $g (D, A)$ 均可以作为选择特征的标准，至于二者有什么区别呢？
$g_R(D,A)$ 可以认为是 $g (D, A)$ 的改进，在《统计学习方法》中是这么介绍的，如果使用信息增益 $g (D, A)$ 来选择特征时，结果会偏向取值类别多的类。例如假设出现一个取值很多的离散变量，此时计算得到的信息增益就会很大，显然这是不符合要求的，于是我们就可以引入了信息增益比这一概念，在信息增益的基础上除以 $H_A(D)$ ，而 $H_A(D)$ 是随着取值种类越多值越大，这样可以平衡分子过大的情况。
另外还有一种选择特征的标准是基尼指数，基尼指数的定义为：
$Gini(p)=\sum\limits_{k=1}^K{p_k(1-p_k)}=1-\sum\limits_{k=1}^Kp^2_k$
其中 $K$ 表示K个类， $p_k$ 表示样本点属于第 $k$ 个类的概率，也可以表示为 $p_k=\frac{|C_k|}{|D|}$ 。
所以对于一个给定的数据集 $D$ ，其基尼指数为：
$Gini(D)=1-\sum\limits_{k=1}^K(\frac{|C_k|}{|D|})^2$
则在特征A的条件下，集合 $D$ 的基尼指数定义为
$Gini(D,A)=\frac{|D_1|}{|D|}Gini(D_1)+\frac{|D_2|}{|D|}Gini(D_2)$
而基尼指数和信息增益与信息增益相比，基尼指数没有对数计算，在信息增益特征选择中，我们选择信息增益大的特征作为分类特征，而基尼指数则选择数值较小的特征作为分类特征。

3 常见的几种决策树生成算法

3.1、ID3算法

ID3算法是采用信息增益作为选择标准的生成算法，对于给定的训练数据集，我们可以通过ID3算法生成一棵决策树。
输入：训练数据集 $D$ ,特征集 $A$ 阈值 $\varepsilon$
输出：决策树 $T$

若 $D$ 中所有的实例属于同一类 $C_k$ ，则 $T$ 为单结点树，并将类 $C_k$ 作为该节点的类标记，返回树 $T$ ;
若 $A$ 中无特征，则返回 $T$ 为单结点树，并将 $D$ 中实例最大的类 $C_k$ 作为该结点的类标记；
当1，2均不满足时，计算 $A$ 中各特征对 $D$ 的信息增益，选择信息增益最大的特征 $A_g$ ；
如果选择的特征 $A_g$ 的信息增益小于阈值 $\varepsilon$ ，则置 $T$ 为单结点树，并将 $D$ 中实例数最大的类 $C_k$ 做为该结点的类标记，返回 $T$ ；
否则对于 $A_g$ 的每一个可能值 $a_i$ ，使 $A_g=a_i$ 将 $D$ 分割为若干非空子集 $D_i$ ，将 $D_i$ 中实例数最大的类作为标记，构建子结点，由结点及其子结点构成数 $T$ ，返回 $T$ 。
对第 $i$ 个子结点，以 $D_i$ 为训练集，以 $A-{A_g}$ 为特征集，递归地调用 $1 - 5$ ，得到子树 $T_i$ ，返回 $T_i$ 。

这里的决策树算法是通用的算法步骤，在后面的其它决策树算法种类中也可以看见这些步骤，我们只需要记住一个决策树是如何产生的即可。在决策树的生成算法中，前几步介绍的都是特例情况，例如在步骤1中，当数据集中所有的y值均为一个类别时，这时树就是单结点，这个结点返回的就是单个类别的值；在2中，若 $A$ 中无特征，此时只剩下预测值标签一列，返回的树也是单结点树，并且此结点的类标记就是标签值y中类别数最多的类；在3中，排除1、2的特殊情况（存在特征、标签不是单单一种），此时是学习一个棵决策树的开始，而在训练一棵决策树我们知道可以分为三步：选择特征、决策树的生成、决策树的剪枝，此时就是选择特征阶段，而在ID3算法中，选择特征所用的标准为信息增益；在4中，假设我们找到了最大的信息增益特征，但是此时特征的信息增益实在是过小，则算法不会再使用此特征进行分类，直接返回当前树，而当前树的当前结点，则是归为当前结点中实例数最大的类（其实这一步相当于在学习决策树中的跳出循环步骤）；在5中，如果4的条件不满足，从3直接跳转到5，进行决策树的分支，这也是学习决策树的最主要的步骤；在6中，这也是不断学习决策树的步骤保证；

3.2、C4.5算法

C4.5算法和ID3算法从学习步骤上是没有太大差别的，我们可以理解C4.5算法为ID3算法的改进，在ID3算法中用到的是信息增益作为选择新特征的标准，而C4.5算法中使用的是信息增益比作为选择新特征的标准，这可以算是一种改进，而其它所有的算法步骤和ID3中步骤一样。

3.3、CART算法

在CART算法中，需要学习的知识又和前面不一样了，C4.5和ID3是最简单的决策树算法，这两种算法应用于分类树的比较多，但是CART算法是可以完全适应回归树的。
CART的全称就是：classification and regression tree 含义就是分类与回归树，说明CART在处理分类问题和回归问题时均有办法。
在学习CART决策树之前，我们需要知道CART决策树的几个特点，首先CART决策树是一个完全二叉树，内部结点特征的取值为连续值或者离散值中的“是”或“否”，左分支是取值为“是”的分支，右分支是取值为“否”的分支。这样的决策树等价于递归地二分每个特征，将输入空间划分为有限个单元。当我们面临特征为多类别时，即特征 $A$ 存在类别输入 $A 1 、 A 2 、 A 3$ 时，不能使用CART算法将特征 $A$ 一次性分完，只能找到最优的组合例如 $A 1 、 A 2$ 和 $A 3$ 这种组合形式来进行二分，而后续再对 $A 1 、 A 2$ 进行二分，总之CART的树为完全二叉树。
先看比较熟悉的处理分类问题，CART在处理分类问题时和C4.5与ID3唯一的不同点就是选择新特征的标准不一样，CART使用的是基尼指数，在前面介绍特征选择时我们详细介绍了基尼指数，基尼指数和信息熵、信息增益比类似，都能作为决策树选择特征时的标准，当决策树选择使用基尼指数作为标准时，可以不需要进行对数运算，其它的几乎没什么改变，而且在很多实验中表明，其实选择基尼指数和信息增益比学习的树模型带来的误差不大。算法步骤在ID3那一节中已经介绍过了。
CART最主要的还是回归部分，这一部分是ID3和C4.5没有的。下面就来详细介绍CART的回归部分。首先我们要知道，在分类算法中，决策树用来选择特征方法是基于各个特征的基尼指数的大小，基尼指数小的特征说明样本集合不确定性小，也即分类效果好。但是在回归树中，由于预测值是连续的数值，此时不能再使用基尼指数、信息增益比、信息增益来作为选择特征的标准了。此时我们使用的标准就是平方误差最小。
假设 $X$ 与 $Y$ 分别未输入和输出变量，并且 $Y$ 是连续变量，给定训练数据集
$D=\{(x_1,y_1),(x_2,y_2),\cdots,(x_N,y_N)\}$
下面考虑如何生成一个回归树。
一棵回归树对应着一个输入空间的一个划分以及划分的单元上的输出值。假设输入空间已经被划分为 $M$ 个单元 $R_1,R_2,\cdots,R_M$ ，并且在每个单元上 $R_m$ 上有一个固定的输出值 $c_m$ ，于是回归树模型可以表示为：
$f(x)=\sum\limits_{m=1}^M{c_mI(x\in R_m)}$
当输入空间的划分确定时，可以用平方误差 $\sum\limits_{x_i\in R_m}{(y_i-f(x_i))^2}$ 来表示回归树对于训练数据的预测误差，用平方误差最小准则来求解每个单元上的最优输出值。设单元 $R_m$ 上的 $c_m$ 的最优值 ${\hat c_m}$ 就是 $R_m$ 上所有输入实例 $x_i$ 对应的输出 $y_i$ 的均值，即：
$\hat c_m=ave(y_i|x_i\in R_m)$
我们这里的划分其实是给定的，但是在学习过程中，需要我们找到最优的划分点，假设我们选择第 $j$ 个变量 $x^{(j)}$ 和它的取值 $s$ ，作为切分变量和切分点，并定义切分点 $s$ 将数据切分为两个区域：
$R_1(j,s)={x|x^(j)\le s}\,\,\,\,\,\,\,\,和\,\,\,\,\,\,\,\,R_2(j,s)={x|x^(j) >s}$
然后寻找最优的切分变量 $j$ 和最优的切分点 $s$ ，具体的有：
$\mathop {\min }\limits_{j,s} \left[ {\mathop {\min }\limits_{{c_1}} \sum\limits_{{x_i} \in {R_1}(j,s)} {{{({y_i} - {c_1})}^2} + } \mathop {\min }\limits_{{c_2}} \sum\limits_{{x_i} \in {R_2}(j,s)} {{{({y_i} - {c_2})}^2}} } \right]$
对固定输入变量 $j$ 可以找到最优切分点 $s$ 。
${\hat c_1} = ave({y_i}|{x_i} \in {R_1}(j,s))\,\,\,\,\,\,\,\,和\,\,\,\,\,\,\,\,{\hat c_2} = ave({y_i}|{x_i} \in {R_2}(j,s))$
变量所有的变量，找到最优的切分变量 $j$ 和最优的切分点 $s$ ，构成一对 $(j, s)$ 。以此将输入空间划分为两个区域，接着，对每个区域重复上述步骤，直到算法满足条件停止。我们将着整个流程称为最小二乘回归。

下面是生成最小二乘回归树的步骤：
输入：训练数据集 $D$ ；
输出：回归树 $f (x)$ 。

遍历所有的变量 $j$ ，对固定的切分变量扫描切分点 $s$ ，选择使得下式达到最小值的 $(j, s)$ ； $\mathop {\min }\limits_{j,s} \left[ {\mathop {\min }\limits_{{c_1}} \sum\limits_{{x_i} \in {R_1}(j,s)} {{{({y_i} - {c_1})}^2} + } \mathop {\min }\limits_{{c_2}} \sum\limits_{{x_i} \in {R_2}(j,s)} {{{({y_i} - {c_2})}^2}} } \right]$

用选定的对 $(j, s)$ 划分区域并决定相应的输出值： ${R_1}(j,s) = \{ x|{x^{(j)}} \le s\}\,\,\,\,\,\,\,\,{R_2}(j,s) = \{ x|{x^{(j)}} > s\}\\ {\hat c_m} = \frac{1}{{{N_m}}}\sum\limits_{{x_i} \in {R_m}} {{y_i}},\,\,\,\,\,\,\,\,x\in R_m,\,\,\,\,\,\,\,\,m=1,2$

继续对两个子区域调用步骤1、2，直到满足条件为止。

将输入空间划分为 $M$ 个区域 $R_1,R_2,\cdots,R_M$ ，生成决策树； $f(x)=\sum\limits_{m=1}^M{\hat c_mI(x\in R_m)}$

这里算法步骤是引用李航老师的《统计学习方法》。其实在了解算法一步步在干什么，编程实现起来就会很简单。上面的步骤要理解需要注意几个点：

1、在找最优的 $(j, s)$ 时，回归树其实是两次遍历，即找 $j$ 和找 $s$ 。找 $j$ 是找最属性，找 $s$ 是找对应 $j$ 属性下的最优切分点，最后最优的组合 $(j, s)$ 应该是全局最优的；

2、在找到 $(j, s)$ 后，CART回归树会把输入空间一分为二，此时划分后的空间会有两个输出值，我们记为 $c_1$ 和 $c_2$ ，求解这两个值的方法就是求所属空间类样本值的平均。再一次二分之后，重复1、2步骤再次二分，这样无限循环下去，还有个重要的点就是这样二分下去，计算的误差是越来越小的，这个误差就是使用 $c_1$ 和 $c_2$ 在所属的空间内计算均方误差，直到最后的误差为0；

3、在进行二分时，我们每一次二分过后产生了一个新的结点，此时仍然需要重新进行遍历找到最优的$(j,s)。
到这里，CART算法的生成我们就介绍完了，后面还有一部分就是CART的剪枝。

4、决策树的剪枝

4.1、ID3和C4.5算法的剪枝

决策树最重要的三大步骤最后一步：剪枝。这一步是保证决策树拥有强泛化能力的保证，在线性模型中存在过拟合情况，决策树是非线性模型，也存在过拟合情况，如果决策树不进行剪枝，那么一棵训练完的决策树很有可能会出现过拟合情况。用一句话来解释决策树的过拟合是：决策树在学习样本点时学习的“太好了”，以至于把一些样本点的特点当作所有样本点的共性而导致过拟合。
先来了解一下决策树的过拟合情况。前面学习了决策树的生成方法，从生成方法中可以看到，一棵决策树在生成过程中是不断迭代生成的，直到不能再生成下去为止，这种情况生成的决策树一般来说都是非常“深”的，这种“深”是基于训练数据学习出来的，在训练集数据中拟合的非常好，但是如果在验证集上进行预测，那么得到的效果就不一定会很好，当在训练集上预测的效果非常好，但是在验证集上的效果非常差时，此时决策树就很有可能存在过拟合现象。解决过拟合的思路也很简单，就是减小决策树的“深度”。一般来说决策树防止过拟合的方法不止剪枝一个，还有一种可靠的方法就是在每次决策树生成新结点的同时，计算此时生成结点后的决策树在验证集上的误差和未生成结点前的决策树在验证集上的误差，将两误差进行比较，如果后者误差大，我们就继续生成新结点，反之则不生成新结点，这种防止过拟合的方法是每一次生成树支时均需要进行一次判断，而且还需要预留一部分数据作为验证集。另一种防止过拟合的方法就是剪枝。前者叫做预剪枝，后者称为后剪枝，预剪枝基于贪心算法来决定是否生成新支点的，这种思想最大的坏处就是容易产生欠拟合。
决策树的剪枝其实思想非常简单，就是对于以生成的一棵完整的决策树，我们从树的最底端往上进行剪枝，剪枝依据的准则由损失函数决定。
假设一棵训练完整的树为 $T$ ，其中叶子结点的个数为 $∣ T ∣$ ， $t$ 是树 $T$ 的叶结点，该叶结点有 $N_i$ 个样本点，其中 $k$ 类的样本点有 $N_{tk}$ 个， $k=1,2,\cdots,K$ ， $H_t(T)$ 为叶结点 $t$ 上的经验熵， $\alpha\ge0$ 为参数，则决策树学习的损失函数可以定义为：
$C_{\alpha}(T)=\sum\limits_{t=1}^{|T|}{N_tH_t(T)+\alpha|T|}$
其中经验熵：
$H_t(T)=-\sum\limits_{k}{\frac{N_{tk}}{N_t}\log{\frac{N_{tk}}{N_t}}}$
在损失函数中如果我们记：
$C(T)=\sum\limits_{t=1}^{|T|}{N_tH_t(T)=-\sum\limits_{t=1}^{|T|}\sum\limits_{k=1}^K{N_{tk}\log{\frac{N_{tk}}{N_t}}}}$
这时有：
$C_{\alpha}(T)=C(T)+\alpha|T|$
这时的损失函数被我们变成两个部分，分为 $C (T)$ 和 $\alpha|T|$ 这两个部分，第一部分表示的含义表示模型对训练数据的预测误差，即模型与训练数据的拟合程度，至于为什么这个公式可以理解为模型的预测误差，我们可以从公式中找到答案，在公式中， $T$ 表示叶子结点的个数，叶子结点就是没有子结点的结点，通俗来说，就是分类到底无法再进行生长的那个结点，而 $H_t(T)$ 的含义是某个叶子结点的经验熵，在前面我们学习经验熵时知道，经验熵反映的是对数据集进行分类的不确定性，所以当经验熵越大时，可以认为分类的效果越差，那么经验熵就能理解为误差了，所以公式 $\sum\limits_{t=1}^{|T|}{N_tH_t(T)}$ 表示的含义就是整棵树的总误差。而对于右边的式子 $\alpha|T|$ ，这个式子的理解非常简单， $\alpha$ 就是一个常数， $∣ T ∣$ 的含义是叶子结点的个数，同时也反映出这棵树的复杂程度，即若 $∣ T ∣$ 越大，说明树越复杂，其与叶子结点个数的乘积，反映的就是整个树模型的结构误差。当 $\alpha$ 的值为0时，说明我们的损失函数只需要考虑预测误差，此时的树应该拟合的越深越好，但是此时树模型的复杂度也就很高。随着 $\alpha$ 的值在不断变大，模型的复杂度在不断下降，模型的拟合程度也在下降，我们在给定 $\alpha$ 的情况下，总能找到一个最好的树。此时这个最好的树就是我们需要的生成树，剪枝的过程就是让树模型不仅仅考虑拟合程度，还需要考虑整个树的复杂度。
注意：ID3和C4.5算法的剪枝思路是一样的

决策树剪枝算法步骤简介：
输入：一棵未剪枝的决策树 $T$ 和参数 $\alpha$
输出：修剪后的决策树 $T_{\alpha}$

计算每个结点的经验熵；

递归地从树的叶结点向上搜索；设叶结点回到父结点之前与之后的树分别为: $T_b$ 与 $T_a$ ，其对应的损失函数分别为： $C_\alpha(T_b)$ 与 $C_\alpha(T_a)$ ，如果：
$C_\alpha(T_a)\le C_\alpha(T_b)$ 则进行剪枝，即将父结点变为新的叶结点；

返回第2步，直到不能继续剪枝为止，此时对应的树 $T_\alpha$ 就是最优的决策树。

上面的决策树剪枝算法有几个需要注意的点：1、计算每个结点的经验熵，而不是计算叶结点的经验熵，这里计算所有结点的经验熵是因为剪枝前我们不知道需要剪枝到哪一个叶结点，所以需要计算所有的叶结点的经验熵。2、这里的误差进行比较其实就是比较父结点和子结点两个结点之间的损失函数大小。3、这就是不断迭代过程，不断迭代最终找到的树就是最优的树，最优的树对应的损失函数就是最小的，且此时不会出现剪枝情况。

4.2、CART算法的剪枝

前面介绍了CART的生成，这一部分要介绍CART的剪枝，关于CART的剪枝部分，又于ID3和C4.5不一样。
在前面介绍剪枝操作时，我们说剪枝操作就是控制树模型的复杂度和预测精度之间关系，在CART剪枝方法中也是如此，CART剪枝其实还是一个比较复杂的事情，我在第一次学习CATR剪枝时也是搞不明白，下面就一起来看看CART的剪枝。
先提供网上几篇有助于我理解CART剪枝的
博客园-CART剪枝实例
知乎-理解CART剪枝
其它的我就是对着李航老师的《统计学习方法》这本书进行学习。
在学习CART剪枝前，我们回顾一下上文树模型的损失函数的形式：
$C_\alpha(T)=C(T) + \alpha |T|$
其中 $C_\alpha(T)$ 表示损失函数， $C (T)$ 表示模型对训练集的预测误差。 $∣ T ∣$ 表示模型的复杂度， $\alpha$ 是参数，用来权衡训练数据的拟合程度与模型的复杂度。
我们下面学习CART时需要用到上述损失函数，总的来说CART的剪枝分为两步：剪枝形成一个子树序列、在得到的子树序列中选择一个最优的子树。
先来看剪枝形成一个子树序列。
在一棵完整的决策树中，决定我们是否对某一结点进行剪枝的依据就是剪枝完损失函数是否会下降，如果剪枝完损失函数的值下降了，那么就说明我们剪枝是有必要的。假设完整的决策树为 $T_0$ ，对 $T_0$ 的任意内部结点 $t$ ，以 $t$ 为单结点树的损失函数是：
$C_\alpha(t)=C(t)+\alpha$
这个公式其实就可以看出是决策树剪枝完之后的损失函数。
而未对 $t$ 结点进行剪枝，也就是剪枝前的损失函数为：
$C_\alpha(T_t)=C(T_t)+\alpha |T_t|$
这个式子是以 $t$ 结点为根结点， $T_t$ 表示子树的意思。
当 $\alpha=0$ 或者 $\alpha$ 充分小时，有不等式：
$C_\alpha(T_t)Cα(Tt)<Cα(t)$

$g(t)=\frac{C(t)-C(T_t)}{|T_t|-1}$
在李航老师的《统计学习方法》中写到，上述的含义是剪枝后整体损失函数减少的程度。所以应该减去 $\alpha$ 最大的支点，但是书中让我们剪去 $g (t)$ 最小的 $T_t$ ，这一点困扰了我很久。
实际上，在一棵树 $T_0$ 上， $\alpha$ 的含义是权衡训练数据预测误差和模型复杂度的函数，最开始时 $\alpha$ 的值是0，那么此时是不剪枝是最好的，当 $\alpha$ 的值在不断增大，当增大到某一值时，此时总会出现某个支点，剪枝要比不剪枝要好，但是当 $\alpha$ 的值还在不断增大，这时肯定就会出现第二个结点满足剪枝的情况，但是此时存在两个满足剪枝的结点，CART在选择的时候，选择了剪掉 $\alpha$ 最小的结点，也就是剪掉最先出现被剪情况的结点，这样就得到了 $\alpha_1$ ，并且此时的树 $T_0$ 是被剪枝一部分的，我们将此时的 $T_0$ 赋给 $T_1$ ，并且后续的操作是针对 $T_1$ 这棵树进行的。不断循环上述步骤，就可以得到一系列的子树 $T_0,T_1,\cdots,T_n$ 。还有个需要注意的点，就是 $T_1$ 应该是 $[\alpha_1,\alpha_2)$ 区间内的最优子树，在 $T_0$ 树阶段，我们遍历了所有的结点，找到了最小 $\alpha$ 的结点，但是在 $T_1$ 开始剪枝时，我们也遍历了所有的结点，找到最小的 $\alpha$ 。而此时的 $\alpha_2$ 并不是第一次遍历中第二大的 $\alpha$ 值。
另外还需要注意在剪枝时，整个过程是由下往上的，这也和树的结构有关系，我们总是想找到当前最优的树。

在子树序列 $T_0,T_1,\cdots,T_n$ 中通过交叉验证找到最优子树，这里的验证方法就很简单，就是利用独立的测试集来对所有子树进行测试，选择误差最小的子树为我们剪枝算法的结果。回归问题用平方误差，分类问题用基尼指数。

CART剪枝算法
输入：CART算法生成的决策树 $T_0$ ;
输出：最优决策树 $T_\alpha$ 。

设 $k=0,T=T_0$ .

设 $\alpha=+\infty$ .

自下而上地对各内部结点 $t$ 计算 $C(T_t),|T_t|$ 以及： $g(t)=\frac{C(t)-C(T_t)}{|T_t|-1}\\ \alpha=\min(\alpha,g(t))$
这里， $T_t$ 表示以 $t$ 为根结点的子树， $C(T_t)$ 是对训练数据的预测误差， $T_t|$ 是 $T_t$ 的叶结点个数。

对 $g(t)=\alpha$ 的内部结点 $t$ 进行剪枝，并对叶结点 $t$ 以多数表决法决定其类，得到树 $T$ .

设 $k=k+1,\alpha_k=\alpha,T_k=T$ .

如果 $T_k$ 不是由根结点及两个叶结点构成的树，则回到步骤2，否则令 $T_k=T_n$ .

采用交叉验证法在子树序列 $T_0,T_1,\cdots,T_n$ 中选取最优的子树 $T_\alpha$ 。

上面给出的就是CART剪枝算法的全部流程，其实里面的每一步骤都详细分析过了，第6步应该是跳出算法训练的步骤。

5、总结

决策树的一些基础知识，到这里就已经完结了，其实也只是《统计学习方法》中介绍的内容完结了，这篇文章入门决策树的一个整理，后续还会有更多进阶的学习内容，会放在下面的链接中，由于Matlab编程没有树型结构，那么如果想用matlab编程实现就需要用嵌套结构。

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
Goolge earth studio 进阶4——路径修改与平滑陟彼高冈yu Google earth studio 进阶教程旅游
如果我们希望在大约中途时获得更多的城市鸟瞰视角。可以将相机拖动到这里并创建一个新的关键帧。camera_target_clip_7EarthStudio会自动平滑我们的路径，所以当我们通过这个关键帧时，不是一个生硬的角度，而是一个平滑的曲线。camera_target_clip_8路径上有贝塞尔控制手柄，允许我们调整路径的形状。右键单击，我们可以选择“平滑路径”，这是默认的自动平滑算法，或者我们可
基于社交网络算法优化的二维最大熵图像分割智能算法研学社（Jack旭）智能优化算法应用图像分割算法 php 开发语言
智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码文章目录智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码1.前言2.二维最大熵阈值分割原理3.基于社交网络优化的多阈值分割4.算法结果：5.参考文献：6.Matlab代码摘要：本文介绍基于最大熵的图像分割，并且应用社交网络算法进行阈值寻优。1.前言阅读此文章前，请阅读《图像分割：直方图区域划分及信息统计介绍》htt
121. 买卖股票的最佳时机薄荷糖的味道_fb40
给定一个数组，它的第i个元素是一支给定股票第i天的价格。如果你最多只允许完成一笔交易（即买入和卖出一支股票），设计一个算法来计算你所能获取的最大利润。注意你不能在买入股票前卖出股票。示例1:输入:[7,1,5,3,6,4]输出:5解释:在第2天（股票价格=1）的时候买入，在第5天（股票价格=6）的时候卖出，最大利润=6-1=5。注意利润不能是7-1=6,因为卖出价格需要大于买入价格。示例2:输入:
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
回溯算法-重新安排行程 chirou_ 算法数据结构图论 c++图搜索
leetcode332.重新安排行程这题我还没自己ac过，只能现在凭着刚学完的热乎劲把我对题解的理解记下来。本题我认为对数据结构的考察比较多，用什么数据结构去存数据，去读取数据，都是很重要的。classSolution{private:unordered_map>targets;boolbacktracking(intticketNum,vector&result){//1.确定参数和返回值//2
Faiss：高效相似性搜索与聚类的利器网络·魚大数据 faiss
Faiss是一个针对大规模向量集合的相似性搜索库，由FacebookAIResearch开发。它提供了一系列高效的算法和数据结构，用于加速向量之间的相似性搜索，特别是在大规模数据集上。本文将介绍Faiss的原理、核心功能以及如何在实际项目中使用它。Faiss原理：近似最近邻搜索：Faiss的核心功能之一是近似最近邻搜索，它能够高效地在大规模数据集中找到与给定查询向量最相似的向量。这种搜索是近似的，
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
insert into select 主键自增_mybatis拦截器实现主键自动生成 weixin_39521651 insert into select 主键自增 mybatis delete返回值 mybatis insert返回主键 mybatis insert返回对象 mybatis plus insert返回主键 mybatis plus 插入生成id
前言前阵子和朋友聊天，他说他们项目有个需求，要实现主键自动生成，不想每次新增的时候，都手动设置主键。于是我就问他，那你们数据库表设置主键自动递增不就得了。他的回答是他们项目目前的id都是采用雪花算法来生成，因此为了项目稳定性，不会切换id的生成方式。朋友问我有没有什么实现思路，他们公司的orm框架是mybatis，我就建议他说，不然让你老大把mybatis切换成mybatis-plus。mybat
k均值聚类算法考试例题_k均值算法(k均值聚类算法计算题) 寻找你83497 k均值聚类算法考试例题
?算法：第一步：选K个初始聚类中心，z1(1),z2(1)，…，zK(1)，其中括号内的序号为寻找聚类中心的迭代运算的次序号。聚类中心的向量值可任意设定，例如可选开始的K个.k均值聚类：---------一种硬聚类算法，隶属度只有两个取值0或1，提出的基本根据是“类内误差平方和最小化”准则；模糊的c均值聚类算法：--------一种模糊聚类算法，是.K均值聚类算法是先随机选取K个对象作为初始的聚类
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
推荐算法_隐语义-梯度下降 _feivirus_ 算法机器学习和数学推荐算法机器学习隐语义
importnumpyasnp1.模型实现"""inputrate_matrix:M行N列的评分矩阵，值为P*Q.P:初始化用户特征矩阵M*K.Q:初始化物品特征矩阵K*N.latent_feature_cnt:隐特征的向量个数max_iteration:最大迭代次数alpha:步长lamda:正则化系数output分解之后的P和Q"""defLFM_grad_desc(rate_matrix,l
K近邻算法_分类鸢尾花数据集 _feivirus_ 算法机器学习和数学分类机器学习 K近邻
importnumpyasnpimportpandasaspdfromsklearn.datasetsimportload_irisfromsklearn.model_selectionimporttrain_test_splitfromsklearn.metricsimportaccuracy_score1.数据预处理iris=load_iris()df=pd.DataFrame(data=ir
数据结构 | 栈和队列 TT-Kun 数据结构与算法数据结构栈队列 C语言
文章目录栈和队列1.栈：后进先出（LIFO）的数据结构1.1概念与结构1.2栈的实现2.队列：先进先出（FIFO）的数据结构2.1概念与结构2.2队列的实现3.栈和队列算法题3.1有效的括号3.2用队列实现栈3.3用栈实现队列3.4设计循环队列结论栈和队列在计算机科学中，栈和队列是两种基本且重要的数据结构，它们在处理数据存储和访问顺序方面有着独特的规则和应用。本文将详细介绍栈和队列的概念、结构、实
[Python] 数据结构详解及代码 AIAdvocate 算法 python 数据结构链表
今日内容大纲介绍数据结构介绍列表链表1.数据结构和算法简介程序大白话翻译,程序=数据结构+算法数据结构指的是存储,组织数据的方式.算法指的是为了解决实际业务问题而思考思路和方法,就叫:算法.2.算法的5大特性介绍算法具有独立性算法是解决问题的思路和方式,最重要的是思维,而不是语言,其(算法)可以通过多种语言进行演绎.5大特性有输入,需要传入1或者多个参数有输出,需要返回1个或者多个结果有穷性,执行
Python算法L5：贪心算法小熊同学哦 Python算法算法 python 贪心算法
Python贪心算法简介目录Python贪心算法简介贪心算法的基本步骤贪心算法的适用场景经典贪心算法问题1.**零钱兑换问题**2.**区间调度问题**3.**背包问题**贪心算法的优缺点优点：缺点：结语贪心算法（GreedyAlgorithm）是一种在每一步选择中都采取当前最优或最优解的算法。它的核心思想是，在保证每一步局部最优的情况下，希望通过贪心选择达到全局最优解。虽然贪心算法并不总能得到全
遥感影像的切片处理 sand&wich 计算机视觉 python 图像处理
在遥感影像分析中，经常需要将大尺寸的影像切分成小片段，以便于进行详细的分析和处理。这种方法特别适用于机器学习和图像处理任务，如对象检测、图像分类等。以下是如何使用Python和OpenCV库来实现这一过程，同时确保每个影像片段保留正确的地理信息。准备环境首先，确保安装了必要的Python库，包括numpy、opencv-python和xml.etree.ElementTree。这些库将用于图像处理
【RabbitMQ 项目】服务端：数据管理模块之绑定管理月夜星辉雪 rabbitmq 分布式
文章目录一.编写思路二.代码实践一.编写思路定义绑定信息类交换机名称队列名称绑定关键字：交换机的路由交换算法中会用到没有是否持久化的标志，因为绑定是否持久化取决于交换机和队列是否持久化，只有它们都持久化时绑定才需要持久化。绑定就好像一根绳子，两端连接着交换机和队列，当一方不存在，它就没有存在的必要了定义绑定持久化类构造函数：如果数据库文件不存在则创建，打开数据库，创建binding_table插入
非对称加密算法原理与应用2——RSA私钥加密文件私语茶馆云部署与开发架构及产品灵感记录 RSA2048 私钥加密
作者：私语茶馆1.相关章节（1）非对称加密算法原理与应用1——秘钥的生成-CSDN博客第一章节讲述的是创建秘钥对，并将公钥和私钥导出为文件格式存储。本章节继续讲如何利用私钥加密内容，包括从密钥库或文件中读取私钥，并用RSA算法加密文件和String。2.私钥加密的概述本文主要基于第一章节的RSA2048bit的非对称加密算法讲述如何利用私钥加密文件。这种加密后的文件，只能由该私钥对应的公钥来解密。
粒子群优化 (PSO) 在三维正弦波函数中的应用 subject625Ruben 机器学习人工智能 matlab 算法
在这篇博客中，我们将展示如何使用粒子群优化（PSO）算法求解三维正弦波函数，并通过增加正弦波扰动，使优化过程更加复杂和有趣。本文将介绍目标函数的定义、PSO参数设置以及算法执行的详细过程，并展示搜索空间中的动态过程和收敛曲线。1.目标函数定义我们使用的目标函数是一个三维正弦波函数，定义如下：objectiveFunc=@(x)sin(sqrt(x(1).^2+x(2).^2))+0.5*sin(5
非对称加密算法————RSA理论及详情 hu19930613
转自：https://www.kancloud.cn/kancloud/rsa_algorithm/48484一、一点历史1976年以前，所有的加密方法都是同一种模式：（1）甲方选择某一种加密规则，对信息进行加密；（2）乙方使用同一种规则，对信息进行解密。由于加密和解密使用同样规则（简称"密钥"），这被称为"对称加密算法"（Symmetric-keyalgorithm）。这种加密模式有一个最大弱点
ai绘画工具midjourney怎么下载？附作品管理教程设计师早上好
Midjourney是一款功能强大的AI绘画工具，它使用机器学习技术和深度神经网络等算法，可以生成各种艺术风格的绘画作品。在创意设计、广告宣传等方面有着广泛的应用前景。那么，ai绘画工具midjourney怎么下载？本文将为您介绍Midjourney的下载以及作品的相关管理。一、Midjourney下载Midjourney的下载非常简单，只需打开Midjourney官网（点击“GetMidjour
【加密算法基础——对称加密和非对称加密】 XWWW668899 网络安全服务器笔记
对称加密与非对称加密对称加密和非对称加密是两种基本的加密方法，各自有不同的特点和用途。以下是详细比较：1.对称加密特点密钥:使用相同的密钥进行加密和解密。发送方和接收方必须共享这个密钥。速度:通常速度较快，适合处理大量数据。实现:算法相对简单，计算效率高。常见算法AES(高级加密标准)DES(数据加密标准)3DES(三重数据加密标准)RC4(流密码)应用场景文件加密磁盘加密传输大量数据时的加密2.
【算法练习】IDEA集成leetcode插件实现快速刷 2401_84102892 2024年程序员学习算法 intellij-idea leetcode
============点击右侧边leetcode->设置->配置地址、用户名、密码、存放目录、文件模板用户名要登录后在账号信息里看模板代码1.codefilename!velocityTool.camelC
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
【加密算法基础——RSA 加密】 XWWW668899 网络服务器笔记 python
RSA加密RSA（Rivest-Shamir-Adleman）加密是非对称加密，一种广泛使用的公钥加密算法，主要用于安全数据传输。公钥用于加密，私钥用于解密。RSA加密算法的名称来源于其三位发明者的姓氏：R:RonRivestS:AdiShamirA:LeonardAdleman这三位计算机科学家在1977年共同提出了这一算法，并发表了相关论文。他们的工作为公钥加密的基础奠定了重要基础，使得安全通
机器学习-聚类算法不良人龍木木机器学习机器学习算法聚类
机器学习-聚类算法1.AHC2.K-means3.SC4.MCL仅个人笔记，感谢点赞关注！1.AHC2.K-means3.SC传统谱聚类：个人对谱聚类算法的理解以及改进4.MCL目前仅专注于NLP的技术学习和分享感谢大家的关注与支持！
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
多线程编程之卫生间周凡杨 java 并发卫生间线程厕所
如大家所知，火车上车厢的卫生间很小，每次只能容纳一个人，一个车厢只有一个卫生间，这个卫生间会被多个人同时使用，在实际使用时，当一个人进入卫生间时则会把卫生间锁上，等出来时打开门，下一个人进去把门锁上，如果有一个人在卫生间内部则别人的人发现门是锁的则只能在外面等待。问题分析：首先问题中有两个实体，一个是人，一个是厕所，所以设计程序时就可以设计两个类。人是多数的，厕所只有一个（暂且模拟的是一个车厢）。
How to Install GUI to Centos Minimal sunjing linux Install Desktop GUI
http://www.namhuy.net/475/how-to-install-gui-to-centos-minimal.html I have centos 6.3 minimal running as web server. I’m looking to install gui to my server to vnc to my server. You can insta
Shell 函数 daizj shell 函数
Shell 函数 linux shell 可以用户定义函数，然后在shell脚本中可以随便调用。 shell中函数的定义格式如下： [function] funname [()]{ action; [return int;] } 说明： 1、可以带function fun() 定义，也可以直接fun() 定义,不带任何参数。 2、参数返回
Linux服务器新手操作之一周凡杨 Linux 简单操作
1.whoami 当一个用户登录Linux系统之后，也许他想知道自己是发哪个用户登录的。此时可以使用whoami命令。 [ecuser@HA5-DZ05 ~]$ whoami e
浅谈Socket通信（一）朱辉辉33 socket
在java中ServerSocket用于服务器端，用来监听端口。通过服务器监听，客户端发送请求，双方建立链接后才能通信。当服务器和客户端建立链接后，两边都会产生一个Socket实例，我们可以通过操作Socket来建立通信。首先我建立一个ServerSocket对象。当然要导入java.net.ServerSocket包 ServerSock
关于框架的简单认识西蜀石兰框架
入职两个月多，依然是一个不会写代码的小白，每天的工作就是看代码，写wiki。前端接触CSS、HTML、JS等语言，一直在用的CS模型，自然免不了数据库的链接及使用，真心涉及框架，项目中用到的BootStrap算一个吧，哦，JQuery只能算半个框架吧，我更觉得它是另外一种语言。后台一直是纯Java代码，涉及的框架是Quzrtz和log4j。都说学前端的要知道三大框架，目前node.
You have an error in your SQL syntax; check the manual that corresponds to your 林鹤霄
You have an error in your SQL syntax; check the manual that corresponds to your MySQL server version for the right syntax to use near 'option,changed_ids ) values('0ac91f167f754c8cbac00e9e3dc372
MySQL5.6的my.ini配置 aigo mysql
注意：以下配置的服务器硬件是：8核16G内存 [client] port=3306 [mysql] default-character-set=utf8 [mysqld] port=3306 basedir=D:/mysql-5.6.21-win
mysql 全文模糊查找便捷解决方案 alxw4616 mysql
mysql 全文模糊查找便捷解决方案 2013/6/14 by 半仙 [email protected] 目的: 项目需求实现模糊查找. 原则: 查询不能超过 1秒. 问题: 目标表中有超过1千万条记录. 使用like '%str%' 进行模糊查询无法达到性能需求. 解决方案: 使用mysql全文索引. 1.全文索引 : MySQL支持全文索引和搜索功能。MySQL中的全文索
自定义数据结构链表(单项 ,双向,环形) 百合不是茶单项链表双向链表
链表与动态数组的实现方式差不多, 数组适合快速删除某个元素链表则可以快速的保存数组并且可以是不连续的单项链表;数据从第一个指向最后一个实现代码: //定义动态链表 clas
threadLocal实例 bijian1013 java thread java多线程 threadLocal
实例1： package com.bijian.thread; public class MyThread extends Thread { private static ThreadLocal tl = new ThreadLocal() { protected synchronized Object initialValue() { return new Inte
activemq安全设置—设置admin的用户名和密码 bijian1013 java activemq
ActiveMQ使用的是jetty服务器, 打开conf/jetty.xml文件，找到 <bean id="adminSecurityConstraint" class="org.eclipse.jetty.util.security.Constraint"> <p
【Java范型一】Java范型详解之范型集合和自定义范型类 bit1129 java
本文详细介绍Java的范型，写一篇关于范型的博客原因有两个，前几天要写个范型方法(返回值根据传入的类型而定)，竟然想了半天，最后还是从网上找了个范型方法的写法；再者，前一段时间在看Gson, Gson这个JSON包的精华就在于对范型的优雅简单的处理，看它的源代码就比较迷糊，只其然不知其所以然。所以，还是花点时间系统的整理总结下范型吧。范型内容范型集合类范型类
【HBase十二】HFile存储的是一个列族的数据 bit1129 hbase
在HBase中，每个HFile存储的是一个表中一个列族的数据，也就是说，当一个表中有多个列簇时，针对每个列簇插入数据，最后产生的数据是多个HFile，每个对应一个列族，通过如下操作验证 1. 建立一个有两个列族的表 create 'members','colfam1','colfam2' 2. 在members表中的colfam1中插入50*5
Nginx 官方一个配置实例 ronin47 nginx 配置实例
user www www; worker_processes 5; error_log logs/error.log; pid logs/nginx.pid; worker_rlimit_nofile 8192; events { worker_connections 4096;} http { include conf/mim
java-15.输入一颗二元查找树，将该树转换为它的镜像，即在转换后的二元查找树中，左子树的结点都大于右子树的结点。用递归和循环 bylijinnan java
//use recursion public static void mirrorHelp1(Node node){ if(node==null)return; swapChild(node); mirrorHelp1(node.getLeft()); mirrorHelp1(node.getRight()); } //use no recursion bu
返回null还是empty bylijinnan java apache spring 编程
第一个问题，函数是应当返回null还是长度为0的数组（或集合）？第二个问题，函数输入参数不当时，是异常还是返回null？先看第一个问题有两个约定我觉得应当遵守： 1.返回零长度的数组或集合而不是null（详见《Effective Java》）理由就是，如果返回empty，就可以少了很多not-null判断： List<Person> list
[科技与项目]工作流厂商的战略机遇期 comsci 工作流
在新的战略平衡形成之前，这里有一个短暂的战略机遇期，只有大概最短6年，最长14年的时间，这段时间就好像我们森林里面的小动物，在秋天中，必须抓紧一切时间存储坚果一样，否则无法熬过漫长的冬季。。。。在微软，甲骨文，谷歌，IBM,SONY
过度设计-举例 cuityang 过度设计
过度设计，需要更多设计时间和测试成本，如无必要，还是尽量简洁一些好。未来的事情，比如访问量，比如数据库的容量，比如是否需要改成分布式都是无法预料的再举一个例子，对闰年的判断逻辑：　　1、 if($Year%4==0) return True; else return Fasle; 　　2、if ( ($Year%4==0 &am
java进阶，《Java性能优化权威指南》试读 darkblue086 java性能优化
记得当年随意读了微软出版社的.NET 2.0应用程序调试，才发现调试器如此强大，应用程序开发调试其实真的简单了很多，不仅仅是因为里面介绍了很多调试器工具的使用，更是因为里面寻找问题并重现问题的思想让我震撼，时隔多年，Java已经如日中天，成为许多大型企业应用的首选，而今天，这本《Java性能优化权威指南》让我再次找到了这种感觉，从不经意的开发过程让我刮目相看，原来性能调优不是简单地看看热点在哪里，
网络学习笔记初识OSI七层模型与TCP协议 dcj3sjt126com 学习笔记
协议：在计算机网络中通信各方面所达成的、共同遵守和执行的一系列约定　　计算机网络的体系结构：计算机网络的层次结构和各层协议的集合。　　两类服务：　　面向连接的服务通信双方在通信之前先建立某种状态，并在通信过程中维持这种状态的变化，同时为服务对象预先分配一定的资源。这种服务叫做面向连接的服务。　　面向无连接的服务通信双方在通信前后不建立和维持状态，不为服务对象
mac中用命令行运行mysql dcj3sjt126com mysql linux mac
参考这篇博客：http://www.cnblogs.com/macro-cheng/archive/2011/10/25/mysql-001.html 感觉workbench不好用（有点先入为主了）。 1，安装mysql 在mysql的官方网站下载 mysql 5.5.23 http://www.mysql.com/downloads/mysql/，根据我的机器的配置情况选择了64
MongDB查询（1）——基本查询[五] eksliang mongodb mongodb 查询 mongodb find
MongDB查询转载请出自出处：http://eksliang.iteye.com/blog/2174452 一、find简介 MongoDB中使用find来进行查询。 API:如下 function ( query , fields , limit , skip, batchSize, options ){.....} 参数含义： query:查询参数 fie
base64，加密解密经融加密，对接 y806839048 经融加密对接
String data0 = new String(Base64.encode(bo.getPaymentResult().getBytes(("GBK")))); String data1 = new String(Base64.decode(data0.toCharArray()),"GBK"); // 注意编码格式，注意用于加密，解密的要是同
JavaWeb之JSP概述 ihuning javaweb
什么是JSP？为什么使用JSP？ JSP表示Java Server Page，即嵌有Java代码的HTML页面。使用JSP是因为在HTML中嵌入Java代码比在Java代码中拼接字符串更容易、更方便和更高效。 JSP起源在很多动态网页中，绝大部分内容都是固定不变的，只有局部内容需要动态产生和改变。如果使用Servl
apple watch 指南啸笑天 apple
1. 文档 WatchKit Programming Guide（中译在线版 By @CocoaChina）译文译者原文概览 - 开始为 Apple Watch 进行开发 @星夜暮晨 Overview - Developing for Apple Watch 概览 - 配置 Xcode 项目 - Overview - Configuring Yo
java经典的基础题目 macroli java 编程
1.列举出 10个JAVA语言的优势 a:免费，开源，跨平台(平台独立性)，简单易用，功能完善，面向对象，健壮性，多线程，结构中立，企业应用的成熟平台, 无线应用 2.列举出JAVA中10个面向对象编程的术语 a:包，类，接口，对象，属性，方法，构造器，继承，封装，多态，抽象，范型 3.列举出JAVA中6个比较常用的包 Java.lang;java.util;java.io;java.sql;ja
你所不知道神奇的js replace正则表达式 qiaolevip 每天进步一点点学习永无止境纵观千象 regex
var v = 'C9CFBAA3CAD0'; console.log(v); var arr = v.split(''); for (var i = 0; i < arr.length; i ++) { if (i % 2 == 0) arr[i] = '%' + arr[i]; } console.log(arr.join('')); console.log(v.r
[一起学Hive]之十五-分析Hive表和分区的统计信息(Statistics) superlxw1234 hive hive分析表 hive统计信息 hive Statistics
关键字：Hive统计信息、分析Hive表、Hive Statistics 类似于Oracle的分析表，Hive中也提供了分析表和分区的功能，通过自动和手动分析Hive表，将Hive表的一些统计信息存储到元数据中。表和分区的统计信息主要包括：行数、文件数、原始数据大小、所占存储大小、最后一次操作时间等； 14.1 新表的统计信息对于一个新创建
Spring Boot 1.2.5 发布 wiselyman spring boot
Spring Boot 1.2.5已在7月2日发布，现在可以从spring的maven库和maven中心库下载。这个版本是一个维护的发布版，主要是一些修复以及将Spring的依赖提升至4.1.7(包含重要的安全修复)。官方建议所有的Spring Boot用户升级这个版本。项目首页 | 源