gnaHuhSiL

1.决策树C4.5算法

文章目录

一、概述
二、改进表现
三、优缺点
四、决策树
- 1.特征选择
- 2.决策树的生成
- 3.决策树的剪枝

一、概述

C4.5是一系列用在机器学习和数据挖掘的分类问题中的算法。它的目标是监督学习：给定一个数据集，其中的每一个元组都能用一组属性值来描述，每一个元组属于一个互斥的类别中的某一类。C4.5的目标是通过学习，找到一个从属性值到类别的映射关系，并且这个映射能用于对新的类别未知的实体进行分类。

C4.5由J.Ross Quinlan在ID3的基础上提出的。ID3算法用来构造决策树。决策树是一种类似流程图的树结构，其中每个内部节点（非树叶节点）表示在一个属性上的测试，每个分枝代表一个测试输出，而每个树叶节点存放一个类标号。一旦建立好了决策树，对于一个未给定类标号的元组，跟踪一条有根节点到叶节点的路径，该叶节点就存放着该元组的预测。

决策树的优势在于不需要任何领域知识或参数设置，适合于探测性的知识发现。从ID3算法中衍生出了C4.5和CART两种算法。

二、改进表现

（1）ID3算法在选择根节点和各内部节点中的分支属性时，采用信息增益作为评价标准。信息增益的缺点是倾向于选择取值较多的属性，而这类属性并不一定是最优的属性。（2）在决策树构造过程中进行剪枝，因为某些具有很少元素的结点可能会使构造的决策树过适应（Overfitting），如果不考虑这些结点可能会更好；

（3）能够处理离散型和连续型的属性类型，即将连续型的属性进行离散化处理；

（4）能够处理具有缺失属性值的训练数据。

三、优缺点

优点：产生的分类规则易于理解，准确率较高。

缺点：在构造树的过程中，需要对数据集进行多次的顺序扫描和排序，因而导致算法的低效。此外，C4.5只适合于能够驻留于内存的数据集，当训练集大得无法在内存容纳时程序无法运行。

过拟合的原因：在于学习时过多的考虑如何提高对训练数据的正确分类，从而构建出过于复杂的决策树。

四、决策树

决策树是一种用于分类的树结构。如图所示，它由结点(node)和有向边(directed edge)组成，结点包括内部结点(internal node)和叶结点(leaf node)，内部结点表示一个特征或属性，叶结点表示一个类。

决策树学习通常包括3个步骤：特征选择、决策树的生成和决策树的修剪。

决策树如何进行分类呢？从根结点开始，根据待分类数据的某一特征值对其进行划分，分配到相应子结点，因此，每一个子结点都对应了该特征的一个取值。像这样递归进行，直到到达叶结点。

1.特征选择

特征选择在于选取对训练数据具有良好分类能力的特征，这样可以提高决策树的学习效率。通常特征选择的准则是信息增益或信息增益比。

（1）熵

在信息论和概率统计中，熵是表示随机变量不确定性的度量。设X是一个取有限个值得离散随机变量，其概率分布为:

$P(X=x_i) =p_i,i=1,2,3,...,n$

则随机变量X的熵定义为：

$-\displaystyle\sum_{i=1}^{n} p_ilogp_i$

熵越大，随机变量的不确定性就越大。

（2）条件熵

设有随机变量(X,Y）其联合概率分布为:

$P(X=x_i,Y=y_i) =p_{ij},i=1,2,3,...,n,j=1,2,3,...,n$

条件熵H(Y∣X) 表示在已知随机变量X的条件下随机变量Y 的不确定性，定义为X 给定条件下Y 的条件概率分布的熵对X 的数学期望:
$\displaystyle\sum_{i=1}^{n} p_iH(Y|X=x_i)$
$p_i=P(X=x_i),i=1,2,3,...,n$

（3）经验熵和经验条件熵

当熵和条件熵中的概率由数据估计（特别是极大似然估计）得到时，对应的熵与条件熵分别称为经验熵和经验条件熵。

（4）信息增益

信息增益表示得知特征X 的信息后特征Y 的信息不确定性减少的程度，反应了特征X对于其他特征不确定性的影响程度。

信息增益：特征A对训练数据集D的信息增益 $g (D, A)$ ，定义为集合D的经验熵H(D)与特征A给定条件下D的经验条件熵 $H (D ∣ A)$ 之差，即：

$g (D, A) = H (D) - H (D ∣ A)$

根据信息增益准则的特征选择方法是：对训练数据集（或子集）D，计算其每个特征的信息增益，并比较它们的大小，选择信息增益最大的特征。

设训练数据集为D，|D|表示其样本容量，即样本个数。设有K个类 $C_k$ ， $k ＝ 1, 2, \dots, K$ ， $C_k|$ 为属于类 $C_k$ 的样本个数， $\displaystyle\sum_{i=1}^{n} |C_k|=|D|$ 。设特征A有n个不同的取值 ${a_1,a_2, …,a_n}$ ，根据特征A的取值将D划分为n个子集 $D_1,D_2,…,D_n$ ， $D_i|$ 为Di的样本个数， $\displaystyle\sum_{i=1}^{n} |D_i|=|D|$ 。

ID3信息增益算法：

输入：训练数据集D和特征A;
输出：特征A对训练数据集D的信息增益 $g (D ∣ A)$ ;

（1）计算数据集D的经验熵H(D)

$-\displaystyle\sum_{k=1}^{K} \frac{|C_k|}{|D|}log_2\frac{|C_k|}{|D|}$

（2）计算特征A对数据集D的经验条件熵H(D|A)

$H(D|A)=\displaystyle\sum_{i=1}^{n} \frac{|D_i|}{|D|}H(D_i)= -\displaystyle\sum_{i=1}^{n} \frac{|D_i|}{|D|}\displaystyle\sum_{k=1}^{K} \frac{|D_{ik}|}{|D_i|}log_2 \frac{|D_{ik}|}{|D_i|}$

（3）计算信息增益

$g (D, A) = H (D) - H (D ∣ A)$

（5）信息增益比

以信息增益作为选择特征的准则，存在偏向于选择取值较多的特征的问题。即当一个特征可能的取值较多时，其计算出来的信息增益可能会较高，但是并不一定就一定是一个更有效的分类特征。采用信息增益比可以对这一问题进行校正，这是特征选择的另一准则。

特征A对训练数据集D的信息增益比 $g_R(D,A)$ 定义为其信息增益 $g (D, A)$ 与训练数据集D的经验熵 $H (D)$ 之比：

$g_R(D,A)=\frac{g(D,A)}{H(D)}$

C4.5信息增益算法：

输入：训练数据集D和特征A;
输出：特征A对训练数据集D的信息增益 $g (D ∣ A)$ ;

（1）计算数据集D的经验熵H(D)

$-\displaystyle\sum_{k=1}^{K} \frac{|C_k|}{|D|}log_2\frac{|C_k|}{|D|}$

（2）计算特征A对数据集D的经验条件熵H(D|A)

$H(D|A)=\displaystyle\sum_{i=1}^{n} \frac{|D_i|}{|D|}H(D_i)= -\displaystyle\sum_{i=1}^{n} \frac{|D_i|}{|D|}\displaystyle\sum_{k=1}^{K} \frac{|D_{ik}|}{|D_i|}log_2 \frac{|D_{ik}|}{|D_i|}$

（3）计算信息增益

$g (D, A) = H (D) - H (D ∣ A)$

（4）计算信息增益比

$g_R(D,A)=\frac{g(D,A)}{H(D)}$

2.决策树的生成

ID3算法的核心是在决策树各个节点上应用信息增益准则选择特征，递归的构建决策树。

ID3算法决策树的生成

输入：训练数据集D，特征集A，阈值 $\varepsilon$ ；
输出：决策树T。

（1）若D中所有实例属于同一类 $C_k$ ，则T为单结点树，并将类 $C_k$ 作为该结点的类标记，返回T；
（2）若A＝Ø，则T为单结点树，并将D中实例数最大的类 $C_k$ 作为该结点的类标记，返回 T；
（3）否则，按ID3信息增益算法计算A中各特征对D的信息增益，选择信息增益最大的特征Ag；
（4）如果Ag的信息增益小于阈值 $\varepsilon$ ，则置T为单结点树，并将D中实例数最大的类 $C_k$ 作为该结点的类标记，返回T；
（5）否则，对Ag的每一可能值 $a_i$ ，依Ag＝ $a_i$ 将D分割为若干非空子集 $D_i$ ，将 $D_i$ 中实例数最大的类作为标记，构建子结点，由结点及其子结点构成树T，返回T；
（6）对第i个子结点，以 $D_i$ 为训练集，以A-{Ag}为特征集，递归地调用步1～步5，得到子树 $T_i$ ，返回 $T_i$ 。

ID	年龄	有工作	有自己的房子	信贷情况	类别
1	青年	否	否	一般	否
2	青年	否	否	好	否
3	青年	是	否	好	是
4	青年	是	是	好	是
5	青年	否	否	一般	否
6	中年	否	否	好	否
7	中年	否	否	好	否
8	中年	是	是	好	是
9	中年	否	是	非常好	是
10	中年	否	是	非常好	是
11	老年	否	是	非常好	是
12	老年	否	是	好	是
13	老年	是	否	好	是
14	老年	是	否	非常好	是
15	老年	否	否	一般	否

统计学习方法例题ID3算法数学实现：

（1）计算经验熵:

$-\frac{9}{15}log_2\frac{9}{15}-\frac{6}{15}log_2\frac{6}{15}=0.971$

（2）计算条件经验熵：

分别以A1，A2，A3，A4表示年龄、有工作、有自己的房子和信贷情况4个特征，则:

$H(D|A_1)=\displaystyle\sum_{i=1}^{n} \frac{|D_i|}{|D|}H(D_i)= \frac{5}{15}H(D_1)+\frac{5}{15}H(D_2)+\frac{5}{15}H(D_3)=\frac{5}{15}(-\frac{2}{5}log_2\frac{2}{5}-\frac{3}{5}log_2\frac{3}{5})+\frac{5}{15}(-\frac{3}{5}log_2\frac{3}{5}-\frac{2}{5}log_2\frac{2}{5})+\frac{5}{15}(-\frac{4}{5}log_2\frac{4}{5}-\frac{1}{5}log_2\frac{1}{5})=0.888$

同理:

$H(D|A_2)=0.674$
$H(D|A_3)=0.551$
$H(D|A_4)=0.608$

（3）计算信息增益：

$g(D,A_1)= H(D)-H(D|A_1)=0.971-0.888=0.083$
$g(D,A_2)= H(D)-H(D|A_1)=0.971-0.674=0.324$
$g(D,A_3)= H(D)-H(D|A_1)=0.971-0551=0.420$
$g(D,A_4)= H(D)-H(D|A_1)=0.971-0.608=0.363$

最后，比较各特征的信息增益值。由于特征A3（有自己的房子）的信息增益值最大，所以选择特征A3作为最优特征。

python代码实现：

from math import log
import operator

def loadDataSet():
    dataSet = [['青年', '否', '否', '一般', '否'],
               ['青年', '否', '否', '好', '否'],
               ['青年', '是', '否', '好', '是'],
               ['青年', '是', '是', '一般', '是'],
               ['青年', '否', '否', '一般', '否'],
               ['中年', '否', '否', '一般', '否'],
               ['中年', '否', '否', '好', '否'],
               ['中年', '是', '是', '好', '是'],
               ['中年', '否', '是', '非常好', '是'],
               ['中年', '否', '是', '非常好', '是'],
               ['老年', '否', '是', '非常好', '是'],
               ['老年', '否', '是', '好', '是'],
               ['老年', '是', '否', '好', '是'],
               ['老年', '是', '否', '非常好', '是'],
               ['老年', '否', '否', '一般', '否']]
    label = ['年龄', '有工作', '有自己的房子', '信贷情况']
    return dataSet, label

#计算数据集的香农熵
def calcShannonEnt(dataSet):
    numEntries = len(dataSet)                            #求出数据有多少个对象，即有多少行,计算实例总数
    labelCount = {}
    for featVec in dataSet:                              #对数据集逐行求最后一类的数据，并将统计最后一列数据的数目
        classify = featVec[-1]
        if classify not in labelCount.keys():       #创建一个字典，键值是最后一列的数值
            labelCount[classify]=1#当前键值不存在，则扩展字典并将此键值加入字典
        else:
            labelCount[classify] += 1                  #每个键值都记录了当前类别出现的次数
    shannonEnt = 0.0
    for key in labelCount:
        prob = float(labelCount[key])/numEntries       #使用统计出的最后一列的数据来计算所有类标签出现的概率
        shannonEnt -= prob * log(prob,2)                #下面的公式
    return shannonEnt


#按照获取最大信息增益的方法来划分数据集
def splitDataSet(dataSet, axis, value):
    retDataSet = []
    for featVec in dataSet:
        if featVec[axis] == value:                        #判断axis列的值是否为value
            reducedFeatVec = featVec[:axis]               #[:axis]表示前axis行，即若axis为2，就是取featVec的前axis行
            reducedFeatVec.extend(featVec[axis+1:])       #[axis+1:]表示从跳过axis+1行，取接下来的数据
            retDataSet.append(reducedFeatVec)
    return retDataSet

#遍历整个数据集，找到最好的特征划分方式
def chooseBestFeatureToSplitForID3(dataSet):
    numFeatures = len(dataSet[0]) - 1#特征个数
    baseEntropy = calcShannonEnt(dataSet)#数据集dataSet的熵
    bestInfoGain = 0.0#最优信息增益
    bestFeature = -1#最优特征
    for i in range(numFeatures):#对于每一个特征列
        featList = [example[i] for example in dataSet]#获取该特征列的
        uniqueVals = set(featList)#获得该特征的所有唯一特征值
        newEntropy = 0.0#i特征的信息熵
        for value in uniqueVals:
            subDataSet = splitDataSet(dataSet, i, value)#按照i特征的value唯一特征值--拆分数据集
            prob = len(subDataSet)/float(len(dataSet))#新数据集占总数据的比例
            newEntropy += prob * calcShannonEnt(subDataSet)#给定特征i的数据集dataSet的条件熵
        infoGain = baseEntropy - newEntropy#按照i特征划分的信息增益（数据集dataSet的熵-给定特征i的数据集dataSet的条件熵）
        if (infoGain > bestInfoGain):
            bestInfoGain = infoGain
            bestFeature = i    #判断出哪种划分方式得到最大的信息增益，且得出该划分方式所选择的特征
    # print('最优特征是：', label[bestFeature])
    return bestFeature



#频率最高的类别函数 判断递归何时结束
def majorityCnt(classList):                 #参数classList在下面创建树的代码里，是每一行的最后一个特征
    classCount = {}
    for vote in classList:                   #将特征里的元素添加到新建的字典里作为键值，并统计该键值出现次数
        if vote not in classCount.keys(): classCount[vote] = 0
        classCount[vote] += 1
    sortedClassCount = sorted(classCount.iteritems(), key=operator.itemgetter(1), reverse=True)
    return sortedClassCount[0][0]           #返回出现次数最多的键值

#创建决策树
def createTree(dataSet, labels):
    classList = [example[-1] for example in dataSet]
    if len(set(classList)) == 1:#if 数据集中的每个子项的类别完全相同：return 该类别
        return classList[0]
    if len(dataSet[0]) == 0: #if 遍历完所有的特征：return 频率最高的类别
        return majorityCnt(classList)
    # 寻找划分数据集的最好特征 #获取当前数据集合和标签列表的最优特征维度
    bestFeat = chooseBestFeatureToSplitForID3(dataSet)
    # 最优特征维度对应的标签值
    bestFeatLabel = labels[bestFeat]

    # 创建分支节点
    myTree = {bestFeatLabel: {}}
    del (labels[bestFeat])
    # 划分数据集
    featValues = [example[bestFeat] for example in dataSet]
    # print(set(featValues))
    # for 每个划分的子集
    for value in set(featValues):
        # 调用createTree()并且增加返回结果到分支节点中
        subLabels = labels[:]
        subDataSet = splitDataSet(dataSet, bestFeat, value)
        myTree[bestFeatLabel][value] = createTree(subDataSet, subLabels)
    # return 分支节点
    return myTree

dataSet, label = loadDataSet()
print(createTree(dataSet, label))

运行结果：

C4.5算法：与ID3算法相似，不同是用信息增益比来选择特征。

C4.5算法决策树生成：

输入：训练数据集D，特征集A，阈值 $\varepsilon$ ；
输出：决策树T。
（1）如果D中所有实例属于同一类 $C_k$ ，则置T为单结点树，并将 $C_k$ 作为该结点的类，返回T；
（2）如果A＝Ø，则置T为单结点树，并将D中实例数最大的类 $C_k$ 作为该结点的类，返回 T；
（3）否则，计算A中各特征对D的信息增益比，选择信息增益比最大的特征Ag；
（4）如果Ag的信息增益比小于阈值 $\varepsilon$ ，则置T为单结点树，并将D中实例数最大的类 $C_k$ 作为该结点的类，返回T；
（5）否则，对Ag的每一可能值 $a_i$ ，依Ag＝ $a_i$ 将D分割为子集若干非空 $D_i$ ，将 $D_i$ 中实例数最大的类作为标记，构建子结点，由结点及其子结点构成树T，返回T；
（6）对结点i，以 $D_i$ 为训练集，以A-{Ag}为特征集，递归地调用步(1)～步(5)，得到子树Ti，返回 $T_i$ 。

统计学习方法例题c4.5算法python代码实现：

from math import log
import numpy as np
import pandas as pd
import operator

def loadDataSet():
    dataSet = [['青年', '否', '否', '一般', '否'],
               ['青年', '否', '否', '好', '否'],
               ['青年', '是', '否', '好', '是'],
               ['青年', '是', '是', '一般', '是'],
               ['青年', '否', '否', '一般', '否'],
               ['中年', '否', '否', '一般', '否'],
               ['中年', '否', '否', '好', '否'],
               ['中年', '是', '是', '好', '是'],
               ['中年', '否', '是', '非常好', '是'],
               ['中年', '否', '是', '非常好', '是'],
               ['老年', '否', '是', '非常好', '是'],
               ['老年', '否', '是', '好', '是'],
               ['老年', '是', '否', '好', '是'],
               ['老年', '是', '否', '非常好', '是'],
               ['老年', '否', '否', '一般', '否']]
    label = ['年龄', '有工作', '有自己的房子', '信贷情况']
    return dataSet, label

#计算数据集的香农熵
def calcShannonEnt(dataSet):
    numEntries = len(dataSet)                            #求出数据有多少个对象，即有多少行,计算实例总数
    labelCount = {}
    for featVec in dataSet:                              #对数据集逐行求最后一类的数据，并将统计最后一列数据的数目
        classify = featVec[-1]
        if classify not in labelCount.keys():       #创建一个字典，键值是最后一列的数值
            labelCount[classify]=1#当前键值不存在，则扩展字典并将此键值加入字典
        else:
            labelCount[classify] += 1                  #每个键值都记录了当前类别出现的次数
    shannonEnt = 0.0
    for key in labelCount:
        prob = float(labelCount[key])/numEntries       #使用统计出的最后一列的数据来计算所有类标签出现的概率
        shannonEnt -= prob * log(prob,2)                #下面的公式
    return shannonEnt

#按照获取最大信息增益的方法来划分数据集
def splitDataSet(dataSet, axis, value):
    retDataSet = []
    for featVec in dataSet:
        if featVec[axis] == value:                        #判断axis列的值是否为value
            reducedFeatVec = featVec[:axis]               #[:axis]表示前axis行，即若axis为2，就是取featVec的前axis行
            reducedFeatVec.extend(featVec[axis+1:])       #[axis+1:]表示从跳过axis+1行，取接下来的数据
            retDataSet.append(reducedFeatVec)
    return retDataSet

#遍历整个数据集，找到最好的特征划分方式
def chooseBestFeatureToSplitForC45(dataSet):
    numFeatures = len(dataSet[0]) - 1  # 特征个数
    baseEntropy = calcShannonEnt(dataSet)  # 数据集dataSet的熵
    bestInfoGainRatio = 0.0# 最优信息增益
    bestFeature = -1  #最优特征
    for i in range(numFeatures):  # 对于每一个特征列
        featList = [example[i] for example in dataSet]  # 获取该特征列的值
        uniqueVals = set(featList)  # 获得该特征的所有唯一特征值
        newEntroy = 0.0 # 给定特征i的数据集dataSet的条件熵
        ibaseEntroy=0.0#数据集dataSet关于特征i的值的熵（数据集dataSet按照特征i的值划分的各子集的熵*子集占dataSet的比例之和）
        for value in uniqueVals:
            subDataSet = splitDataSet(dataSet, i, value)  # 按照i特征的value唯一特征值--拆分数据集
            prob = len(subDataSet) / float(len(dataSet))  # 新数据集占总数据的比例
            newEntroy += prob * calcShannonEnt(subDataSet)
            ibaseEntroy-=prob*log(prob,2)
        infoGainRatio = (baseEntropy - newEntroy)/ibaseEntroy  # 按照i特征划分的信息增益比
        if (infoGainRatio > bestInfoGainRatio):
            bestInfoGainRatio = infoGainRatio
            bestFeature = i
    return bestFeature



#频率最高的类别函数 判断递归何时结束
def majorityCnt(classList):                 #参数classList在下面创建树的代码里，是每一行的最后一个特征
    classCount = {}
    for vote in classList:                   #将特征里的元素添加到新建的字典里作为键值，并统计该键值出现次数
        if vote not in classCount.keys(): classCount[vote] = 0
        classCount[vote] += 1
    sortedClassCount = sorted(classCount.iteritems(), key=operator.itemgetter(1), reverse=True)
    return sortedClassCount[0][0]           #返回出现次数最多的键值

#创建决策树
def createTree(dataSet, labels):
    classList = [example[-1] for example in dataSet]
    if len(set(classList)) == 1:#if 数据集中的每个子项的类别完全相同：return 该类别
        return classList[0]
    if len(dataSet[0]) == 0: #if 遍历完所有的特征：return 频率最高的类别
        return majorityCnt(classList)
    # 寻找划分数据集的最好特征 #获取当前数据集合和标签列表的最优特征维度
    bestFeat = chooseBestFeatureToSplitForC45(dataSet)
    # 最优特征维度对应的标签值
    bestFeatLabel = labels[bestFeat]

    # 创建分支节点
    myTree = {bestFeatLabel: {}}
    del (labels[bestFeat])
    # 划分数据集
    featValues = [example[bestFeat] for example in dataSet]
    # print(set(featValues))
    # for 每个划分的子集
    for value in set(featValues):
        # 调用createTree()并且增加返回结果到分支节点中
        subLabels = labels[:]
        subDataSet = splitDataSet(dataSet, bestFeat, value)
        myTree[bestFeatLabel][value] = createTree(subDataSet, subLabels)
    # return 分支节点
    return myTree

dataSet, label = loadDataSet()
print(createTree(dataSet, label))

运行结果：

3.决策树的剪枝

决策树生成算法递归地产生决策树，直到不能继续下去为止。这样产生的树往往对训练数据的分类很准确，但对未知的测试数据的分类却没有那么准确，即出现过拟合现象。过拟合的原因在于学习时过多地考虑如何提高对训练数据的正确分类，从而构建出过于复杂的决策树。解决这个问题的办法是考虑决策树的复杂度，对已生成的决策树进行简化。

在决策树学习中将已生成的树进行简化的过程称为剪枝（pruning）。具体地，剪枝从已生成的树上裁掉一些子树或叶结点，并将其根结点或父结点作为新的叶结点，从而简化分类树模型。

决策树的剪枝往往通过极小化决策树整体的损失函数（loss function）或代价函数（cost function）来实现。设树T的叶结点个数为T，t是树T的叶结点，该叶结点有 $N_t$ 个样本点，其中k类的样本点有 $N_{tk}$ 个，k＝1,2,…,K。

叶结点t上的经验熵 $H_t(T)$ ：

$H_t(T) = -\displaystyle\sum_{k=1}^{K} \frac{N_{tk}}{N_t}log\frac{N_{tk}}{N_t}$

损失函数计算的是每个叶节点的样本数和每个叶节点的经验熵的乘积的累加和，再加上以叶节点个数为基础的惩罚项，α⩾0 为正则化系数。则决策树的损失函数可以定义为：
$C_α(T)=\displaystyle\sum_{t=1}^{|T|} N_tH_t(T)+α|T|$

将损失函数右端的第1项记作：
$C(T)=\displaystyle\sum_{t=1}^{|T|} N_tH_t(T)=-\displaystyle\sum_{t=1}^{|T|}\displaystyle\sum_{k=1}^{K} N_{tk}log\frac{N_{tk}}{N_t}$
则：
$C_α(T)=C(T)+α|T|$

C(T)表示模型对训练数据的预测误差，即模型与训练数据的拟合程度，|T|表示模型复杂度，参数α≥0控制两者之间的影响。较大的α促使选择较简单的模型（树），较小的a促使选择较复杂的模型（树）。α＝0意味着只考虑模型与训练数据的拟合程度，不考虑模型的复杂度。

剪枝就是当α确定时，选择损失函数最小的模型，即损失函数最小的子树。当α值确定时，子树越大，往往与训练数据的拟合越好，但是模型的复杂度就越高；相反，子树越小，模型的复杂度就越低，但是往往与训练数据的拟合不好。损失函数正好表示了对两者的平衡。

可以看出，决策树生成只考虑了通过提高信息增益（或信息增益比）对训练数据进行更好的拟合。而决策树剪枝通过优化损失函数还考虑了减小模型复杂度。决策树生成学习局部的模型，而决策树剪枝学习整体的模型。

定义的损失函数的极小化等价于正则化的极大似然估计。所以，利用损失函数最小原则进行剪枝就是用正则化的极大似然估计进行模型选择。

决策树的剪枝算法：

输入：生成算法产生的整个树T，参数α；
输出：修剪后的子树Ta。

（1）计算每个结点的经验熵。

（2）递归地从树的叶结点向上回缩。设一组叶结点回缩到其父结点之前与之后的整体树分别为 $T_B$ 与 $T_A$ ，其对应的损失函数值分别是 $C_α(T_B)$ 与 $C_α(T_A)$ ，如果

$C_α(T_A)≤C_α(T_B)$

则进行剪枝，即将父结点变为新的叶结点。

（3）返回（2），直至不能继续为止，得到损失函数最小的子树 $T_a$ 。注意，上式只需考虑两个树的损失函数的差，其计算可以在局部进行。所以，决策树的剪枝算法可以由一种动态规划的算法实现。

决策树剪枝方法：

首先剪枝（pruning）的目的是为了避免决策树模型的过拟合。因为决策树算法在学习的过程中为了尽可能的正确的分类训练样本，不停地对结点进行划分，因此这会导致整棵树的分支过多，也就导致了过拟合。决策树的剪枝策略最基本的有两种：预剪枝（pre-pruning）和后剪枝（post-pruning）：

预剪枝（pre-pruning）：预剪枝就是在构造决策树的过程中，先对每个结点在划分前进行估计，若果当前结点的划分不能带来决策树模型泛华性能的提升，则不对当前结点进行划分并且将当前结点标记为叶结点。

对比未剪枝的决策树和经过预剪枝的决策树可以看出：预剪枝使得决策树的很多分支都没有“展开”，这不仅降低了过拟合的风险，还显著减少了决策树的训练时间开销和测试时间开销。但是，另一方面，因为预剪枝是基于“贪心”的，所以，虽然当前划分不能提升泛华性能，但是基于该划分的后续划分却有可能导致性能提升，因此预剪枝决策树有可能带来欠拟合的风险。

后剪枝（post-pruning）：后剪枝就是先把整颗决策树构造完毕，然后自底向上的对非叶结点进行考察，若将该结点对应的子树换为叶结点能够带来泛华性能的提升，则把该子树替换为叶结点。

对比预剪枝和后剪枝，能够发现，后剪枝决策树通常比预剪枝决策树保留了更多的分支，一般情形下，后剪枝决策树的欠拟合风险小，泛华性能往往也要优于预剪枝决策树。但后剪枝过程是在构建完全决策树之后进行的，并且要自底向上的对树中的所有非叶结点进行逐一考察，因此其训练时间开销要比未剪枝决策树和预剪枝决策树都大得多。

你可能感兴趣的:(算法,决策树,机器学习)

探索Python中的集成方法：Stacking Echo_Wish Python 笔记 Python 算法 python 开发语言
在机器学习领域，Stacking是一种高级的集成学习方法，它通过将多个基本模型的预测结果作为新的特征输入到一个元模型中，从而提高整体模型的性能和鲁棒性。本文将深入介绍Stacking的原理、实现方式以及如何在Python中应用。什么是Stacking？Stacking，又称为堆叠泛化（StackedGeneralization），是一种模型集成方法，与Bagging和Boosting不同，它并不直
【Python】 Stacking: 强大的集成学习方法音乐学家方大刚 Python python 集成学习开发语言
我们都找到天使了说好了心事不能偷藏着什么都一起做幸福得没话说把坏脾气变成了好沟通我们都找到天使了约好了负责对方的快乐阳光下的山坡你素描的以后怎么抄袭我脑袋想的薛凯琪《找到天使了》在机器学习中，单一模型的性能可能会受到其局限性和数据的影响。为了解决这个问题，我们可以使用集成学习（EnsembleLearning）方法。集成学习通过结合多个基模型的预测结果，来提高整体模型的准确性和稳健性。Stacki
Stacking算法：集成学习的终极武器 civilpy 算法集成学习机器学习
Stacking算法：集成学习的终极武器在机器学习的竞技场中，集成学习方法以其卓越的性能而闻名。其中，Stacking（堆叠泛化）作为一种高级集成技术，更是被誉为“集成学习的终极武器”。本文将带你深入了解Stacking算法的原理和实现，并提供一些实战技巧和最佳实践。1.Stacking算法原理探秘Stacking算法的核心思想是训练多个不同的基模型，并将它们的预测结果作为新模型的输入特征，以此来
集成学习（上）：Bagging集成方法万事可爱^ 机器学习修仙之旅 #监督学习集成学习机器学习人工智能 Bagging 随机森林
一、什么是集成学习？在机器学习的世界里，没有哪个模型是完美无缺的。就像古希腊神话中的"盲人摸象"，单个模型往往只能捕捉到数据特征的某个侧面。但当我们把多个模型的智慧集合起来，就能像拼图一样还原出完整的真相，接下来我们就来介绍一种“拼图”算法——集成学习。集成学习是一种机器学习技术，它通过组合多个模型（通常称为“弱学习器”或“基础模型”）的预测结果，构建出更强、更准确的学习算法。这种方法的主要思想是
直方图梯度提升：大数据时代的极速决策引擎万事可爱^ 大数据机器学习深度学习直方图梯度提升 GBDT 算法
一、为什么需要直方图梯度提升？在Kaggle竞赛的冠军解决方案中，超过70%的获奖方案都使用了梯度提升算法。但当数据量突破百万级时，传统梯度提升树（GBDT）面临三大致命瓶颈：训练耗时剧增：每个特征的分割点计算都需要全量数据排序内存消耗爆炸：存储排序后的特征值需要额外空间处理效率低下：无法有效利用现代CPU的多核特性而梯度提升决策树（GBDT）作为集成学习的代表算法，通过迭代构建决策树实现预测能力
【集成学习】：Stacking原理以及Python代码实现 Geeksongs 机器学习 python 机器学习深度学习人工智能算法
Stacking集成学习在各类机器学习竞赛当中得到了广泛的应用，尤其是在结构化的机器学习竞赛当中表现非常好。今天我们就来介绍下stacking这个在机器学习模型融合当中的大杀器的原理。并在博文的后面附有相关代码实现。总体来说，stacking集成算法主要是一种基于“标签”的学习，有以下的特点：用法：模型利用交叉验证，对训练集进行预测，从而实现二次学习优点：可以结合不同的模型缺点：增加了时间开销，容
Redis 哨兵模式的选举算法是什么？少林码僧 redis sentinel
Redis哨兵模式中的选举算法主要用于在主节点出现故障时，从多个Sentinel节点中选出一个领导者（Leader）来执行故障转移操作。Redis哨兵的选举算法基于Raft算法的简化版本，但不完全等同于标准的Raft算法。以下是其主要过程：一、发现主节点故障当一个Sentinel节点主观地认为主节点不可达时（通常是在一定时间内没有收到主节点的PING回复），它会将主节点标记为主观下线（Subjec
windows使用ssh-copy-id命令的解决方案爱编程的喵喵 Windows实用技巧 windows ssh ssh-copy-id 解决方案
大家好，我是爱编程的喵喵。双985硕士毕业，现担任全栈工程师一职，热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的知识进行总结与归纳，不仅形成深入且独到的理解，而且能够帮助新手快速入门。本文主要介绍了windows使用ssh-copy-
Kafka 的消息压缩机制：优化存储与传输的利器阿贾克斯的黎明 java linq c#java
目录Kafka的消息压缩机制：优化存储与传输的利器一、消息压缩机制的重要意义1.减少存储成本2.提升网络传输效率二、Kafka常用的消息压缩算法1.GZIP压缩2.Snappy压缩3.前端展示压缩状态（Vue3+TS）在消息中间件的大家族中，Kafka以其卓越的性能而备受瞩目。其中，Kafka的消息压缩机制是一项非常重要的特性，它就像是一个高效的“压缩包”，在不损失数据内容的前提下，有效减少数据的
关于AI OS那点事大囚长科普天地大模型人工智能
AIOS（人工智能操作系统）作为面向智能时代的操作系统，其功能定位和架构设计与传统操作系统（如Linux、Windows、iOS等）存在显著差异。一、AIOS需具备的核心功能智能体全生命周期管理智能体调度与并发：需支持多智能体任务的优先级排序、资源分配及并发执行，例如通过轮询调度或动态优先级算法优化LLM资源利用率。上下文感知与切换：通过上下文管理器实现智能体交互状态的快照保存与恢复，解决LLM生
贪心算法之分发饼干努力小子 #刷题（简单难度）#贪心算法
假设你是一位很棒的家长，想要给你的孩子们一些小饼干。但是，每个孩子最多只能给一块饼干。对每个孩子i，都有一个胃口值gi，这是能让孩子们满足胃口的饼干的最小尺寸；并且每块饼干j，都有一个尺寸sj。如果sj>=gi，我们可以将这个饼干j分配给孩子i，这个孩子会得到满足。你的目标是尽可能满足越多数量的孩子，并输出这个最大数值。注意：你可以假设胃口值为正。一个小朋友最多只能拥有一块饼干。示例1:输入:[1
JAVA刷Leecode-贪心算法-分配问题-分发饼干搬砖的水鱼 leetcode 算法 java python leetcode 贪心算法
JAVA刷Leecode-贪心算法算法思想分配问题-分发饼干（135，hard)算法思想采用贪心的策略，保证每次操作都是局部最优解，从而最终的结果是全局最优。贪心算法不是对所有问题都能得到整体最优解，选择的贪心策略必须具有无后效性，即某个状态以前的过程不会影响以后的状态，只和当前的状态相关。包括分配问题（455，135）和区间问题（435）；练习：605，452，763，122，406。分配问题-
【贪心算法】1、分发饼干念奕玥【Java】数据结构与算法 java leetcode 贪心算法
贪心算法或贪心思想采用贪心的策略，保证每次操作都是局部最优的，从而使最后得到的结果是全局最优的。可用于解决分配问题e.g.leetcode455分发饼干解题思路：目标：尽可能满足越多数量的孩子。根据目标，可以容易想到，先去满足胃口值小的孩子。为了尽量使饼干可以满足更多的孩子，所以要把饼干尺寸大于等于孩子胃口值的饼干中挑尺寸最小的饼干给孩子。满足了这个孩子之后，再采取同样的策略去考虑剩下的孩子，直到
流浪地球 - 华为OD机试真题(E卷、C++) 什码情况华为od c++算法数据结构面试机试
针对刷题难，效率慢，我们提供一对一算法辅导，针对个人情况定制化的提高计划（全称1V1效率更高）。有兴趣的同学可以扫码添加我们的微信（code5bug）了解，免费试课一下。题目描述流浪地球计划在赤道上均匀部署了N个转向发动机，按位置顺序编号为0~N。1).初始状态下所有的发动机都是未启动状态;2).发动机启动的方式分为”手动启动”和”关联启动”两种方式;3).如果在时刻1一个发动机被启动，下一个时刻
Yolo系列之Yolo的基本理解是十一月末 YOLO python 开发语言 yolo
YOLO的基本理解目录YOLO的基本理解1YOLO1.1概念1.2算法2单、多阶段对比2.1FLOPs和FPS2.2one-stage单阶段2.3two-stage两阶段1YOLO1.1概念YOLO(YouOnlyLookOnce)是一种基于深度学习的目标检测算法，由JosephRedmon等人于2016年提出。它的核心思想是将目标检测问题转化为一个回归问题，通过一个神经网络直接预测目标的类别和位
贪心算法-455分发饼干工大一只猿贪心算法算法
classSolution{public:intfindContentChildren(vector&g,vector&s){sort(g.begin(),g.end());sort(s.begin(),s.end());intcount=0;inti=g.size()-1;intj=s.size()-1;for(i;i>=0;i--){if(j>=0&&s[j]>=g[i]){j--;count
455. 分发饼干（贪心算法）穿过漫长林径 LeetCode
455.分发饼干题目描述：有一群孩子和一堆饼干，每个孩子有一个饥饿度，每个饼干都有一个大小。每个孩子只能吃一个饼干，且只有饼干的大小不小于孩子的饥饿度时，这个孩子才能吃饱。求解最多有多少孩子可以吃饱。示例1:输入:g=[1,2,3],s=[1,1]输出:1解释:你有三个孩子和两块小饼干，3个孩子的胃口值分别是：1,2,3。虽然你有两块小饼干，由于他们的尺寸都是1，你只能让胃口值是1的孩子满足。所以
贪心算法：分发饼干 AlphaFinance 求职面试
假设你是一位很棒的家长，想要给你的孩子们一些小饼干。但是，每个孩子最多只能给一块饼干。对每个孩子i，都有一个胃口值g[i]，这是能让孩子们满足胃口的饼干的最小尺寸；并且每块饼干j，都有一个尺寸s[j]。如果s[j]>=g[i]，我们可以将这个饼干j分配给孩子i，这个孩子会得到满足。你的目标是尽可能满足越多数量的孩子，并输出这个最大数值。示例1:输入:g=[1,2,3],s=[1,1]输出:1解释:
2021-11-12 455. 分发饼干（贪心算法） TABE_ 贪心算法 leetcode 算法
注：题目：假设你是一位很棒的家长，想要给你的孩子们一些小饼干。但是，每个孩子最多只能给一块饼干。对每个孩子i，都有一个胃口值g[i]，这是能让孩子们满足胃口的饼干的最小尺寸；并且每块饼干j，都有一个尺寸s[j]。如果s[j]>=g[i]，我们可以将这个饼干j分配给孩子i，这个孩子会得到满足。你的目标是尽可能满足越多数量的孩子，并输出这个最大数值。示例1:输入:g=[1,2,3],s=[1,1]输出
贪心算法（9）（java）最优除法奋进的小暄 java 贪心算法算法
题目：给定一正整数数组nums,nums中的相邻整数将进行浮点除法。例如，[2,3.4]->2/3/4.例如，nums=[2,3,4]，我们将求表达式的值“2/3/4"。但是，你可以在任意位置添加任意数目的括号，来改变算数的优先级。你需要找出怎么添加括号，以便计算后的表达式的值为最大值。以字符串格式返回具有最大值的对应表达式。注意:你的表达式不应该包含多余的括号。输入：【1000，100，10，2
PyTorch基础知识讲解（一）完整训练流程示例苏雨流丰机器学习 pytorch 人工智能 python 机器学习深度学习
文章目录Tutorial1.数据处理2.网络模型定义3.损失函数、模型优化、模型训练、模型评价4.模型保存、模型加载、模型推理Tutorial大多数机器学习工作流程涉及处理数据、创建模型、优化模型参数和保存训练好的模型。本教程向你介绍一个用PyTorch实现的完整的ML工作流程，并提供链接来了解这些概念中的每一个。我们将使用FashionMNIST数据集来训练一个神经网络，预测输入图像是否属于以下
机器学习中的贝叶斯网络：如何构建高效的风险预测模型 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型自然语言处理人工智能语言模型编程实践开发语言架构设计
作者：禅与计算机程序设计艺术文章目录机器学习中的贝叶斯网络：如何构建高效的风险预测模型1.背景介绍2.基本概念术语说明2.1马尔科夫随机场（MarkovRandomField）2.2条件随机场（ConditionalRandomField，CRF）2.3变量elimination算法2.4贝叶斯网络3.核心算法原理和具体操作步骤以及数学公式讲解3.1原理介绍1.贝叶斯网络基础2.贝叶斯网络构建风险
机器臂运动控制算法工程师面试道亦无名面试算法人工智能机器学习
大厂的经验总结：一、基础概念理解请解释机器臂运动学正解和逆解的概念，并分别说明其用途。正解：已知机器臂各关节的角度（或位移），通过运动学模型计算出机器臂末端执行器在笛卡尔空间中的位置和姿态。用途在于可以根据给定的关节驱动值，预测末端的实际位置，用于运动仿真、路径验证等，比如在工业生产前模拟机器臂的动作是否能准确到达加工位置。逆解：已知机器臂末端执行器在笛卡尔空间中的期望位置和姿态，求解出各关节应处
Java高并发容器的内核解析：从无锁算法到分段锁的架构演进猿享天开开发语言 java
《Java高并发容器的内核解析：从无锁算法到分段锁的架构演进》本文将以JUC包核心容器为切入点，深入剖析ConcurrentHashMap在Java8中的64位Hash分段技术，解密LinkedBlockingQueue双锁队列设计的吞吐量秘密，并给出各容器在亿级流量场景下的性能压测对比与选型决策矩阵。一、BlockingQueue体系：生产者-消费者模式的工业级实现1.阻塞队列的四大行为矩阵行为
【北上广深杭大厂AI算法面试题】计算机视觉篇...如何解决多尺度问题？努力毕业的小土博^_^ AI算法题库人工智能算法计算机视觉深度学习神经网络
【北上广深杭大厂AI算法面试题】计算机视觉篇…如何解决多尺度问题？【北上广深杭大厂AI算法面试题】计算机视觉篇…如何解决多尺度问题？文章目录【北上广深杭大厂AI算法面试题】计算机视觉篇...如何解决多尺度问题？前言数据级别的多尺度模型架构上的多尺度表示FPN代码示例（PyTorch）说明其他多尺度处理方法总结欢迎铁子们点赞、关注、收藏！祝大家逢考必过！逢投必中！上岸上岸上岸！upupup大多数高校
【大模型书籍PDF】从零开始大模型开发与微调：基于PyTorch与ChatGLM （推荐）_从零开始大模型开发与微调 pdf 喝不喝奶茶丫 pytorch 人工智能语言模型大模型转行大模型 AI大模型微调
今天又来给大家推荐一本大模型方面的书籍。本书使用PyTorch2.0作为学习大模型的基本框架，以ChatGLM为例详细讲解大模型的基本理论、算法、程序实现、应用实战以及微调技术，为读者揭示大模型开发技术。本书配套示例源代码、PPT课件。（书籍分享）
软考系统架构设计师考试学习和考试的知识点大纲，覆盖所有考试考点 DKPT #系统架构设计师系统架构学习
以下是软考系统架构设计师考试的知识点大纲，覆盖所有官方考点，分为基础知识、核心技术、系统设计、案例分析、论文写作五大模块，帮助系统性学习和备考：一、基础知识模块计算机组成与体系结构计算机硬件组成（CPU、内存、I/O设备）存储系统（Cache、RAID、虚拟内存）指令系统与流水线技术操作系统进程与线程管理（调度算法、死锁）内存管理（分页、分段、虚拟内存）文件系统与磁盘管理数据库系统关系数据库（SQ
单调栈详解【C/C++】ん贤算法单调栈算法 c++数据结构贪心算法
前言：了解过单调队列后，你会发现单调栈的思想其实挺简单...当然前提是要了解一下什么是栈(stack)。看待一个问题，从不同角度，也许能有不同的收获。在数学家眼中，单调栈本质上是一个严格或非严格维护的单调递增或单调递减的数学结构。其核心在于动态的维护动态递增或递减的有序关系。而对于算法工程师，他们首先关注单调栈的核心优势：O(n)的时间复杂度。在需要遍历序列，并纪录极值的情况下（如接雨水、每日温度
Caffeine vs Guava Cache：性能巅峰对决，谁才是 Java 本地缓存之王？ Julian.zhou Java 开发基础技能缓存 java 算法
CaffeinevsGuavaCache：性能巅峰对决，谁才是Java本地缓存之王？导语：在Java本地缓存的战场上，Caffeine和GuavaCache是开发者最常用的两大神器。但究竟谁的性能更胜一筹？为何Caffeine被称为“GuavaCache的终结者”？本文通过算法原理、并发性能、内存管理、实战测试四大维度，彻底揭秘两者的性能差异，文末附迁移指南和选型建议！一、核心差异：算法与淘汰策略
122. 买卖股票的最佳时机 II 请向我看齐 LeetCode 算法
题目分析LeetCode第122题是“买卖股票的最佳时机II”。题目描述为：给定一个数组prices，其中prices[i]是一支给定股票第i天的价格。设计一个算法来计算你所能获取的最大利润。你可以尽可能地完成更多的交易（多次买卖一支股票）。模式识别本题属于动态规划或者贪心算法的范畴。由于可以进行多次交易，且没有交易次数限制，所以可以通过比较相邻两天的价格，只要后一天价格比前一天高，就进行一次交易
C/C++Win32编程基础详解视频下载择善Zach 编程 C++Win32
课题视频：C/C++Win32编程基础详解视频知识：win32窗口的创建 windows事件机制主讲：择善Uncle老师学习交流群：386620625 验证码：625 --
Guava Cache使用笔记 bylijinnan java guava cache
1.Guava Cache的get/getIfPresent方法当参数为null时会抛空指针异常我刚开始使用时还以为Guava Cache跟HashMap一样，get(null)返回null。实际上Guava整体设计思想就是拒绝null的，很多地方都会执行com.google.common.base.Preconditions.checkNotNull的检查。 2.Guava
解决ora-01652无法通过128（在temp表空间中） 0624chenhong oracle
解决ora-01652无法通过128（在temp表空间中）扩展temp段的过程一个sql语句后，大约花了10分钟，好不容易有一个结果，但是报了一个ora-01652错误，查阅了oracle的错误代码说明：意思是指temp表空间无法自动扩展temp段。这种问题一般有两种原因：一是临时表空间空间太小，二是不能自动扩展。分析过程：既然是temp表空间有问题，那当
Struct在jsp标签不懂事的小屁孩 struct
非UI标签介绍：控制类标签： 1：程序流程控制标签 if elseif else <s:if test="isUsed"> <span class="label label-success">True</span> </
按对象属性排序换个号韩国红果果 JavaScript 对象排序
利用JavaScript进行对象排序，根据用户的年龄排序展示 <script> var bob={ name;bob, age:30 } var peter={ name;peter, age:30 } var amy={ name;amy, age:24 } var mike={ name;mike, age:29 } var john={
大数据分析让个性化的客户体验不再遥远蓝儿唯美数据分析
顾客通过多种渠道制造大量数据，企业则热衷于利用这些信息来实现更为个性化的体验。分析公司Gartner表示，高级分析会成为客户服务的关键，但是大数据分析的采用目前仅局限于不到一成的企业。挑战在于企业还在努力适应结构化数据，疲于根据自身的客户关系管理（CRM）系统部署有效的分析框架，以及集成不同的内外部信息源。然而，面对顾客通过数字技术参与而产生的快速变化的信息，企业需要及时作出反应。要想实
java笔记4 a-john java
操作符 1，使用java操作符操作符接受一个或多个参数，并生成一个新值。参数的形式与普通的方法调用不用，但是效果是相同的。加号和一元的正号（+）、减号和一元的负号（-）、乘号（*）、除号（/）以及赋值号（=）的用法与其他编程语言类似。操作符作用于操作数，生成一个新值。另外，有些操作符可能会改变操作数自身的
从裸机编程到嵌入式Linux编程思想的转变------分而治之：驱动和应用程序 aijuans 嵌入式学习
笔者学习嵌入式Linux也有一段时间了，很奇怪的是很多书讲驱动编程方面的知识，也有很多书将ARM9方面的知识，但是从以前51形式的（对寄存器直接操作，初始化芯片的功能模块）编程方法，和思维模式，变换为基于Linux操作系统编程，讲这个思想转变的书几乎没有，让初学者走了很多弯路，撞了很多难墙。笔者因此写上自己的学习心得，希望能给和我一样转变
在springmvc中解决FastJson循环引用的问题 asialee 循环引用 fastjson
我们先来看一个例子： package com.elong.bms; import java.io.OutputStream; import java.util.HashMap; import java.util.Map; import co
ArrayAdapter和SimpleAdapter技术总结百合不是茶 android SimpleAdapter ArrayAdapter 高级组件基础
ArrayAdapter比较简单，但它只能用于显示文字。而SimpleAdapter则有很强的扩展性，可以自定义出各种效果 ArrayAdapter;的数据可以是数组或者是队列 // 获得下拉框对象 AutoCompleteTextView textview = (AutoCompleteTextView) this
九封信 bijian1013 人生励志
有时候，莫名的心情不好，不想和任何人说话，只想一个人静静的发呆。有时候，想一个人躲起来脆弱，不愿别人看到自己的伤口。有时候，走过熟悉的街角，看到熟悉的背影，突然想起一个人的脸。有时候，发现自己一夜之间就长大了。 2014，写给人
Linux下安装MySQL Web 管理工具phpMyAdmin sunjing PHP Install phpMyAdmin
PHP http://php.net/ phpMyAdmin http://www.phpmyadmin.net Error compiling PHP on CentOS x64 一、安装Apache 请参阅http://billben.iteye.com/admin/blogs/1985244 二、安装依赖包 sudo yum install gd
分布式系统理论 bit1129 分布式
FLP One famous theory in distributed computing, known as FLP after the authors Fischer, Lynch, and Patterson, proved that in a distributed system with asynchronous communication and process crashes,
ssh2整合(spring+struts2+hibernate)-附源码白糖_ eclipse spring Hibernate mysql 项目管理
最近抽空又整理了一套ssh2框架，主要使用的技术如下： spring做容器，管理了三层(dao,service,actioin)的对象 struts2实现与页面交互(MVC)，自己做了一个异常拦截器，能拦截Action层抛出的异常 hibernate与数据库交互 BoneCp数据库连接池，据说比其它数据库连接池快20倍，仅仅是据说 MySql数据库项目用eclipse
treetable bug记录 braveCS table
// 插入子节点删除再插入时不能正常显示。修改： //不知改后有没有错，先做个备忘 Tree.prototype.removeNode = function(node) { // Recursively remove all descendants of +node+ this.unloadBranch(node); // Remove
编程之美-电话号码对应英语单词 bylijinnan java 算法编程之美
import java.util.Arrays; public class NumberToWord { /** * 编程之美电话号码对应英语单词 * 题目： * 手机上的拨号盘，每个数字都对应一些字母，比如2对应ABC，3对应DEF.........，8对应TUV，9对应WXYZ， * 要求对一段数字，输出其代表的所有可能的字母组合
jquery ajax读书笔记 chengxuyuancsdn jQuery ajax
1、jsp页面 <%@ page language="java" import="java.util.*" pageEncoding="GBK"%> <% String path = request.getContextPath(); String basePath = request.getScheme()
JWFD工作流拓扑结构解析伪码描述算法 comsci 数据结构算法工作活动 J#
对工作流拓扑结构解析感兴趣的朋友可以下载附件，或者下载JWFD的全部代码进行分析 /* 流程图拓扑结构解析伪码描述算法 public java.util.ArrayList DFS(String graphid, String stepid, int j)
oracle I/O 从属进程 daizj oracle
I/O 从属进程　　I/O从属进程用于为不支持异步I/O的系统或设备模拟异步I/O.例如，磁带设备(相当慢)就不支持异步I/O.通过使用I/O 从属进程，可以让磁带机模仿通常只为磁盘驱动器提供的功能。就好像支持真正的异步I/O 一样，写设备的进程(调用者)会收集大量数据，并交由写入器写出。数据成功地写出时，写入器(此时写入器是I/O 从属进程，而不是操作系统)会通知原来的调用者，调用者则会
高级排序:希尔排序 dieslrae 希尔排序
public void shellSort(int[] array){ int limit = 1; int temp; int index; while(limit <= array.length/3){ limit = limit * 3 + 1;
初二下学期难记忆单词 dcj3sjt126com english word
kitchen 厨房 cupboard 厨柜 salt 盐 sugar 糖 oil 油 fork 叉；餐叉 spoon 匙；调羹 chopsticks 筷子 cabbage 卷心菜；洋白菜 soup 汤 Italian 意大利的 Indian 印度的 workplace 工作场所 even 甚至；更 Italy 意大利 laugh 笑 m
Go语言使用MySQL数据库进行增删改查 dcj3sjt126com mysql
目前Internet上流行的网站构架方式是LAMP，其中的M即MySQL, 作为数据库，MySQL以免费、开源、使用方便为优势成为了很多Web开发的后端数据库存储引擎。MySQL驱动Go中支持MySQL的驱动目前比较多，有如下几种，有些是支持database/sql标准，而有些是采用了自己的实现接口,常用的有如下几种: http://code.google.c...o-mysql-dri
git命令 shuizhaosi888 git
---------------设置全局用户名： git config --global user.name "HanShuliang" //设置用户名 git config --global user.email "[email protected]" //设置邮箱 ---------------查看环境配置 git config --li
qemu-kvm 网络 nat模式 (四) haoningabc kvm qemu
qemu-ifup-NAT #!/bin/bash BRIDGE=virbr0 NETWORK=192.168.122.0 GATEWAY=192.168.122.1 NETMASK=255.255.255.0 DHCPRANGE=192.168.122.2,192.168.122.254 TFTPROOT= BOOTP= function check_bridge()
不要让未来的你，讨厌现在的自己 jingjing0907 生活奋斗工作梦想
故事one 　23岁，他大学毕业，放弃了父母安排的稳定工作，独闯京城，在家小公司混个小职位，工作还算顺手，月薪三千，混了混，混走了一年的光阴。　　　　24岁，有了女朋友，从二环12人的集体宿舍搬到香山民居，一间平房，二人世界，爱爱爱。偶然约三朋四友，打扑克搓麻将，日子快乐似神仙；　　　　25岁，出了几次差，调了两次岗，薪水涨了不过百，生猛狂飙的物价让现实血淋淋，无力为心爱银儿购件大牌
枚举类型详解一路欢笑一路走 enum 枚举详解 enumset enumMap
枚举类型详解一.Enum详解 1.1枚举类型的介绍 JDK1.5加入了一个全新的类型的”类”—枚举类型，为此JDK1.5引入了一个新的关键字enum,我们可以这样定义一个枚举类型。 Demo:一个最简单的枚举类 public enum ColorType { RED
第11章动画效果（上） onestopweb 动画
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Eclipse中jsp、js文件编辑时，卡死现象解决汇总 ljf_home eclipse jsp卡死 js卡死
使用Eclipse编辑jsp、js文件时，经常出现卡死现象，在网上百度了N次，经过N次优化调整后，卡死现象逐步好转，具体那个方法起到作用，不太好讲。将所有用过的方法罗列如下： 1、取消验证 windows–>perferences–>validation 把除了manual 下面的全部点掉，build下只留 classpath dependency Valida
MySQL编程中的6个重要的实用技巧 tomcat_oracle mysql
每一行命令都是用分号(;)作为结束对于MySQL，第一件你必须牢记的是它的每一行命令都是用分号(;)作为结束的，但当一行MySQL被插入在PHP代码中时，最好把后面的分号省略掉，例如： mysql_query("INSERT INTO tablename(first_name,last_name)VALUES('$first_name',$last_name')");
zoj 3820 Building Fire Stations(二分+bfs) 阿尔萨斯 Build
题目链接：zoj 3820 Building Fire Stations 题目大意：给定一棵树，选取两个建立加油站，问说所有点距离加油站距离的最大值的最小值是多少，并且任意输出一种建立加油站的方式。解题思路：二分距离判断，判断函数的复杂度是o(n)，这样的复杂度应该是o(nlogn)，即使常数系数偏大，但是居然跑了4.5s，也是醉了。判断函数里面做了3次bfs，但是每次bfs节点最多