晓海xhl

决策树 Decision Tree

一、学习决策树

1、决策树模型

2、学习算法

二、特征选择

1、香农熵

2、信息增益

3、划分数据集

三、决策树的生成

1、ID3算法

2、C4.5算法

四、决策树的拟合度优化

1、欠拟合和过拟合

2、决策树剪枝

五、CART算法

六、sklearn实现决策树

七、分类模型的评估指标

1、二分类决策树中的样本不不均衡问题

2、混淆矩阵

八、决策树算法评价

一、学习决策树

1、决策树模型

决策树（Decision Tree）是一种实现分治策略略的层次数据结构。它是一种有效的非参数学习方法，并可以用于分类和回归。我们主要讨论分类的决策树。

树模型是有监督学习类算法中应用广泛的一类模型，同时可应用于分类问题和回归问题，其中用于解决分类问题的树模型常被称为分类树，而用于解决回归类问题的树模型被称作回归树。树模型通过递归式切割的方法来寻找最佳分类标准，进而最终形成规则。

分类决策树模型表示一种基于特征对实例例进行分类的树形结构（包括二叉树和多叉树）。

决策树由结点（node）和有向边（directed edge）组成，树中包含三种结点：
根结点（root node）：包含样本全集。没有⼊入边，但有零条或多条出边；
内部结点（internal node）：对应于属性测试条件，恰有一条⼊入边，和两条或多条出边；
叶结点（leaf node）或终结点（terminal node）：对应于决策结果，恰有一条入边，但没有出
边。

2、学习算法

假设 X是表示特征的随机变量量， Y是表示类的随机变量量，则条件概率分布可表示为P(Y|X)。取值X给定划分条件下的区域的集合， Y取值于类的集合。各叶结点（区域）上的条件概率往往会偏向某一个类，即属于某一类的概率较大。决策树在分类时会将该结点的实例强行分到条件概率大的那一类去。

决策树学习本质上是从训练数据集中归纳出一组分类规则，也称为 “树归纳”。对于给定的训练数据集，存在许多对它无错编码的树。而为了简单起见，我们感兴趣的是从中选出 “最小” 的树，这里的树的大小用树的结点数和决策节点的复杂性度量。从另一个角度看，决策树学习是由训练数据集估计条件概率模型。基于特征空间划分的类的条件概率模型有无数个，我们选择的模型应该是不仅能对训练数据有很好的拟合，而且对未知数据也有很好的预测。

树的学习算法是 “贪心算法”，从包含全部训练数据的根开始，每一步都选择最佳划分。依赖于所选择的属性是数值属性还是离散属性，每次将数据划分为两个或 n个子集，然后使用对应的子集递归地进行划分，知道所有训练数据子集被基本正确分类，或者没有合适的特征为止，此时，创建一个树叶结点并标记它，这就生成了一颗决策树。
综上，决策树学习算法包含特征选择、决策树的生成与决策树的剪枝。由于决策树表示一个条件概率分布，所以深浅不同的决策树对应着不同复杂度的概率模型。其中决策树的生成只考虑局部最优，相对地，决策树的剪枝则考虑全局最优。

二、特征选择

1、香农熵

决策树学习的关键在如何选择最优划分属性。一般而言，随着划分过程不断进行，我们希望决策树的分支结点所包含的样本尽可能属于同一类别，即结点的 “纯度” （purity）越来越高。在分类树中，划分的优劣用不纯度量（impurity-measure）定量分析。

在信息论与概率统计中，熵是表示随机变量不确定性的度量。这里我们使用的熵，也叫作香农熵，这个名字来源于信息论之父克劳德·香农。熵函数是一个标准的凸函数。熵越高，信息的不纯度就越高，则混合的数据就越多。

1)熵
$\varnothing (p,1-p)=-plog_2p-(1-p)log_2(1-p)$
2）基尼指数（Gini index）
$\varnothing (p,1-p)=1-\sum_{i=1}^{m}p_i^2$
3）误分类误差（Classification error）
$\varnothing (p,1-p)=1-max(p,1-p)$
2、信息增益

全局最优树没有办法简单高效的获得，因此此处我们仍然要以局部最优化方法来指导建模过程，并通过优化条件的设置，最终在每一步都是局部最优的条件下逐步至尽可能全局最优的结果。而在信息熵指数的指导下，决策树生成过程的局部最优条件也非常好理解：即在选取属性测试条件（attribute test condition）对某结点（数据集）进行切分的时候，尽可能选取使得该结点对应的子节点信息熵最小的特征进行切分。换而言之，就是要求父节点信息熵和子节点总信息熵之差要最大。
$I(chind)=\sum_{v=1}^{v}\frac{\left | D^v \right |}{\left | D \right |}Ent(D^v)$
而父节点和子节点的不纯度下降数可由下述公式进行计算：
$\Delta =Ent(D)-I(chind)$
Ent(D)是一个不变的值，所以最大化增益等价于最小化分支结点的不纯性度量的加权平均值。最后，当选择熵作为公式的不纯性度量时，熵的差就是所谓的 “信息增益”。

3、划分数据集

分类算法除了需要测量信息熵，还需要划分数据集。在知道如何得到熵之后，我们就可以按照获取最大信息增益的方法来判断是否正确地划分了数据集。我们将对每个特征划分数据集的结果计算一次信息熵，以便判断按照哪个特征划分数据集是最好的划分方式。

划分数据集的最大准则是选择最大信息增益，也就是信息下降最快的方向。

最大信息熵的所选的特征是分类后熵值最小的特征。分类后熵值最小的特征恰恰是分类结果一致的特征，而分类结果一致的特征必须是两类样本差异最大的特征。

def bestSplit(dataSet):
    baseEnt = calEnt(dataSet)                                # 计算原始熵
    bestGain = 0                                             # 初始化信息增益
    axis = -1                                                # 初始化最佳切分列，标签列
    for i in range(dataSet.shape[1]-1):                      # 对特征的每一列进行循环
        levels= dataSet.iloc[:,i].value_counts().index       # 提取出当前列的所有取值
        ents = 0                                             # 初始化子节点的信息熵
        for j in levels:                                     # 对当前列的每一个取值进行循环
            childSet = dataSet[dataSet.iloc[:,i]==j]         # 某一个子节点的dataframe
            ent = calEnt(childSet)                           # 计算某一个子节点的信息熵
            ents += (childSet.shape[0]/dataSet.shape[0])*ent # 计算当前列的信息熵
            print(f'第{i}列的信息熵为{ents}')
        infoGain = baseEnt-ents                              # 计算当前列的信息增益
        print(f'第{i}列的信息增益为{infoGain}')
        if (infoGain > bestGain):
            bestGain = infoGain                              # 选择最大信息增益
            axis = i                                         # 最大信息增益所在列的索引
    return axis
返回结果:
第0列的信息熵为0.5509775004326937
第0列的信息熵为0.5509775004326937
第0列的信息增益为0.4199730940219749
第1列的信息熵为0.8
第1列的信息熵为0.8
第1列的信息增益为0.17095059445466854
0

三、决策树的生成

1、ID3算法

ID3算法的核心是在决策树各个结点应⽤用信息增益准则选择特征，递归地构建决策树。具体方法是：
①从根结点开始，对结点计算所有可能的特征的信息增益
②选择信息增益最大的特征作为结点的特征，由该特征的不同取值建立子结点
③再对子结点调用以上方法，构建决策树
④直到所有特征的信息增益均很小或没有特征可以选择为止，最后得到一个决策树

def createTree(dataSet):
    featlist = list(dataSet.columns)                        # 提取出数据集所有的列
    classlist = dataSet.iloc[:,-1].value_counts()           # 获取最后一列类标签
    # 判断最多标签数目是否等于数据集行数，或者数据集是否只有一列
    if classlist[0]==dataSet.shape[0] or dataSet.shape[1] == 1:
        return classlist.index[0]                           # 如果是，返回类标签
    axis = bestSplit(dataSet)                               # 确定出当前最佳切分列的索引
    bestfeat = featlist[axis]                               # 获取该索引对应的特征
    myTree = {
     bestfeat:{
     }}                                  # 采用字典嵌套的方式存储树信息
    del featlist[axis]                                      # 删除当前特征
    valuelist = set(dataSet.iloc[:,axis])                   # 提取最佳切分列所有属性值
    for value in valuelist:                                 # 对每一个属性值递归建树
        myTree[bestfeat][value] = createTree(mySplit(dataSet,axis,value))
    return myTree
mytree = createTree(data)
返回结果：第0列的信息增益为0.9182958340544896

ID3算法局限主要源于局部最优化条件，即信息增益的计算方法，其局限性主要有以下几点：

①分支度越高（分类水平越多）的离散变量往往子结点的总信息熵更小，ID3是按照某一列进行切分，有一些列的分类可能不会对结果有足够好的指示。极端情况下取ID作为切分字段，每个分类的纯度都是100%，因此这样的分类⽅方式是没有效益的。
②不能直接处理连续型变量，若要使用ID3处理连续型变量，则首先需要对连续变量进行离散化。
③对缺失值较为敏感，使用ID3之前需要提前对缺失值进行处理。
④没有剪枝的设置，容易导致过拟合，即在训练集上表现很好，测试集上表现很差。

2、C4.5算法

以信息增益作为划分训练数据集的特征，存在偏向于选择取值较多的特征的问题，使用信息增益比
（information gain ratio）可以对这一问题进行校正。信息增益比定义为其信息增益与训练数据集关于某一特征的值的熵之比

值得注意的是，增益率准则对可取值数目较少的属性有所偏好，因此，C4.5算法并不是直接选择增益率最大的候选划分属性，而是使用了了一种启发式：先从候选划分属性中找出信息增益高于平均水平的属性，再从中选择增益率最高的。

连续变量处理手段

在C4.5中，同样还增加了了针对连续变量的处理手段。如果输入特征字段是连续型变量，则算法首先会对
这一列数进行从小到大的排序，然后选取相邻的两个数的中间数作为切分数据集的备选点，若一个连续变量有N个值，则在C4.5的处理过程中将产生N-1个备选切分点，并且每个切分点都代表着一种二叉树的切分方案。

四、决策树的拟合度优化

1、欠拟合和过拟合

我们应该从训练样本中尽可能学到适用于所有潜在样本的"普遍规律"，我们认为假设空间存在这种"真"模型，那么所选择的模型应该逼近真模型。拟合度可简单理解为模型对于数据集背后客观规律的掌握程度，模型对于给定数据集如果拟合度较差，则对规律的捕捉不完全，用作分类和预测时可能准确率不高，换句话说，当模型把训练样本学得"太好"了的时候，很可能已经把训练样本自身的一些特点当作了所有潜在样本的普遍性质，这时候所选的模型的复杂度往往会比真模型更高，这样就会导致泛化性能下降。这种现象称为过拟合（overfitting）。可以说，模型选择旨在避免过拟合并提高模型的预测能力。与过拟合相对的是欠拟合（underfitting），是指模型学习能力低下，导致对训练样本的一般性质尚未学好。

2、决策树剪枝

所谓剪枝是指在决策树中去除部分叶结点。剪枝（Pruning）主要是用来防止过拟合，对于一般的数据
集如果总是追求 ”纯的“ 叶结点，或者观测数较小的叶结点，很容易使得树过于庞杂，尤其是存在可以反
复使用的连续变量的时候，此时就需要主动去掉一些分支来降低过拟合的风险。

预剪枝：在决策树生成的过程中，对每个结点在划分前先进行估计，如果当前的结点划分不能带来决策树泛化性能（预测性能）的提升，则停止划分并且将当前结点标记为叶结点。
后剪枝：先训练生成一颗完整的树，自底向上对非叶结点进行考察，如果将该结点对应的子树替换为叶结点能带来决策树泛化能力的提升，则将该子树替换为叶结点。

常用的是后剪枝的方法。

五、CART算法

CART是分类回归树

分裂过程是一个二叉递归划分过程
CART预测变量的类型既可以是连续型变量也可以是分类型变量
数据应以其原始形式处理，不需要离散化
用于数值型预测时，并没有使用回归，而是基于到达叶结点的案例的平均值做出预测

1、分裂规则

二叉递归划分：条件成立向左，反之向右
对于连续变量：条件是属性小于等于最优分裂点
对于分类变量：条件是属性属于若干类
二叉分裂的优点：相比多路分裂导致数据碎片化的速度慢，允许在一个属性上重复分裂，即可以在一个属性上产生足够多的的分裂。两路分裂带来的树预测性能提升足以弥补其相应的树易读性损失。

对于属性不同的被预测变量分裂准则不不同：
分类树：Gini准则。与之前的信息增益很类似，Gini系数度量一个结点的不纯度。
回归树：一种常见的分割标准是标准偏差减少（Standard Deviation Reduction, SDR），类似于
最小均方误差LS（least squares，预测错误的平方和）准则。

2、利用测试集进行剪枝

简单讨论CART算法剪枝过程，该过程也是测试集用于修正模型的最佳体现。例如，有如下在训练集中
训练得到的树模型，黑色数字表示训练集上的分类情况，红色数字表示模型作⽤用于验证集上的分类情
况。

则CART算法利利⽤用验证集剪枝的过程如下：
①判断每个叶节点在验证集上的错误率，节点4的错误率e(4)=1/3,节点5的错误率e(5)=1,节点6的错误率e(6)=1,节点7的错误率e(7)=4/9;

②计算子节点总加权平均错误率并和父节点进行比较，加权方法就是乘以该节点样本量占父节点样本总量的百分比（测试集），如 e(4)x3/4+e(5)x1/4=2/4，而父节点，节点2的错误率为e(2)=1/4，因此子节点错误率更高，考虑剪枝。同样可计算节点6和节点7的加权平均错误率为e(6)x1/10+e(7)x9/10=5/10,，而节点3的错误率e(3)=4/10，因此考虑剪枝；

可以看出，CART算法剪枝过程更易于理解也更便于操作，同时我们也能看到对于建立模型的算法而言，测试集不仅能够对模型准确率进行评估，同时还能起到修正优化模型的作用。

3、测试集和验证集

对于大多数模型而言，测试集实际上的作用就是用来修正模型，为了提高修正的准确率，我们也可采用交叉验证的方法，反复判别模型修改条件（如是否要剪枝），并设置模型修改触发条件（如多数验证情况需要修改则对其进⾏修改），从而提高模型优化的可靠性。而除了了训练集和测试集之外，我们还常常会划分一个验证集，验证集数据不参与建模也不参与模型修改和优化，只用于测试最终优化后模型效力。而训练集、测试集和验证集的划分通常遵照6:2:2的比例进行划分，当然也可根据实际需求适当调整划分比例，但无论如何，测试集和验证集数据数量都不宜过多也不宜过少，该二者数据集数据均不参与建模，若占比太多，则会对模型构建过程造成较大影响（欠拟合），而若划分数据过少，训练集数据量较大，则又有可能造成过拟合，数据集的划分也是影响拟合度的重要因素。若要求解最优划分比例，则可按照KNN和K-Means确定k值的思路来解决，即通过绘制学习曲线的方法来判断最佳例，该方法我们会在后续进行尝试。

六、sklearn实现决策树

1、重要参数

①criterion

Criterion这个参数是用来决定不不纯度的计算方法。默认为基尼系数，sklearn提供了了两种选择：
输⼊“entropy”，使用信息熵（Entropy）
输入 “gini”，使用基尼系数（Gini Impurity）

比起基尼系数，信息熵对不纯度更加敏感，对不纯度的惩罚最强。但是在实际使用中，信息熵和基尼系数的效果基本相同。信息熵的计算比基尼系数缓慢⼀一些，因为基尼系数的计算不不涉及对数。另外，因为信息熵对不纯度更加敏感，所以信息熵作为指标时，决策树的⽣长会更加 ”精细”，因此对于高纬数据或者噪声很多的数据，信息熵很容易过拟合，基尼系数在这种情况下效果往往比较好。当模型拟合程度不足的时候，即当模型在训练集和测试集上都表现不太好的时候，使用信息熵。当然，这些不是绝对的。通常就使用基尼系数据维度很大，噪音很大时使用基尼系数；维度低，数据比较清晰的时候，信息熵和基尼系数没区别；当决策树的拟合程度不够的时候，使用信息熵两个都试试，不好就换另外一个。

②random_state & spliter

random_state用来设置分支中的随机模式的参数，默认None，在高维度时随机性会表现更明显，低维度的数据(比如鸢尾花数据集)，随机性几乎不会显现。

splitter也是用来控制决策树中的随机选项的，有两种输入值，输入”best"，决策树在分支时虽然随机，但是还是会优先选择更重要的特征进行分支(重要性可以通过属性feature_importances_查看)，输入“random"，决策树在分支时会更加随机，树会因为含有更多的不必要信息而更深更大，并因这些不必要信息而降低对训练集的拟合。这也是防止过拟合的一种方式。当你预测到你的模型会过拟合，用这两个参数来帮助你降低树建成之后过拟合的可能性。当然，树一旦建成，我们依然是使用剪枝参数来防止过拟合。

③剪枝参数

决策树是天生过拟合的模型，为了让决策树有更好的泛化性，我们要对决策树进行剪枝。剪枝策略对决策树的影响巨大，正确的剪枝策略是优化决策树算法的核心。sklearn为我们提供了了不同的剪枝策略：

max_depth：最大树深度

min_samples_leaf ：最小叶节点样本量

min_samples_split：最小样本分隔节点

max_features：限制分支时考虑的特征个数

min_impurity_decrease：限制信息增益的大小

2、重要属性和接口

一个属性：feature_importances_，能够查看各个特征对模型的重要性，

四个接口：fit和score接口

apply中输入测试集返回每个测试样本所在的叶子节点的索引，

predict输入测试集返回每个测试样本的标签，

所有接口中要求输入Xtrain和Xtest的部分，输入的特征矩阵必须⾄至少是一个二维矩阵。 sklearn不接受任何一维矩阵作为特征矩阵被输入。如果你的数据的确只有一个特征，那必须用reshape(-1,1)来给矩阵增维。

import graphviz  # 画决策树库
import pandas as pd
from sklearn import tree
from sklearn.datasets import load_wine  # 红酒数据库
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
import matplotlib.pyplot as plt
#探索数据集
wine = load_wine()
wine.data.shape
wine.target
# 划分训练集和测试集
Xtrain, Xtest, Ytrain, Ytest =train_test_split(wine.data,wine.target,test_size=0.3)
Xtrain.shape
Xtest.shape

#建立模型
clf = DecisionTreeClassifier(random_state=30,splitter='random')
clf = clf.fit(Xtrain,Ytrain)
clf.score(Xtest,Ytest)
# 画决策树
plt.rcParams['font.sans-serif']=['Simhei'] #显示中文
plt.rcParams['axes.unicode_minus']=False   #显示负号
dot_data = tree.export_graphviz(clf,feature_names=feature_name,
                               class_names=['琴酒','雪莉','贝尔摩德'],
                               filled=True,rounded=True)
graph = graphviz.Source(dot_data)
graph

4、如何确定最优的剪枝参数

score=[]
for i in range(10):
    clf = DecisionTreeClassifier(max_depth=i+1,
                                criterion='gini',
                                random_state=30)
    clf = clf.fit(Xtrain,Ytrain)
    score.append(clf.score(Xtest,Ytest))
    
plt.plot(range(1,11),score,c='red',label='max depth')
plt.legend()
plt.show()

从图中我们可以看出，让max depth 达到3左右时，我们的score基本保持不变了，我们就可以认为最优剪枝参数为3。

七、分类模型的评估指标

1、二分类决策树中的样本不均衡问题

对于分类问题，永远都逃不过的一个痛点就是样本不均衡问题。分类模型天生会倾向于多数的类，让多数类更容易被判断正确，少数类被牺牲掉。有时候就不是我们想要的，比如我们现在要对潜在犯罪者和普通人进行分类，潜在犯罪者占总人口的比例是相当低的，也许只有2%左右，98%的人都是普通人，而我们的目标是要捕获出潜在犯罪者。

在决策树中，存在着调节样本均衡的参数：class_weight和接口fit中可以设定的sample_weight。
参数class_weight默认None，即认为标签的比例是1：1，当样本不均衡的时候，我们可以使用形如{“标签的值1”：权重1，“标签的值2”：权重2}的字典来输入真实的样本标签比例，来让算法意识到样本是不平衡的。或者使用”balanced“模式，直接使用n_samples/(n_classes * np.bincount(y))作为权重，可以比较好地修正我们的样本不均衡情况。

有了权重之后，样本量就不再是单纯地记录数目，而是受输入的权重影响了了，因此这时候剪枝，就需要搭配min_ weight_fraction_leaf这个基于权重的剪枝参数来使用。另请注意，基于权重的剪枝参数（例如min_weight_ fraction_leaf）将比不知道样本权重的标准（比如min_samples_leaf）更少偏向主导类。如果样本是加权的，则使用基于权重的预修剪标准来更容易优化树结构，这确保叶节点至少包含样本权重的总和的一小部分。

from sklearn.datasets import make_blobs
class_1 = 1000 #类别1有1000个样本
class_2 = 100 #类别2只有100个
centers = [[0,0], [2.0, 2.0]] #设定两个类别的中心
clusters_std = [2.5, 0.5] #设定两个类别的方差，通常来说，样本量比较大的类别会更加松散
X, y = make_blobs(n_samples=[class_1, class_2],
                  centers=centers,
                  cluster_std=clusters_std,
                  random_state=420,shuffle=False)

#看看数据集长什么样
plt.scatter(X[:, 0], X[:, 1], c=y, cmap="rainbow",s=10)

Xtrain,Xtest,Ytrain,Ytest = train_test_split(X,y,test_size=0.2,random_state=420)
#不设定class_weight
clf = DecisionTreeClassifier()
clf.fit(Xtrain,Ytrain)
clf.predict(Xtest)
#设定class_weight
wclf = DecisionTreeClassifier(class_weight='balanced')
wclf.fit(Xtrain,Ytrain)
wclf.predict(Xtest)

clf.score(Xtest,Ytest) 
wclf.score(Xtest,Ytest)

可以看到，做了了样本平衡后，少数类几乎全部都被分类正确了了，但是多数类有许多被分错了了。从准确率的角度来看，不做样本平衡的时候准确率反而更高，做了样本平衡准确率反而变低了了，这是因为做了了样本平衡后，为了了要更有效地捕捉出少数类，模型误伤了了许多数类样本，而多数类被分错的样本量 >少数类被分类正确的样本数量，使得模型整体的精确性下降。所以我们下面用到混淆矩阵。

2、混淆矩阵

混淆矩阵是二分类问题的多维衡量指标体系，在样本不平衡时极其有用。在混淆矩阵中，我们将少数类认为是正例，多数类认为是负例。在决策树，随机森林这些普通的分类算法里，即是说少数类是1，多数类是0。在SVM里，就是说少数类是1，多数类是-1。普通的混淆矩阵，一般使用{0,1}来表示。

其中，行代表预测情况，列则表示实际情况，positive表示阳性，即为真，negative则表示阴性，即为
假。因此矩阵中四个元素分别表示：
TP（True Positive）：真实为1，预测也为1
FN（False Negative）：真实为1，预测为0
FP（False Positive）：真实为0，预测为1

TN（True Negative）：真实为0，预测也为0
①模型整体效果：准确率

准确率Accuracy就是所有预测正确的所有样本除以总样本，通常来说越接近1越好。

$Accuracy=\frac{TP+TN}{TP+TN+FP+FN}=\frac{11+00}{11+10+01+00}$
②捕捉少数类的艺术：精确度，召回率和F1 score

精确度Precision，又叫查准率，表示在所有预测结果为1的样例数中，实际为1的样例数所占比重。精确度越低，则代表我们误伤了过多的多数类。精确度是”将多数类判错后所需付出成本“的衡量。

$Precision=\frac{TP}{TPFP}=\frac{11}{11+01}$
做了样本平衡之后，精确度是下降的，精确度可以帮助我们判断，是否每一次对少数类的预测都精确，所以又被称为”查准率“。在现实的样本不平衡例子中，当每一次将多数类判断错误的成本非常高昂的时候（比如大众召回车辆的例子），我们会追求高精确度。精确度越低，我们对多数类的判断就会越错误。

召回率Recall，又被称为敏感度(sensitivity)，真正率，查全率，表示所有真实为1的样本中，被我们预测正确的样本所占的比例。召回率越高，代表我们尽量捕捉出了了越多的少数类，召回率越低，代表我们没有捕捉出足够的少数类。

r1 = (Ytest[Ytest == clf.predict(Xtest)]==1).sum()/(Ytest==1).sum()
r1  # 返回0.41
r2 = (Ytest[Ytest == wclf.predict(Xtest)]==1).sum()/(Ytest==1).sum()
r2  #返回0.59

可以看出，做样本平衡之前，我们只成功捕获了了40%左右的少数类点，而做了了样本平衡之后的模型，捕
捉出了了60%的少数类点。召回率可以帮助我们判断，我们是否捕捉除了了全部的少数类，所以又叫做查全
率。而召回率和精确度是此消彼长的，两者之间的平衡代表了了捕捉少数类的需求和尽量不要误伤多数类的需求的平衡。

为了同时兼顾精确度和召回率，创造了两者的调和平均数作为考量两者平衡的综合性指标，称之F1measure。两个数之间的调和平均倾向于靠近两个数中比较小的那一个数，因此我们追求尽量高的F1 measure，能够保证我们的精确度和召回率都比较高。F1 measure在[0,1]之间分布，越接近1越好。
$F-measure=\frac{2}{\frac{1}{Precision}+\frac{1}{Recall}}=\frac{2*Precision*Recall}{Precision+Recall}$

from sklearn import metrics
wclf = DecisionTreeClassifier(class_weight='balanced')
wclf.fit(Xtrain,Ytrain)
wclf.predict(Xtest)
ypred = wclf.predict(Xtest)
# accuracy
metrics.accuracy_score(Ytest,ypred)
# precision
metrics.precision_score(Ytest,ypred)
# recall
metrics.recall_score(Ytest,ypred)
# F1
metrics.f1_score(Ytest,ypred)

八、决策树算法评价

决策树优点

易于理解和解释，因为树木可以画出来被看见。
需要很少的数据准备。其他很多算法通常都需要数据规范化，需要创建虚拟变量并删除空值等。但请注意，sklearn中的决策树模块不不支持对缺失值的处理。
使用树的成本（比如说，在预测数据的时候）是用于训练树的数据点的数量的对数，相比于其他算法，这是一个很低的成本。
能够同时处理数字和分类数据，既可以做回归又可以做分类。其他技术通常专门用于分析仅具有一种变量类型的数据集。
能够处理多输出问题，即含有多个标签的问题，注意与一个标签中含有多种标签分类的问题区别开。
是一个白盒模型，结果很容易能够被解释。如果在模型中可以观察到给定的情况，则可以通过布尔逻辑轻松解释条件。相反，在黑盒模型中（例例如，在工神经⽹网络中），结果可能更难以解释。
可以使用统计测试验证模型，这让我们可以考虑模型的可靠性。
即使其假设在某种程度上违反了了生成数据的真实模型，也能够表现良好。

决策树的缺点

决策树学习者可能创建过于复杂的树，这些树不能很好地推广数据。这称为过度拟合。修剪，设置叶节点所需的最小样本数或设置树的最大深度等机制是避免此问题所必需的，而这些参数的整合和调整对初学者来说会⽐比较晦涩。
决策树可能不不稳定，数据中微小的变化可能导致生成完全不不同的树，这个问题需要通过集成算法来解决。
决策树的学习是基于贪婪算法，它靠优化局部最优（每个节点的最优）来试图达到整体的最优，但这种做法不能保证返回全局最优决策树。这个问题也可以由集成算法来解决，在随机森林中，特征和样本会在分枝过程中被随机采样。
有些概念很难学习，因为决策树不容易表达它们，例如XOR，奇偶校验或多路复用器问题。
如果标签中的某些类占主导地位，决策树学习者会创建偏向主导类的树。因此，建议在拟合决策树
之前平衡数据集。

九、网格搜索

from sklearn.model_selection import GridSearchCV
Xtrain,Xtest,Ytrain,Ytest = train_test_split(wine.data,wine.target,
                                            test_size=0.3,random_state = 420)
# 设置参数可取值
param_grid = {
     'criterion':['entropy','gini'],
             'max_depth':range(2,11),
             'min_samples_split':range(2,20,2),
             'min_samples_leaf':range(1,10)}

# 设置参数网格
reg = GridSearchCV(DecisionTreeClassifier(),param_grid,cv=5)
# 建模
reg.fit(Xtrain,Ytrain)
# 最优参数
reg.best_params_
#查看分数
reg.best_score_
#测试模型
clf = DecisionTreeClassifier(criterion='gini',max_depth=4,
                            min_samples_split=6,min_samples_leaf=5)
clf.fit(Xtrain,Ytrain)
clf.score(Xtest,Ytest)

erion’:[‘entropy’,‘gini’],
‘max_depth’:range(2,11),
‘min_samples_split’:range(2,20,2),
‘min_samples_leaf’:range(1,10)}

设置参数网格

reg = GridSearchCV(DecisionTreeClassifier(),param_grid,cv=5)

建模

reg.fit(Xtrain,Ytrain)

最优参数

reg.best_params_
#查看分数
reg.best_score_
#测试模型
clf = DecisionTreeClassifier(criterion=‘gini’,max_depth=4,
min_samples_split=6,min_samples_leaf=5)
clf.fit(Xtrain,Ytrain)
clf.score(Xtest,Ytest)

你可能感兴趣的:(机器学习,机器学习)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
遥感影像的切片处理 sand&wich 计算机视觉 python 图像处理
在遥感影像分析中，经常需要将大尺寸的影像切分成小片段，以便于进行详细的分析和处理。这种方法特别适用于机器学习和图像处理任务，如对象检测、图像分类等。以下是如何使用Python和OpenCV库来实现这一过程，同时确保每个影像片段保留正确的地理信息。准备环境首先，确保安装了必要的Python库，包括numpy、opencv-python和xml.etree.ElementTree。这些库将用于图像处理
ai绘画工具midjourney怎么下载？附作品管理教程设计师早上好
Midjourney是一款功能强大的AI绘画工具，它使用机器学习技术和深度神经网络等算法，可以生成各种艺术风格的绘画作品。在创意设计、广告宣传等方面有着广泛的应用前景。那么，ai绘画工具midjourney怎么下载？本文将为您介绍Midjourney的下载以及作品的相关管理。一、Midjourney下载Midjourney的下载非常简单，只需打开Midjourney官网（点击“GetMidjour
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
机器学习-聚类算法不良人龍木木机器学习机器学习算法聚类
机器学习-聚类算法1.AHC2.K-means3.SC4.MCL仅个人笔记，感谢点赞关注！1.AHC2.K-means3.SC传统谱聚类：个人对谱聚类算法的理解以及改进4.MCL目前仅专注于NLP的技术学习和分享感谢大家的关注与支持！
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
python中zeros用法_Python中的numpy.zeros()用法江平舟 python中zeros用法
numpy.zeros()函数是最重要的函数之一,广泛用于机器学习程序中。此函数用于生成包含零的数组。numpy.zeros()函数提供给定形状和类型的新数组,并用零填充。句法numpy.zeros(shape,dtype=float,order='C'参数形状：整数或整数元组此参数用于定义数组的尺寸。此参数用于我们要在其中创建数组的形状,例如(3,2)或2。dtype：数据类型(可选)此参数用于
【NumPy】深入解析numpy.zeros()函数二七830 numpy
欢迎莅临我的个人主页这里是我深耕Python编程、机器学习和自然语言处理（NLP）领域，并乐于分享知识与经验的小天地！博主简介：我是二七830，一名对技术充满热情的探索者。多年的Python编程和机器学习实践，使我深入理解了这些技术的核心原理，并能够在实际项目中灵活应用。尤其是在NLP领域，我积累了丰富的经验，能够处理各种复杂的自然语言任务。技术专长：我熟练掌握Python编程语言，并深入研究了机
【中国国际航空-注册_登录安全分析报告】风控牛验证码接口安全评测系列安全行为验证极验网易易盾智能手机
前言由于网站注册入口容易被黑客攻击，存在如下安全问题：1.暴力破解密码，造成用户信息泄露2.短信盗刷的安全问题，影响业务及导致用户投诉3.带来经济损失，尤其是后付费客户，风险巨大，造成亏损无底洞所以大部分网站及App都采取图形验证码或滑动验证码等交互解决方案，但在机器学习能力提高的当下，连百度这样的大厂都遭受攻击导致点名批评，图形验证及交互验证方式的安全性到底如何？请看具体分析一、中国国际航空PC
机器学习流形数据降维：UMAP 降维算法小嗷犬 Python 机器学习 #数据分析及可视化机器学习算法人工智能
✅作者简介：人工智能专业本科在读，喜欢计算机与编程，写博客记录自己的学习历程。个人主页：小嗷犬的个人主页个人网站：小嗷犬的技术小站个人信条：为天地立心，为生民立命，为往圣继绝学，为万世开太平。本文目录UMAP简介理论基础特点与优势应用场景在Python中使用UMAP安装umap-learn库使用UMAP可视化手写数字数据集UMAP简介UMAP（UniformManifoldApproximatio
七.正则化愿风去了
吴恩达机器学习之正则化（Regularization）http://www.cnblogs.com/jianxinzhou/p/4083921.html从数学公式上理解L1和L2https://blog.csdn.net/b876144622/article/details/81276818虽然在线性回归中加入基函数会使模型更加灵活，但是很容易引起数据的过拟合。例如将数据投影到30维的基函数上，模
机器学习-------数据标准化罔闻_spider 数据分析算法机器学习人工智能
什么是归一化，它与标准化的区别是什么？一作用在做训练时，需要先将特征值与标签标准化，可以防止梯度防炸和过拟合；将标签标准化后，网络预测出的数据是符合标准正态分布的—StandarScaler()，与真实值有很大差别。因为StandarScaler()对数据的处理是（真实值-平均值）/标准差。同时在做预测时需要将输出数据逆标准化提升模型精度：标准化/归一化使不同维度的特征在数值上更具比较性，提高分类
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
两种方法判断Python的位数是32位还是64位 sanqima Python编程电脑 python 开发语言
Python从1991年发布以来，凭借其简洁、清晰、易读的语法、丰富的标准库和第三方工具，在Web开发、自动化测试、人工智能、图形识别、机器学习等领域发展迅猛。 Python是一种胶水语言，通过Cython库与C/C++语言进行链接，通过Jython库与Java语言进行链接。 Python是跨平台的，可运行在多种操作系统上，包括但不限于Windows、Linux和macOS。这意味着用Py
使用最大边际相关性(MMR)选择示例：提高AI模型的多样性和相关性 aehrutktrjk 人工智能 easyui 前端 python
使用最大边际相关性(MMR)选择示例：提高AI模型的多样性和相关性引言在机器学习和自然语言处理领域，选择合适的训练示例对模型性能至关重要。最大边际相关性(MaximalMarginalRelevance,MMR)是一种优秀的示例选择方法，它不仅考虑了示例与输入的相关性，还注重保持所选示例之间的多样性。本文将深入探讨如何使用MMR来选择示例，以提高AI模型的性能和泛化能力。什么是最大边际相关性(MM
LangChain集成指南:如何利用多样化的AI提供商 aehrutktrjk 人工智能 langchain python
LangChain集成指南:如何利用多样化的AI提供商引言在人工智能和机器学习领域,LangChain已成为一个强大而灵活的框架,允许开发者轻松集成各种AI服务提供商。本文将深入探讨LangChain的集成能力,介绍如何利用不同的AI提供商来增强你的应用程序,并提供实用的代码示例。LangChain集成概览LangChain支持多种AI提供商的集成,这些集成可以分为两类:独立包集成:这些提供商有独
机器学习VS深度学习 nfgo 机器学习
机器学习（MachineLearning,ML）和深度学习（DeepLearning,DL）是人工智能（AI）的两个子领域，它们有许多相似之处，但在技术实现和应用范围上也有显著区别。下面从几个方面对两者进行区分：1.概念层面机器学习：是让计算机通过算法从数据中自动学习和改进的技术。它依赖于手动设计的特征和数学模型来进行学习，常用的模型有决策树、支持向量机、线性回归等。深度学习：是机器学习的一个子领
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
【机器学习与R语言】1-机器学习简介苹果酱0567 面试题汇总与解析 java 中间件开发语言 spring boot 后端
1.基本概念机器学习：发明算法将数据转化为智能行为数据挖掘VS机器学习：前者侧重寻找有价值的信息，后者侧重执行已知的任务。后者是前者的先期准备过程：数据——>抽象化——>一般化。或者：收集数据——推理数据——归纳数据——发现规律抽象化：训练：用一个特定模型来拟合数据集的过程用方程来拟合观测的数据：观测现象——数据呈现——模型建立。通过不同的格式来把信息概念化一般化：一般化：将抽象化的知识转换成可用
Python前沿技术：机器学习与人工智能 4.0啊 Python 人工智能 python 机器学习
Python前沿技术：机器学习与人工智能一、引言随着科技的飞速发展，机器学习和人工智能（AI）已经成为了计算机科学领域的热门话题。Python作为一门易学易用且功能强大的编程语言，已经成为了这两个领域的首选语言之一。本文将深入探讨Python在机器学习和人工智能领域的应用，以及一些前沿技术和工具。二、Python机器学习基础2.1机器学习概述机器学习是人工智能（AI）的一个关键子集，它的核心在于让
chatgpt赋能python：如何在Python中计算平均值 tulingtest ChatGpt python chatgpt numpy 计算机
如何在Python中计算平均值计算平均值是数据分析、统计和机器学习等许多领域中的常见任务。Python作为一门功能强大且易于学习的编程语言，为计算平均值提供了多种方法。在本文中，我们将介绍如何在Python中计算平均值。什么是平均值简单来说，平均值是一组数字的总和除以数字的数量。例如，对于数字序列1，3，5，7，9，平均值是(1+3+5+7+9)/5=5。平均值在数据分析中非常有用，因为它可以提供
Python 初学者入门必知： Anaconda是什么？有什么作用？怎么使用？懒大王爱吃狼 Python基础 python 开发语言 python基础 python学习 anaconda anaconda安装 python教程
初学者在学习Python时，经常看到的一个名字是Anaconda。究竟什么是Anaconda，为什么它如此受欢迎？在这篇文章中，我们将探讨Anaconda，了解Anaconda的从安装到使用的。Anaconda是一个免费开源的Python和R编程发行版，包含上千个适用于数据科学和机器学习的包。同时，配备了Spyder和Jupyternotebook等工具，初学者可以使用它们来学习Python，使用
每天五分钟玩转深度学习PyTorch：模型参数优化器torch.optim 幻风_huanfeng 深度学习框架pytorch 深度学习 pytorch 人工智能神经网络机器学习优化算法
本文重点在机器学习或者深度学习中，我们需要通过修改参数使得损失函数最小化(或最大化)，优化算法就是一种调整模型参数更新的策略。在pytorch中定义了优化器optim，我们可以使用它调用封装好的优化算法，然后传递给它神经网络模型参数，就可以对模型进行优化。本文是学习第6步(优化器)，参考链接pytorch的学习路线随机梯度下降算法在深度学习和机器学习中，梯度下降算法是最常用的参数更新方法，它的公式
一切皆是映射：AI的去中心化：区块链技术的融合 AI大模型应用之禅计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
一切皆是映射：AI的去中心化：区块链技术的融合作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming关键词：AI，区块链，去中心化，智能合约，共识机制，数据安全，隐私保护，分布式账本技术，机器学习，数据隐私1.背景介绍1.1问题的由来随着人工智能（AI）技术的快速发展，其在各个领域的应用越来越广泛，从自动驾驶、智能医疗到金融服务，AI正在改变着我们的生活。
第五届核磁机器学习班（训练营：2023.6.5~6.17）茗创科技
茗创科技专注于脑科学数据处理，涵盖（EEG/ERP,fMRI,结构像,DTI,ASL,FNIRS）等，欢迎留言讨论及转发推荐，也欢迎了解茗创科技的脑电课程，数据处理服务及脑科学工作站销售业务，可添加我们的工程师（微信号MCKJ-zhouyi或17373158786）咨询。★课程简介★基于血氧水平依赖的功能磁共振成像(fMRI)技术,利用其数据构建的功能性脑网络后,发现脑并不是一个单纯对外界刺激进行
如何有效的学习AI大模型？ Python程序员罗宾学习人工智能语言模型自然语言处理架构
学习AI大模型是一个系统性的过程，涉及到多个学科的知识。以下是一些建议，帮助你更有效地学习AI大模型：基础知识储备：数学基础：学习线性代数、概率论、统计学和微积分等，这些是理解机器学习算法的数学基础。编程技能：掌握至少一种编程语言，如Python，因为大多数AI模型都是用Python实现的。理论学习：机器学习基础：了解监督学习、非监督学习、强化学习等基本概念。深度学习：学习神经网络的基本结构，如卷
ASM系列四利用Method 组件动态注入方法逻辑 lijingyao8206 字节码技术 jvm AOP 动态代理 ASM
这篇继续结合例子来深入了解下Method组件动态变更方法字节码的实现。通过前面一篇，知道ClassVisitor 的visitMethod()方法可以返回一个MethodVisitor的实例。那么我们也基本可以知道，同ClassVisitor改变类成员一样，MethodVIsistor如果需要改变方法成员，注入逻辑，也可以
java编程思想 --内部类百合不是茶 java 内部类匿名内部类
内部类;了解外部类并能与之通信内部类写出来的代码更加整洁与优雅 1,内部类的创建内部类是创建在类中的 package com.wj.InsideClass; /* * 内部类的创建 */ public class CreateInsideClass { public CreateInsideClass(
web.xml报错 crabdave web.xml
web.xml报错 The content of element type "web-app" must match "(icon?,display- name?,description?,distributable?,context-param*,filter*,filter-mapping*,listener*,servlet*,s
泛型类的自定义麦田的设计者 java android 泛型
为什么要定义泛型类，当类中要操作的引用数据类型不确定的时候。采用泛型类，完成扩展。例如有一个学生类 Student{ Student(){ System.out.println("I'm a student....."); } } 有一个老师类
CSS清除浮动的4中方法 IT独行者 JavaScript UI css
清除浮动这个问题，做前端的应该再熟悉不过了，咱是个新人，所以还是记个笔记，做个积累，努力学习向大神靠近。CSS清除浮动的方法网上一搜，大概有N多种，用过几种，说下个人感受。 1、结尾处加空div标签 clear:both 1 2 3 4 .div 1 { background : #000080 ; border : 1px s
Cygwin使用windows的jdk 配置方法 _wy_ jdk windows cygwin
1.[vim /etc/profile] JAVA_HOME="/cgydrive/d/Java/jdk1.6.0_43" (windows下jdk路径为D:\Java\jdk1.6.0_43) PATH="$JAVA_HOME/bin:${PATH}" CLAS
linux下安装maven 无量 maven linux 安装
Linux下安装maven(转) 1.首先到Maven官网下载安装文件，目前最新版本为3.0.3，下载文件为 apache-maven-3.0.3-bin.tar.gz，下载可以使用wget命令； 2.进入下载文件夹，找到下载的文件，运行如下命令解压 tar -xvf apache-maven-2.2.1-bin.tar.gz 解压后的文件夹
tomcat的https 配置,syslog-ng配置 aichenglong tomcat http跳转到https syslong-ng配置 syslog配置
1) tomcat配置https,以及http自动跳转到https的配置 1)TOMCAT_HOME目录下生成密钥(keytool是jdk中的命令) keytool -genkey -alias tomcat -keyalg RSA -keypass changeit -storepass changeit
关于领号活动总结 alafqq 活动
关于某彩票活动的总结具体需求，每个用户进活动页面，领取一个号码，1000中的一个；活动要求 1，随机性，一定要有随机性； 2，最少中奖概率，如果注数为3200注，则最多中4注 3，效率问题，（不能每个人来都产生一个随机数，这样效率不高）； 4，支持断电（仍然从下一个开始），重启服务；（存数据库有点大材小用，因此不能存放在数据库）解决方案 1，事先产生随机数1000个，并打
java数据结构冒泡排序的遍历与排序百合不是茶 java
java的冒泡排序是一种简单的排序规则冒泡排序的原理：比较两个相邻的数，首先将最大的排在第一个，第二次比较第二个，此后一样；针对所有的元素重复以上的步骤，除了最后一个例题；将int array[]
JS检查输入框输入的是否是数字的一种校验方法 bijian1013 js
如下是JS检查输入框输入的是否是数字的一种校验方法： <form method=post target="_blank"> 数字：<input type="text" name=num onkeypress="checkNum(this.form)"><br> </form>
Test注解的两个属性：expected和timeout bijian1013 java JUnit expected timeout
JUnit4：Test文档中的解释：　　The Test annotation supports two optional parameters. 　　The first, expected, declares that a test method should throw an exception. 　　If it doesn't throw an exception or if it
[Gson二]继承关系的POJO的反序列化 bit1129 POJO
父类 package inheritance.test2; import java.util.Map; public class Model { private String field1; private String field2; private Map<String, String> infoMap
【Spark八十四】Spark零碎知识点记录 bit1129 spark
1. ShuffleMapTask的shuffle数据在什么地方记录到MapOutputTracker中的 ShuffleMapTask的runTask方法负责写数据到shuffle map文件中。当任务执行完成成功，DAGScheduler会收到通知，在DAGScheduler的handleTaskCompletion方法中完成记录到MapOutputTracker中
WAS各种脚本作用大全 ronin47 WAS 脚本
　　　http://www.ibm.com/developerworks/cn/websphere/library/samples/SampleScripts.html 　　　无意中，在WAS官网上发现的各种脚本作用，感觉很有作用，先与各位分享一下　　　获取下载这些示例 jacl 和 Jython 脚本可用于在 WebSphere Application Server 的不同版本中自
java-12.求 1+2+3+..n不能使用乘除法、 for 、 while 、 if 、 else 、 switch 、 case 等关键字以及条件判断语句 bylijinnan switch
借鉴网上的思路，用java实现： public class NoIfWhile { /** * @param args * * find x=1+2+3+....n */ public static void main(String[] args) { int n=10; int re=find(n); System.o
Netty源码学习-ObjectEncoder和ObjectDecoder bylijinnan java netty
Netty中传递对象的思路很直观： Netty中数据的传递是基于ChannelBuffer（也就是byte[]）；那把对象序列化为字节流，就可以在Netty中传递对象了相应的从ChannelBuffer恢复对象，就是反序列化的过程 Netty已经封装好ObjectEncoder和ObjectDecoder 先看ObjectEncoder ObjectEncoder是往外发送
spring 定时任务中cronExpression表达式含义 chicony cronExpression
一个cron表达式有6个必选的元素和一个可选的元素，各个元素之间是以空格分隔的，从左至右，这些元素的含义如下表所示：代表含义是否必须允许的取值范围 &nb
Nutz配置Jndi ctrain JNDI
1、使用JNDI获取指定资源： var ioc = { dao : { type :"org.nutz.dao.impl.NutDao", args : [ {jndi :"jdbc/dataSource"} ] } } 以上方法,仅需要在容器中配置好数据源,注入到NutDao即可.
解决 /bin/sh^M: bad interpreter: No such file or directory daizj shell
在Linux中执行.sh脚本，异常/bin/sh^M: bad interpreter: No such file or directory。分析：这是不同系统编码格式引起的：在windows系统中编辑的.sh文件可能有不可见字符，所以在Linux系统下执行会报以上异常信息。解决： 1）在windows下转换：利用一些编辑器如UltraEdit或EditPlus等工具
[转]for 循环为何可恨？ dcj3sjt126com 程序员读书
Java的闭包(Closure)特征最近成为了一个热门话题。一些精英正在起草一份议案，要在Java将来的版本中加入闭包特征。然而，提议中的闭包语法以及语言上的这种扩充受到了众多Java程序员的猛烈抨击。不久前，出版过数十本编程书籍的大作家Elliotte Rusty Harold发表了对Java中闭包的价值的质疑。尤其是他问道“for 循环为何可恨？”[http://ju
Android实用小技巧 dcj3sjt126com android
1、去掉所有Activity界面的标题栏　　修改AndroidManifest.xml 　　在application 标签中添加android:theme="@android:style/Theme.NoTitleBar" 2、去掉所有Activity界面的TitleBar 和StatusBar 　　修改AndroidManifes
Oracle 复习笔记之序列 eksliang Oracle 序列 sequence Oracle sequence
转载请出自出处：http://eksliang.iteye.com/blog/2098859 1.序列的作用序列是用于生成唯一、连续序号的对象一般用序列来充当数据库表的主键值 2.创建序列语法如下： create sequence s_emp start with 1 --开始值 increment by 1 --増长值 maxval
有“品”的程序员 gongmeitao 工作
完美程序员的10种品质　　完美程序员的每种品质都有一个范围，这个范围取决于具体的问题和背景。没有能解决所有问题的完美程序员（至少在我们这个星球上），并且对于特定问题，完美程序员应该具有以下品质：　　1. 才智非凡- 能够理解问题、能够用清晰可读的代码翻译并表达想法、善于分析并且逻辑思维能力强（范围：用简单方式解决复杂问题）　　
使用KeleyiSQLHelper类进行分页查询 hvt sql .net C#asp.net hovertree
本文适用于sql server单主键表或者视图进行分页查询，支持多字段排序。KeleyiSQLHelper类的最新代码请到http://hovertree.codeplex.com/SourceControl/latest下载整个解决方案源代码查看。或者直接在线查看类的代码：http://hovertree.codeplex.com/SourceControl/latest#HoverTree.D
SVG 教程（三）圆形，椭圆，直线天梯梦 svg
SVG <circle> SVG 圆形 - <circle> <circle> 标签可用来创建一个圆：下面是SVG代码： <svg xmlns="http://www.w3.org/2000/svg" version="1.1"> <circle cx="100" c
链表栈 luyulong java 数据结构
public class Node { private Object object; private Node next; public Node() { this.next = null; this.object = null; } public Object getObject() { return object; } public
基础数据结构和算法十：2-3 search tree sunwinner Algorithm 2-3 search tree
Binary search tree works well for a wide variety of applications, but they have poor worst-case performance. Now we introduce a type of binary search tree where costs are guaranteed to be loga
spring配置定时任务 stunizhengjia spring timer
最近因工作的需要，用到了spring的定时任务的功能,觉得spring还是很智能化的,只需要配置一下配置文件就可以了,在此记录一下，以便以后用到： //------------------------定时任务调用的方法------------------------------ /** * 存储过程定时器 */ publi
ITeye 8月技术图书有奖试读获奖名单公布 ITeye管理员活动
ITeye携手博文视点举办的8月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 8月试读活动回顾： http://webmaster.iteye.com/blog/2102830 本次技术图书试读活动的优秀奖获奖名单及相应作品如下（优秀文章有很多，但名额有限，没获奖并不代表不优秀）：《跨终端Web》 gleams：http

决策树 Decision Tree