liqiutuoyuan

决策树

模型介绍

决策树算法在机器学习中算是很经典的一个算法系列了。它既可以作为分类算法，也可以作为回归算法，同时也特别适合集成学习比如随机森林。

决策树是对特征空间(数据集)的一个划分，在每个划分单元上有一个特定的输出值。假设决策树将特征空间划分成M个单元 R1,R2,...,RM ，每个单元 Rm 上都有一个特定的输出值 cm ，对于分类树来说 cm 是类别，对于回归树是该单元上所有样本对应目标的均值。于是决策树的模型可以表示为

f (x) = \sum i = 1 M c m I (x \in R m)

—–(1)

而决策树的树形结构展现的是对特征空间的划分规则。划分规则可以有很多，也可能不存在，如何选择最好的划分规则是构建决策树的关键。

如何度量一个决策树的好坏呢？根据(1)中的 f(x) 与真实目标值的损失函数，分类树是0-1损失函数，而回归树是平方损失函数，由此得到决策树模型的损失函数。最小化损失函数便可选择最优的决策树。但是优化的过程是一个NP难问题，所以现实中决策树算法通常采用启发式算法，近似求解这一问题。

特征空间的划分过程对应于决策树的构造过程，而特征空间的划分依据的是特征和特征的取值，所以特征的选择成为构建决策树的关键。根据特征选择的方式可以将决策树算法分为ID3，C4.5和CART。

特征选择

信息增益

学习信息增益，首先要明白什么是熵和条件熵

熵：表示随机变量不确定性的度量。设X是一个取值有限的随机变量，其概率分布为

$P (X = x i) = p i i = 1, 2, . . ., n$

则随机变量X的熵定义为

$H (X) = - \sum i = 1 n p i l o g p i$
条件熵：条件熵 H(Y|X) 表示在已知随机变量X的条件下，随机变量Y的不确定性，定义为X给定条件下Y的条件概率分布的熵对X的数学期望

$H (Y | X) = \sum i = 1 n p i H (Y | X = x i)$

其中 H(Y|X=xi) 是Y的条件概率分布的熵
互信息：表示得知X之后，Y的信息的不确定性减少的程度

$I (Y, X) = H (Y) - H (Y | X)$
信息增益：在决策树中的信息增益等价于训练数据D中类别与特征A的互信息

$g (D, A) = H (D) - H (D | A)$

其中 H(D) 表示对训练数据集D分类的不确定性，是对类别分布的熵。 H(D|A) 是在特征A确定的条件下，数据集分类的不确定。信息增益即在给定特征A之后，数据集分类不确定性的减少。

如何根据信息增益选择最优的特征？对训练数据集D，计算每个特征的信息增益，选择信息增益最大的特征为最优的特征。

设训练数据集为D，|D|是样本的个数。设有K个类别 {c1,c2,...,cK} ，每个类别的个数为 |ck| 。设特征A有n个不同的取值 {a1,a2,...,an} ，根据特征可以将数据集划分成n个子集 D1,D2,...,Dn ，每个部分的样本个数为 |Di| 。设子集 Di 中属于类别 ck 的集合为 Dik ， |Dik| 为该子集的个数，于是信息增益的算法如下：

计算数据集D的熵 H(D)

$H (D) = - \sum i = 1 K | c k | | D | l o g | c k | | D |$
计算特征A对数据集D的条件熵 H(D|A)

$H (D | A) = \sum i = 1 n | D i | D H (D i) = - \sum i = 1 n | D i | D \sum i = 1 K | D i k | | D i | l o g | D i k | | D i |$
计算信息增益 g(D,A)=H(D)−H(D|A)

信息增益比

以信息增益作为划分训练数据集的度量，容易偏向选择取值较多的特征，使用信息增益比可以解决这一问题。

g r (D, A) = g ( D , A ) H A ( D )

其中 g(D,A) 是数据集关于特征A的信息增益， HA(D)=−∑ni=1|Di|Dlog|Di|D ，根据特征A将数据集划分，然后计算熵，对应于特征A的熵。

基尼系数

以随机变量X为例，基尼系数的定义为

G i n i (X) = \sum i = 1 n p i (1 - p i) = 1 - \sum i = 1 n p 2 i

如果是二分类问题，属于第一类的概率为 p ，则对应的基尼系数为

Gini(p)=p(1−p)+(1−p)p=2p(1−p)

基尼系数常用于CART分类树的构建，而CART树是二叉树，根据特征A将数据集分为两部分 D1,D2 ，所以在特征A的条件下，集合D的基尼系数为

G i n i (D, A) = | D 1 | | D | G i n i (D 1) + | D 2 | | D | G i n i (D 2)

基尼系数代表了模型的不纯度，基尼系数越小，模型的不纯度越低，表示特征越好，这和信息增益(比)是相反的。

同时基尼系数的计算中没有对数的计算，比信息增益比要快速和精确，而且基尼系数的曲线和熵近似，可以作为熵的一种替代。

决策树的生成

决策树的生成对应于特征空间划分的过程。首先将数据集(特征空间)作为根节点，在所有特征中选择一个最好特征最为划分特征，根据特征的取值将数据集划分为多个子集，作为子节点，然后递归地对子节点进行划分，直到满足停止条件。

根据上节三种特征选择的度量方式，可以将决策树生成算法分为ID3,C4.5和CART。

ID3

ID3算法构造一棵分类树。首先给出ID3算法的流程：

输入：数据集D

输出：决策树T

判断D中所有实例是否只属于一类 ck ，如果是，则返回单节点树，并将 ck 作为节点该的类标记，即该划分子空间的输出
判断特征是否为空，如果为空，用多数投票选出该节点的类别，并返回单节点树和类别标记
计算样本中各个特征对应的信息增益，选择信息增益最大的特征作为最佳划分特征
如果最佳划分特征下数据的信息增益小于阈值，则返回单节点树，并用多数投票的方法选出该节点的类别标记；否则，根据该特征的每一个可能值，将数据集划分成若干个非空子集，每个子集作为该节点的子节点
对每一个子节点重复2-5

决策树构建完毕之后，每一个叶节点对应的是一个划分空间，假设有M个划分空间 R1,R2,...RM ，叶节点 Rm 的类标记 cm 是该子空间的输出。给定一个新样本 x ，用 f(x)=∑Mi=1cmI(x∈Rm) ，即根据决策树找到其对应的叶节点，该叶节点的类别标记即为 x 的预测类别。

ID3算法虽然提出了新思路，但是还是有很多值得改进的地方。

ID3没有考虑连续特征，比如长度，密度都是连续值，无法在ID3运用。而且ID3只能用于分类。
ID3采用信息增益大的特征优先建立决策树的节点。但是在相同条件下，取值比较多的特征比取值少的特征信息增益大。比如一个变量有2个值，各为1/2，另一个变量为3个值，各为1/3，其实他们都是完全不确定的变量，但是取3个值的比取2个值的信息增益大。如果校正这个问题呢？
ID3算法对于缺失值的情况没有做考虑
没有考虑过拟合的问题

C4.5

C4.5利用信息增益比改善ID3中的第二个问题，同时可以将连续特征离散化来解决第一个问题。至于第三个和第四个问题，之后具体讲解。

C4.5和利用信息增益比选择特征，其余和ID3完全一样。不做解释。

但是C4.5仍然有一些缺点，1、信息增益比的计算中有对数的计算，在计算过程中会损失准确定；2、C4.5是一颗多叉树，很多时候，在计算机中二叉树模型会比多叉树运算效率高。如果采用二叉树，可以提高效率。3、C4.5仍然只能用于分类。

CART

CART采用基尼系数来选择特征，避免了对数的计算。同时每次划分数据集是只将其划分为两部分，所以CART是一棵二叉树，而且CART回归树可以处理回归问题。

CART分类树

CART是一颗二叉树，首先选择最佳划分的特征，然后选择最佳划分的值，每次划分出一棵二叉树。回忆下ID3或者C4.5，如果某个特征A被选取建立决策树节点，如果它有a1,a2,a3三种类别，我们会在决策树上一下建立一个三叉的节点。这样导致决策树是多叉树。但是CART分类树使用的方法不同，他采用的是不停的二分，还是这个例子，CART分类树会考虑把A分成{a1}和{a2,a3}, {a2}和{a1,a3}, {a3}和{a1,a2}三种情况，找到基尼系数最小的组合，比如{a2}和{a1,a3},然后建立二叉树节点，一个节点是a2对应的子集，另一个节点是{a1,a3}对应的子集。同时，由于这次没有把特征A的取值完全分开，后面我们还有机会在子节点继续选择到特征A来划分a1和a3。这和ID3或者C4.5不同，在ID3或者C4.5的一棵子树中，离散特征只会参与一次节点的建立。

CART分类树的算法如下：

给定训练数据D和标签以及类别 {c1,c2,...,cK}
设节点的训练数据集为D，计算现有特征对该数据集的基尼系数。对每一个特征A，对其可能的每一个取值 ai ，判断 A=ai 是否成立将数据集分成两部分，计算相应的基尼系数，并选择基尼系数最小的特征和取值划分数据，生成两个子节点
对两个子节点递归调用2，直到满足停止条件

停止条件是1、节点中样本个数小于阈值；2、样本子集的基尼系数小于阈值；3、没有更多的特征用于划分

CART回归树

回归树不再次用信息增益(比)或基尼系数来选择特征和划分点，而是使用平方误差最小的准则求解最优的特征和划分值。遍历数据集中的每一个特征和该特征的每个取值，对于第j个特征的取值s，将数据集划分为两个子集，划分规则是

R 1 (j, s) = {x | x (j) \leq s} a n d R 2 (j, s) = {x | x (j) > s}

计算对应子集的输出值

c 1 = a v e (y i | x i \in R 1 (j, s)) a n d c 2 = a v e (y i | x i \in R 2 (j, s))

其中 ave 表示求平均值。

最后求解平方误差

\sum x i \in R 1 (j, s) (y i - c 1) 2 + \sum x i \in R 1 (j, s) (y i - c 2) 2

选择可以使上式最小的j，s划分数据集。

CART回归树的算法流程如下：

根据上文选择最优的特征j和切分点s
用选定的 (j,s) 将数据集划分成两个区域作为两个子节点，并确定相应的输出值

划分区域为
$R 1 (j, s) = {x | x (j) \leq s} a n d R 2 (j, s) = {x | x (j) > s}$

输出值为
$c 1 = a v e (y i | x i \in R 1 (j, s)) a n d c 2 = a v e (y i | x i \in R 2 (j, s))$
对子节点(子集)重复1,2,直到满足停止条件

停止条件是1、节点中样本个数小于阈值；2、样本集的平方误差小于阈值；3、没有更多的特征用于划分

构建好决策树之后，给定待预测的样本 x ，用 f(x)=∑Mi=1cmI(x∈Rm) ，即根据决策树找到其对应的叶节点，该叶节点的输出值记即为 x 的预测值。

CART回归树和分类树有两点主要的区别：1、选择特征和切分点的度量方式不同，分类树采用基尼系数，而回归树采用平方误差；2、叶节点的输出求解方式不同，分类树叶节点的输出是该节点对应子集中采用大多数样本的类别，而回归树叶节点的输出是该节点对应子集中所有样本目标的均值。

ID3,C4.5和CART的区别

算法	支持模型	树结构	特征选择	连续值处理	缺失值处理	剪枝
ID3	分类	多叉树	信息增益	不支持	不支持	不支持
C4.5	分类	多叉树	信息增益比	支持	支持	支持
CART	分类，回归	二叉树	基尼系数，均方差	支持	支持	支持

看起来CART算法高大上，那么CART算法还有没有什么缺点呢？有！主要的缺点我认为如下：

应该大家有注意到，无论是ID3, C4.5还是CART,在做特征选择的时候都是选择最优的一个特征来做分类决策，但是大多数，分类决策不应该是由某一个特征决定的，而是应该由一组特征决定的。这样的决策树更加准确。这个决策树叫做多变量决策树(multi-variate decision tree)。在选择最优特征的时候，多变量决策树不是选择某一个最优特征，而是选择最优的一个特征线性组合来做决策。这个算法的代表是OC1，这里不多介绍
如果样本发生一点点的改动，就会导致树结构的剧烈改变，即决策树对异常点很敏感。这个可以通过集成学习里面的随机森林之类的方法解决。

剪枝

魏红宁. 决策树剪枝方法的比较[J]. 西南交通大学学报, 2005, 40(1):44-48.

决策树算法递归地产生决策树，直到不能继续下去为止，这样得到的决策树往往对训练数据分类很准确，但是对未知的测试数据却没有那么准确，即偏差小，方差大，容易出现过拟合现象。过拟合的原因在于学习时过多考虑如何提高对训练数据的正确分类，从而得到复杂的决策树。所以要对决策树进行简化，简化的过程称为剪枝(pruning)。剪枝的方法分为两种：预剪枝和后剪枝。

预剪枝：在决策树构造过程中，根据某些条件，提早停止树的构造。比如节点中样本个数小于阈值，决策树的高度达到指定高度等，sklearn.tree中使用的就是预剪枝，阈值需要自己设置。缺点是可能会产生欠拟合。

后剪枝：在生成决策树之后进行剪枝，得到简化的决策树。后剪枝又可以分为两类：1、自底向上；2、自顶向下。思想就是从原始决策树中，按照规则将非叶节点剪枝成为叶节点，比较剪枝前后决策树的误差决定是否要剪枝，直到得到误差最小的决策树。后剪枝和预剪枝相比，需要消耗额外的时间，但是效果更好。

REP(reduced error pruning)：REP是当前最简单的后剪枝方法，需要一个额外的数据集D辅助剪枝过程。基本思路是，对于决策树T中的每个非叶子节点S，将其子树都剪去，成为一个叶节点，此时的决策树为 TS ，计算D在T和 TS 上的误差，如果 TS 的误差小于T的误差，则对该非叶节点剪枝，否则不剪枝。虽然REP很简单，但是需要一个额外的数据集，当数据量小的时候，一般不采用这种方法。REP是自底向上的后剪枝方法。
PEP(pessmistic error pruning)：PEP方法是为了克服REP方法需要额外剪枝数据缺点而提出的，不需要额外的剪枝数据。PEP按照以下公式对每个非叶节点自上而下计算，如果满足，则将该非叶节点剪枝成为叶节点，直到遍历完所有非叶节点。

$e' (t) \leq e' (T t) + S e (e' (T t))$ ——(1)

其中

e′(t)=e(t)+0.5

e′(Tt)=∑ie(i)+2/Nt

Se(e′(Tt))=[e′(Tt)n(t)−e′(Tt)n(t))]12

e(t) 是非叶节点t处的误差， Tt 是以t为根节点的子树， i 是子树 Tt 的叶子结点的编号， Nt 是子树 Tt 叶子结点的个数， n(t) 是非叶节点t处训练样本的个数。

对于每个非叶节点，如果满足(1)式，在在该处剪枝。下面给出一个例子：

上图中的非叶节点有5个，从 t1 到 t5 。首先对 t1 计算：

e′(t1)=25+0.5=25.5 ，以 t1 为根的子树有6个叶节点，所以 e′(Tt1)=1+2+1+1+6/2=8 ， Se(e′(Tt1)=[8∗80−880]12=2.68 ，因为 25.5>8+2.68 ，所以不用剪枝。依次计算 t2 到 t5 ，只有 t4 需要剪枝，所以讲 t2 的两个子树剪掉，是 t4 称为一个叶节点。

PEP是一种自顶向下的剪枝方法，是目前比较精确的一种剪枝方法。但是PEP和预剪枝有同样的缺陷，由于是自顶向下的剪枝，如果某个非叶节点需要剪枝，则连通其所有子节点一同剪去，而这些剪去的叶节点并没有判断。

在PEP中，每个非叶节点最多只用判断一次，所以剪枝速度很快。
CCP(cost-complexity pruning)：CCP主要包含两个步骤，1、从原始的决策树 T0 中按照规则生成一个子树序列 T0,T1,...,Tn ，其中 Tn 是只包含根节点的树；2、从子树序列中根据误差估计选择一棵最好的树最为剪枝后的决策树。(在《统计学习方法》P72页有详细介绍)

1、如何从原始决策树生成一个子树序列：子树 Ti+1 是从子树 Ti 生成的。对子树 Ti 的每个非叶节点计算下式

α=R(t)−R(Tt)|L(Tt)|−1

其中 Tt 是以非叶节点 t 为根节点的子树， R(Tt) 是测试数据在该子树上的误差(如果是回归树，计算均方误差)， R(t) 是剪枝后该节点上的误差， |L(Tt)| 是子树的叶子节点数。选择 α 最小的非叶节点进行剪枝得到 Ti+1 ，并记录对应的 αi+1=α 直到只剩一个根节点为止，即 Tn 。

2、如何从子树序列中选择最优的决策树：在得到子树序列后，用测试数据在每个决策树上计算 Rα(Ti)=R(Ti)+α|L(Ti)|,i=0,1,2,...,n ，找到使 Tα(Ti) 最小的i，对应的决策树即为剪枝后的决策树。

具体步骤如下：

输入：原始决策树 T0

输出：剪枝后最优决策树 Tα
- 设 k=0,T=T0，α=+∞
- 自下而上地对每个非叶节点计算
  
  $g (t i) = R ( t i ) - R ( T t ) | L ( T t i ) | - 1$
  
  并找到使 g(ti) 最小的非叶节点 tm ，对该节点进行剪枝，并对该叶节点以多数表决法决定其输出类别，得到树T，并有 α=g(tm)
- 设 k=k+1,αk=g(tm),Tk=T
- 如果 T 不是只有根节点构成的树，则回到第2步
- 采用交叉验证法计算 Rα(Ti)=R(Ti)+α|L(Ti)|,i=0,1,2,...,n ，得到 miniRα(Ti) ，得到最优子树 Ti
以上图为例，图中所示的是 T0 ，首先对非叶节点 T−2T5 计算 g(ti) ， R(t5)=4/80,R(Tt5)=0,L(TT5)=2,g(t5)=4/80=0.02 ，依次计算 g(t4)=0.0125,g(t3)=0.0375,g(t2)=0.0293 ，其中最小的是 g(t4) ，所以对 t4 剪枝得到 T1 ，并且 α1 =0.0125。

CCP是一个自底向上的剪枝方法，所需的时间与非叶节点的个数成二次关系，所以和PEP相比比较慢，而且CCP方法存在一个缺点，就是最优决策树只能从 T0,T1,...,Tn 中选择，如果最优决策树不再这个序列中，的不能得到。

总之，决策树的剪枝是在遍历每个非叶节点的过程中，通过剪枝和测试的动态过程中完成的。

缺失值处理

巩固, 张虹. 决策树算法中属性缺失值的研究[J]. 计算机应用与软件, 2008, 25(9):242-244.

《机器学习》周志华

http://blog.csdn.net/zrjdds/article/details/50223091

Python中处理缺失值

决策树为什么对缺失值不敏感

决策树的优点和缺点

总结于scikit-learn的英文文档。

首先我们看看决策树算法的优点：

简单直观，生成的决策树很直观。
基本不需要预处理，不需要提前归一化，处理缺失值。(sklearn.tree中不能处理缺失值)
使用决策树预测的代价是O(log2m)。 m为样本数。
既可以处理离散值也可以处理连续值。很多算法只是专注于离散值或者连续值。
可以处理多维度输出的分类问题。
相比于神经网络之类的黑盒分类模型，决策树在逻辑上可以得到很好的解释
可以交叉验证的剪枝来选择模型，从而提高泛化能力。
对于异常点的容错能力好，健壮性高。

我们再看看决策树算法的缺点:

决策树算法非常容易过拟合，导致泛化能力不强。可以通过设置节点最少样本数量和限制决策树深度来改进。即使通过剪枝，也不能完全避免。
决策树会因为样本发生一点点的改动，就会导致树结构的剧烈改变。这个可以通过集成学习之类的方法解决。
寻找最优的决策树是一个NP难的问题，我们一般是通过启发式方法，容易陷入局部最优。可以通过集成学习之类的方法来改善。
有些比较复杂的关系，决策树很难学习，比如异或。这个就没有办法了，一般这种关系可以换神经网络分类方法来解决。
如果某些特征的样本比例过大，生成决策树容易偏向于这些特征。这个可以通过调节样本权重来改善。

sklearn.tree

scikit-learn决策树算法类库内部实现是使用了调优过的CART树算法，既可以做分类，又可以做回归。分类决策树的类对应的是DecisionTreeClassifier，而回归决策树的类对应的是DecisionTreeRegressor。两者的参数定义几乎完全相同，但是意义不全相同。下面就对DecisionTreeClassifier和DecisionTreeRegressor的重要参数做一个总结，重点比较两者参数使用的不同点和调参的注意点。

参数	DecisionTreeClassifier	DecisionTreeRegressor
特征选择标准criterion	可以使用”gini”或者”entropy”，前者代表基尼系数，后者代表信息增益。一般说使用默认的基尼系数”gini”就可以了，即CART算法。除非你更喜欢类似ID3, C4.5的最优特征选择方法。	可以使用”mse”或者”mae”，前者是均方差，后者是和均值之差的绝对值之和。推荐使用默认的”mse”。一般来说”mse”比”mae”更加精确。除非你想比较二个参数的效果的不同之处。
特征划分点选择标准splitter	可以使用”best”或者”random”。前者在特征的所有划分点中找出最优的划分点。后者是随机的在部分划分点中找局部最优的划分点。默认的”best”适合样本量不大的时候，而如果样本数据量非常大，此时决策树构建推荐”random”	同左
划分时考虑的最大特征数max_features	可以使用很多种类型的值，默认是”None”,意味着划分时考虑所有的特征数；如果是”log2”意味着划分时最多考虑log2Nlog2N个特征；如果是”sqrt”或者”auto”意味着划分时最多考虑N−−√N个特征。如果是整数，代表考虑的特征绝对数。如果是浮点数，代表考虑特征百分比，即考虑（百分比xN）取整后的特征数。其中N为样本总特征数。一般来说，如果样本特征数不多，比如小于50，我们用默认的”None”就可以了，如果特征数非常多，我们可以灵活使用刚才描述的其他取值来控制划分时考虑的最大特征数，以控制决策树的生成时间。	同左
决策树最大深max_depth	决策树的最大深度，默认可以不输入，如果不输入的话，决策树在建立子树的时候不会限制子树的深度。一般来说，数据少或者特征少的时候可以不管这个值。如果模型样本量多，特征也多的情况下，推荐限制这个最大深度，具体的取值取决于数据的分布。常用的可以取值10-100之间。	同左
内部节点再划分所需最小样本数min_samples_split	这个值限制了子树继续划分的条件，如果某节点的样本数少于min_samples_split，则不会继续再尝试选择最优特征来进行划分。默认是2.如果样本量不大，不需要管这个值。如果样本量数量级非常大，则推荐增大这个值。我之前的一个项目例子，有大概10万样本，建立决策树时，我选择了min_samples_split=10。可以作为参考。	同左
叶子节点最少样本数min_samples_leaf	这个值限制了叶子节点最少的样本数，如果某叶子节点数目小于样本数，则会和兄弟节点一起被剪枝。默认是1,可以输入最少的样本数的整数，或者最少样本数占样本总数的百分比。如果样本量不大，不需要管这个值。如果样本量数量级非常大，则推荐增大这个值。之前的10万样本项目使用min_samples_leaf的值为5，仅供参考。	同左
叶子节点最小的样本权重和min_weight_fraction_leaf	这个值限制了叶子节点所有样本权重和的最小值，如果小于这个值，则会和兄弟节点一起被剪枝。默认是0，就是不考虑权重问题。一般来说，如果我们有较多样本有缺失值，或者分类树样本的分布类别偏差很大，就会引入样本权重，这时我们就要注意这个值了。	同左
最大叶子节点数max_leaf_nodes	通过限制最大叶子节点数，可以防止过拟合，默认是”None”，即不限制最大的叶子节点数。如果加了限制，算法会建立在最大叶子节点数内最优的决策树。如果特征不多，可以不考虑这个值，但是如果特征分成多的话，可以加以限制，具体的值可以通过交叉验证得到。	同左
类别权重class_weight	指定样本各类别的的权重，主要是为了防止训练集某些类别的样本过多，导致训练的决策树过于偏向这些类别。这里可以自己指定各个样本的权重，或者用“balanced”，如果使用“balanced”，则算法会自己计算权重，样本量少的类别所对应的样本权重会高。当然，如果你的样本类别分布没有明显的偏倚，则可以不管这个参数，选择默认的”None”	不适用于回归树
节点划分最小不纯度min_impurity_split	这个值限制了决策树的增长，如果某节点的不纯度(基尼系数，信息增益，均方差，绝对差)小于这个阈值，则该节点不再生成子节点。即为叶子节点。	同左
数据是否预排序presort	这个值是布尔值，默认是False不排序。一般来说，如果样本量少或者限制了一个深度很小的决策树，设置为true可以让划分点选择更加快，决策树建立的更加快。如果样本量太大的话，反而没有什么好处。问题是样本量少的时候，我速度本来就不慢。所以这个值一般懒得理它就可以了。	同左

除了这些参数要注意以外，其他在调参时的注意点有：

当样本少数量但是样本特征非常多的时候，决策树很容易过拟合，一般来说，样本数比特征数多一些会比较容易建立健壮的模型
如果样本数量少但是样本特征非常多，在拟合决策树模型前，推荐先做维度规约，比如主成分分析（PCA），特征选择（Losso）或者独立成分分析（ICA）。这样特征的维度会大大减小。再来拟合决策树模型效果会好。
推荐多用决策树的可视化，同时先限制决策树的深度（比如最多3层），这样可以先观察下生成的决策树里数据的初步拟合情况，然后再决定是否要增加深度。
在训练模型先，注意观察样本的类别情况（主要指分类树），如果类别分布非常不均匀，就要考虑用class_weight来限制模型过于偏向样本多的类别。
决策树的数组使用的是numpy的float32类型，如果训练数据不是这样的格式，算法会先做copy再运行。
如果输入的样本矩阵是稀疏的，推荐在拟合前调用csc_matrix稀疏化，在预测前调用csr_matrix稀疏化。

关于DecisionTreeClassifier 和 DecisionTreeRegressor 中的方法

首先实例化，实例化的参数根据上表选择

利用fit(X,y)函数构建决策树

采用predict(testSet)预测类别或者也测目标值

次用score(testSet)计算分类误差(分类树)或者均方误差(回归树)　　　

你可能感兴趣的:(机器学习)

【人工智能机器学习基础篇】——深入详解无监督学习之降维：PCA与t-SNE的关键概念与核心原理猿享天开人工智能数学基础专讲人工智能机器学习无监督学习降维
深入详解无监督学习之降维：PCA与t-SNE的关键概念与核心原理在当今数据驱动的世界中，数据维度的增多带来了计算复杂性和存储挑战，同时也可能导致模型性能下降，这一现象被称为“维度诅咒”（CurseofDimensionality）。降维作为一种重要的特征提取和数据预处理技术，旨在通过减少数据的维度，保留其主要信息，从而简化数据处理过程，并提升模型的性能。本文将深入探讨两种广泛应用于无监督学习中的降
Flink启动任务 swg321321 flink 大数据
Flink以本地运行作为解读例如：第一章Python机器学习入门之pandas的使用提示：写完文章后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录Flink前言StreamExecutionEnvironmentLocalExecutorMiniClusterStreamGraph二、使用步骤1.引入库2.读入数据总结前言提示：这里可以添加本文要记录的大概内容：例如：随着人工智能的不断发
计算机专业毕业设计题目推荐（新颖选题）本科计算机人工智能专业相关毕业设计选题大全✅ 会写代码的羊毕设选题课程设计人工智能毕业设计毕设题目毕业设计题目 ai AI编程
文章目录前言最新毕设选题（建议收藏起来）本科计算机人工智能专业相关的毕业设计选题毕设作品推荐前言2025全新毕业设计项目博主介绍：✌全网粉丝10W+,CSDN全栈领域优质创作者，博客之星、掘金/华为云/阿里云等平台优质作者。技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、大数据、机器学习等设计与开发。主要内容：免费功能
【机器学习】建模流程 CH3_CH2_CHO 什么？！是机器学习！！机器学习人工智能线性回归逻辑回归
1、数据获取1.1来源数据获取是机器学习建模的第一步，常见的数据来源包括数据库、API、网络爬虫等。数据库是企业内部常见的数据存储方式，例如：MySQL、Oracle等关系型数据库，以及MongoDB等非关系型数据库，它们能够存储大量的结构化和非结构化数据API（应用程序编程接口）提供了从外部获取数据的便捷方式，例如：社交媒体平台的API可以获取用户发布的内容和互动信息网络爬虫则适用于从网页中提取
机器学习课堂4线性回归模型+特征缩放木尘152132 机器学习线性回归 python
一、实验2-2，线性回归模型，计算模型在训练数据集和测试数据集上的均方根误差代码：#2-2线性回归模型importpandasaspdimportnumpyasnpimportmatplotlib.pyplotasplt#参数设置iterations=3000#迭代次数learning_rate=0.0001#学习率m_train=3000#训练样本的数量flag_plot_lines=False
【机器学习】模型拟合 CH3_CH2_CHO 什么？！是机器学习！！机器学习人工智能欠拟合过拟合
1、欠拟合1.1现象欠拟合是机器学习和统计建模中的一种常见问题，表现为模型无法充分捕捉数据中的潜在规律和模式。无论是训练数据还是测试数据，模型的预测误差都居高不下。在实际应用中，欠拟合的模型往往显得过于简单和粗糙，无法对数据进行有效的拟合和描述。1.2原因模型过于简单是导致欠拟合的主要原因：例如，使用直线去拟合具有明显曲线趋势的数据，或者使用低阶多项式去拟合高阶的复杂函数关系。这种情况下，模型的表
基于Python的智能决策支持系统：实现智能化决策的关键要素 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型自然语言处理人工智能语言模型编程实践开发语言架构设计
文章目录基于Python的智能决策支持系统：实现智能化决策的关键要素11.背景介绍2.核心概念与联系数据收集与预处理模型构建与训练决策规则生成与优化决策结果评估与反馈3.核心算法原理具体操作步骤数据挖掘算法机器学习算法优化算法4.数学模型和公式详细讲解举例说明线性回归模型最小二乘法5.项目实践：代码实例和详细解释说明6.实际应用场景金融领域医疗领域供应链管理智能制造7.工具和资源推荐编程语言和开发
下一代模型技术演进与场景应用突破智能计算研究中心其他
内容概要当前模型技术正经历多维度的范式跃迁，可解释性模型与自动化机器学习（AutoML）成为突破传统黑箱困境的核心路径。在底层架构层面，边缘计算与量子计算的融合重构了算力分配模式，联邦学习技术则为跨域数据协作提供了安全可信的解决方案。主流框架如TensorFlow和PyTorch持续迭代优化能力，通过动态参数压缩与自适应超参数调优策略，显著提升模型部署效率。应用层创新呈现垂直化特征，医疗诊断模型通
TypeScript语言的计算机视觉苏墨瀚包罗万象 golang 开发语言后端
使用TypeScript进行计算机视觉：一个现代化的探索引言随着人工智能和机器学习的快速发展，计算机视觉（ComputerVision）成为了一个极具活力的研究领域。计算机视觉旨在使计算机能够“看”和“理解”数字图像或视频中的内容。近年来，TypeScript作为一种现代化的编程语言，因其类型安全和更好的开发体验，逐渐在前端和后端开发中得到了广泛应用。本文将探讨如何使用TypeScript进行计算
人工智能之数学基础：数学对人工智能技术发展的作用每天五分钟玩转人工智能机器学习深度学习之数学基础人工智能深度学习机器学习神经网络自然语言处理数学
本文重点数学是人工智能技术发展的基础，它提供了人工智能技术所需的数学理论和算法，包括概率论、统计学、线性代数、微积分、图论等等。本文将从以下几个方面探讨数学对人工智能技术发展的作用。概率论和统计学概率论和统计学是人工智能技术中最为重要的数学分支之一。概率论和统计学的应用范围非常广泛，包括机器学习、数据挖掘、自然语言处理、计算机视觉等领域。在人工智能技术中，概率论和统计学主要用于处理不确定性的问题，
人工智能之数学基础：线性子空间每天五分钟玩转人工智能机器学习深度学习之数学基础人工智能深度学习线性代数线性子空间线性空间
本文重点在前面的课程中，我们学习了线性空间，本文我们我们在此基础上学习线性子空间。在应用中，线性子空间的概念被广泛应用于信号处理、机器学习、图像处理等领域。子空间的性质子空间是线性空间的一部分，它需要满足下面的性质：设V是数域F上的线性空间，W是V的一个非空子集。如果W对于V中的加法运算和数乘运算也构成F上的一个线性空间，则称W为V的线性子空间（或称向量子空间）。具体来说，设V是一个线性空间，W是
详解离线安装Python库爱编程的喵喵 Python基础课程 python 离线安装 requirements
大家好，我是爱编程的喵喵。双985硕士毕业，现担任全栈工程师一职，热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的知识进行总结与归纳，不仅形成深入且独到的理解，而且能够帮助新手快速入门。本文主要介绍了详解离线安装Python库，希望能对
ESG证书：AI预测未来十年职场人的黄金入场券 ESG学习圈 pandas python django
当ChatGPT开始撰写ESG报告，当机器学习模型精准预测企业碳排放轨迹，一场由AI驱动的ESG革命正在颠覆传统可持续发展领域。根据彭博新能源财经预测，到2030年全球ESG资产管理规模将突破50万亿美元，而AI技术将成为撬动这个万亿级市场的核心杠杆。一、AI透视下的ESG黄金时代在微软开发的AI模型ESG-NOW系统中，通过分析全球4300家上市公司近十年的环境数据，成功预测2025年新能源行业
【Dive Into Stable Diffusion v3.5】1：开源项目正式发布——深入探索SDv3.5模型全参/LoRA/RLHF训练 Donvink 大模型 #AIGC stable diffusion AIGC 人工智能机器学习深度学习
目录1引言2项目简介3快速上手3.1下载代码3.2环境配置3.3项目结构3.4下载模型与数据集3.5运行指令3.6核心参数说明3.6.1通用参数3.6.2优化器/学习率3.6.3数据相关4结语1引言在人工智能和机器学习领域，生成模型的应用越来越广泛。StableDiffusion作为其中的佼佼者，因其强大的图像生成能力而备受关注。今天，我的开源项目DiveIntoStableDiffusionv3
知识库在意图识别中扮演着**数据支撑**和**语义理解辅助**的双重角色 PersistDZ 大数据与AI 人工智能
知识库在意图识别中扮演着数据支撑和语义理解辅助的双重角色，而训练智能客服的意图识别Agent需要结合知识库的结构化数据与机器学习技术。以下是详细解析：一、知识库在意图识别中的作用1.提供标注数据意图标签定义：知识库中存储了预先定义的意图分类体系（如“订单查询”“退换货”“投诉”等），为模型提供明确的训练目标。标注样本：知识库包含大量用户对话历史及其对应的意图标签，是训练监督学习模型的核心数据源。2
近期计算机领域的热点技术 0dayNu1L 云计算量子计算人工智能
随着科技的飞速发展，计算机领域的新技术、新趋势层出不穷。本文将探讨近期计算机领域的几个热点技术趋势，并对它们进行简要的分析和展望。一、人工智能与机器学习人工智能（AI）和机器学习（ML）是近年来计算机领域最为热门的话题之一。AI和ML技术已经广泛应用于图像识别、自然语言处理、智能推荐等领域，并取得了显著的成果。随着技术的不断进步，AI和ML将更深入地渗透到各个行业，为人类社会带来更多便利和效益。在
计算机专业毕业设计题目推荐（新颖选题）本科计算机科学专业相关毕业设计选题大全✅ 会写代码的羊毕设选题课程设计计算机网络毕设选题毕设系统毕设题目计算机科学专业
文章目录前言最新毕设选题（建议收藏起来）本科计算机科学专业相关的毕业设计选题毕设作品推荐前言2025全新毕业设计项目博主介绍：✌全网粉丝10W+,CSDN全栈领域优质创作者，博客之星、掘金/华为云/阿里云等平台优质作者。技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、大数据、机器学习等设计与开发。主要内容：免费功能设计
Linux安装Anaconda和Jupyter 硬水果糖人工智能 Linux linux jupyter 运维
一、了解Anaconda和Jupyter引言：Anaconda是一个流行的开源数据科学平台，广泛用于数据分析、机器学习、人工智能等领域。它是一个集成了大量科学计算和数据科学工具的Python和R编程语言环境。Anaconda的主要目标是简化数据科学和机器学习的开发流程，提供一个易于安装和管理的环境。而预装了大量常用的Python和R库，这些库涵盖了数据科学的各个方面，包括：数据分析：Pandas、
ChatGPT、DeepSeek、GIS与Python机器学习强强联合！地质灾害风险评估、易发性分析、信息化建库及灾后重建 WangYan2022 DeepSeek ChatGPT 地下水地质灾害 DeepSeek ChatGPT GIS 灾后重建
在地质灾害频繁肆虐的当下，精准开展风险评价刻不容缓。如今，一门极具创新性的教程震撼登场，它将ChatGPT、DeepSeek等前沿技术与GIS、Python以及机器学习深度交融，为学员打造出前所未有的学习体验，助力大家在地质灾害风险评价领域强势突围，一路领先。前沿技术融合，铸就智能学习核心动力教程最闪耀的亮点之一，便是大胆引入了ChatGPT和DeepSeek技术。它们恰似无所不能的“数据魔法师”
Hessian 矩阵是什么 ZhangJiQun&MXP 教学 2021 AI python 2024大模型以及算力矩阵线性代数算法人工智能机器学习
Hessian矩阵是什么目录Hessian矩阵是什么Hessian矩阵的性质及举例说明**1.对称性****2.正定性决定极值类型****特征值为2（正），因此原点(0,0)(0,0)(0,0)是极小值点。****3.牛顿法中的应用****4.特征值与曲率方向****5.机器学习中的实际意义**一、定义与公式二、实例分析Hessian矩阵是多元函数二阶偏导数构成的方阵，用于分析函数局部曲率、判断极
LoRA中黑塞矩阵、Fisher信息矩阵是什么 ZhangJiQun&MXP 教学 2021 论文 2024大模型以及算力矩阵机器学习人工智能 transformer 深度学习算法线性代数
LoRA中黑塞矩阵、Fisher信息矩阵是什么1.三者的核心概念黑塞矩阵（Hessian）二阶导数矩阵，用于优化问题中判断函数的凸性（如牛顿法），或计算参数更新方向（如拟牛顿法）。Fisher信息矩阵（FisherInformationMatrix,FIM）统计学中衡量参数估计的不确定性，反映数据中包含的关于参数的信息量。在机器学习中常用于自然梯度下降（NaturalGradientDescent
神经网络基础之正则化硬水果糖人工智能神经网络人工智能机器学习
引言：正则化（Regularization）是机器学习中一种用于防止模型过拟合技术。核心思想是通过在模型损失函数中添加一个惩罚项（PenaltyTerm），对模型的复杂度进行约束，从而提升模型在新数据上的泛化能力。一、正则化目的防止过拟合：当模型过于复杂（例如神经网络层数过多、参数过多）时，容易在训练数据上“记忆”噪声或细节，导致在测试数据上表现差。简化模型：正则化通过限制模型参数的大小或数量，迫
决策树算法全解析：从零基础到Titanic实战，一文搞定机器学习经典模型吴师兄大模型 0基础实现机器学习入门到精通算法机器学习决策树人工智能深度学习编程开发语言
Langchain系列文章目录01-玩转LangChain：从模型调用到Prompt模板与输出解析的完整指南02-玩转LangChainMemory模块：四种记忆类型详解及应用场景全覆盖03-全面掌握LangChain：从核心链条构建到动态任务分配的实战指南04-玩转LangChain：从文档加载到高效问答系统构建的全程实战05-玩转LangChain：深度评估问答系统的三种高效方法（示例生成、手
图像处理篇---图像预处理 Ronin-Lotus 图像处理篇深度学习篇程序代码篇图像处理人工智能 opencv python 深度学习计算机视觉
文章目录前言一、通用目的1.1数据标准化目的实现1.2噪声抑制目的实现高斯滤波中值滤波双边滤波1.3尺寸统一化目的实现1.4数据增强目的实现1.5特征增强目的实现：边缘检测直方图均衡化锐化二、分领域预处理2.1传统机器学习（如SVM、随机森林）2.1.1特点2.1.2预处理重点灰度化二值化形态学操作特征工程2.2深度学习（如CNN、Transformer）2.2.1特点2.2.2预处理重点通道顺序
【大模型科普】AIGC技术发展与应用实践（一文读懂AIGC）人工智能
【专栏介绍】⌈⌈⌈人工智能与大模型应用⌋⌋⌋人工智能（AI）通过算法模拟人类智能，利用机器学习、深度学习等技术驱动医疗、金融等领域的智能化。大模型是千亿参数的深度神经网络（如ChatGPT），经海量数据训练后能完成文本生成、图像创作等复杂任务，显著提升效率，但面临算力消耗、数据偏见等挑战。当前正加速与教育、科研融合，未来需平衡技术创新与伦理风险，推动可持续发展。文章目录一、AIGC概述（一）什么是
【产品小白】什么是AI产品经理百事不可口y 产品经理的一步一步人工智能产品经理学习产品运营内容运营用户运营
一、AI产品经理的定义与角色定位AI产品经理是人工智能技术与商业应用之间的核心桥梁，负责将复杂的AI技术转化为满足市场需求的产品。需同时具备技术理解力、商业洞察力和用户思维，既要参与算法选型与数据建模，又要定义产品功能与市场策略，是贯穿产品全生命周期的关键角色。与传统互联网产品经理相比，AI产品经理的独特之处在于：技术深度参与：需理解机器学习、自然语言处理（NLP）、计算机视觉等技术原理，并参与数
数据增强：扩充数据集提升模型泛化能力 AI天才研究院计算 AI大模型企业级应用开发实战 ChatGPT 计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍1.1.数据增强的重要性在机器学习领域，模型的泛化能力至关重要。一个泛化能力强的模型能够在未见数据上表现良好，而过拟合的模型则会在训练数据上表现出色，但在新数据上表现糟糕。数据增强是一种有效提升模型泛化能力的技术，它通过对现有数据进行各种变换，人为地扩充数据集，从而增加训练数据的数量和多样性。1.2.数据增强的应用场景数据增强广泛应用于各种机器学习任务中，包括：图像识别:对图像进行旋转
数据增强：扩充数据集，提升模型的鲁棒性 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 LLM大模型落地实战指南计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
数据增强：扩充数据集，提升模型的鲁棒性1.背景介绍1.1数据集的重要性在机器学习和深度学习领域中,数据集是训练模型的基础。高质量的数据集对于构建准确、鲁棒的模型至关重要。然而,在现实世界中,获取大量高质量的数据通常是一个巨大的挑战。数据采集过程耗时耗力,而且成本高昂。此外,某些领域的数据存在隐私和安全问题,难以获取。1.2数据集不足的挑战当数据集规模有限时,模型很容易过拟合,无法很好地推广到新的、
使用TensorFlow、OpenCV和Pygame实现图像处理与游戏开发 UwoiGit tensorflow opencv pygame
在本篇文章中，我们将介绍如何结合使用TensorFlow、OpenCV和Pygame来进行图像处理和游戏开发。这三个工具在机器学习、计算机视觉和游戏开发领域都非常流行，并且它们的结合可以提供强大的功能和无限的创造力。我们将逐步介绍如何安装和配置这些工具，并提供相关的源代码示例。安装TensorFlowTensorFlow是一个基于数据流图的开源机器学习框架，提供了丰富的工具和库来构建和训练各种深度
机器学习之KMeans算法知舟不叙机器学习算法 kmeans
文章目录引言1.KMeans算法简介2.KMeans算法的数学原理3.KMeans算法的步骤3.1初始化簇中心3.2分配数据点3.3更新簇中心3.4停止条件4.KMeans算法的优缺点4.1优点4.2缺点5.KMeans算法的应用场景5.1图像分割5.2市场细分5.3文档聚类5.4异常检测6.Python实现KMeans算法7.总结引言KMeans算法是机器学习中最经典的无监督学习算法之一，广泛应
html页面js获取参数值 0624chenhong html
1.js获取参数值js function GetQueryString(name) { var reg = new RegExp("(^|&)"+ name +"=([^&]*)(&|$)"); var r = windo
MongoDB 在多线程高并发下的问题 BigCat2013 mongodb DB 高并发重复数据
最近项目用到 MongoDB , 主要是一些读取数据及改状态位的操作. 因为是结合了最近流行的 Storm进行大数据的分析处理，并将分析结果插入Vertica数据库，所以在多线程高并发的情境下, 会发现 Vertica 数据库中有部分重复的数据. 这到底是什么原因导致的呢？笔者开始也是一筹莫展，重复去看 MongoDB 的 API , 终于有了新发现： com.mongodb.DB 这个类有
c++ 用类模版实现链表(c++语言程序设计第四版示例代码) CrazyMizzz 数据结构 C++
#include<iostream> #include<cassert> using namespace std; template<class T> class Node { private: Node<T> * next; public: T data;
最近情况麦田的设计者感慨考试生活
在五月黄梅天的岁月里，一年两次的软考又要开始了。到目前为止，我已经考了多达三次的软考，最后的结果就是通过了初级考试（程序员）。人啊，就是不满足，考了初级就希望考中级，于是，这学期我就报考了中级，明天就要考试。感觉机会不大，期待奇迹发生吧。这个学期忙于练车，写项目，反正最后是一团糟。后天还要考试科目二。这个星期真的是很艰难的一周，希望能快点度过。
linux系统中用pkill踢出在线登录用户被触发 linux
由于linux服务器允许多用户登录，公司很多人知道密码，工作造成一定的障碍所以需要有时踢出指定的用户 1/#who 查出当前有那些终端登录（用 w 命令更详细） # who root pts/0 2010-10-28 09:36 (192
仿QQ聊天第二版肆无忌惮_ qq
在第一版之上的改进内容: 第一版链接: http://479001499.iteye.com/admin/blogs/2100893 用map存起来号码对应的聊天窗口对象,解决私聊的时候所有消息发到一个窗口的问题. 增加ViewInfo类,这个是信息预览的窗口,如果是自己的信息,则可以进行编辑. 信息修改后上传至服务器再告诉所有用户,自己的窗口
java读取配置文件知了ing
1，java读取.properties配置文件 InputStream in; try { in = test.class.getClassLoader().getResourceAsStream("config/ipnetOracle.properties");//配置文件的路径 Properties p = new Properties()
__attribute__ 你知多少？矮蛋蛋 C++gcc
原文地址: http://www.cnblogs.com/astwish/p/3460618.html GNU C 的一大特色就是__attribute__ 机制。__attribute__ 可以设置函数属性（Function Attribute ）、变量属性（Variable Attribute ）和类型属性（Type Attribute ）。 __attribute__ 书写特征是：
jsoup使用笔记 alleni123 java 爬虫 JSoup
<dependency> <groupId>org.jsoup</groupId> <artifactId>jsoup</artifactId> <version>1.7.3</version> </dependency> 2014/08/28 今天遇到这种形式，
JAVA中的集合 Collectio 和Map的简单使用及方法百合不是茶 list map set
List ,set ,map的使用方法和区别 java容器类类库的用途是保存对象，并将其分为两个概念： Collection集合：一个独立的序列，这些序列都服从一条或多条规则;List必须按顺序保存元素，set不能重复元素；Queue按照排队规则来确定对象产生的顺序（通常与他们被插入的
杀LINUX的JOB进程 bijian1013 linux unix
今天发现数据库一个JOB一直在执行，都执行了好几个小时还在执行，所以想办法给删除掉系统环境： ORACLE 10G Linux操作系统操作步骤如下：第一步.查询出来那个job在运行，找个对应的SID字段 select * from dba_jobs_running--找到job对应的sid &n
Spring AOP详解 bijian1013 java spring AOP
最近项目中遇到了以下几点需求，仔细思考之后，觉得采用AOP来解决。一方面是为了以更加灵活的方式来解决问题，另一方面是借此机会深入学习Spring AOP相关的内容。例如，以下需求不用AOP肯定也能解决，至于是否牵强附会，仁者见仁智者见智。 1.对部分函数的调用进行日志记录，用于观察特定问题在运行过程中的函数调用
[Gson六]Gson类型适配器(TypeAdapter) bit1129 Adapter
TypeAdapter的使用动机 Gson在序列化和反序列化时，默认情况下，是按照POJO类的字段属性名和JSON串键进行一一映射匹配，然后把JSON串的键对应的值转换成POJO相同字段对应的值，反之亦然，在这个过程中有一个JSON串Key对应的Value和对象之间如何转换(序列化/反序列化)的问题。以Date为例，在序列化和反序列化时，Gson默认使用java.
【spark八十七】给定Driver Program，如何判断哪些代码在Driver运行，哪些代码在Worker上执行 bit1129 driver
Driver Program是用户编写的提交给Spark集群执行的application，它包含两部分作为驱动： Driver与Master、Worker协作完成application进程的启动、DAG划分、计算任务封装、计算任务分发到各个计算节点(Worker)、计算资源的分配等。计算逻辑本身，当计算任务在Worker执行时，执行计算逻辑完成application的计算任务
nginx 经验总结 ronin47 nginx 总结
　　　深感nginx的强大，只学了皮毛，把学下的记录。　　　获取Header 信息，一般是以$http_XX（ＸＸ是小写）获取body,通过接口，再展开，根据Ｋ取Ｖ　　　获取uri,以$arg_XX &n
轩辕互动-1.求三个整数中第二大的数2.整型数组的平衡点 bylijinnan 数组
import java.util.ArrayList; import java.util.Arrays; import java.util.List; public class ExoWeb { public static void main(String[] args) { ExoWeb ew=new ExoWeb(); System.out.pri
Netty源码学习-Java-NIO-Reactor bylijinnan java 多线程 netty
Netty里面采用了NIO-based Reactor Pattern 了解这个模式对学习Netty非常有帮助参考以下两篇文章： http://jeewanthad.blogspot.com/2013/02/reactor-pattern-explained-part-1.html http://gee.cs.oswego.edu/dl/cpjslides/nio.pdf
AOP通俗理解 cngolon spring AOP
1.我所知道的aop 初看aop,上来就是一大堆术语，而且还有个拉风的名字，面向切面编程，都说是OOP的一种有益补充等等。一下子让你不知所措，心想着：怪不得很多人都和我说aop多难多难。当我看进去以后，我才发现：它就是一些java基础上的朴实无华的应用，包括ioc，包括许许多多这样的名词，都是万变不离其宗而已。 2.为什么用aop&nb
cursor variable 实例 ctrain variable
create or replace procedure proc_test01 as type emp_row is record( empno emp.empno%type, ename emp.ename%type, job emp.job%type, mgr emp.mgr%type, hiberdate emp.hiredate%type, sal emp.sal%t
shell报bash: service: command not found解决方法 daizj linux shell service jps
今天在执行一个脚本时，本来是想在脚本中启动hdfs和hive等程序，可以在执行到service hive-server start等启动服务的命令时会报错，最终解决方法记录一下：脚本报错如下： ./olap_quick_intall.sh: line 57: service: command not found ./olap_quick_intall.sh: line 59
40个迹象表明你还是PHP菜鸟 dcj3sjt126com 设计模式 PHP 正则表达式 oop
你是PHP菜鸟，如果你：1. 不会利用如phpDoc 这样的工具来恰当地注释你的代码2. 对优秀的集成开发环境如Zend Studio 或Eclipse PDT 视而不见3. 从未用过任何形式的版本控制系统，如Subclipse4. 不采用某种编码与命名标准，以及通用约定，不能在项目开发周期里贯彻落实5. 不使用统一开发方式6. 不转换（或）也不验证某些输入或SQL查询串（译注：参考PHP相关函
Android逐帧动画的实现 dcj3sjt126com android
一、代码实现： private ImageView iv; private AnimationDrawable ad; @Override protected void onCreate(Bundle savedInstanceState) { super.onCreate(savedInstanceState); setContentView(R.layout
java远程调用linux的命令或者脚本 eksliang linux ganymed-ssh2
转载请出自出处： http://eksliang.iteye.com/blog/2105862 Java通过SSH2协议执行远程Shell脚本(ganymed-ssh2-build210.jar) 使用步骤如下： 1.导包官网下载: http://www.ganymed.ethz.ch/ssh2/ ma
adb端口被占用问题 gqdy365 adb
最近重新安装的电脑，配置了新环境，老是出现： adb server is out of date. killing... ADB server didn't ACK * failed to start daemon * 百度了一下，说是端口被占用，我开个eclipse，然后打开cmd，就提示这个，很烦人。一个比较彻底的解决办法就是修改
ASP.NET使用FileUpload上传文件 hvt .net C#hovertree asp.net webform
前台代码： <asp:FileUpload ID="fuKeleyi" runat="server" /> <asp:Button ID="BtnUp" runat="server" onclick="BtnUp_Click" Text="上传" />
代码之谜（四）- 浮点数（从惊讶到思考） justjavac 浮点数精度代码之谜 IEEE
在『代码之谜』系列的前几篇文章中，很多次出现了浮点数。浮点数在很多编程语言中被称为简单数据类型，其实，浮点数比起那些复杂数据类型（比如字符串）来说，一点都不简单。单单是说明 IEEE浮点数就可以写一本书了，我将用几篇博文来简单的说说我所理解的浮点数，算是抛砖引玉吧。一次面试记得多年前我招聘 Java 程序员时的一次关于浮点数、二分法、编码的面试，多年以后，他已经称为了一名很出色的
数据结构随记_1 lx.asymmetric 数据结构笔记
第一章 1.数据结构包括数据的逻辑结构、数据的物理/存储结构和数据的逻辑关系这三个方面的内容。 2.数据的存储结构可用四种基本的存储方法表示，它们分别是顺序存储、链式存储、索引存储和散列存储。 3.数据运算最常用的有五种，分别是查找/检索、排序、插入、删除、修改。 4.算法主要有以下五个特性：输入、输出、可行性、确定性和有穷性。 5.算法分析的
linux的会话和进程组网络接口 linux
会话：一个或多个进程组。起于用户登录，终止于用户退出。此期间所有进程都属于这个会话期。会话首进程：调用setsid创建会话的进程1.规定组长进程不能调用setsid，因为调用setsid后，调用进程会成为新的进程组的组长进程.如何保证？先调用fork，然后终止父进程，此时由于子进程的进程组ID为父进程的进程组ID，而子进程的ID是重新分配的，所以保证子进程不会是进程组长，从而子进程可以调用se
二维数组元素的连续求解 1140566087 二维数组 ACM
import java.util.HashMap; public class Title { public static void main(String[] args){ f(); } // 二位数组的应用 //12、二维数组中，哪一行或哪一列的连续存放的0的个数最多，是几个0。注意，是“连续”。 public static void f(){
也谈什么时候Java比C++快 windshome java C++
刚打开iteye就看到这个标题“Java什么时候比C++快”，觉得很好笑。你要比，就比同等水平的基础上的相比，笨蛋写得C代码和C++代码，去和高手写的Java代码比效率，有什么意义呢？我是写密码算法的，深刻知道算法C和C++实现和Java实现之间的效率差，甚至也比对过C代码和汇编代码的效率差，计算机是个死的东西，再怎么优化，Java也就是和C