talle2021

梯度提升树的参数

1. 迭代过程

1.1 初始预测结果的设置

1.2 使用回归器完成分类任务

① 二分类情况

② 多分类情况

1.3 GBDT的8种损失函数

① 分类器中的loss

a. 二分类交叉熵损失

b. 多分类交叉熵损失

c. 二分类指数损失

d. 多分类指数损失

② 回归树中的loss

a. 平方误差

b. 绝对误差

c. Huber损失

d. quantile损失

③ 如何选择不同的损失函数

2. 弱评估器结构

2.1 梯度提升树中的弱评估器复杂度

2.2 弗里德曼均方误差

3. 梯度提升树的提前停止

3.1 提前停止 VS 不提前停止

4. 梯度提升树的袋外数据

class sklearn.ensemble.GradientBoostingClassifier(*, loss='deviance', learning_rate=0.1, n_estimators=100, subsample=1.0, criterion='friedman_mse', min_samples_split=2, min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_depth=3, min_impurity_decrease=0.0, init=None, random_state=None, max_features=None, verbose=0, max_leaf_nodes=None, warm_start=False, validation_fraction=0.1, n_iter_no_change=None, tol=0.0001, ccp_alpha=0.0)

class sklearn.ensemble.GradientBoostingRegressor(*, loss='squared_error', learning_rate=0.1, n_estimators=100, subsample=1.0, criterion='friedman_mse', min_samples_split=2, min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_depth=3, min_impurity_decrease=0.0, init=None, random_state=None, max_features=None, alpha=0.9, verbose=0, max_leaf_nodes=None, warm_start=False, validation_fraction=0.1, n_iter_no_change=None, tol=0.0001, ccp_alpha=0.0)

由于GBDT超参数数量较多，因此我们可以将GBDT的参数分为以下5大类别：

类型	参数/属性
迭代过程	参数：n_estimators, learning_rate, loss, alpha, init 属性：loss_, init_, estimators_
弱评估器结构	criterion, max_depth, min_samples_split, min_samples_leaf,min_weight_fraction_leaf, max_leaf_nodes,min_impurity_decrease
提前停止	参数：validation_fraction, n_iter_no_change, tol 属性：n_estimators_
弱评估器的训练数据	参数：subsample, max_features, random_state 属性：oob_improvement, train_score_
其他	ccp_alpha, warm_start

1. 迭代过程

GBDT的整体建模流程与AdaBoost高度相似，因此GBDT当中也有设置具体迭代次数（弱评估器次数）的参数n_estimators与学习率参数learning_rate，这两个参数的含义、以及对集成算法的影响与AdaBoost当中完全一致。具体地来说，对于样本 $x_{i}$ ，集成算法当中一共有棵树，则参数n_estimators的取值为T。假设现在正在建立第个弱评估器，则第个弱评估器上 $x_{i}$ 的结果可以表示为 $f_{t}(x_{i})$ 。假设整个Boosting算法对样本 $x_{i}$ 输出的结果为 $H(X_{i})$ ，则该结果一般可以被表示为t=1~t=T过程当中，所有弱评估器结果的加权求和：

$H(x_{i})=\sum_{t=1}^{T}\phi _{t}f_{t}(x_{i})$

其中， $\phi _{t}$ 为第t棵树的权重。对于第次迭代来说，则有：

$H_{t}(x_{i})=H_{t-1}(x_{i})+\phi _{t}f_{t}(x_{i})$

在这个一般过程中，每次将本轮建好的决策树加入之前的建树结果时，可以在权重前面增加参数，表示为第t棵树加入整体集成算法时的学习率，对标参数learning_rate。

$H_{t}(x_{i})=H_{t-1}(x_{i})+\eta \phi _{t}f_{t}(x_{i})$

该学习率参数控制Boosting集成过程中 $H(X_{i})$ 的增长速度，是相当关键的参数。当学习率很大时， $H(X_{i})$ 增长得更快，我们所需的n_estimators更少，当学习率较小时， $H(X_{i})$ 增长较慢，我们所需的n_estimators就更多，因此boosting算法往往会需要在n_estimators与learning_rate中做出权衡。

1.1 初始预测结果 $H_{0}$ 的设置

在上述过程中，我们建立第一个弱评估器时有：

$H_{1}(x_{i})=H_{0}(x_{i})+\phi _{1}f_{1}(x_{i})$

由于没有第0棵树的存在，因此 $H_{0}(x_{i})$ 的值在数学过程及算法具体实现过程中都需要进行单独的确定，这一确定过程由参数init确定。

参数init：输入计算初始预测结果 $H_{0}$ 的估计器对象。

在该参数中，可以输入任意评估器、字符串"zero"、或者None对象，默认为None对象。

① 当输入任意评估器时，评估器必须要具备fit以及predict_proba功能，即我们可以使用决策树、逻辑回归等可以输出概率的模型。如果输出一个已经训练过、且精细化调参后的模型，将会给GBDT树打下坚实的基础。

② 填写为字符串"zero"，则代表令 $H_{0}=0$ 来开始迭代。

③ 不填写，或填写为None对象，sklearn则会自动选择类DummyEstimator中的某种默认方式进行预测作为 $H_{0}$ 的结果。DummyEstimator类是sklearn中设置的使用超简单规则进行预测的类，其中最常见的规则是直接从训练集标签中随机抽样出结果作为预测标签，也有选择众数作为预测标签等选项。

一般在GBDT类的使用过程中，我们不会主动调节参数init，但是当我们有足够的算力支持超参数搜索时，我们可以在init上进行选择。

from sklearn.tree import DecisionTreeRegressor as DTR
tree_reg = DTR(random_state=1412)
rf = RFR(n_estimators=89, max_depth=22, max_features=14, min_impurity_decrease=0
              ,random_state=1412, verbose=False)

for init in [tree_reg,rf,"zero",None]:
    reg = GBR(init = init,random_state=1412)
    cv = KFold(n_splits=5,shuffle=True,random_state=1412)
    result_reg = cross_validate(reg,X,y,cv=cv,scoring="neg_root_mean_squared_error"
                                ,return_train_score=True
                                ,verbose=False)
    print("\n")
    print(RMSE(result_reg,"train_score"))
    print(RMSE(result_reg,"test_score"))

----------------------------------------------------------------------------------
0.0
42065.93924112058


5669.291478825804
27179.874315609235


13990.791639702458
28739.882050269225


13990.790813889864
28783.954343252786

可见，初始参数的具体输入会对模型的最终结果造成巨大影响，在init中输入训练好的模型会加重GBDT的过拟合，但同时也可能得到更好的测试集结果。我们甚至可以无限套娃，让init参数中输入被训练好的GBDT模型，当然，这样做的结果往往是过拟合被放大到无法挽回了。通常来说，我们还是会选择"zero"作为init的输入。

与参数init相对的属性就是init_，当模型被拟合完毕之后，我们可以使用该属性来返回输出 $H_{0}$ 的评估器对象。

reg = GBR(init = None,random_state=1412)
reg.fit(X,y).init_ #返回sklearn中的DummyRegressor评估器
--------------------------------------------------------
DummyRegressor()

reg = GBR(init = rf,random_state=1412)
reg.fit(X,y).init_
--------------------------------------------------------------------------
RandomForestRegressor(max_depth=22, max_features=14, min_impurity_decrease=0,
                      n_estimators=89, n_jobs=-1, random_state=1412,
                      verbose=False)

当然，在init中的值是我们自己输入的值的情况下，属性init_略显鸡肋，但我们或许会预见需要该属性的具体场景，例如在建模过程中进行监控打印时、或在大量初始化模型中选择最佳初始化模型时。

1.2 使用回归器完成分类任务

GBDT与AdaBoost及随机森林的关键区别之一，是GBDT中所有的弱评估器都是回归树，因此在实际调用梯度提升树完成分类任务时，需要softmax函数或sigmoid函数对回归树输出的结果进行处理。

① 二分类情况

对于二分类情况来说，集成算法对样本 $x_{i}$ 输出的结果为：

$H(x_{i})=\sum_{t=1}^{T}\phi _{t}f_{t}(x_{i})$

$p(\widehat{y_{i}}=1|x_{i})=\sigma (H(x_{i}))$

其中是sigmoid函数，当 $p(\widehat{y_{i}}=1|x_{i})$ 大于0.5时，样本 $x_{i}$ 的预测类别为1，反之则为0。

② 多分类情况

在二分类算法中，算法会直接针对二分类中的其中一个类别输出概率，因为在二分类中(=1)=1−(=−1)，所以只计算出一类的概率即可判断预测的标签。当 $p(\widehat{y_{i}}=1|x_{i})$ 大于0.5时，预测标签为1，否则预测标签为0。但在多分类当中，我们必须求解出所有标签类别所对应的概率，在所有这些概率当中，最大概率所对应的标签才是多分类的预测标签。GBDT对于多分类也只能输出集成算法回归结果 $H(X_{i})$ ，因此需要使用softmax函数帮助我们将回归值转化为概率，而Softmax函数是接受K个连续型结果，并输出K个相对概率的函数。

一般我们在使用softmax函数时，3分类问题则需要向softmax函数输入3个值，4分类问题则需要向softmax函数输入4个值，以此类推，最终softmax函数输出的是与输入值同等数量的相对概率，而多分类算法的预测标签是相对概率最高的类别。因此，在使用softmax函数前，我们需要准备好与类别数量相当的 $H(X_{i})$ 。具体来说，当现在的问题是分类、且每个类别为[1,2,3...][时，我们则分别按照=1,=2,...,=进行建模，总共建立棵树，每棵树输出的结果为：

$H^{1}(x_{i}),H^{2}(x_{i}),.....H^{k}(x_{i})$

总共个输出结果。然后，我们分别将 $H^{1}(x_{i})$ 到 $H^{k}(x_{i})$ 的结果输入softmax，来计算出每个标签类别所对应的概率。softmax函数的表达式为：

$Softmax(H^{k}(x))=\frac{e^{H^{k}(x)}}{\sum_{k=1}^{K}e^{H^{k}(x)}}$

其中为自然常数，是集成算法的输出结果，表示标签中的类别总数为，如三分类时=3，四分类时=4，表示任意标签类别， $H_{k}$ 则表示以类别为真实标签进行训练而得出的。不难发现，Softmax函数的分子是多分类状况下某一个标签类别的H(x)的指数函数，而分母是多分类状况下所有标签类别的H(x)的指数函数之和，因此Softmax函数的结果代表了样本的预测标签为类别的概率。假设现在是三分类[1,2,3]，则样本被分类为1类的概率为：

最终得到个相对概率 $p^{k}(x_{i})$ ，并求解出相对概率最高的类别。不难发现，当执行多分类时，这一计算流程中涉及到的计算量以及弱评估器数量都会远远超出二分类以及回归类问题。实际上，在执行多分类任务时，如果我们要求模型迭代10次，模型则会按照实际的多分类标签数n_classes建立10 * n_classes个弱评估器。对于这一现象，我们可以通过属性n_estimators_以及属性estimators_查看到。

属性n_estimators_：实际迭代次数；estimators_：实际建立的弱评估器数量:

多分类情况：

clf = GBC(n_estimators=10 #迭代次数为10次
          ,random_state=1412)
X_clf.shape #查看X与y的结果  #(1460, 79)
np.unique(y_clf) #多分类，现在为6分类 array([0., 1., 2., 3., 4., 5.])
clf = clf.fit(X_clf,y_clf)
clf.n_estimators_ #实际迭代数量为10
clf.estimators_.shape #但每次迭代时其实建立了6个评估器 #(10,6)

二分类情况：

from sklearn.datasets import load_breast_cancer
X_clf2 = load_breast_cancer().data
y_clf2 = load_breast_cancer().target
np.unique(y_clf2) #array([0, 1])
clf = GBC(n_estimators=10,random_state=1412)
clf = clf.fit(X_clf2,y_clf2)
clf.n_estimators_ #10
clf.estimators_.shape #(10, 1)

这一现象只在弱评估器为回归器的各类boosting算法中出现，对于弱评估器可以是回归树也可以是分类树的随机森林、Adaboost来说，多分类时每个类别对应的概率是在叶子节点上自然生成的。因为有此区别，因此多分类问题在随机森林上的计算可能会表现得更快。

1.3 GBDT的8种损失函数

作为基于AdaBoost改进的Boosting算法，GBDT的功绩之一是将损失函数从有限的指数损失、MSE等推广到了任意可微函数，因此GBDT的损失函数选择异常丰富，因此我们可以在调参时加入损失函数作为需要调整的参数进行考量。在sklearn中，控制具体损失函数的参数为loss。GBDT中的损失函数因GBDT具体执行的预测任务而存在区别，同时也因标签的分布而存在区别。对于梯度提升分类树来说，loss的备选项有如下几种：

① 分类器中的loss

分类器中的loss：字符串型，可输入"deviance", "exponential"，默认值="deviance"。其中"deviance"直译为偏差，特指逻辑回归的损失函数——交叉熵损失，而"exponential"则特指AdaBoost中使用的指数损失函数。对任意样本而言， $y_{i}$ 为真实标签， $\widehat{y_{i}}$ 为预测标签， $H(x_{i})$ 为集成算法输出结果， $p(x_{i})$ 为基于 $H(x_{i})$ 和sigmoid/softmax函数计算的概率值。则各个损失的表达式为：

a. 二分类交叉熵损失

其中，log当中输入的一定是概率值。对于逻辑回归来说，概率就是算法的输出，因此我们可以认为逻辑回归中=()，但对于GBDT来说， $p(x_{i})=Sigmoid(H(x_{i}))$ 。

b. 多分类交叉熵损失

$L=-\sum_{k=1}^{K}y_{k}^{*}log(p^{k}(x))$

其中，K指类别数， $p^{k}(x)$ 是概率值，对于多分类GBDT来说， $p^{k}(x)=Softman(H^{k}(x))$ 。*是由真实标签转化后的向量。例如，在3分类情况下，真实标签 $y_{i}$ 为2时，*为[ $y_{1}^{*},y_{2}^{*},y_{3}^{*}$ ]，取值分别为：

$y_{1}^{*}$	$y_{2}^{*}$	$y_{3}^{*}$
0	1	0

c. 二分类指数损失

$L=e^{-yH(x)}$

d. 多分类指数损失

注：指数损失中的*(1或 $-\frac{1}{k-1}$ )与交叉熵损失中的*(1或0)不是同样的向量。

② 回归树中的loss

对于梯度提升回归树来说，loss的备选项有如下几种："squared_error", "absolute_error", "huber", "quantile"，默认值="squared_error"。其中'squared_error'是指回归的平方误差，'absolute_error'指的是回归的绝对误差，这是一个鲁棒的损失函数。'huber'是以上两者的结合。'quantile'则表示使用分位数回归中的弹球损失pinball_loss。对任意样本而言， $y_{i}$ 为真实标签， $H(x_{i})$ 为预测标签，则各个损失的表达式为：

a. 平方误差

$L=\sum (y_{i}-H(x_{i}))^{2}$

b. 绝对误差

$L=\sum \left | y_{i}-H(x_{i}) \right |$

c. Huber损失

$L=\sum l(y_{i},H(x_{i}))$

d. quantile损失

$L=\sum l(y_{i},H(x_{i}))$

其中是需要我们自己设置的超参数，由参数alpha控制。在huber损失中，alpha是阈值，在quantile损失中，alpha用于辅助计算损失函数的输出结果，默认为0.9。

③ 如何选择不同的损失函数

GBDT是工业应用最广泛的模型，工业数据大部分都极度偏态、具有长尾，因此GBDT必须考虑离群值带来的影响。数据中的离群值会极大程度地影响模型地构建，当离群值在标签当中、而我们是依赖于减小损失函数来逐渐构建算法时，这种影响会前所未有地大。因此Boosting是天生更容易被离群值影响的模型、也更擅长学习离群值的模型。
举例来说，若离群值的标签为1000，大部分正常样本的标签在0.1~0.2之间，算法一定会异常努力地学习离群值的规律，因为将离群值预测错误会带来巨大的损失。在这种状况下，最终迭代出的算法可能是严重偏离大部分数据的规律的。同样，我们也会遇见很多离群值对我们很关键的业务场景：例如，电商中的金额离群用户可能是VIP用户，风控中信用分离群的用户可能是高风险用户，这种状况下我们反而更关注将离群值预测正确。不同的损失函数可以帮助我们解决不同的问题：

1）当高度关注离群值、并且希望努力将离群值预测正确时，选择平方误差
这在工业中是大部分的情况。在实际进行预测时，离群值往往比较难以预测，因此离群样本的预测值和真实值之间的差异一般会较大。MSE作为预测值和真实值差值的平方，会放大离群值的影响，会让算法更加向学习离群值的方向进化，这可以帮助算法更好地预测离群值。

2）努力排除离群值的影响、更关注非离群值的时候，选择绝对误差
MAE对一切样本都一视同仁，对所有的差异都只求绝对值，因此会保留样本差异最原始的状态。相比其MSE，MAE对离群值完全不敏感，这可以有效地降低GBDT在离群值上的注意力。

3）试图平衡离群值与非离群值、没有偏好时，选择Huber或者Quantileloss
Huberloss损失结合了MSE与MAE，在Huber的公式中，当预测值与真实值的差异大于阈值时，则取绝对值，小于阈值时，则取平方。在真实数据中，部分离群值的差异会大于阈值，部分离群值的差异会小于阈值，因此比起全部取绝对值的MAE，Huberloss会将部分离群值的真实预测差异求平方，相当于放大了离群值的影响（但这种影响又不像在MSE那样大）。因此HuberLoss是位于MSE和MAE之间的、对离群值相对不敏感的损失。

属性loss_

reg = GBR(n_estimators=10,random_state=1412).fit(X,y)
reg.loss_ #返回具体的损失函数对象，而不会返回公式
-------------------------------------------------------

总结：

在整个迭代过程中涉及到了如下参数及属性：

类型	参数/属性
迭代过程	参数： n_estimators：集成算法中弱评估器数量，对Boosting算法而言为实际迭代次数 learning_rate：Boosting算法中的学习率，影响弱评估器结果的加权求和过程 loss, alpha：需要优化的损失函数，以及特定损失函数需要调节的阈值 init：初始化预测结果0的设置属性： loss_：返回具体的损失函数对象 init_：返回具体的初始化设置 estimators_：返回实际建立的评估器列表 n_estimators_：返回实际迭代次数

类型

参数/属性

迭代过程

参数：
n_estimators：集成算法中弱评估器数量，对Boosting算法而言为实际迭代次数
learning_rate：Boosting算法中的学习率，影响弱评估器结果的加权求和过程
loss, alpha：需要优化的损失函数，以及特定损失函数需要调节的阈值
init：初始化预测结果0的设置

属性：
loss_：返回具体的损失函数对象
init_：返回具体的初始化设置
estimators_：返回实际建立的评估器列表
n_estimators_：返回实际迭代次数

2. 弱评估器结构

Boosting算法中控制弱评估器的参数：

类型	参数
弱评估器结构	criterion：弱评估器分枝时的不纯度衡量指标 max_depth：弱评估器被允许的最大深度，默认3 min_samples_split：弱评估器分枝时，父节点上最少要拥有的样本个数 min_samples_leaf：弱评估器的叶子节点上最少要拥有的样本个数 min_weight_fraction_leaf：当样本权重被调整时，叶子节点上最少要拥有的样本权重 max_leaf_nodes：弱评估器上最多可以有的叶子节点数量 min_impurity_decrease：弱评估器分枝时允许的最小不纯度下降量

类型

参数

弱评估器结构

criterion：弱评估器分枝时的不纯度衡量指标
max_depth：弱评估器被允许的最大深度，默认3
min_samples_split：弱评估器分枝时，父节点上最少要拥有的样本个数
min_samples_leaf：弱评估器的叶子节点上最少要拥有的样本个数
min_weight_fraction_leaf：当样本权重被调整时，叶子节点上最少要拥有的样本权重
max_leaf_nodes：弱评估器上最多可以有的叶子节点数量
min_impurity_decrease：弱评估器分枝时允许的最小不纯度下降量

这些参数在随机森林中的用法与默认值与决策树类DecisionTreeRegressor中完全一致，专门用于对决策树进行剪枝、控制单个弱评估器的结构。

2.1 梯度提升树中的弱评估器复杂度

max_depth

在随机森林中，森林中任意控制过拟合的参数基本都处于“关闭状态”，例如max_depth的默认值为None，表示不限深度，min_samples_splits的默认值为2，等同于不限制分枝，因此随机森林中长出的树都是剪枝前的树，也因此当随机森林算法处于过拟合状态时，我们可以使用粗或精的方法对弱评估器进行大刀阔斧的剪枝，当随机森林中的树被剪掉之后，可以很好的限制过拟合。然而这种情况并不适用于任何集成算法，尤其是以AdaBoost为基础的Boosting算法一族。

在原始AdaBoost理论中，AdaBoost中使用的弱分类器都是最大深度为1的树桩或最大深度为3的小树苗，因此基于AdaBoost改进的其他Boosting算法也有该限制，即默认弱评估器的最大深度一般是一个较小的数字。对GBDT来说，无论是分类器还是回归器，默认的弱评估器最大深度都为3，因此GBDT默认就对弱评估器有强力的剪枝机制。

当随机森林处于过拟合状态时，还可通过降低弱评估器复杂度的手段控制过拟合，但GBDT等Boosting算法处于过拟合状态时，便只能从数据上下手控制过拟合了（例如，使用参数max_features，在GBDT中其默认值为None），毕竟当max_depth已经非常小时，其他精剪枝的参数如min_impurity_decrease一般发挥不了太大的作用。也因此，通常认为Boosting算法比Bagging算法更不容易过拟合，一般在相似的数据上，Boosting算法表现出的过拟合程度会较轻。

2.2 弗里德曼均方误差

不纯度衡量指标 criterion

criterion是树分枝时所使用的不纯度衡量指标。在sklearn当中，GBDT中的弱学习器是CART树，因此每棵树在建立时都依赖于CART树分枝的规则进行建立。CART树每次在分枝时都只会分为两个叶子节点（二叉树），它们被称为左节点(left)和右节点(right)。在CART树中进行分枝时，我们需要找到令左右节点的不纯度之和最小的分枝方式。通常来说，求解父节点的不纯度与左右节点不纯度之和之间的差值，这个差值被称为不纯度下降量(impurity decrease)。不纯度的下降量越大，该分枝对于降低不纯度的贡献越大。

对GBDT来说，不纯度的衡量指标有2个：弗里德曼均方误差friedman_mse与平方误差squared_error。其中平方误差我们非常熟悉，弗里德曼均方误差是由Friedman在论文《贪婪函数估计：一种梯度提升机器》（GREEDY FUNCTION APPROXIMATION: A GRADIENT BOOSTING MACHINE）中提出的全新的误差计算方式。遗憾的是，在论文当中，Friedman并没有提供弗里德曼均方误差的公式本身，而只提供了使用弗里德曼均方误差之后推导出的不纯度下降量的公式。该公式如下：

基于弗里德曼均方误差的不纯度下降量

其中是左右叶子节点上的样本量，当我们对样本有权重调整时，则是叶子节点上的样本权重。 $r_{i}$ 大多数时候是样本i上的残差（父节点中样本i的预测结果与样本i的真实标签之差），也可能是其他衡量预测与真实标签差异的指标， $\widehat{y_{i}}$ 是样本i在当前子节点下的预测值。所以这个公式其实可以解读成：

左右叶子节点上样本量的调和平均 * (左叶子节点上均方误差 - 右叶子节点上的均方误差)^2

根据论文中的描述，弗里德曼均方误差使用调和平均数（分子上相乘分母上相加）来控制左右叶子节点上的样本数量，相比普通地求均值，调和平均必须在左右叶子节点上的样本量/样本权重相差不大的情况下才能取得较大的值（F1 score也是用同样的方式来调节Precision和recall）。这种方式可以令不纯度的下降得更快，让整体分枝的效率更高。同时，在决策树进行分枝时，一般不太可能直接将所有样本分成两个不纯度非常低的子集（分别位于两片叶子上），相对的，树会偏向于建立一个不纯度非常非常低的子集，然后将剩下无法归入这个低不纯度子集的样本全部打包成另外一个子集。因此直接使用两个子集之间的MSE差距来衡量不纯度的下降量非常聪明，如果两个子集之间的MSE差异很大，则说明其中一个子集的MSE一定很小，对整体分枝来说是更有利的。同样非常遗憾的是，Friedman并没有在为我们提供完整数学证明，以佐证上述观点。

除了Friedman_mse之外，还可以使用普通的平方误差作为不纯度的衡量。使用普通平方误差时，可以直接计算父节点的平方误差与子节点平方误差的加权求和之间的差异。

平方误差的不纯度下降量

大部分时候，使用弗里德曼均方误差可以让梯度提升树得到很好的结果，因此GBDT的默认参数就是Friedman_mse。不过许多时候，我们会发现基于平方误差的分割与基于弗里德曼均方误差的分割会得到相同的结果。

3. 梯度提升树的提前停止

对于任意需要迭代的算法，迭代的背后往往是损失函数的最优化问题。例如在逻辑回归中，我们在进行梯度下降的迭代时，是希望找到交叉熵损失函数的最小值；而在梯度提升树中，我们在一轮轮建立弱评估器过程中，也是希望找到对应损失函数的最小值。理想状态下，无论使用什么算法，只要我们能够找到损失函数上真正的最小值，那模型就达到“收敛”状态，迭代就应该被停止。然而遗憾的是，我们和算法都不知道损失函数真正的最小值是多少，而算法更不会在达到收敛状态时就自然停止。在机器学习训练流程中，往往是通过给出一个极限资源来控制算法的停止，比如，我们通过超参数设置允许某个算法迭代的最大次数，或者允许建立的弱评估器的个数。因此无论算法是否在很短时间内就锁定了足够接近理论最小值的次小值、或者算法早已陷入了过拟合状态、甚至学习率太低导致算法无法收敛，大多数算法都会持续（且无效地）迭代下去，直到我们给与的极限资源全部被耗尽。对于复杂度较高、数据量较大的Boosting集成算法来说，无效的迭代常常发生，因此作为众多Boosting算法的根基算法，梯度提升树自带了提前停止的相关超参数。另外，逻辑回归看起来会自然停止，是因为逻辑回归内置提前停止机制。

我们根据以下原则来帮助梯度提升树实现提前停止：

①当GBDT已经达到了足够好的效果（非常接近收敛状态），持续迭代下去不会有助于提升算法表现。

② GBDT还没有达到足够好的效果（没有接近收敛），但迭代过程中呈现出越迭代算法表现越糟糕的情况。

③ 虽然GBDT还没有达到足够好的效果，但是训练时间太长/速度太慢，我们需要重新调整训练。

第三种情况可以通过参数verbose打印结果来观察，如果GBDT的训练时间超过半个小时，建树平均时长超出1分钟，我们就可以打断训练考虑重调参数。前两种情况则比较复杂，我们首先必须理解什么叫做“足够好的效果”。在GBDT迭代过程中，只要损失函数的值持续减小、或验证集上的分数持续上升，我们就可以认为GBDT的效果还有提升空间。在实际训练过程中，刚开始训练时，测试集和训练集上的损失一般都很高（有时，训练集上的损失甚至比测试集上的损失还高，这说明模型严重欠训练），但随着训练次数的增多，两种损失都会开始快速下降，一般训练集下降得更快，测试集下降得缓慢。直到某一次迭代时，无论我们如何训练，测试集上的损失都不再下降，甚至开始升高，此时我们就需要让迭代停下。

如下图所示，下图中横坐标为迭代次数，纵坐标为损失函数的值。当测试集上的损失不再下降、持续保持平稳时，满足条件1，继续训练会浪费训练资源，迭代下去模型也会停滞不前，因此需要停止（左图）。当测试集上的损失开始升高时，往往训练集上的损失还是在稳步下降，继续迭代下去就会造成训练集损失比测试集损失小很多的情况，也就是过拟合（右侧），此时满足条件2，也需要提前停止。在过拟合之前及时停止，能够防止模型被迭代到过拟合状况下。

在实际数据训练时，我们往往不能动用真正的测试集进行提前停止的验证，因此我们需要从训练集中划分出一小部分数据，专用于验证是否应该提前停止。那我们如何找到这个验证集损失不再下降、准确率不再上升的“某一时间点”呢？此时，我们可以规定一个阈值，例如，当连续n_iter_no_change次迭代中，验证集上损失函数的减小值都低于阈值tol，或者验证集的分数提升值都低于阈值tol的时候，我们就令迭代停止。此时，即便我们规定的n_estimators或者max_iter中的数量还没有被用完，我们也可以认为算法已经非常接近“收敛”而将训练停下。这种机制就是提前停止机制Early Stopping。这种机制中，需要设置阈值tol，用于不断检验损失函数下降量的验证集，以及损失函数连续停止下降的迭代轮数n_iter_no_change。在GBDT当中，这个流程刚好由以下三个参数控制：

① validation_fraction：从训练集中提取出、用于提前停止的验证数据占比，值域为[0,1]。

② n_iter_no_change：当验证集上的损失函数值连续n_iter_no_change次没有下降或下降量不达阈值时，则触发提前停止。平时则设置为None，表示不进行提前停止。

③ tol：损失函数下降的阈值，默认值为1e-4，也可调整为其他浮点数来观察提前停止的情况。

需要注意的是，当提前停止条件被触发后，梯度提升树会停止训练，即停止建树。因此，当提前停止功能被设置打开时，我们使用属性n_estimators_调出的结果很可能不足我们设置的n_estimators，属性estimators_中的树数量也可能变得更少：

reg1 = GBR(n_estimators=100
          ,validation_fraction=0.1,n_iter_no_change=3,tol=0.01
          ,random_state=1412).fit(X,y)
reg2 = GBR(n_estimators=100,random_state=1412).fit(X,y)
reg1.n_estimators_ #打开提前停止
#63
reg2.n_estimators_ #关闭提前停止 
#100

3.1 提前停止 VS 不提前停止

import time
from sklearn.model_selection import train_test_split
Xtrain,Xtest,Ytrain,Ytest = train_test_split(X,y,test_size=0.3,random_state=1412)

start = time.time()
reg1 = GBR(n_estimators=1000
          ,validation_fraction=0.2,n_iter_no_change=10,tol=0.001
          ,random_state=1412).fit(Xtrain,Ytrain)
print(time.time()-start) #0.369081974029541

start = time.time()
reg2 = GBR(n_estimators=1000,random_state=1412).fit(Xtrain,Ytrain)
print(time.time()-start) #3.9668924808502197

reg1.n_estimators_ #打开提前停止
#100
reg1.score(Xtest,Ytest) #R2
#0.897711170231429

reg2.n_estimators_ #关闭提前停止
#1000
reg2.score(Xtest,Ytest)
#0.89927123751538

什么时候使用提前停止呢？一般有以下几种场景：

① 当数据量非常大，肉眼可见训练速度会非常缓慢的时候，开启提前停止以节约运算时间。
② n_estimators参数范围极广、可能涉及到需要500~1000棵树时，开启提前停止来寻找可能的更小的n_estimators取值。
③ 当数据量非常小，模型很可能快速陷入过拟合状况时，开启提前停止来防止过拟合。

总结：

类型	参数
提前停止	validation_fraction：从训练集中提取出、用于提前停止的验证数据占比 n_iter_no_change：当验证集上的损失函数值连续n_iter_no_change次没有下降或下降量不达阈值时，则触发提前停止 tol：损失函数下降量的最小阈值

4. 梯度提升树的袋外数据

梯度提升树结合了Boosting和Bagging中的重要思想。受到随机森林的启发，梯度提升树在每次建树之前，也允许模型对于数据和特征进行随机有放回抽样，构建与原始数据集相同数据量的自助集。在梯度提升树的原理当中，当每次建树之前进行随机抽样时，这种梯度提升树叫做随机提升树（Stochastic Gradient Boosting）。相比起传统的梯度提升树，随机提升树输出的结果往往方差更低，但偏差略高。如果我们发现GBDT的结果高度不稳定，则可以尝试使用随机提升树。

在GBDT当中，对数据的随机有放回抽样比例由参数subsample确定，当该参数被设置为1时，则不进行抽样，直接使用全部数据集进行训练。当该参数被设置为(0,1)之间的数字时，则使用随机提升树，在每轮建树之前对样本进行抽样。对特征的有放回抽样比例由参数max_features确定，随机模式则由参数random_state确定，这两个参数在GBDT当中的使用规则都与随机森林中完全一致。需要注意的是，如果subsample<1，即存在有放回随机抽样时，当数据量足够大、抽样次数足够多时，大约会有37%的数据被遗漏在“袋外”（out of bag）没有参与训练。在GBDT当中，当有放回随机抽样发生时，自然也存在部分袋外数据没有参与训练。这部分数据在GBDT中被用于对每一个弱评估器的建立结果进行验证。

具体地来说，每建立一棵树，GBDT就会使用当前树的袋外数据对建立新树后的模型进行验证，以此来对比新建弱评估器后模型整体的水平是否提高，并保留损失函数提升或下降的结果。这个过程相当于在GBDT迭代时，不断检验损失函数的值并捕捉其变化的趋势。在GBDT当中，这些袋外分数的变化值被储存在属性oob_improvement_中，同时，GBDT还会在每棵树的训练数据上保留袋内分数（in-bag）的变化，且储存在属性train_score_（损失变化值）当中。也就是说，即便在不做交叉验证的情况下，我们也可以简单地通过属性oob_improvement与属性train_score_来观察GBDT迭代的结果。我们来看具体的例子：

reg = GBR(n_estimators=500,learning_rate=0.1
          ,subsample=0.3 #每次建树只抽取30%的数据进行训练
          ,random_state=1412).fit(X,y)
reg.oob_improvement_.shape #袋外数据上的损失函数变化量
#(500,)
reg.train_score_.shape #训练集上的损失函数变化量
#(500,)
plt.plot(range(500),reg.oob_improvement_,color="red",label="Validation")
plt.plot(range(500),reg.train_score_,color="k",label="Train")
plt.title("Decrease in MSE")
plt.legend();

不难发现，随着迭代次数的增加，训练集上的损失函数一直有下降量，虽然下降量在逐渐变小，但是损失函数的确是在持续减下降的，相对的，验证集上的结果则在少有波动之后就维持在0附近不动了，也就是说模型的泛化能力在很早的时候就预见了瓶颈。如果我们开启提前停止，恐怕实际的迭代次数会远远少于我们给与的500次：

reg = GBR(n_estimators=500,learning_rate=0.1
          ,tol=1e-6 #非常非常低的阈值
          ,n_iter_no_change=5
          ,validation_fraction = 0.3
          ,subsample=0.3
          ,random_state=1412).fit(X,y)
reg.oob_improvement_.shape #实际我只迭代了69次
#(69,)
plt.plot(range(69),reg.oob_improvement_,color="red",label="Validation")
plt.plot(range(69),reg.train_score_,color="k",label="Train")
plt.title("Decrease in MSE with early stopping")
plt.legend();

可见，袋外数据的设置可以帮助我们快速把握模型的迭代情况，在当前数据集上，设置大约50以下的迭代次数，就足够使用了。因此在我们对GBDT进行超参数调优时，我们也有了天然的n_estimators的范围设置。当然，当我们调整其他参数（如learning_rate或者max_depth）之后，n_estimators的范围可能受到影响，但我们已经有了50这个可以参考的点。

奇怪的是，袋外数据是天然的验证数据，而提前停止时需要使用验证集的功能，但sklearn中并未配置直接使用袋外数据来进行提前停止的功能。如果能够使用袋外数据进行提前停止，则可以使用更多数据进行训练，这将会更加有利于模型的学习。

总结：

与弱评估器训练数据相关的参数有：

类型	参数
弱评估器的训练数据	参数： subsample：每次建树之前，从全数据集中进行有放回随机抽样的比例 max_features：每次建树之前，从全特征中随机抽样特征进行分枝的比例 random_state：随机数种子，控制整体随机模式属性： oob_improvement：每次建树之后相对于上一次袋外分数的增减 train_score_：每次建树之后相对于上一次验证时袋内分数的增减

类型

参数

弱评估器的训练数据

参数：
subsample：每次建树之前，从全数据集中进行有放回随机抽样的比例
max_features：每次建树之前，从全特征中随机抽样特征进行分枝的比例
random_state：随机数种子，控制整体随机模式
属性：
oob_improvement：每次建树之后相对于上一次袋外分数的增减
train_score_：每次建树之后相对于上一次验证时袋内分数的增减

你可能感兴趣的:(机器学习,机器学习,人工智能,梯度提升树)

题梨花初放岠山剑客
题梨树初花文/岠山剑客梨花院子外面的小路边，那是哪一年生出一棵树，有认识的路人说梨树，但是得拆，不拆不结果，但是我们谁也不会。四五年的等待，长到拳头粗细，在这个春天到来的时候，绽放几穗翩然的花絮，洁白温润，灵动秀丽，引起我和我的邻居们在花下讨论，关于美丽，关于动人心扉，关于岁月的经历。用手机软件识别，一次，两次，防止不准，三次，四次，每次的结果指向：梨花。总还是感觉和果园里的梨树有点差异，可能，或
高端密码学院笔记228 柚子_b4b4
高端幸福密码学院（高级班）幸福使者：李华第（541）期《幸福》之启动深层心理轻松意识基础篇——“扛得住”成长的喜悦心理案例分析主讲：刘莉一，知识扩充:高尚、伟大的代价就是责任。自由的第一个意义就是担负自己的责任2020.8.20星期三一笔记:1.从接的住到扛得住，心里境界的提升2.看到优秀的家人向别人学习如何去做，什么心里阶段性呈现什么状态。3.学习力越强，承载力越强4.精准，准确，的点评就是对笔
AI时代的弯道超车之第十七章：黄仁勋：坚持一件事，哪怕坐足冷板凳 Hebron_Deb AI时代-弯道超车-逆袭人生人工智能
在这个AI重塑世界的时代，你还在原地观望吗？是时候弯道超车，抢占先机了！李尚龙倾力打造——《AI时代的弯道超车：用人工智能逆袭人生》专栏，带你系统掌握AI知识，从入门到实战，全方位提升认知与竞争力！内容亮点：AI基础+核心技术讲解职场赋能+创业路径揭秘打破信息差+预测行业未来第十七章：黄仁勋：坚持一件事，哪怕坐足冷板凳我们终于来到了第十七章，也是这本人物传记中该领域的最后一章。前面我们讲到了李飞飞
AI+Python赋能！长时序植被遥感动态分析全攻略：从物候提取到生态评估梦想的初衷~ 土壤植被遥感人工智能遥感植被土壤
在遥感技术与人工智能深度融合的2025年，AI大模型正重塑长时序植被遥感数据分析范式。从Landsat/Sentinel卫星数据的智能化去云处理，到MODIS植被产品的AI辅助质量控制，以ChatGPT、DeepSeeK为代表的大模型技术已成为提升遥感数据处理效率与精度的核心工具——尤其在长时序植被动态监测、物候期精准提取、时空变异归因分析及生态环境质量评估等领域，展现出传统方法难以企及的技术优势
七律. 潮汕习俗十六首秋之牛
其一.送神鮀城岁末送神仙，祭拜虔诚廿四天。禀奏布衣扬善事，祈求玉帝避灾年。一庖供品金钟鼓，三炷清香黑管弦。赤县太平兴国运，筅囤耙鼎备华筵。（平水韵一先）其二.除夕丙申除夕酉年临，祭祖焚香默祷音。和顺一门添暖意，平安二字最舒心。橙圆绿叶青青树，金盏银台茂茂林。老少围炉辞旧岁，家常便饭是天琛。（平水韵十二侵）其三.七样羹正月鮀城七样羹，新鲜蔬菜一锅烹。韩江波浪春秋笔，桑浦林涛晓夜评。商海扬帆拼运气，仕
2021-06-15 搁浅心湖
天空下起了雨，穿梭于指尖的风，我的某种情绪，被树叶摇晃出梦境。打湿了哪一个地方，乌云里还藏着多少眼泪。你就是躲在后面的太阳。
2018-05-04 赵廷芳
！一一日精进打卡2018年5月04姓名：赵廷芳企业名称：临沂鑫源研磨新材料有限公司组别241期利他2组【日精进打卡第199天】【知~学习】背诵六项精进2遍，大学2遍l【行~实践】一、修身：早起跑步锻炼身体二、齐家：早起送孩子上学三、建功：安排生产，组织发货【积善】：日行一善，【省~觉悟】是不是自私自利，有没有卑怯的举止。1.今天有点冲动，有了感性的烦恼，希望自己继续努力，努力向上提升，不要因为自己
认知革命牧羊少年的时间之旅
看完人类简史后产生了一个想法，人类经过几万年的演化从采集时代，农业社会，再到工业革命和最近的科技革命，每一次的演变升级都是对传统认知的一次革新。但是我们现在的科技发展是如此的迅速，但是认知的进步却非常缓慢。克隆人，基因设计，人工智能，生化科技，量子计算等很多领域都是传统文化所无法理解和接受的，但是这些却依然有条不紊在进行中。所以人类目前急需一次认知的革命才能追上科技的脚步，不然一定会造成认知和现实
15/100－－《如何阅读一本书》全书复盘阳关丹阳
如果你也想读这本书，请谨慎。别被标题骗了，好像读过这本讲读书的书你就会读书了似的。读书之后有没有提升，要跟我们原来的知识经验相结合。这本书读的艰难，然而却是更会读书的起点。1.按照这本书的说法，你首先要很明确这本书是哪一类型。仅这个步骤，如果是看的书少，对作者举例的书不了解，就不太能做到。比如《长安十二时辰》，它当然是小说，但是也是历史考据还原长安风貌，还是社会结构、舆论作用、政治斗争的讨论。明确
Linux系统磁盘挂载操作及原理详解
前言：在Linux系统的日常运维与管理中，磁盘存储的配置是一项基础且关键的工作。无论是新增一块物理硬盘、扩展云服务器的云盘，还是处理分区扩容，最终都绕不开“挂载”这一核心操作——只有将磁盘分区正确挂载到系统目录树中，其存储空间才能被有效利用。然而，挂载并非简单的“连接”操作，它涉及分区识别、文件系统格式化、挂载点设置、开机自动挂载配置等多个环节，每个步骤都有其特定的逻辑和注意事项。例如，不同文件系
深入TA-Lib：量化技术指标详解
深入TA-Lib：量化技术指标详解本文系统讲解TA-Lib技术指标分析，涵盖基础、数据处理、趋势与动量指标、均量线、布林线等，并结合Python代码与大数据、机器学习实战案例，助力读者掌握量化交易实战技巧。本文系统梳理了TA-Lib技术指标分析的核心内容，包括TA-Lib基础、数据处理、趋势与动量指标、均量线、布林线等关键技术指标分析方法，并结合Python代码示例与大数据、机器学习的融合实战案例
深度学习——CNN（3）飘涯
前言：前面介绍了最基本的Lenet，下面介绍几种其他的网络结构CNN-AlexNet网络结构如下图：从图中可以看出，采用双gpu训练增加LRN归一化层：本质上，这个层也是为了防止激活函数的饱和的。采用dropout防止过拟合基于AlexNet进行微调，诞生了ZF-netCNN-GoogleNetGoogLeNet借鉴了NIN的特性，在原先的卷积过程中附加了11的卷积核加上ReLU激活。这不仅仅提升
AI 人工智能与 Copilot 的融合发展策略 AI天才研究院 AI人工智能与大数据人工智能 copilot ai
AI人工智能与Copilot的融合发展策略关键词：人工智能、Copilot、代码生成、人机协作、机器学习、自然语言处理、软件开发摘要：本文探讨了人工智能与Copilot技术的融合发展策略。我们将从技术原理、实现方法、应用场景等多个维度深入分析，提出一套完整的融合框架和发展路径。文章首先介绍背景和核心概念，然后详细讲解关键技术，包括自然语言处理、代码生成算法等，接着通过实际案例展示应用效果，最后讨论
AI 人工智能与 Copilot 碰撞出的火花 AI天才研究院 AI大模型企业级应用开发实战人工智能 copilot ai
AI人工智能与Copilot碰撞出的火花关键词：AI人工智能、Copilot、代码辅助、智能编程、人机协作、软件开发、技术创新摘要：本文深入探讨了AI人工智能与Copilot碰撞所产生的一系列效应。首先介绍了相关背景，包括目的、预期读者、文档结构和术语表。接着阐述了核心概念与联系，展示了其原理和架构的示意图及流程图。详细讲解了核心算法原理和具体操作步骤，并通过Python代码进行说明。同时给出了数
硬件预取的几个问题 1
1.硬件预取的定义和目标是什么？答案：硬件预取是CPU在程序执行前自动预测并加载可能使用的数据到缓存中的技术，目标是减少缓存未命中带来的延迟，提升指令吞吐量。2.硬件预取与软件预取的核心区别？答案：硬件预取由CPU内部逻辑自动触发，透明且通用；软件预取需程序员显式插入指令（如prefetch），可针对特定场景优化，但依赖代码适配。3.预取算法的主要分类？答案：分为规则驱动型（如顺序、步长预取）和机
你不必倾国倾城，只要倾倒自己张优雅
图片发自App0122天前，我赞叹它满身金黄。22天后，我惊艳它风骨犹存。断开时间线，生命的每一个横切面，都美如初见。这里的它是指一棵树，22天前的下午我散步路过它，看到它全身金黄的叶子很是惊叹，凝视仰望它好久，走的时候拍了照。22天后，也就是今天，我再次看到它，发现它原来金黄的叶子已经凋落了，但是依然有着独特的美，我跟上次一样凝视它很久，又拍了一张照。这两张照片前后对比，我并没有觉得前一张被树叶
Linux 系统进阶操作实践：目录管理与系统信息查看指南小任今晚几点睡 RHCSA linux 网络运维
文章摘要本文详细记录了Linux系统中通过Xshell远程管理的核心操作，包括系统信息查询、复杂目录结构创建与树形展示、多级目录快速生成、文件创建与删除、大文件制作等实践步骤。通过命令示例与输出解析，清晰呈现每一步操作的逻辑与效果，帮助读者掌握目录管理、系统信息查看及文件操作的实用技巧，适合Linux实操学习者参考。一、通过Xshell远程登录及系统信息查询使用Xshell通过root账户登录Li
深度对比：innerHTML vs 虚拟DOM——原理、性能与应用全解析止观止前端前端框架前端 html5 javascript reactjs xss
引言在现代Web开发中，高效操作DOM（文档对象模型）是构建高性能应用的关键。传统方法如innerHTML和新兴的虚拟DOM（VirtualDOM）技术代表了两种截然不同的DOM更新策略。innerHTML作为浏览器原生API，直接操纵HTML字符串；虚拟DOM则是通过JavaScript对象树进行优化更新，广泛应用于React、Vue等框架。本文深入对比两者的核心原理、技术细节、应用场景及优劣，
InnoDB引擎B+树索引使用和新特性蜜獾互联网 MySql b树数据结构
B+树索引的管理我们在InnoDB引擎中常用的索引基本都是B+树索引。创建和删除索引它的创建和删除有两种方法：#方式一：altertable,此时index和key均可以，如果要求所有值均不重复，加上uniquealtertabletbl_nameadd[unique]index|keyindex_name(index_col_name,...);altertabletbl_namedropind
Paimon：Range Partition and Sort优化无主键表（Append-Only Table）查询 lifallen Paimon 数据库大数据数据结构 java apache
这个优化是通过对数据进行全局排序，从而让查询时能够跳过大量不相关的数据文件（DataSkipping），极大地减少I/O，提升查询速度。只需要在执行INSERT语句时，通过OPTIONSHint来启用和配置这个功能即可。RangePartitionAndSortForUnawareBucketTableITCase测试文件本身就是最好的例子。比如测试中的这句SQL：INSERTINTOtest_t
Paimon 删除向量 lifallen Paimon 数据库大数据 java 数据结构 apache
RowKind可以标记删除，但它和DeletionVector（删除向量）是为解决不同场景下的问题而设计的两种机制，它们工作在不同的层面。简单来说：RowKind是“逻辑层”的变更指令，主要用于primary-key表的LSM-Tree合并过程。DeletionVector是“物理层”的读时过滤优化，用于在不重写数据文件的前提下，快速地“标记”某些行为无效，极大地提升了DELETE/UPDATE操
测试学习之——Pytest Day3 别在内卷了测试学习 pytest python
引言Pytest作为Python中最受欢迎的测试框架之一，以其简洁的语法、强大的功能和丰富的插件生态系统，极大地提升了自动化测试的效率和可维护性。在本文中，我们将深入探讨Pytest的两大核心特性：Fixture和插件管理，帮助您更高效地编写和管理您的测试用例。一、夹具fixtureFixture是Pytest中一个非常强大的特性，它允许您定义在测试用例执行之前或之后自动运行的代码。这对于设置测试
《诗经》204-2小雅•谷风之什•四月（2）无色生香
《四月》，遭祸被逐士大夫写的抒愤诗。冬日烈烈，飘风发发。民莫不穀，我独何害？冬日天冷刺骨寒，疾风呼呼似利剑。天下人儿都好命，为何独我遭受不幸？山有嘉卉，侯栗侯梅。废为残贼，莫知其尤！山上长有名贵木，既有栗树也有梅。如今却遭大残害，没人知道谁之罪。烈烈：即“冽冽”，严寒的样子。飘风：疾风。发发：状狂风呼啸的象声词。榖：善、好。何：通“荷”，承受。侯：有。废：大。残贼：残害。尤：错，罪过。《诗经》是中
#Datawhale组队学习#7月-强化学习Task1 fzyz123 Datawhale组队学习强化学习人工智能 AI
这里是Datawhale组织的组队学习《强化学习入门202507》，Datawhale是一个开源的社区。第一章绪论1.1为什么要学习强化学习？强化学习（ReinforcementLearning,RL）是机器学习中专注于智能体（Agent）如何通过与环境交互学习最优决策策略的分支。与监督学习依赖静态数据集、无监督学习聚焦数据内在结构不同，强化学习的核心在于序贯决策：智能体通过试错探索环境，根据行动
微算法科技技术突破：用于前馈神经网络的量子算法技术助力神经网络变革 MicroTech2025 量子计算算法神经网络
随着量子计算和机器学习的迅猛发展，企业界正逐步迈向融合这两大领域的新时代。在这一背景下，微算法科技（NASDAQ:MLGO）成功研发出一套用于前馈神经网络的量子算法，突破了传统神经网络在训练和评估中的性能瓶颈。这一创新性的量子算法以经典的前馈和反向传播算法为基础，借助量子计算的强大算力，极大提升了网络训练和评估效率，并带来了对过拟合的天然抗性。前馈神经网络是深度学习的核心架构，广泛应用于图像分类、
微算法科技研究量子视觉计算，利用量子力学原理提升传统计算机视觉任务的性能
计算机视觉，作为人工智能领域的一个重要分支，致力于模拟人类视觉系统对图像或视频等视觉数据的理解与分析能力。它涵盖了图像识别、目标检测、图像分割等一系列复杂任务，广泛应用于自动驾驶、医疗影像分析、安防监控等多个领域。然而，随着数据规模的不断膨胀和任务复杂度的日益提升，传统计算机视觉算法在处理大规模、高维度数据时遇到了性能瓶颈。微算法科技(NASDAQ：MLGO)研究量子视觉计算，探索量子计算与经典卷
图机器学习（13）——图相似性检测
图机器学习（13）——图相似性检测0.前言1.基于图嵌入的方法2.基于图核的方法3.基于GNN的方法4.应用0.前言图机器学习(machinelearning,ML)方法能广泛应用于各类任务，其应用场景涵盖从药物设计到社交网络推荐系统等多个领域。值得注意的是，由于这类方法在设计上具有通用性，同一算法可用于解决不同问题。学习图之间相似性的定量度量是一个关键问题。事实上，这是网络分析的重要步骤，同时也
我比你们多一个世界本末丶
前一阵子群里在讨论音乐是什么我不知道音乐这东西本就很难定义更别说不同心境下不同的感受直到有一天在地铁里手机突然断电耳朵里的空灵婉转哀怨激昂戛然而止之后传来的各式方言和地铁轰鸣让我呆了好久才接受这个事实那感觉就好像从另一个世界被踢了出来那一刻就好像武林高手进入了梦寐以求的顿悟当然我不是什么武林高手也不会降龙十八掌和九阳神功但是我比你们多了一个世界音乐就是另一个世界早晚高峰时蚁巢一样的地铁散落着被树叶
Redux架构解析：状态管理的核心原理止观止架构前端 react.js redux
Redux作为JavaScript应用的状态管理库，其技术架构与核心原理围绕可预测的状态管理设计，通过严格的单向数据流和函数式编程理念实现复杂应用的状态控制。以下从设计理念、核心架构、工作流程、源码实现等角度进行系统性剖析：一、设计理念与原则单一数据源（SingleSourceofTruth）整个应用的状态存储在一个全局Store对象中，形成唯一的状态树（StateTree）。优势：简化状态共享和
【算法训练营Day12】二叉树part2 十八岁讨厌编程算法训练营算法
文章目录翻转二叉树对称二叉树二叉树的最大深度二叉树的最小深度翻转二叉树题目链接：226.翻转二叉树解题逻辑：翻转二叉树也就是将所有非叶节点的左右孩子相互交换，那么我们就可以采用层序遍历判断非叶节点进行翻转：初始化一个辅助队列将根节点添加到队列中去弹出队头元素如果该元素的两个子节点均不为null则翻转两个子节点然后将子节点入队如此循环往复直到队列为空代码如下：classSolution{public
ztree设置禁用节点 3213213333332132 JavaScript ztree json setDisabledNode Ajax
ztree设置禁用节点的时候注意，当使用ajax后台请求数据,必须要设置为同步获取数据，否者会获取不到节点对象，导致设置禁用没有效果。 $(function(){ showTree(); setDisabledNode(); });
JVM patch by Taobao bookjovi java HotSpot
在网上无意中看到淘宝提交的hotspot patch，共四个，有意思，记录一下。 7050685：jsdbproc64.sh has a typo in the package name 7058036：FieldsAllocationStyle=2 does not work in 32-bit VM 7060619：C1 should respect inline and
将session存储到数据库中 dcj3sjt126com sql PHP session
CREATE TABLE sessions ( id CHAR(32) NOT NULL, data TEXT, last_accessed TIMESTAMP NOT NULL, PRIMARY KEY (id) ); <?php /** * Created by PhpStorm. * User: michaeldu * Date
Vector 171815164 vector
public Vector<CartProduct> delCart(Vector<CartProduct> cart, String id) { for (int i = 0; i < cart.size(); i++) { if (cart.get(i).getId().equals(id)) { cart.remove(i);
各连接池配置参数比较 g21121 连接池
排版真心费劲，大家凑合看下吧，见谅~ Druid DBCP C3P0 Proxool 数据库用户名称 Username Username User 数据库密码 Password Password Password 驱动名
[简单]mybatis insert语句添加动态字段 53873039oycg mybatis
mysql数据库,id自增,配置如下： <insert id="saveTestTb" useGeneratedKeys="true" keyProperty="id" parameterType=&
struts2拦截器配置云端月影 struts2拦截器
struts2拦截器interceptor的三种配置方法方法1. 普通配置法 <struts> <package name="struts2" extends="struts-default"> &
IE中页面不居中，火狐谷歌等正常 aijuans IE中页面不居中
问题是首页在火狐、谷歌、所有IE中正常显示，列表页的页面在火狐谷歌中正常，在IE6、7、8中都不中，觉得可能那个地方设置的让IE系列都不认识，仔细查看后发现，列表页中没写HTML模板部分没有添加DTD定义，就是<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3
String,int,Integer,char 几个类型常见转换 antonyup_2006 html sql .net
如何将字串 String 转换成整数 int? int i = Integer.valueOf(my_str).intValue(); int i=Integer.parseInt(str); 如何将字串 String 转换成Integer ? Integer integer=Integer.valueOf(str); 如何将整数 int 转换成字串 String ? 1.
PL/SQL的游标类型百合不是茶显示游标(静态游标)隐式游标游标的更新和删除 %rowtype ref游标(动态游标)
游标是oracle中的一个结果集,用于存放查询的结果; PL/SQL中游标的声明; 1,声明游标 2,打开游标(默认是关闭的); 3,提取数据 4,关闭游标注意的要点:游标必须声明在declare中,使用open打开游标,fetch取游标中的数据,close关闭游标隐式游标:主要是对DML数据的操作隐
JUnit4中@AfterClass @BeforeClass @after @before的区别对比 bijian1013 JUnit4 单元测试
一.基础知识 JUnit4使用Java5中的注解（annotation），以下是JUnit4常用的几个annotation： @Before：初始化方法对于每一个测试方法都要执行一次（注意与BeforeClass区别，后者是对于所有方法执行一次）@After：释放资源对于每一个测试方法都要执行一次（注意与AfterClass区别，后者是对于所有方法执行一次
精通Oracle10编程SQL(12)开发包 bijian1013 oracle 数据库 plsql
/* *开发包 *包用于逻辑组合相关的PL/SQL类型（例如TABLE类型和RECORD类型）、PL/SQL项（例如游标和游标变量）和PL/SQL子程序（例如过程和函数） */ --包用于逻辑组合相关的PL/SQL类型、项和子程序，它由包规范和包体两部分组成 --建立包规范：包规范实际是包与应用程序之间的接口，它用于定义包的公用组件，包括常量、变量、游标、过程和函数等 --在包规
【EhCache二】ehcache.xml配置详解 bit1129 ehcache.xml
在ehcache官网上找了多次，终于找到ehcache.xml配置元素和属性的含义说明文档了，这个文档包含在ehcache.xml的注释中！ ehcache.xml ： http://ehcache.org/ehcache.xml ehcache.xsd ： http://ehcache.org/ehcache.xsd ehcache配置文件的根元素是ehcahe ehcac
java.lang.ClassNotFoundException: org.springframework.web.context.ContextLoaderL 白糖_ java eclipse spring tomcat Web
今天学习spring+cxf的时候遇到一个问题：在web.xml中配置了spring的上下文监听器： <listener> <listener-class>org.springframework.web.context.ContextLoaderListener</listener-class> </listener> 随后启动
angular.element boyitech AngularJS AngularJS API angular.element
angular.element 描述: 包裹着一部分DOM element或者是HTML字符串，把它作为一个jQuery元素来处理。（类似于jQuery的选择器啦）如果jQuery被引入了，则angular.element就可以看作是jQuery选择器，选择的对象可以使用jQuery的函数；如果jQuery不可用，angular.e
java-给定两个已排序序列，找出共同的元素。 bylijinnan java
import java.util.ArrayList; import java.util.Arrays; import java.util.List; public class CommonItemInTwoSortedArray { /** * 题目：给定两个已排序序列，找出共同的元素。 * 1.定义两个指针分别指向序列的开始。 * 如果指向的两个元素
sftp 异常，有遇到的吗？求解 Chen.H java jcraft auth jsch jschexception
com.jcraft.jsch.JSchException: Auth cancel at com.jcraft.jsch.Session.connect(Session.java:460) at com.jcraft.jsch.Session.connect(Session.java:154) at cn.vivame.util.ftp.SftpServerAccess.connec
[生物智能与人工智能]神经元中的电化学结构代表什么? comsci 人工智能
我这里做一个大胆的猜想,生物神经网络中的神经元中包含着一些化学和类似电路的结构,这些结构通常用来扮演类似我们在拓扑分析系统中的节点嵌入方程一样,使得我们的神经网络产生智能判断的能力,而这些嵌入到节点中的方程同时也扮演着"经验"的角色.... 我们可以尝试一下...在某些神经
通过LAC和CID获取经纬度信息 dai_lm lac cid
方法1：用浏览器打开http://www.minigps.net/cellsearch.html，然后输入lac和cid信息(mcc和mnc可以填0)，如果数据正确就可以获得相应的经纬度方法2：发送HTTP请求到http://www.open-electronics.org/celltrack/cell.php?hex=0&lac=<lac>&cid=&
JAVA的困难分析 datamachine java
前段时间转了一篇SQL的文章（http://datamachine.iteye.com/blog/1971896），文章不复杂，但思想深刻，就顺便思考了一下java的不足，当砖头丢出来，希望引点和田玉。 -----------------------------------------------------------------------------------------
小学5年级英语单词背诵第二课 dcj3sjt126com english word
money 钱 paper 纸 speak 讲，说 tell 告诉 remember 记得，想起 knock 敲，击，打 question 问题 number 数字，号码 learn 学会，学习 street 街道 carry 搬运，携带 send 发送，邮寄，发射 must 必须 light 灯，光线，轻的 front
linux下面没有tree命令 dcj3sjt126com linux
centos p安装 yum -y install tree mac os安装 brew install tree 首先来看tree的用法 tree 中文解释：tree 功能说明：以树状图列出目录的内容。语　　法：tree [-aACdDfFgilnNpqstux][-I <范本样式>][-P <范本样式
Map迭代方式，Map迭代，Map循环蕃薯耀 Map循环 Map迭代 Map迭代方式
Map迭代方式，Map迭代，Map循环 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年
Spring Cache注解+Redis hanqunfeng spring
Spring3.1 Cache注解依赖jar包：  <dependency> <groupId>org.springframework.data</groupId> <artifactId>spring-data-redis</artifactId>
Guava中针对集合的 filter和过滤功能 jackyrong filter
在guava库中，自带了过滤器(filter)的功能，可以用来对collection 进行过滤，先看例子： @Test public void whenFilterWithIterables_thenFiltered() { List<String> names = Lists.newArrayList("John"
学习编程那点事 lampcy 编程 android PHP html5
一年前的夏天，我还在纠结要不要改行，要不要去学php？能学到真本事吗？改行能成功吗？太多的问题，我终于不顾一切，下定决心，辞去了工作，来到传说中的帝都。老师给的乘车方式还算有效，很顺利的就到了学校，赶巧了，正好学校搬到了新校区。先安顿了下来，过了个轻松的周末，第一次到帝都，逛逛吧！接下来的周一，是我噩梦的开始，学习内容对我这个零基础的人来说，除了勉强完成老师布置的作业外，我已经没有时间和精力去
架构师之流处理---------bytebuffer的mark,limit和flip nannan408 ByteBuffer
1.前言。如题，limit其实就是可以读取的字节长度的意思，flip是清空的意思，mark是标记的意思。 2.例子. 例子代码: String str = "helloWorld"; ByteBuffer buff = ByteBuffer.wrap(str.getBytes()); Sy
org.apache.el.parser.ParseException: Encountered " ":" ": "" at line 1, column 1 Everyday都不同 $转义 el表达式
最近在做Highcharts的过程中，在写js时，出现了以下异常：严重: Servlet.service() for servlet jsp threw exception org.apache.el.parser.ParseException: Encountered " ":" ": "" at line 1,
用Java实现发送邮件到163 tntxia java实现
/* 在java版经常看到有人问如何用javamail发送邮件？如何接收邮件？如何访问多个文件夹等。问题零散，而历史的回复早已经淹没在问题的海洋之中。本人之前所做过一个java项目，其中包含有WebMail功能，当初为用java实现而对javamail摸索了一段时间，总算有点收获。看到论坛中的经常有此方面的问题，因此把我的一些经验帖出来，希望对大家有些帮助。此篇仅介绍用
探索实体类存在的真正意义 java小叶檀 POJO
一. 实体类简述实体类其实就是俗称的POJO,这种类一般不实现特殊框架下的接口，在程序中仅作为数据容器用来持久化存储数据用的 POJO（Plain Old Java Objects）简单的Java对象它的一般格式就是 public class A{ private String id; public Str