jj_千寻

ML-集成学习：AdaBoost、Bagging、随机森林、Stacking(mlxtend)、GBDT、XGBoost、LightGBM、CatBoost原理推导及实现

1.名称简介

2.设计集成原则

3.集成学习算法分类

4.Boosting

4.1基本流程

4.2Adaboost实现

4.2.1.分类

4.2.2.回归

4.2.3Adaboost的正则化

4.2.4Adaboost小结

5.Bagging

5.1基本流程

6.随机深林Random Forest

6.1基本流程

7.Stacking

8.GBDT

8.1 GBDT回归

8.2GBDT分类

二分类

多分类

9.XGBoost

1）定义结构函数q(x)

2）输出函数的叠加形式为：

3）第 t 轮的目标（损失）函数为：

4）结构评价函数

5）确定最佳分裂准则

6）分裂流程

10.LightGBM

11.CatBoost

1.名称简介

集成学习：构建并结合多个学习器来完成学习任务；

基学习方法/强学习器：由一个现有算法的多个实例集成组合的方法。如n个决策树组成集成算法：随机森林。

基学习器/弱学习器：基学习方法中的个体学习器，如随机森林则的决策树算法；

组件学习器：不同算法共同集成中的个体学习器，如决策树和神经网络.....等多算法集成；

参考：https://www.cnblogs.com/pinard/p/6131423.html

2.设计集成原则

应该好而不同，如这图：

误差下降：

考虑二分类问题：y∈{-1,+1}和真实函数f，假设hi分类器的错误率都为 $\large \epsilon$ ，

则用T个基分类器用简单投票法，过半预测正确则集成结果预测正确，集成分类的结果：

假设基分类错误率相互独立，则集成器的错误率为：

结果显示随着基学习器个数T增大，错误率指数下降；但现实中基学习器是为同一个问题设计训练的，错误率不可能独立，基学习器的“准确性”与“多样性”基本矛盾不可同时最优，因此，如何设计好的“好而不同”个体学习器，是集成学习的核心。

3.集成学习算法分类

根据个体学习器生成方式：

1）个体学习器有强依赖，必须串行生成序列方法：Boosting(AdaBoost、GDBT、XGBoost)

2）不存在强依赖，可同时生成的并行方法：Bagging和随机森林（Random Forest）

4.Boosting

4.1基本流程

基本流程：先从初始训练集训练一个基学习器 Gk；

再根据基学习器Gk的表现对训练样本分布做调整（先前基学习器识别错的训练样本在后续受到更多关注）；

基于调整后的训练样本分布，训练出一个新的基学习器G(k+1)；

反复进行，直到达到指定T个基学习器个数{G1,G2,...,GT}，最终将这T个加权结合(G=a1*G1+a2*G2+...+aT*GT)；

4.2Adaboost实现

Adaboost既可以用作分类，也可以用作回归。

4.2.1.分类

理论上可以选择任何一个分类或者回归学习器作为其基础学习器，不过需要支持样本权重。

我们可以假设设计使用的基学习器是CART(https://blog.csdn.net/jiang425776024/article/details/87644983)分类决策树。

CART的优点就是可以分类和回归，这和AdaBoost一样，因此很适合做为其基础学习器，实际上，后面使用的sklearn对Adaboost的使用也是默认使用这个的。

1）定义样本权重

假设我们的训练集样本是：D={(x1,y1),...,(xm,ym)}，为每个样本赋予一个权重wi，训练集在第 t 轮弱学习器的输出权重为：

初始分布权重都一样大为：

2）定义第 t 轮弱学习器的误差

$\large e_t = P(h_t(x_i) \neq y_i) = \sum\limits_{i=1}^{m}w_{ti}I(h_t(x_i) \neq y_i)$

(还有另外一种，计算准确率，不过这样的话后面4）对样本权重的计算就改反了)

（也就是说，学习器如这里的CART，使用的时候还是不需要管其样本权重这个集成里面的概念的，其单独训练完成以后，样本权重最终使用的地方就在交叉验证等计算错误率的时候，乘上了权重，就是我们的弱学习器的误差了）

说明：为样本真实类标记

3）定义第 t 轮学习器其本身的权重

（怎么来的后面解释推导）

$\large \alpha_t = \frac{1}{2}log\frac{1-e_t}{e_t}$

（可见，正确率/误差率，越小 $\large h_t$ 的权重越大）

（可见，这里 $\large e_t>0.5$ 的时候，如0.6： $\large log\frac{0.4}{0.6}<0$ ，是非法的，此时要么终止，要么重头/重新学习一个 $\large h_t$ ）

4）定义第 t轮学习器，权重分布D的更新方式

（怎么来的后面解释推导）

（分错的f(x)ht(x)<0)权重越来越大，分对的(f(x)ht(x)>0)权重越来越小？？？因为这样得到的误差 $\large e_{k}$ 就会越来越接近真实的误差，得到真实的误差，就能计算出更真实的加权值 $\large \alpha _{k}$ ，这样多个学习器加权累积起来，就可能抵消前面学习器的错误影响，集成出一个更真实的分类模型）

(如果2）是基于计算准确率的，那么这里就要反一下，比如去掉里面的负号，那么分错的样本权重越小，对的越大)

5）最终的强学习器

Adaboost分类采用的是加权表决法，按照4.1那T轮，根据上面1)-4)的计算后，最终的强分类器为

即f(x)>0表示正例，....。看到这其实可以直接看结尾了，后面推导比较难。

6）对3）、4）的推导

这部分很需要数学知识，你也可以忽略。不影响使用。

对 3）的推导

思想，基于已知的样本权重（第一次设为均匀的1/m）分布 $\large D_{t}$ 训练，产生第 t 个基分类器 $\large h_{t}$ ，进而计算错误率 $\large \epsilon$ ，先假定权重 $\large a_{t}$ 已知，定义指数损失函数为：

因为上面最后的加法运算，左边加的e^(-at)*正确率，右边加的是e^(at)*错误率，所以，我们希望at能尽可最小化Dt分布下关于at*ht的指数损失函数，即，上面左右加起来后的结果趋于极小。因此转而对上面求导：

对 4）的推导

这个更恶心，可以不看。

在学得集成学习器Ht-1后，希望下一轮学到的基学习器能够纠正错误，理想的就是纠正所有错误，也就是最小化指数损失函数：

因此理想的下一个基学习器ht，为下式极大值对应的h:

构造出分布新的Dt:

加入当前集成学习期望(是常数，对argmax无影响)，则ht可以变成D(x)分布到Dt(x)分布的转变：

因为：

所以：

搞了这么多推算竟然得出这么个无关的结论，即，理想的下一个学习器是：期望真实值f(x)！=预测值h(x)尽可能小。不过，现在返回去，由上面的Dt分布，及关系E(XY)=E(X)E(Y)，就能得到分布D的前后迭代更新形式了：

解释一下其中符号，这些符号最终都是数字，能让分布转为一个概率：

所以，第4）步中的更新，只是把分布D写开了，写在一起就是上面那个更新形式。而第一次迭代的分布D为均匀的1/m。其它时候D中的m个样本对应的权重按照4）这个更新：

7）最终Adaboost分类流程

数据集：D={(x1,y1),...,(xm,ym)}

1）设置分布D0=1/m

2）for t=1,2,....,T（T个弱学习器，这个自己指定） do:

ht=Algri(D,Dt) //根据Dt样本权重分布，从数据集D中训练出弱模型，如CART

epsilon_t=P(ht(x)!=f(x)) //上面的2)节形式计算第t轮弱学习器误差

if epsilon_t>0.5 then break //训练太差就不进一步学了，这样实际上得不到T个弱学习去，因此这种情况时，还可以从初始分布或者随机分布中学到ht。

$\large \alpha _{t}$ 按照上面 3）节更新

对分布Dt 中每个wti更新，按照4）节形式更新

3）end for

4) 按照5）节中形式加权累积起来作为集成模型输出。

分类方面的使用

from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score

from sklearn.ensemble import AdaBoostClassifier
from sklearn.tree import DecisionTreeClassifier

from sklearn import datasets

dataset = datasets.load_breast_cancer()
X = dataset.data
Y = dataset.target

seed = 1

# 10折交叉验证
kfold = KFold(n_splits=10, random_state=seed)
# 弱分类器：CART(criterion='gini'表示用CART),设置弱分类器maxdepth=3
dtree = DecisionTreeClassifier(criterion='gini', max_depth=3)

# dtree = dtree.fit(X, Y)
# result = cross_val_score(dtree, X, Y, cv=kfold)
# print(result.mean())

model = AdaBoostClassifier(base_estimator=dtree, n_estimators=100, random_state=seed)
result = cross_val_score(model, X, Y, cv=kfold)

print('10折交叉验证的分数：',result.mean())

#10折交叉验证的分数： 0.9666040100250626

4.2.2.回归

1）定义第 t 个弱学习器，训练集上的最大误差

$\large E_t= max|y_i - h_t(x_i)|\;i=1,2...m$

2）样本的误差

（相对误差） $\large e_{ti}= \frac{|y_i - h_t(x_i)|}{E_t}$ 、（平方误差） $\large e_{ti}= \frac{(y_i - h_t(x_i))^2}{E_t^2}$ 、

（指数误差） $\large e_{ti}= 1 - exp(\frac{-y_i + h_t(x_i))}{E_t})$

3）第 t 个弱学习器的误差

$\large e_t = \sum\limits_{i=1}^{m}w_{ti}e_{ti}$

4）第t个学习器权重

因为回归问题误差是与真实值之间的差距而不是分类里面的是和否了，因此没必要像上面分类那样推导出权重，这里按照启发为：误差率/正确率。其实这并不固定的。

$\large \alpha_t =\frac{e_t}{1-e_t}$

（可见这里是错误率越高， $\large h_t$ 权重越大。）

5）第 t 个弱学习器的第 i 个样本权重更新

$\large w_{t+1,i}=\frac{w_{ti}}{Z_t}\alpha_t^{1-e_{ti}} ,Z_t=\sum_{i=1}^{m}w_{ti}\alpha_t^{1-e_{ti}}$

6）最终集成学习器为

$\large h_c(x)$ 为T个 $\large a_th_t(x)$ 乘积排列的中位数（不是固定值，每次根据x不同不一样），T为弱学习器的个数。

$\large h(x)=\sum_{t=1}^{T}(ln\frac{1}{\alpha_t})h_c(x)$

（可见， $\large a_t$ 越大， $\large ln\frac{1}{\alpha_t}$ 越小，此时作用在hc上的权值越小，而4）说了，错误率越大 $\large a_t$ 越大，因此，错误率越大的作用在hc上越小）

回归方面的使用：

from sklearn.model_selection import KFold
from sklearn.model_selection import train_test_split
import numpy as np
from sklearn.ensemble import AdaBoostRegressor
from sklearn.tree import DecisionTreeRegressor
from sklearn.svm import LinearSVR
from matplotlib import pyplot as plt

from mpl_toolkits.mplot3d import Axes3D

fig = plt.figure()
plt.rcParams['font.sans-serif'] = ['SimHei']  # 用来正常显示中文标签
plt.rcParams['axes.unicode_minus'] = False  # 用来正常显示负号
ax = Axes3D(fig)

seed = 1


def load_data_regression():
    # 构造X数据
    c=np.random.rand(220)
    X =np.array([c+2*i for i in range(2)]).T
    # 构造y数据， y = 1 * x_0 + 2 * x_1 + 3，后面打印参数会发现，是一致的
    y = np.dot(X, np.array([1, 2])) + 1

    return train_test_split(X, y, test_size=0.2, random_state=0)


X_train, X_test, y_train, y_test = load_data_regression()
# 10折交叉验证
kfold = KFold(n_splits=10, random_state=seed)
# 弱回归器：CART(criterion='gini'表示用CART),设置弱回归器maxdepth=3
dtree = DecisionTreeRegressor(max_depth=3)

# model = AdaBoostRegressor(base_estimator=LinearSVR(epsilon=0.01, C=100), n_estimators=200, random_state=seed)
model = AdaBoostRegressor(base_estimator=dtree, n_estimators=300, random_state=seed)
model.fit(X_train, y_train)

result = model.predict(X_test)
# # 计算准确率
cnt1 = 0
cnt2 = 0
for i in range(len(y_test)):
    if abs(result[i] - y_test[i]) < 0.1:
        cnt1 += 1
    else:
        cnt2 += 1

print("Accuracy: %.2f %% " % (100 * cnt1 / (cnt1 + cnt2)))

ax.scatter(X_train[:, 0], X_train[:, 1], y_train, marker='o')
ax.plot(X_test[:, 0], X_test[:, 1], result)
plt.show()

4.2.3Adaboost的正则化

为了防止Adaboost过拟合，我们通常也会加入正则化项，这个正则化项我们通常称为步长(learning rate)。定义为ν,对于前面的弱学习器的迭代：

$\large f_{t}(x) = h_{t-1}(x) + \alpha_th_t(x)$

加入正则化v，0

$\large f_{t}(x) = h_{t-1}(x) + \nu\alpha_th_t(x)$

4.2.4Adaboost小结

使用最广泛的Adaboost弱学习器是决策树和神经网络。对于决策树，Adaboost分类用了CART分类树，而Adaboost回归用了CART回归树。

　　　　这里对Adaboost算法的优缺点做一个总结。

　　　　Adaboost的主要优点有：

　　　　1）Adaboost作为分类器时，分类精度很高

　　　　2）在Adaboost的框架下，可以使用各种回归分类模型来构建弱学习器，非常灵活。

　　　　3）作为简单的二元分类器时，构造简单，结果可理解。

　　　　4）不容易发生过拟合

　　　　Adaboost的主要缺点有：

　　　　1）对异常样本敏感，异常样本在迭代中可能会获得较高的权重，影响最终的强学习器的预测准确性。

5.Bagging

Bagging算法是另外一类，可以并行计算，不像前面的AdaBoost，是一个依赖一个的串行的。这种集成算法数学性并不要求很高。简单易理解。

5.1基本流程

1）基于自助采样给定m个数据，有放回的采样m次，得到一个包含m个数据的数据集（有些会出现多次，有些不出现，但理论上只有63.2%的概率出现在集合中）。

2）自助采样T次，就得到了T个含m个数据的数据集。

3）T次采样每次采样完都训练出一个弱学习器，这样得到T个弱学习器了。

4）预测，对分类任务：使用投票多数表决了；回归：简单平均。

6.随机深林Random Forest

随机森林RF是Bagging的扩展变体，在其基础上，进一步在决策树上引入了随机性：传统是基于最优属性划分，RF先从属性集合中随机选出k个属性作为候选属性集，再从k个属性集中挑一个最佳属性（按照决策树属性划分的那些方式）作为划分点。显然k=1的时候就是每次都随机划分属性了，k=所有属性个数则就是传统决策树划分形式了。通常按照 $\large k=log_2d$ 划分，其中d为所有属性数量。

（值得说明的是，随机森林通常优于Bagging，因为显然二者都是基于随机的，但是随机森林随机的更加彻底）

6.1基本流程

1）按照Bagging那样随机自助采样得到m个数据集

2）运用决策树算法，利用采样数据进行弱学习器学习，但是决策树每次划分的时候是在当且可选属性d中挑选k个(k<=d)然后再选择最优属性划分。

3）重复采样、学习T次，得到T个弱学习器，

4）和Bagging一样，对分类任务：使用投票多数表决了；回归：简单平均。

随机森林的使用：

from sklearn.model_selection import cross_val_score
from sklearn.datasets import make_blobs
import matplotlib.pyplot as plt
from sklearn.ensemble import RandomForestClassifier
from sklearn.ensemble import ExtraTreesClassifier

from sklearn.tree import DecisionTreeClassifier

seed = 1
X, y = make_blobs(n_samples=1000, n_features=6, centers=50, random_state=seed)

# 普通决策树
clf = DecisionTreeClassifier(max_depth=None, min_samples_split=2, random_state=seed)
scores = cross_val_score(clf, X, y)
print(scores.mean())

# 随机森林
clf = RandomForestClassifier(n_estimators=10, max_depth=None, min_samples_split=2, random_state=seed)
scores = cross_val_score(clf, X, y)
print(scores.mean())

# RF随机森林的变种
clf = ExtraTreesClassifier(n_estimators=10, max_depth=None, min_samples_split=2, random_state=seed)
scores = cross_val_score(clf, X, y)
print(scores.mean())

7.Stacking

stacking产生方法是一种截然不同的组合多个模型的方法，它不像bagging和boosting是同质组合，而是组合不同的模型，具体的过程如下：

过程1-3 是训练出来个体学习器，也就是初级学习器，应该异质。

（过程7：每个数据xi经过T个初级学习器预测之后，会输出T个值 $\large z_i=[z_i_1,z_i_2,...,z_i_T]$ ，zi与xi的真正值yi组成新的数据D'=(zi,yi)，这个数据会被用来在次级学习器中进行学习，产生m个这样的D'，组成了次级学习器的训练集。）

过程5-9是使用训练出来的个体学习器来得预测的结果，当做次级学习器的训练集。

过程11 是用初级学习器预测的结果训练出次级学习器，得到我们最后训练的模型。

如果想要预测一个数据的输出，只需要把这条数据用初级学习器预测，然后将预测后的结果用次级学习器预测便可。

问题：这样的实现是有很大的缺陷的。在原始数据集D上面训练的模型，然后用这些模型在D上面再进行预测得到的次级训练集肯定是非常好的。会出现过拟合的现象。

改进：k折方式，初始训练集D划分为k份，每次选一份作为测试集 $\large D_j$ ，其余 $\large D\D_j$ 作为训练集训练出弱学习器 $\large h_t^j$ ，然后用测试集 $\large D_j$ 中每一个测试样本经过T个学习器预测后，产生T个 $\large z_i=[z_i_1,z_i_2,...,z_i_T]$ 的输出，作为次级学习器的输入。

使用：pip install mlxtend

初级学习器：高斯、KNN，RF

次级：逻辑回归

用于分类：

from sklearn import model_selection
from sklearn.linear_model import LogisticRegression
from sklearn.neighbors import KNeighborsClassifier
from sklearn.naive_bayes import GaussianNB
from sklearn.ensemble import RandomForestClassifier
from mlxtend.classifier import StackingClassifier
import numpy as np

# 初级学习器
clf1 = KNeighborsClassifier(n_neighbors=1)
clf2 = RandomForestClassifier(random_state=1)
clf3 = GaussianNB()

# 次级学习器
lr = LogisticRegression()

# sclf = StackingClassifier(classifiers=[clf1, clf2, clf3],
#                           meta_classifier=lr)

#use_probas=True使用初级学习器的概率作为输入，没有的话直接使用其输出作为输入。
# average_probas=False，不使用初级的平均作为输入,拼接起来作为输入。
'''
classifier 1: [0.2, 0.5, 0.3]

classifier 2: [0.3, 0.4, 0.4]

   1) average = True : 

产生的meta-feature 为：[0.25, 0.45, 0.35]

   2) average = False:

产生的meta-feature为：[0.2, 0.5, 0.3, 0.3, 0.4, 0.4]
'''
sclf = StackingClassifier(classifiers=[clf1, clf2, clf3],
                          use_probas=True,
                          average_probas=False,
                          meta_classifier=lr)
# 3折交叉验证
print('3-fold cross validation:\n')

from sklearn import datasets

from sklearn import datasets

from sklearn.datasets.samples_generator import make_classification

# X为样本特征，Y为样本类别输出， 共1000个样本，每个样本2个特征，输出有3个类别，没有冗余特征，每个类别一个簇
X, y = make_classification(n_samples=1000, n_features=2, n_redundant=0,
                           n_clusters_per_class=1, n_classes=3)


for clf, label in zip([clf1, clf2, clf3, sclf],
                      ['KNN',
                       'Random Forest',
                       'Naive Bayes',
                       'StackingClassifier']):
    scores = model_selection.cross_val_score(clf, X, y,
                                             cv=3, scoring='accuracy')
    print("Accuracy: %0.2f (+/- %0.2f) [%s]"
          % (scores.mean(), scores.std(), label))

#
3-fold cross validation:

Accuracy: 0.96 (+/- 0.00) [KNN]
Accuracy: 0.97 (+/- 0.00) [Random Forest]
Accuracy: 0.95 (+/- 0.01) [Naive Bayes]
Accuracy: 0.97 (+/- 0.00) [StackingClassifier]

8.GBDT

GBDT也是迭代型的，可以用于分类和回归，弱学习器限定只能使用CART回归树模型，要注意的是这里的决策树是回归树，GBDT中的决策树是个弱模型，深度较小一般不会超过5，叶子节点的数量也不会超过10

8.1 GBDT回归

输入训练集样本： $\large T=\{(x_,y_1),(x_2,y_2), ...(x_m,y_m)\}$ ，最大迭代次数T, 损失函数L。

输出是强学习器f(x)

1）假设前一轮学到的强学习器是： $\large f_{t-1}(x)$

如果是初始轮，就按照正常CART那样构建出来。 $\large f_0(x) = \underbrace{arg\; min}_{c}\sum\limits_{i=1}^{m}L(y_i, c)$

2）定义损失为： $\large L(y, f_{t-1}(x))$

那么当前迭代学习的弱学习器，目的是希望找到一个CART回归树模型的弱学习器： $\large h_t(x)$ 让接下来的强学习器的损失： $\large L(y, f_{t}(x)) =L(y, f_{t-1}(x)+ h_t(x))$ 降到最低。

也就是希望找到这样一个新的CART回归决策树，让损失进一步下降。

显然负梯度方向是函数下降方向，记 t 轮的第 i 个样本的损失函数的负梯度为：

$\large r_{ti} = -\bigg[\frac{\partial L(y_i, f(x_i)))}{\partial f(x_i)}\bigg]_{f(x) = f_{t-1}\;\; (x)}$ ，

L可以这么选，GBDT通常是平方损失，也就是下1，因此对于 $\large x_i$ ，其负梯度损失可以看作是 $\large y_i-f{(x_i)}$ ：

3）构造出CART树

a）计算出每个样本的损失负梯度值（是个值），得到新的数据集（自变量及对应损失梯度值构成的集合）： $\large (x_i,r_{ti})\;\; (i=1,2,..m)$ ，就可以可以开始构造CART回归树了。

b)记叶子节点为： $\large R_{tj}, j =1,2,..., J$ ，J为叶子节点个数。假设叶子节点 $\large R_{tj}$ 包含k个样本，我们希望这个叶子节点的输出能让节点内k个样的累积损失最小（因为每个节点都这样计算最佳c，整个树的最佳输出就找到了）：

$\large c_{tj} = \underbrace{arg\; min}_{c}\sum\limits_{x_i \in R_{tj}} L(y_i,f_{t-1}(x_i) +c)$

c)根据CART构造规则，叶子节点的值为节点内数据的平均或中位数。但是现在叶子节点内部k个样本负梯度的均值记avgrtj是梯度均值。（问题是梯度只是个方向，梯度=0.1=100=无穷 >0，仅仅表示下一轮弱学习器应该往增大预测输出这个方向上去）（有些资料直接拿这个做输出也是可以的，就是学习率是1，然后执行了一次梯度下降嘛。但是不一定就是最佳输出，可以用一维线性搜索：https://blog.csdn.net/jiang425776024/article/details/87600422，比如设置学习率因子为0.1，然后利用节点的那个平均负梯度值为梯度， $\large c_0=0,c_i_+_1=c_i+0.1*avgrtj,.....$ 直到n步后损失值收敛或不下降，这时累积找到的 $\large c_n$ 作为最佳输出 $\large c_t_j=c_n$ ）

d)划分CART树就是正常那样方差最小划分，节点输出为基于节点负梯度均值为梯度下降方向，找到的最佳c为此节点的输出，这样，就能构造出新的CART树了。

4）得到CART决策树函数

$\large h_t(x) = \sum\limits_{j=1}^{J}c_{tj}I(x \in R_{tj})$

既，对于x做预测，其输出为x一路判断到叶子节点的那个区域的ctj。

5）得到新的强学习器

$\large f_{t}(x) = f_{t-1}(x) + \sum\limits_{j=1}^{J}c_{tj}I(x \in R_{tj})$

6）得到最终集成器

上面那样计算T次负梯度误差（残差），构造T个CART树，叠加起来就得到了最终的集成学习器：

$\large f(x) = f_T(x) =f_0(x) + \sum\limits_{t=1}^{T}\sum\limits_{j=1}^{J}c_{tj}I(x \in R_{tj})$

8.2GBDT分类

二分类

输入训练集样本： $\large T=\{(x_,y_1),(x_2,y_2), ...(x_m,y_m)\}$ ，最大迭代次数T, 损失函数L。

输出是强学习器f(x)

GBDT的分类算法从思想上和GBDT的回归算法没有区别，但是由于样本输出不是连续的值，而是离散的类别，导致我们无法直接从输出类别去拟合类别输出的误差。

为了解决这个问题，主要有两个方法，一个是用指数损失函数，此时GBDT退化为Adaboost算法。另一种方法是用类似于逻辑回归的对数似然损失函数的方法。也就是说，我们用的是类别的预测概率值和真实概率值的差来拟合损失。

1）这里记分类标签为-1,1，定义损失形式为：

（负二项对数似然）

$\large L(y,f_t(x)))=log(1+exp(-2yf_t(x))),y \epsilon -1,1$

其中初始时每个样本的预测输出为样本集中正负样本概率和的比：

$\large f_0(x)=log\left(\frac{\sum_{i=1}^m y_i}{\sum_{i=1}^m(1-y_i)}\right)=log\left(\frac{num(p_1)}{num(p_-_1)}\right)$

$\large f_t(x)$ 由后面累加CART树得到。

2）然后就能计算负梯度函数了：

$\large r_{ti}=-[\frac{\partial L(y,f(x_{i}))}{\partial f(x_{i})}]_{f(x)=f_{t-1}(x)}=\frac{2y_{i}}{1+exp(2y_{i}f_{t-1}(x_{i}))}$

3）叶子节点估计值：

$\large c_{tj} = argmin_{c}\sum_{x_{i}\epsilon R_{tj}} log(1+exp(-2y_{i}(f_{t-1}(x_{i})+c)))$

分类问题没有绝对意义上的步长和距离的概念，因此难以求解最佳值，所以改为近似求解：

$\large c_{tj} = \sum\limits_{x_i \in R_{tj}}r_{ti}\bigg / \sum\limits_{x_i \in R_{tj}}|r_{ti}|(2 -|r_{ti}|)$

4）这样，基于CART划分节点规则，基于上面对节点的输出，可以构造出CART回归树。

5）其它步骤与上面的回归一致。

$\large f_{t}(x) = f_{t-1}(x) + \sum\limits_{j=1}^{J}c_{tj}I(x \in R_{tj})$

$\large f(x) = f_T(x) =f_0(x) + \sum\limits_{t=1}^{T}\sum\limits_{j=1}^{J}c_{tj}I(x \in R_{tj})$

6）最后预测形式

把上面得到的f(x)，可以传入计算出概率：

$\large P(y=1|x)=p= \frac{1}{1+e^{-2f(x)}}$ 、 $\large P(y=-1|x)=1-p= \frac{1}{1+e^{2f(x)}}$

可以计算正负类的概率。

多分类

对于多分类任务，GDBT的做法是采用一对多的策略，也就是说，对每个类别训练T个分类器。假设有K个类别，那么训练完之后总共有T*K颗树。K个类别都拟合完第一颗树之后才开始拟合第二颗树，不允许先把某一个类别的M颗树学习完，再学习另外一个类别。

1）定义损失

使用多分类log损失作为损失函数

$\large L(y, f(x)) = - \sum\limits_{k=1}^{K}y_klog\;p_k(x)$ ，yk∈0,1.

2）定义概率p

对于K个类，初始第 0 次迭代，样本输出全部为0（论文就是这样的）： $\large f_{k,0}(x_i)=0$ ，(K个都这样)

Softmax数值转化为相对概率，显然，初始时pk=第k类样本的占比，因为 fl(x)=0，e^0=1。

样本的第k个类的第t轮的概率求解，k=1,2,...,K：

$\large p_{k,t}(x) = exp(f_{k,t}(x)) \bigg / \sum\limits_{l=1}^{K} exp(f_{l,t}(x))$

3）xi第 t 轮的第k类的负梯度误差

(多分类假设有K=5个类，已知xi是1类，那么yi=[0,1,0,0,0]，yi1=1,其余为0，也就是说，每个样本要对K个类都计算出概率)

$\large r_{tik} = -\bigg[\frac{\partial L(y_i, f(x_i)))}{\partial f(x_i)}\bigg]_{f_(x) = f_{k, t-1}\;\; (x)} = y_{ik} - p_{k, t-1}(x_i)$

既为：第 i 个样本预测为 l 类的概率 - 第 t-1 轮第 i 个样本预测为l的概率。

4）x的第t轮第j个叶子节点的第l类输出

$\large c_{tjl} = \underbrace{arg\; min}_{c_{jl}}\sum\limits_{i=0}^{m}\sum\limits_{k=1}^{K} L(y_k, f_{l,t-1}(x) + \sum\limits_{j=0}^{J}c_{jl} I(x_i \in R_{tj}))$

显然上式更加不易求最优，因此一般近似为：

（每个数据xi会划分到K棵树的K个不同的叶子节点 $\large R_{tjl}$ 内(j不一样)，有K个不同的损失负梯度值 $\large r_{til}$ ，对应于xi的K个类的残差）

$\large c_{tjl} = \frac{K-1}{K} \; \frac{\sum\limits_{x_i \in R_{tjl}}r_{til}}{\sum\limits_{x_i \in R_{til}}|r_{til}|(1-|r_{til}|)}$

5）x的第 k类的第 t 轮输出

$\large f_{k,t}(x) = f_{k,t-1}(x) + \sum\limits_{j=1}^{J}c_{tjk}I(x \in R_{tjk})$

6）得到x的最终预测

T轮学完后，第k个类的输出函数为

$\large f_k(x) = f_{k,T}(x) =f_{k,0}(x) + \sum\limits_{t=1}^{T}\sum\limits_{j=1}^{J}c_{tjk}I(x \in R_{tjk})$

然后就可以计算出x的k类的概率：

$\large p_{k}(x) = exp(f_{k}(x)) \bigg / \sum\limits_{l=1}^{K} exp(f_{l}(x))$

组成x的预测：y=[p1(x),p2(x),...,pK(x)]

在sacikit-learn中，GradientBoostingClassifier为GBDT的分类类，而GradientBoostingRegressor为GBDT的回归类

使用方法：https://www.cnblogs.com/pinard/p/6143927.html

9.XGBoost

Xgboost是GB算法的高效实现，xgboost中的基学习器除了可以是CART（gbtree）也可以是线性分类器（gblinear）。

xgboost在目标函数中显示的加上了正则化项，正则化项与树的叶子节点的数量T和叶子节点的值有关。

1）定义结构函数q(x)

其能返回x索引的叶子节点序号，Wq(x)则返回x索引序号的索引值。（就是给定x，返回其叶子节点的函数。T为叶子节点数。w为叶子节点输出组成的数组）

2）输出函数的叠加形式为：

$\begin{split}\hat{y}_i^{(0)} &= 0\\\hat{y}_i^{(1)} &= f_1(x_i) = \hat{y}_i^{(0)} + f_1(x_i)\\\hat{y}_i^{(2)} &= f_1(x_i) + f_2(x_i)= \hat{y}_i^{(1)} + f_2(x_i)\\&\dots\\\hat{y}_i^{(t)} &= \sum_{k=1}^t f_k(x_i)= \hat{y}_i^{(t-1)} + f_t(x_i)\end{split}$

3）第 t 轮的目标（损失）函数为：

其中预测损失函数，常用有：

平方损失：

Logistic损失：

如果我们考虑使用平方误差作为损失函数，公式可改写为：

$\begin{split}\text{Obj}^{(t)} & = \sum_{i=1}^n (y_i - (\hat{y}_i^{(t-1)} + f_t(x_i)))^2 + \sum_{i=1}^t\Omega(f_i) \\ & = \sum_{i=1}^n [2(\hat{y}_i^{(t-1)} - y_i)f_t(x_i) + f_t(x_i)^2] + \Omega(f_t) + constant\end{split}$

我们可以采用如下的泰勒展开近似来定义一个近似的目标函数，方便我们进行这一步的计算：

此时目标函数为：

其中

如果移除掉常数项，我们会发现这个目标函数有一个非常明显的特点，它只依赖于每个数据点的在误差函数上的一阶导数和二阶导数

把n个样本的累加转为遍历所有叶子节点：

记Ij为叶子节点 j 内样本集合：

则有：

4）结构评价函数

对第j个叶子节点输出wj的偏导，求极小值：

解得：

代入原函数，得到只与q有关的函数 $\large L_{t}(q)$ （什么东西？就是q(树结构)确定时，这个函数是确定的。问题是q不确定，所以后面转为反向计算其极小值时的最佳结构q，或者根据这个求得的值评价这个结构q优劣）类似于决策树寻找分裂时的不纯度指标：

假如结构q是这个样子，那么就能求出值了（认为是这个结构的分数。越小的时候这个结构越好）：

不过这里不符合直觉，既然是分数，就越大越好吧，所有通常改为计算 $\large -L_{t}(q)$ ，记住，这里换了，此后评价按这个来，分数越大的结构越好。

5）确定最佳分裂准则

XGBoost是一层层往下分的，先简单来说，最初只有根节点，1个叶子节点，包含整个的训练集样本，好了，这个时候怎么分裂为二变成3个节点，两个叶子节点呢？这个过程清楚了，其它所有节点都这样递归下去就行了。

先讲个例子：

a）原始树q是这样子，给定损失函数就能计算出一二阶导数，进而求得G，H，给定了 $\large \gamma$ ，那么这个树q的分数就可以唯一确定了，计算 $\large -L_{t}(q)$ 即可。

b）假设现在我们要对节点9进行分裂，假设我们通过某种划分把9中的数据划分成左右2个部分9L/9R了，记为节点12,13（划分方式，怎么划分为两个数据集，参考CART树的划分方式）。

c）那么现在我要比较两个树的分数了，减法嘛，小学生都知道，我们记减法后的结果为Gain，显然这是个数(Gain>0意味着划分后的结构分数更高，Gain=0意味着划分不划分都一样，Gain<0意味着划分后变差了)：

（请详细看最后那步的结果，最终两颗树分数的相减结果，只与划分点9有关，这也很符合常识，因为这两颗树仅仅在9那里有区别，最后一步的第3项之所以能这样展开，是因为显然有这样的关系： $\large set(9L)+set(9R)=set(9),H_{9L}+H_{9R}=H_9,G_{9L}^2+G_{9R}^2=G_{9}^2.$ ）

d）调参阀门 $\large \gamma$

显然，Gain>=<0，还由 $\large \gamma$ 决定（ $\large \gamma$ =正无穷怎么划分都是<0的， $\large \gamma$ =负无穷怎么划都是>0）显然这也是个炼丹术。称呼这个 $\large \gamma$ 为新加入叶子节点引入的复杂度代价（因为每次划分后节点数增1，而XGBoost的损失评估考虑进去了模型复杂度），它的值越大，表示我们对切分后目标下降幅度要求越严。

现在名正言顺的导出，很多资料没说为什么的Gain

代表左子树分数，代表右子树分数，代表不分割时我们可以获得的分数， $\large \gamma$ 为新加入叶子节点引入的复杂度代价。

我们希望划分后的这个Gain越大越好，因为这样就意味着划分后在的树结构qt+1比qt更好。通常节点划分后可能有很多个属性的很多个值的位置划分都能让这个分数Gain>0，显然，我们要取这些分数里面最大的，作为当前节点的划分。

这里需要提的是，显然这样计算最佳划分的过程是可以并行的，把节点j下所有样本xi的hi,gi算出来得到Gj和Hj，然后扫描一遍（遍历每个属性的每个属性值，离散属性时划分为此属性值的集合（左集）和此属性其它值的集合（右集）。连续的值，每次把低于这个属性的为一个集合（左集），大于等于此属性的为一个集合（右集）。计算时只需要关注左集划入划出的样本即可，划入GjL+=gi，划出GjL-=gi，最后GjR=Gj-GjL。）

6）分裂流程

上面只是介绍最核心的一些原理，具体xgboost在实现时还做了许多优化：

在寻找最佳分割点时，考虑传统的枚举每个特征的所有可能分割点的贪心法效率太低，xgboost实现了一种近似的算法。大致的思想是根据百分位法列举几个可能成为分割点的候选者，然后从候选者中根据上面求分割点的公式计算找出最佳的分割点。

xgboost考虑了训练数据为稀疏值的情况，可以为缺失值或者指定的值指定分支的默认方向，这能大大提升算法的效率，paper提到50倍。

特征列排序后以块的形式存储在内存中，在迭代中可以重复使用；虽然boosting算法迭代必须串行，但是在处理每个特征列时可以做到并行。

按照特征列方式存储能优化寻找最佳的分割点，但是当以行计算梯度数据时会导致内存的不连续访问，严重时会导致cache miss，降低算法效率。paper中提到，可先将数据收集到线程内部的buffer，然后再计算，提高算法的效率。

xgboost 还考虑了当数据量比较大，内存不够时怎么有效的使用磁盘，主要是结合多线程、数据压缩、分片的方法，尽可能的提高算法的效率。

使用教程：https://blog.csdn.net/HHTNAN/article/details/81079257#Scikitlearn_700

全部参数介绍：http://xgboost.apachecn.org/#/docs/15

回归使用：

import numpy as np
import xgboost as xgb
from xgboost import plot_importance
from matplotlib import pyplot as plt
from mpl_toolkits.mplot3d import Axes3D
from sklearn.model_selection import train_test_split

fig = plt.figure()
plt.rcParams['font.sans-serif'] = ['SimHei']  # 用来正常显示中文标签
plt.rcParams['axes.unicode_minus'] = False  # 用来正常显示负号
ax = Axes3D(fig)

# read in the iris data
# 构造X数据
X = np.random.randint(0, 7, (2000, 2))
# 构造y数据， y = 1 * x_0 + 2 * x_1 + 3，后面打印参数会发现，是一致的
y = np.dot(X, np.array([1, 2])) + 3

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)

# 训练模型
model = xgb.XGBRegressor(max_depth=5, learning_rate=0.1, n_estimators=100, silent=True, objective='reg:linear')
model.fit(X_train, y_train)

# 对测试集进行预测
ans = model.predict(X_test)
print(ans)
ax.scatter(X_train[:, 0], X_train[:, 1], y_train, marker='o')
ax.plot(X_test[:, 0], X_test[:, 1], ans)

# # 计算准确率
cnt1 = 0
cnt2 = 0
for i in range(len(y_test)):
    if abs(ans[i] - y_test[i])<0.1:
        cnt1 += 1
    else:
        cnt2 += 1

print("Accuracy: %.2f %% " % (100 * cnt1 / (cnt1 + cnt2)))

# 显示重要特征
plot_importance(model)
plt.show()

分类使用：

from sklearn.datasets import load_iris
import xgboost as xgb
from xgboost import plot_importance
from matplotlib import pyplot as plt
from sklearn.model_selection import train_test_split

# read in the iris data
iris = load_iris()

X = iris.data
y = iris.target

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)

# 训练模型
model = xgb.XGBClassifier(max_depth=5, learning_rate=0.1, n_estimators=160, silent=True, objective='reg:logistic')
model.fit(X_train, y_train)

# 对测试集进行预测
ans = model.predict(X_test)

# 计算准确率
cnt1 = 0
cnt2 = 0
for i in range(len(y_test)):
    if ans[i] == y_test[i]:
        cnt1 += 1
    else:
        cnt2 += 1

print("Accuracy: %.2f %% " % (100 * cnt1 / (cnt1 + cnt2)))

# 显示重要特征
plot_importance(model)
plt.show()

10.LightGBM

LightGBM是个快速的，分布式的，高性能的基于决策树算法的梯度提升框架。可用于排序，分类，回归以及很多其他的机器学习任务中。

LightGBM的改进更多是工程上的改进，可能准确率并不会比XGBoost高，但是速度快很多。

这里不会详细说这些工程细节，可以参考别人的介绍https://blog.csdn.net/weixin_38569817/article/details/78808535。

使用：

1、安装Anaconda3

2、pip install lightgbm

官网：https://lightgbm.readthedocs.io/en/latest/Python-Intro.html

LightGBM 的所有参数介绍：http://lightgbm.apachecn.org/#/docs/6

调参使用：https://blog.csdn.net/u012735708/article/details/83749703

11.CatBoost

Yandex 的 CatBoost 号称是比 XGBoost 和 LightGBM 在算法准确率等方面表现更为优秀的算法。

使用方法：https://github.com/catboost/catboost/blob/master/catboost/tutorials/python_tutorial.ipynb

你可能感兴趣的:(机器学习)

零基础程序员如何快速学会python Java进阶营菌程序员职场 Python python 开发语言后端 pycharm 程序人生
学会Python能做的事情也很多，常见的就有网络爬虫，数据分析，前端开发，机器学习，都能很好地提高工作效率，往任何一个领域发展，工作前景是非常不错的。接下来我从基本的软件安装开始，仔细的给大家分析新手入门应该怎样学习Python吧，如果有讲得不到位的地方也欢迎大家指正，我会及时进行修改。一、软件的安装和选择1、配置环境关系到实操，所以在选择资料的同时，你还需要安装好Python需要的软件，软件版本
机器学习第一章绪论太炀机器学习机器学习人工智能
1.1引言什么是机器学习（machinelearning）？机器学习是致力于研究如何通过计算手段，利用经验来改善系统自身的性能的学科。在计算机系统中，“经验”以“数据”的形式表现。通过这些数据产生模型（model）的算法，即“学习算法”（learningalgorithm）。如果说计算机科学是研究“算法”的学问，那机器学习就是研究“学习算法”的学问。ps：本系列所说“模型（model）”泛指数据学
模型优化之强化学习（RL）与监督微调（SFT）的区别和联系搏博深度学习人工智能机器学习架构 transformer
强化学习（RL）与监督微调（SFT）是机器学习中两种重要的模型优化方法，它们在目标、数据依赖、应用场景及实现方式上既有联系又有区别。想了解有关deepseek本地训练的内容可以看我的文章：本地基于GGUF部署的DeepSeek实现轻量级调优之一：提示工程（PromptEngineering）（完整详细教程）_deepseekgguf-CSDN博客本地基于GGUF部署的DeepSeek实现轻量级调优
入门Apache Spark：基础知识和架构解析 juer_0001 java spark
介绍ApacheSparkSpark的历史和背景ApacheSpark是一种快速、通用、可扩展的大数据处理引擎，最初由加州大学伯克利分校的AMPLab开发，于2010年首次推出。它最初设计用于支持分布式计算框架MapReduce的交互式查询，但逐渐发展成为一种更通用的数据处理引擎，能够处理数据流、批处理和机器学习等工作负载。Spark的特点和优势Spark是一种快速、通用、可扩展的大数据处理框架，
AI在农业中的应用:精准农业的新时代 AI大模型应用之禅 DeepSeek R1 &AI大模型与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
AI,农业,精准农业,机器学习,深度学习,计算机视觉,农业机器人1.背景介绍农业是人类文明的基石，也是全球经济的重要支柱。然而，随着人口增长和资源短缺，传统农业面临着诸多挑战，例如低效率、资源浪费、环境污染和气候变化的影响。为了应对这些挑战，精准农业应运而生。精准农业是指利用现代信息技术和数据分析手段，对农业生产进行精细化管理，提高资源利用效率、产量和产品质量，同时减少环境污染。人工智能（AI）作
AI驱动的企业学习管理系统 AGI大模型与大数据研究院 DeepSeek R1 &大数据AI人工智能 java python javascript kotlin golang 架构人工智能
AI、机器学习、深度学习、企业学习管理系统、个性化学习、学习路径推荐、知识图谱1.背景介绍在当今瞬息万变的数字化时代，企业面临着前所未有的挑战和机遇。知识更新速度加快，技术迭代日新月异，员工需要不断学习新技能，提升自身竞争力，才能适应不断变化的市场环境。传统的企业学习管理系统(LearningManagementSystem,LMS)往往以标准化课程和批量学习为主，难以满足员工个性化学习需求，且缺
量子计算如何提升机器学习效率：从理论到实践 Echo_Wish 人工智能前沿技术量子计算机器学习人工智能
量子计算如何提升机器学习效率：从理论到实践在人工智能和机器学习的高速发展中，传统计算方法已经逐渐面临性能瓶颈。随着数据量的激增、算法复杂度的提高，传统计算机在处理某些特定任务时的效率显得捉襟见肘。而量子计算，作为一项颠覆性的技术，正逐步展现出在机器学习领域中的巨大潜力。量子计算不仅能够加速特定任务的执行，还能为一些经典算法提供更高效的解决方案。今天，我们将深入探讨量子计算如何提升机器学习效率，解析
从零到精通：小白DeepSeek全栈入门指南好东西不迷路各自资源 AI 前端 html python
第一部分：认知准备（1-3天）1.1基础概念搭建人工智能三要素：数据/算法/算力深度学习与传统机器学习的区别神经网络基本结构（输入层/隐藏层/输出层）常用术语解析：epoch、batch、loss、accuracy1.2环境配置实战Python环境搭建（推荐Anaconda）condacreate-ndeepseekpython=3.8condaactivatedeepseek深度学习框架选择指南
查看Python库依赖关系的解决方案爱编程的喵喵 Python基础课程 python 依赖关系
大家好，我是爱编程的喵喵。双985硕士毕业，现担任全栈工程师一职，热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的知识进行总结与归纳，不仅形成深入且独到的理解，而且能够帮助新手快速入门。本文主要介绍了查看Python库依赖关系的解决方案
考研导师选择方法 herosunly 考名校研究生经验分享考研选择导师考研导师选择方法
大家好，我是herosunly。985院校硕士毕业，现担任算法研究员一职，热衷于大模型算法的研究与应用。曾担任百度千帆大模型比赛、BPAA算法大赛评委，编写微软OpenAI考试认证指导手册。曾获得阿里云天池比赛第一名，CCF比赛第二名，科大讯飞比赛第三名。授权多项发明专利。对机器学习和深度学习拥有自己独到的见解。曾经辅导过若干个非计算机专业的学生进入到算法行业就业。希望和大家一起成长进步。
梯度下降法(Gradient Descent) -- 现代机器学习的血液 AOIWB 机器学习人工智能 python
梯度下降法(GradientDescent)–现代机器学习的血液梯度下降法是现代机器学习最核心的优化引擎。本文从数学原理、算法变种、应用场景到实践技巧，用三维可视化案例和代码实现揭示其内在逻辑，为你构建完整的认知体系。优化算法一、梯度下降法的定义与核心原理定义：梯度下降法是一种通过迭代更新参数来最小化目标函数的优化算法，其核心思想是沿着当前点的负梯度方向逐步逼近函数最小值。数学表达：参数更新公式为
特征提取：如何从不同模态中获取有效信息？ Ash Butterfield 自然语言处理（NLP）专栏 nlp 人工智能
在多模态学习中，特征提取是一个至关重要的过程。它是将原始数据（如文本、图像、视频和语音等）转化为机器能够理解和处理的特征的核心步骤。不同于传统的单一模态任务，在多模态学习中，如何有效地从每种模态中提取出有意义的信息并进行融合，直接影响到最终模型的性能和准确性。本篇文章将详细讲解如何从不同的模态（文本、图像、语音）中进行特征提取，涵盖常用的技术、方法、挑战以及应用。1.什么是特征提取？在机器学习中，
python数据预处理技术与实践期末考试_Python机器学习手册：从数据预处理到深度学习... 坂田月半
内容简介O'ReillyMedia,Inc．介绍第1章向量、矩阵和数组1.0简介1.1创建一个向量1.2创建一个矩阵1.3创建一个稀疏矩阵1.4选择元素1.5展示一个矩阵的属性1.6对多个元素同时应用某个操作1.7找到最大值和最小值1.8计算平均值、方差和标准差1.9矩阵变形1.10转置向量或矩阵1.11展开一个矩阵1.12计算矩阵的秩1.13计算行列式1.14获取矩阵的对角线元素1.15计算矩阵
基于RF随机森林机器学习算法的回归预测模型MATLAB代码实现了一个回归任务的决策树集成模型。 qq924711725 仿真模型机器学习算法随机森林
基于RF随机森林机器学习算法的回归预测模型MATLAB代码实现了一个回归任务的决策树集成模型。首先从Excel文件中导入数据集，并将数据划分为训练集和测试集。然后，对数据进行归一化处理并转置以适应模型的要求。文章目录MATLAB代码实现说明：MATLAB代码实现说明：运行代码前的注意事项：示例输出：MATLAB代码实现说明：示例输出：以下是一个基于随机森林（RF,RandomForest）机器学习
程序员未来的出路：行业趋势与职业发展分析 guzhoumingyue AI python
随着技术的发展和行业需求的变化，程序员的职业出路也在不断演变。以下是程序员未来可能的职业发展方向及具体建议：一、技术深耕路线AI与机器学习专家趋势：AI技术在各行业的应用日益广泛，从自动驾驶到智能客服，需求持续增长。技能要求：Python、TensorFlow、PyTorch、数据挖掘、算法优化。发展路径：从机器学习工程师做起，积累项目经验。深入研究深度学习、强化学习等前沿技术。成为AI架构师或数
计算机毕业设计 ——jspssm507Springboot 的论坛管理系统奔强的程序课程设计
博主小档案：花花，一名来自世界500强的资深程序猿，毕业于国内知名985高校。技术专长：花花在深度学习任务中展现出卓越的能力，包括但不限于java、python等技术。近年来，花花更是将触角延伸至AI领域，对于机器学习、自然语言处理、智能推荐等前沿技术都有独到的见解和实践经验。服务内容：1、提供科研入门辅导(主要是代码方面)2、代码部署3、定制化需求解决等4、期末考试复习计算机毕业设计——jsps
强化学习——基本概念 AI大模型探索者人工智能 ai 深度学习机器学习语言模型
何为强化学习机器学习的一大分支强化学习（ReinforcementLearning）是机器学习的一种，它通过与环境不断地交互，借助环境的反馈来调整自己的行为，使得累计回报最大。强化学习要解决的是决策问题——求取当前状态下最优行为或行为概率。强化学习包括智能体和环境两大对象，智能体是算法本身，环境是与智能体交互的外部。智能体（IntelligentAgent），在人工智能领域，智能体指一个可以观察周
自然语言处理NLP入门 -- 第一节基础概念山海青风 #自然语言处理自然语言处理人工智能 python
本部分主要介绍NLP的基础概念，并通过实际案例演示NLP的核心任务，同时引导你搭建NLP开发环境，确保你能顺利开始后续学习。1.什么是自然语言处理（NLP）1.1NLP的定义自然语言处理（NaturalLanguageProcessing,NLP）是人工智能（AI）的一个子领域，专注于让计算机理解、解释和生成人类语言。NLP结合了计算机科学、语言学和机器学习，以便计算机能自动处理文本和语音数据。简
机器学习与深度学习资料 JasonDing1354 【Machine Learning】
《BriefHistoryofMachineLearning》介绍:这是一篇介绍机器学习历史的文章，介绍很全面，从感知机、神经网络、决策树、SVM、Adaboost到随机森林、DeepLearning.《DeepLearninginNeuralNetworks:AnOverview》介绍:这是瑞士人工智能实验室JurgenSchmidhuber写的最新版本《神经网络与深度学习综述》本综述的特点是以
【大模型】大模型分类 IT古董人工智能人工智能大模型
大模型（LargeModels）通常指参数量巨大、计算能力强大的机器学习模型，尤其在自然语言处理（NLP）、计算机视觉（CV）等领域表现突出。以下是大模型的常见分类方式：1.按应用领域分类自然语言处理（NLP）模型如GPT-3、BERT、T5等，主要用于文本生成、翻译、问答等任务。计算机视觉（CV）模型如ResNet、EfficientNet、VisionTransformer(ViT)等，用于图
.net机器学习框架：ML.NET模型生成器 NotOnlyCoding AI编程
ML.NETModelBuilder是一个直观的图形化VisualStudio扩展，用于构建、训练和部署自定义机器学习模型。它利用自动化机器学习（AutoML）来探索不同的机器学习算法和设置，帮助您找到最适合您场景的那个。使用ModelBuilder不需要机器学习专业知识。您只需要一些数据和一个需要解决的问题。ModelBuilder会生成代码，以便将模型添加到您的.NET应用程序中。1.创建一个
【人工智能】数据挖掘与应用题库（101-200）奋力向前123 人工智能人工智能数据挖掘
1、有矩阵A3×2，B2×3，C3×3，下列运算有意义的是（）答案：BC2、13524的逆序数为（）答案：33、矩阵A中元素a14的余子式记作M14，代数余子式记作A14，二者关系为（）答案：相反4、关于机器学习与深度学习的范畴关系，下列说法正确的是？答案：深度学习是机器学习的子集（分支）5、关于机器学习的本质，下列表述最恰当的是？答案：从数据或环境反馈中自主学习到规则6、深度学习的“深度”是指？
【机器学习】平均绝对误差（MAE：Mean Absolute Error） IT古董机器学习人工智能机器学习人工智能 python
平均绝对误差(MeanAbsoluteError,MAE)是一种衡量预测值与实际值之间平均差异的统计指标。它在机器学习、统计学等领域中广泛应用，用于评估模型的预测精度。与均方误差(MSE)或均方误差根(RMSE)不同，MAE使用误差的绝对值，因此它在处理异常值时更加稳定。1.MAE的定义和公式给定预测值和真实值，MAE的公式为：其中：n是样本总数。是模型的预测值。是对应的真实值。MAE表示了预测值
机器学习AI/ML/CV/NLP/GNN算法公式汇总Latex代码 rockingdingo tensorflow 大数据自然语言处理算法深度学习机器学习
图学习和LinkPrediction任务KnowledgeGraphLinkPredictionEquationsAndLatexCodehttp://www.deepnlp.org/blog/knowledge-graph-link-prediction小样本学习和零样本学习公式的Latex代Few-ShotLearningAndZero-ShotLearningEquationsLatexCo
深度学习-【完整代码+数据集】逻辑回归预测乳腺癌检测案例编程千纸鹤人工智能学习专栏深度学习逻辑回归人工智能癌症预测
作者主页：编程千纸鹤作者简介：Java、前端、Python开发多年，做过高程，项目经理，架构师主要内容：Java项目开发、Python项目开发、大学数据和AI项目开发、单片机项目设计、面试技术整理、最新技术分享收藏点赞不迷路关注作者有好处文末获得源码机器学习分为：有监督学习：数据带有标签无监督学习：数据没有标签，根据属性聚类在机器学习有监督学习中大致可以分为两大任务，一种是回归任务，一种是分类任务
计算机视觉与机器学习之文档解析与向量化技术加速多模态大模型训练与应用——文件向量化大模型！知世不是芝士计算机视觉人工智能大语言模型 ai大模型多模态大模型机器学习 LLM
目录前言1、TextIn文档解析技术1.1、文档解析技术1.2、目前存在的问题1.2.1、不规则的文档信息示例1.3、合合信息的文档解析1.3.1、合合信息的TextIn文档解析技术架构1.3.2、版面分析关键技术Layout-engine1.3.3、文档树提取关键技术Catalog-engine1.3.4、双栏1.3.5、非对称双栏1.3.6、双栏+表格1.3.7、无线表格1.3.8、合并单元格
Amazon SageMaker 批量转换中的 JSON 处理技巧 t0_54coder json 个人开发
在使用AmazonSageMaker进行机器学习模型的批量转换时，我们经常会遇到一些配置和数据格式的问题。今天我们来讨论一个常见的困扰：如何处理在MultiRecord批量策略下JSON数据的解析错误。背景介绍AmazonSageMaker提供了强大的批量转换功能，允许我们对大量数据进行推理。这在处理大规模数据集时非常有用。然而，当我们尝试将批量策略从SingleRecord切换到MultiRec
计算机毕业设计 ——jspssm508Springboot 的旅游管理奔强的程序课程设计旅游
博主小档案：花花，一名来自世界500强的资深程序猿，毕业于国内知名985高校。技术专长：花花在深度学习任务中展现出卓越的能力，包括但不限于java、python等技术。近年来，花花更是将触角延伸至AI领域，对于机器学习、自然语言处理、智能推荐等前沿技术都有独到的见解和实践经验。服务内容：1、提供科研入门辅导(主要是代码方面)2、代码部署3、定制化需求解决等4、期末考试复习计算机毕业设计——jsps
Crawl4AI：开源的网络爬虫和抓取工惟贤箬溪穷玩Ai github 开源 ai
crawl4ai是一个开源项目，旨在帮助用户爬取GitHub上与AI（人工智能）相关的内容。这些内容通常包括AI相关的开源项目、库、资源、论文、教程等。项目提供了一个爬虫工具，可以自动化地抓取并提取GitHub上与人工智能相关的资源。以下是对该项目的详细解读：1.项目概述crawl4ai是一个爬虫框架，专门用于从GitHub上抓取与AI相关的开源项目或仓库。这些仓库包括AI领域的机器学习、深度学习
智能投资组合再平衡策略优化 AGI大模型与大数据研究院 DeepSeek 人工智能 ai
文章标题智能投资组合再平衡策略优化文章关键词投资组合管理再平衡策略机器学习优化方法智能投资文章摘要本文深入探讨了智能投资组合再平衡策略的优化方法。首先，介绍了投资组合管理的基本概念及其在金融市场中的重要性。随后，本文详细阐述了再平衡策略的原理和目的，并探讨了如何通过机器学习来构建和优化智能投资组合模型。文章进一步提出了再平衡策略优化的分类和选择标准，并结合具体案例分析了优化策略的实施效果。通过本文
JVM StackMapTable 属性的作用及理解 lijingyao8206 jvm 字节码 Class文件 StackMapTable
在Java 6版本之后JVM引入了栈图(Stack Map Table)概念。为了提高验证过程的效率，在字节码规范中添加了Stack Map Table属性，以下简称栈图，其方法的code属性中存储了局部变量和操作数的类型验证以及字节码的偏移量。也就是一个method需要且仅对应一个Stack Map Table。在Java 7版
回调函数调用方法百合不是茶 java
最近在看大神写的代码时,.发现其中使用了很多的回调 ,以前只是在学习的时候经常用到 ,现在写个笔记记录一下代码很简单: MainDemo :调用方法得到方法的返回结果
[时间机器]制造时间机器需要一些材料 comsci 制造
根据我的计算和推测,要完全实现制造一台时间机器,需要某些我们这个世界不存在的物质和材料... 甚至可以这样说,这种材料和物质,我们在反应堆中也无法获得......
开口埋怨不如闭口做事邓集海邓集海做人做事工作
“开口埋怨，不如闭口做事。”不是名人名言，而是一个普通父亲对儿子的训导。但是，因为这句训导，这位普通父亲却造就了一个名人儿子。这位普通父亲造就的名人儿子，叫张明正。　　　　张明正出身贫寒，读书时成绩差，常挨老师批评。高中毕业，张明正连普通大学的分数线都没上。高考成绩出来后，平时开口怨这怨那的张明正，不从自身找原因，而是不停地埋怨自己家庭条件不好、埋怨父母没有给他创造良好的学习环境。　　　　
jQuery插件开发全解析，类级别与对象级别开发 IT独行者 jquery 开发插件　函数
jQuery插件的开发包括两种：一种是类级别的插件开发，即给 jQuery添加新的全局函数，相当于给 jQuery类本身添加方法。 jQuery的全局函数就是属于 jQuery命名空间的函数，另一种是对象级别的插件开发，即给 jQuery对象添加方法。下面就两种函数的开发做详细的说明。 1 、类级别的插件开发类级别的插件开发最直接的理解就是给jQuer
Rome解析Rss 413277409 Rome解析Rss
import java.net.URL; import java.util.List; import org.junit.Test; import com.sun.syndication.feed.synd.SyndCategory; import com.sun.syndication.feed.synd.S
RSA加密解密无量加密解密 rsa
RSA加密解密代码代码有待整理 package com.tongbanjie.commons.util; import java.security.Key; import java.security.KeyFactory; import java.security.KeyPair; import java.security.KeyPairGenerat
linux 软件安装遇到的问题 aichenglong linux 遇到的问题 ftp
1 ftp配置中遇到的问题 500 OOPS: cannot change directory 出现该问题的原因:是SELinux安装机制的问题.只要disable SELinux就可以了修改方法:1 修改/etc/selinux/config 中SELINUX=disabled 2 source /etc
面试心得 alafqq 面试
最近面试了好几家公司。记录下；支付宝，面试我的人胖胖的，看着人挺好的；博彦外包的职位，面试失败；阿里金融，面试官人也挺和善，只不过我让他吐血了。。。由于印象比较深，记录下； 1，自我介绍 2，说下八种基本类型；（算上string。楼主才答了3种，哈哈，string其实不是基本类型，是引用类型） 3，什么是包装类，包装类的优点； 4，平时看过什么书？NND，什么书都没看过。。照样
java的多态性探讨百合不是茶 java
java的多态性是指main方法在调用属性的时候类可以对这一属性做出反应的情况 //package 1; class A{ public void test(){ System.out.println("A"); } } class D extends A{ public void test(){ S
网络编程基础篇之JavaScript-学习笔记 bijian1013 JavaScript
1.documentWrite <html> <head> <script language="JavaScript"> document.write("这是电脑网络学校"); document.close(); </script> </h
探索JUnit4扩展：深入Rule bijian1013 JUnit Rule 单元测试
本文将进一步探究Rule的应用，展示如何使用Rule来替代@BeforeClass，@AfterClass，@Before和@After的功能。在上一篇中提到，可以使用Rule替代现有的大部分Runner扩展，而且也不提倡对Runner中的withBefores()，withAfte
[CSS]CSS浮动十五条规则 bit1129 css
这些浮动规则，主要是参考CSS权威指南关于浮动规则的总结，然后添加一些简单的例子以验证和理解这些规则。 1. 所有的页面元素都可以浮动 2. 一个元素浮动后，会成为块级元素，比如<span>,a, strong等都会变成块级元素 3.一个元素左浮动，会向最近的块级父元素的左上角移动，直到浮动元素的左外边界碰到块级父元素的左内边界；如果这个块级父元素已经有浮动元素停靠了
【Kafka六】Kafka Producer和Consumer多Broker、多Partition场景 bit1129 partition
0.Kafka服务器配置 3个broker 1个topic，6个partition，副本因子是2 2个consumer，每个consumer三个线程并发读取 1. Producer package kafka.examples.multibrokers.producers; import java.util.Properties; import java.util.
zabbix_agentd.conf配置文件详解 ronin47 zabbix 配置文件
Aliaskey的别名，例如 Alias=ttlsa.userid:vfs.file.regexp[/etc/passwd,^ttlsa:.:([0-9]+),,,,\1]，或者ttlsa的用户ID。你可以使用key：vfs.file.regexp[/etc/passwd,^ttlsa:.: ([0-9]+),,,,\1]，也可以使用ttlsa.userid。备注: 别名不能重复，但是可以有多个
java--19.用矩阵求Fibonacci数列的第N项 bylijinnan fibonacci
参考了网上的思路，写了个Java版的： public class Fibonacci { final static int[] A={1,1,1,0}; public static void main(String[] args) { int n=7; for(int i=0;i<=n;i++){ int f=fibonac
Netty源码学习-LengthFieldBasedFrameDecoder bylijinnan java netty
先看看LengthFieldBasedFrameDecoder的官方API http://docs.jboss.org/netty/3.1/api/org/jboss/netty/handler/codec/frame/LengthFieldBasedFrameDecoder.html API举例说明了LengthFieldBasedFrameDecoder的解析机制，如下：实
AES加密解密 chicony 加密解密
AES加解密算法，使用Base64做转码以及辅助加密： package com.wintv.common; import javax.crypto.Cipher; import javax.crypto.spec.IvParameterSpec; import javax.crypto.spec.SecretKeySpec; import sun.misc.BASE64Decod
文件编码格式转换 ctrain 编码格式
package com.test; import java.io.File; import java.io.FileInputStream; import java.io.FileOutputStream; import java.io.IOException; import java.io.InputStream; import java.io.OutputStream;
mysql 在linux客户端插入数据中文乱码 daizj mysql 中文乱码
1、查看系统客户端，数据库，连接层的编码查看方法： http://daizj.iteye.com/blog/2174993 进入mysql，通过如下命令查看数据库编码方式： mysql> show variables like 'character_set_%'; +--------------------------+------
好代码是廉价的代码 dcj3sjt126com 程序员读书
长久以来我一直主张：好代码是廉价的代码。当我跟做开发的同事说出这话时，他们的第一反应是一种惊愕，然后是将近一个星期的嘲笑，把它当作一个笑话来讲。当他们走近看我的表情、知道我是认真的时，才收敛一点。当最初的惊愕消退后，他们会用一些这样的话来反驳： “好代码不廉价，好代码是采用经过数十年计算机科学研究和积累得出的最佳实践设计模式和方法论建立起来的精心制作的程序代码。” 我只
Android网络请求库——android-async-http dcj3sjt126com android
在iOS开发中有大名鼎鼎的ASIHttpRequest库，用来处理网络请求操作，今天要介绍的是一个在Android上同样强大的网络请求库android-async-http，目前非常火的应用Instagram和Pinterest的Android版就是用的这个网络请求库。这个网络请求库是基于Apache HttpClient库之上的一个异步网络请求处理库，网络处理均基于Android的非UI线程，通
ORACLE 复习笔记之SQL语句的优化 eksliang SQL优化 Oracle sql语句优化 SQL语句的优化
转载请出自出处：http://eksliang.iteye.com/blog/2097999 SQL语句的优化总结如下 sql语句的优化可以按照如下六个步骤进行：合理使用索引避免或者简化排序消除对大表的扫描避免复杂的通配符匹配调整子查询的性能 EXISTS和IN运算符下面我就按照上面这六个步骤分别进行总结：
浅析：Android 嵌套滑动机制（NestedScrolling） gg163 android 移动开发滑动机制嵌套
谷歌在发布安卓 Lollipop版本之后，为了更好的用户体验，Google为Android的滑动机制提供了NestedScrolling特性 NestedScrolling的特性可以体现在哪里呢？ 比如你使用了Toolbar，下面一个ScrollView，向上滚
使用hovertree菜单作为后台导航 hvt JavaScript jquery .net hovertree asp.net
hovertree是一个jquery菜单插件，官方网址：http://keleyi.com/jq/hovertree/ ，可以登录该网址体验效果。 0.1.3版本：http://keleyi.com/jq/hovertree/demo/demo.0.1.3.htm hovertree插件包含文件： http://keleyi.com/jq/hovertree/css
SVG 教程（二）矩形天梯梦 svg
SVG <rect> SVG Shapes SVG有一些预定义的形状元素，可被开发者使用和操作：矩形 <rect> 圆形 <circle> 椭圆 <ellipse> 线 <line> 折线 <polyline> 多边形 <polygon> 路径 <path>
一个简单的队列 luyulong java 数据结构队列
public class MyQueue { private long[] arr; private int front; private int end; // 有效数据的大小 private int elements; public MyQueue() { arr = new long[10]; elements = 0; front
基础数据结构和算法九：Binary Search Tree sunwinner Algorithm
A binary search tree (BST) is a binary tree where each node has a Comparable key (and an associated value) and satisfies the restriction that the key in any node is larger than the keys in all
项目出现的一些问题和体会 Steven-Walker DAO Web servlet
第一篇博客不知道要写点什么，就先来点近阶段的感悟吧。这几天学了servlet和数据库等知识，就参照老方的视频写了一个简单的增删改查的，完成了最简单的一些功能，使用了三层架构。 dao层完成的是对数据库具体的功能实现，service层调用了dao层的实现方法，具体对servlet提供支持。 &
高手问答：Java老A带你全面提升Java单兵作战能力！ ITeye管理员 java
本期特邀《Java特种兵》作者：谢宇，CSDN论坛ID: xieyuooo 针对JAVA问题给予大家解答，欢迎网友积极提问，与专家一起讨论! 作者简介：淘宝网资深Java工程师，CSDN超人气博主，人称“胖哥”。 CSDN博客地址： http://blog.csdn.net/xieyuooo 作者在进入大学前是一个不折不扣的计算机白痴，曾经被人笑话过不懂鼠标是什么，