O&REO

机器学习初学-多种集成学习算法

数据集Bank Customer | Kaggle

通常基于决策树算法基础之上，通过数据集的随机生成，训练出各种各样不同的树。而随机森林还在树分叉时，增加了对特征选择的随机性。随机森林在很多问题上都是一个很强的算法，可以作为一个基准。如果你们的算法能胜过随机森林，就很棒。

■Boosting算法

把梯度下降的思想应用在机器学习算法的优化上，使弱模型对数据的拟合逐渐增强。Boosting也常应用于决策树算法之上。这个思路中的Ada Boost、GBDT和XGBoost都是很受欢迎的算法。

■Stacking和Blending算法

用模型的预测结果，作为新模型的训练集。Stacking中使用了K折验证。

■Voting和Averaging算法

把几种不同模型的预测结果，做投票或者平均（或加权平均），得到新的预测结果。

■偏差和方差它们是机器学习性能优化的风向标。弱模型的偏差很大，但是模型性能提高后，一旦过拟合，就会因为太依赖原始数据集而在其他数据集上产生高方差。

低偏差和低方差，是我们希望达到的效果，然而一般来说，偏差与方差是鱼与熊掌不可兼得的，这被称作偏差-方差窘境（bias-variance dilemma）。
■给定一个学习任务，在训练的初期，模型对训练集的拟合还未完善，能力不够强，偏差也就比较大。正是由于拟合能力不强，数据集的扰动是无法使模型的效率产生显著变化的—此时模型处于欠拟合的状态，把模型应用于训练集数据，会出现高偏差。
■随着训练的次数增多，模型的调整优化，其拟合能力越来越强，此时训练数据的扰动也会对模型产生影响。
■当充分训练之后，模型已经完全拟合了训练集数据，此时数据的轻微扰动都会导致模型发生显著变化。当训练好的模型应用于测试集，并不一定得到好的效果—此时模型应用于不同的数据集，会出现高方差，也就是过拟合的状态。

机器学习性能优化领域的最核心问题，就是不断地探求欠拟合-过拟合之间，也就是偏差-方差之间的最佳平衡点，也是训练集优化和测试集泛化的平衡点。

在训练初期，当模型很弱的时候，测试集和训练集上，损失都大。这时候需要调试的是机器学习的模型，或者甚至选择更好算法。这是在降低偏差。
在模型或者算法被优化之后，损失曲线逐渐收敛。但是过了一段时间之后，发现损失在训练集上越来越小，然而在测试集上逐渐变大。此时要集中精力降低方差。
因此，机器学习的性能优化是有顺序的，一般是先降低偏差，再聚焦于降低方差。

■Bagging算法，通常基于决策树算法基础之上，通过数据集的随机生成，训练出各种各样不同的树。而随机森林还在树分叉时，增加了对特征选择的随机性。随机森林在很多问题上都是一个很强的算法，可以作为一个基准。如果你们的算法能胜过随机森林，就很棒。

Bagging是我们要讲的第一种集成学习算法，是Bootstrap Aggregating的缩写。有人把它翻译为套袋法、装袋法，或者自助聚合，没有统一的叫法，就直接用它的英文名称。其算法的基本思想是从原始的数据集中抽取数据，形成K个随机的新训练集，然后训练出K个不同的模型。具体过程如下。

（1）从原始样本集中通过随机抽取形成K个训练集：每轮抽取n个训练样本（有些样本可能被多次抽取，而有些样本可能一次都没有被抽取，这叫作有放回的抽取）。这K个训练集是彼此独立的—这个过程也叫作bootstrap（可译为自举或自助采样），它有点像K折验证，但不同之处是其样本是有放回的。

（2）每次使用一个训练集通过相同的机器学习算法（如决策树、神经网络等）得到一个模型，K个训练集共得到K个模型。我们把这些模型称为基模型（base estimator），或者基学习器。
基模型的集成有以下两种情况。
■对于分类问题，K个模型采用投票的方式得到分类结果。
■对于回归问题，计算K个模型的均值作为最后的结果。

在Sklearn的集成学习库中，有BaggingClassifier和BaggingRegressor这两种Bagging模型，分别适用于分类问题和回归问题。

import numpy as np #导入Num Py库 
import pandas as pd #导入Pandas库 
df_bank = pd.read_csv("/kaggle/input/bank-customer/BankCustomer.csv") # 读取文件 
df_bank.head() # 显示文件前5行数据
df_bank['Gender'].replace("Female", 0, inplace = True) 
df_bank['Gender'].replace("Male", 1, inplace=True) 
 # 把多元类别转换成多个二元类别哑变量, 然后放回原始数据集 
d_city = pd.get_dummies(df_bank['City'], prefix = "City") 
df_bank = [df_bank, d_city] 
df_bank = pd.concat(df_bank, axis = 1) 
#df_bank是一个DataFrame对象，通过 pd.concat(df_bank, axis=1)表示将df_bank中的列按照水平方向进行连接，并返回一个新的DataFrame对象
 # 构建特征和标签集合 
y = df_bank ['Exited'] 
X = df_bank.drop(['Name', 'Exited', 'City'], axis=1) 
 X.head() #显示新的特征集
from sklearn.model_selection import train_test_split #拆分数据集 
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)

使用BaggingRegressor+决策树

# 对多棵决策树进行聚合(Bagging) 
from sklearn.ensemble import BaggingClassifier #导入Bagging分类器 
from sklearn.tree import DecisionTreeClassifier #导入决策树分类器 
from sklearn.metrics import (f1_score, confusion_matrix) # 导入评估指标

对比在仅使用一个决策树的情况下和 树的Bagging 的情况下的准确率和F1分数

dt = BaggingClassifier(DecisionTreeClassifier()) # 只使用一棵决策树 
dt.fit(X_train, y_train) # 拟合模型
y_pred = dt.predict(X_test)# 进行预测 
print("决策树测试准确率: {:.2f}%".format(dt.score(X_test, y_test)*100)) 
print("决策树测试F1分数: {:.2f}%".format(f1_score(y_test, y_pred)*100)) 

bdt = BaggingClassifier(DecisionTreeClassifier()) #树的Bagging 
bdt.fit(X_train, y_train)# 拟合模型 
y_pred = bdt.predict(X_test) # 进行预测 
print("决策树Bagging测试准确率: {:.2f}%".format(bdt.score(X_test, y_test)*100)) 
print("决策树Bagging测试F1分数: {:.2f}%".format(f1_score(y_test, y_pred)*100))

在这里比较了只使用一棵决策树和经过Bagging之后的树这两种算法的预测效果，可以看到决策树Bagging的准确率及F1分数明显占优势。在没有调参的情况下，其验证集的F1分数达到57.47%。当然，因为Bagging过程的随机性，每次测试的分数都稍有不同。

如果使用决策树+Bagging+网格搜索来进行超参调优

from sklearn.model_selection import GridSearchCV  # 导入网格搜索工具

bdt_param_grid = {
    'estimator__max_depth': [5, 10, 20, 50, 100],  # 决策树最大深度的候选值
    'n_estimators': [1, 5, 10, 50]  # 集成模型中决策树的数量的候选值
}

# 创建一个使用网格搜索的Bagging分类器模型
bdt_gs = GridSearchCV(
    BaggingClassifier(DecisionTreeClassifier()),  # 使用决策树作为基分类器的Bagging模型
    param_grid=bdt_param_grid,  # 参数网格
    scoring='f1',  # 使用F1分数作为评估指标
    n_jobs=10,  # 并行运行的作业数量n_jobs参数指定并行运行的作业数量。在机器学习和数据处理中，一些算法和工具支持并行计算，通过同时在多个处理器核心或线程上执行任务，可以加快任务的完成速度
    verbose=1  # 输出详细信息
)

bdt_gs.fit(X_train, y_train)  # 拟合模型
bdt_gs = bdt_gs.best_estimator_  # 最佳模型

y_pred = bdt.predict(X_test)  # 进行预测

print("决策树Bagging测试准确率: {:.2f}%".format(bdt_gs.score(X_test, y_test)*100))
print("决策树Bagging测试F1分数: {:.2f}%".format(f1_score(y_test, y_pred)*100))

测试准确率提升1%左右

准确率为何会提升？其中的关键正是降低了模型的方差，增加了泛化能力。因为每一棵树都是在原始数据集的不同子集上进行训练的，这是以偏差的小幅增加为代价的，但是最终的模型应用于测试集后，性能会大幅提升。

当我们说到集成学习，最关键的一点是各个基模型的相关度要小，差异性要大。异质性越强，集成的效果越好。两个准确率为99%的模型，如果其预测结果都一致，也就没有提高的余地了。那么对树的集成，关键在于这些树里面每棵树的差异性是否够大。

在树的聚合中，每一次树分叉时，都会遍历所有的特征，找到最佳的分支方案。而随机森林在此算法基础上的改善就是在树分叉时，增加了对特征选择的随机性，而并不总是考量全部的特征。这个小小的改进，就在较大程度上进一步提高了各棵树的差异。

在决策树算法中，m代表在树的分叉过程中选择用于划分的特征数量。每次分叉时，决策树算法会从可用的特征集合中选择m个特征，并基于这些特征进行划分。通过选择不同的m值，可以控制决策树的分支数和模型的复杂度。

对于分类问题，一种常见的规则是将m设置为特征数的平方根。例如，如果有36个特征，那么m大约为6。这个规则的意义在于平衡模型的复杂度和效果。选择较小的m值可以限制每次分叉的特征数量，防止决策树过于深度和复杂，从而避免过拟合的问题。

对于回归问题，另一种常见的规则是将m设置为特征数的1/3。例如，如果有36个特征，那么m大约为12。与分类问题类似，选择较小的m值可以限制模型的复杂度，防止过度拟合。

具体来说，随机森林在每次分叉时，会随机选择一个小于或等于总特征数的m值作为每个决策树的特征子集大小。这个m值是在训练过程中自动调整的，并且可以防止每个决策树过于依赖于特定的特征，增加了模型的鲁棒性和泛化能力。

在大多数实现中，随机森林默认的m取值规则为：

对于分类问题，默认情况下，m被设置为特征数的平方根。
对于回归问题，默认情况下，m被设置为特征数的1/3。

在Sklearn的集成学习库中，也有RandomForestClassifier和RandomForestRegressor两种随机森林模型，分别适用于分类问题和回归问题。

下面用随机森林算法+网格搜索解决同样的问题，看一下预测效率：

from sklearn.ensemble import RandomForestClassifier  # 导入随机森林模型
from sklearn.model_selection import GridSearchCV   # 导入网格搜索函数
from sklearn.metrics import f1_score   # 导入F1分数评估函数

rf = RandomForestClassifier()  # 实例化一个随机森林模型

# 定义要优化的参数网格
rf_param_grid = {
    "max_depth": [None],  # 决策树的最大深度，None表示不限制
    "max_features": [1, 3, 10],  # 每棵决策树的最大特征数
    "min_samples_split": [2, 3, 10],  # 分裂一个节点所需的最小样本数
    "min_samples_leaf": [1, 3, 10],  # 每个叶子节点所需的最小样本数
    "bootstrap": [True, False],  # 是否使用自助法（bootstrap sampling）在随机森林模型中，如果 "bootstrap" 参数设置为 True，表示使用自助法进行采样。每个决策树将会根据这个训练数据集进行训练，从而构建一个随机森林模型。如果 "bootstrap" 参数设置为 False，表示不使用自助法进行采样，即每个决策树的训练数据集将是从原始数据集中无放回地抽样得到的一个子集。这会导致不同决策树之间的训练数据集没有重叠，一些样本可能在某些决策树的训练中没有出现。
    "n_estimators": [100, 300],  # 决策树的数量
    "criterion": ["gini"]  # 划分标准（衡量不纯度的指标）
}

rf_gs = GridSearchCV(rf, param_grid=rf_param_grid, scoring="f1", n_jobs=10, verbose=1)
# 使用网格搜索函数，传入随机森林模型 rf、参数网格 rf_param_grid、评分指标 "f1"，
# n_jobs 是并行运行的作业数，verbose=1 打印更详细的执行过程

rf_gs.fit(X_train, y_train)  # 使用训练数据集进行模型训练

rf_gs = rf_gs.best_estimator_  # 获取网格搜索后得到的最佳模型

y_pred = rf_gs.predict(X_test)  # 使用最佳模型进行预测

accuracy = rf_gs.score(X_test, y_test) * 100  # 计算最佳模型在测试集上的准确率
f1 = f1_score(y_test, y_pred) * 100  # 计算最佳模型在测试集上的F1分数

print("随机森林测试准确率: {:.2f}%".format(accuracy))
print("随机森林测试F1分数: {:.2f}%".format(f1))

经历很长一段时间的训练后

准确率低0.25%但F1高2%左右，可见随机森林比数的聚合效果略好

从树的聚合到随机森林，增加了树生成过程中的随机性，降低了方差。顺着这个思路更进一步，就形成了另一个算法叫作极端随机森林，也叫更多树（extra tree）可以加快运算效率。仅需更换随机森林模型为ExtraTreesClassifier其他照旧。

from sklearn.ensemble import ExtraTreesClassifier# 导入极端随机森林模型 
rf = ExtraTreesClassifier() # 极端随机森林模型

前面说过，随机森林算法在树分叉时会随机选取m个特征作为考量，对于每一次分叉，它还是会遍历所有的分支，然后选择基于这些特征的最优分支。这本质上仍属于贪心算法（GreedyAlgorithm），即在每一步选择中都采取在当前状态下最优的选择。而极端随机森林算法一点也不“贪心”，它甚至不去考量所有的分支，而是随机选择一些分支，从中拿到一个最优解。

关于随机森林和极端随机森林算法的性能，有以下几点需要注意。
（1）随机森林算法在绝大多数情况下是优于极端随机森林算法的。
（2）极端随机森林算法不需要考虑所有分支的可能性，所以它的运算效率往往要高于随机森林算法，也就是说速度比较快。
（3）对于某些数据集，极端随机森林算法可能拥有更强的泛化功能。但是很难知道具体什么情况下会出现这样的结果，因此不妨各种算法都试试。

刚才的示例代码使用的都是上述算法的分类器版本。咱们再用一个实例来比较决策树、树的聚合、随机森林，以及极端随机森林在处理回归问题上的优劣。
处理回归问题要选择各种工具的Regressor（回归器）版本，而不是Classifier（分类器）。
这个示例是从Yury Kashnitsky发布在Kaggle上的一个Notebook的基础上修改后形成的，其中展示了4种树模型拟合一个随机函数曲线（含有噪声）的情况，其目的是比较4种算法中哪一种对原始函数曲线的拟合效果最好。

# 导入所需的库
import numpy as np
import pandas as pd
from matplotlib import pyplot as plt
from sklearn.ensemble import RandomForestRegressor, BaggingRegressor, ExtraTreesRegressor
from sklearn.tree import DecisionTreeRegressor

# 生成需要拟合的数据点—多次函数曲线
def compute(x):
    return 1.5 * np.exp(-x ** 2) + 1.1 * np.exp(-(x - 2) ** 2)

# 将一维数组转为扁平化的一维数组
def f(x):
    x = x.ravel()
    return compute(x)

# 生成训练集和测试集
def generate(n_samples, noise):
    X = np.random.rand(n_samples) * 10 - 4
    X = np.sort(X).ravel()
    y = compute(X) + np.random.normal(0.0, noise, n_samples)
    X = X.reshape((n_samples, 1))
    return X, y

# 生成训练集和测试集数据
X_train, y_train = generate(250, 0.15)
X_test, y_test = generate(500, 0.15)

# 用决策树回归模型拟合
dtree = DecisionTreeRegressor().fit(X_train, y_train)
d_predict = dtree.predict(X_test)

# 创建一个图表
plt.figure(figsize=(20, 12))

# 绘制第一个子图，决策树回归模型的拟合结果
plt.subplot(2, 2, 1)
plt.plot(X_test, f(X_test), "c")
plt.scatter(X_train, y_train, c="c", s=20)
plt.plot(X_test, d_predict, "g", lw=2)
plt.title("Decision Tree, MSE = %.2f" % np.sum((y_test - d_predict) ** 2))

# 用树的聚合回归模型拟合
bdt = BaggingRegressor(DecisionTreeRegressor()).fit(X_train, y_train)
bdt_predict = bdt.predict(X_test)

# 绘制第二个子图，树的聚合回归模型的拟合结果
plt.subplot(2, 2, 2)
plt.plot(X_test, f(X_test), "b")
plt.scatter(X_train, y_train, c="b", s=20)
plt.plot(X_test, bdt_predict, "y", lw=2)
plt.title("Bagging for Trees, MSE = %.2f" % np.sum((y_test - bdt_predict) ** 2))

# 用随机森林回归模型拟合
rf = RandomForestRegressor(n_estimators=10).fit(X_train, y_train)
rf_predict = rf.predict(X_test)

# 绘制第三个子图，随机森林回归模型的拟合结果
plt.subplot(2, 2, 3)
plt.plot(X_test, f(X_test), "b")
plt.scatter(X_train, y_train, c="b", s=20)
plt.plot(X_test, rf_predict, "r", lw=2)
plt.title("Random Forest, MSE = %.2f" % np.sum((y_test - rf_predict) ** 2))

# 用极端随机森林回归模型拟合
et = ExtraTreesRegressor(n_estimators=10).fit(X_train, y_train)
et_predict = et.predict(X_test)

# 绘制第四个子图，极端随机森林
plt.subplot(2, 2, 4) 
plt.plot(X_test, f(X_test), "b") 
plt.scatter(X_train, y_train, c="b", s=20) 
plt.plot(X_test, et_predict, "purple", lw=2) 
plt.title("Extra Trees, MSE = %.2f" % np.sum((y_test - et_predict) ** 2));

曲线越平滑过拟合越小，越贴近原函数可见随机森林和决策树使用Bagging聚合表现较好

对于后3种集成学习算法，每次训练得到的均方误差都是不同的，因为算法内部均含有随机成分。经过集成学习后，较之单棵决策树，3种集成学习算法都显著地降低了在测试集上的均方误差。

■Boosting算法，把梯度下降的思想应用在机器学习算法的优化上，使弱模型对数据的拟合逐渐增强。Boosting也常应用于决策树算法之上。这个思路中的Ada Boost、GBDT和XGBoost都是很受欢迎的算法。

Boosting的基本思路是逐步优化模型。这与Bagging不同。Bagging是独立地生成很多不同的模型并对预测结果进行集成。

Boosting则是持续地通过新模型来优化同一个基模型，每一个新的弱模型加入进来的时候，就在原有模型的基础上整合新模型，从而形成新的基模型。而对新的基模型的训练，将一直聚集于之前模型的误差点，也就是原模型预测出错的样本（而不是像Bagging那样随机选择样本），目标是不断减小模型的预测误差。

1.样本选择：Bagging算法是有放回的随机采样；而Boosting算法是每一轮训练集不变，只是训练集中的每个样例在分类器中的权重发生变化，而权重根据上一轮的分类结果进行调整。

2.样例权重：Bagging使用随机抽样，样例的权重；而Boosting根据错误率不断的调整样例的权重值，错误率越大则权重越大。

3.预测函数：Bagging所有预测模型的权重相等；而Boosting算法对于误差小的分类器具有更大的权重。

4.并行计算：Bagging算法可以并行生成各个基模型；而Boosting理论上只能顺序生产，因为后一个模型需要前一个模型的结果。

5.Bagging是减少模型的variance(方差)；而Boosting是减少模型的Bias(偏度)。

6.Bagging里每个分类模型都是强分类器，因为降低的是方差，方差过高需要降低是过拟合。而Boosting里每个分类模型都是弱分类器，因为降低的是偏度，偏度过高是欠拟合。

Boosting是如何实现自我优化的呢？有以下两个关键步骤：
（1）数据集的拆分过程—Boosting和Bagging的思路不同。Bagging是随机抽取，而Boosting是在每一轮中有针对性的改变训练数据。具体方法包括：增大在前一轮被弱分类器分错的样本的权重或被选取的概率，或者减小前一轮被弱分类器分对的样本的权重或被选取的概率。通过这样的方法确保被误分类的样本在后续训练中受到更多的关注。
（2）集成弱模型的方法—也有多种选择。可通过加法模型将弱分类器进行线性组合，比如Ada Boost的加权多数表决，即增大错误率较小的分类器的权重，同时减小错误率较大的分类器的权重。而梯度提升决策树不是直接组合弱模型，而是通过类似梯度下降的方式逐步减小损失，将每一步生成的模型叠加得到最终模型。

从这个概念开始，让我们继续了解Boosting是如何在此基础上发展的。其中一些近年来已被用于在 Kaggle比赛中获得出色的表现！

实战中的Boosting算法，有Ada Boost、梯度提升决策树（GBDT），以及XGBoost等。这些算法都包含了Boosting提升的思想。也就是说，每一个新模型的生成都是建立在上一个模型的基础之上，具体细节则各有不同。

AdaBoost

该算法的基础是Boosting的主要核心：给予错误分类的观测值更多的权重。

特别是，AdaBoost 代表adaptive——自适应提升，意味着元学习器根据弱分类器的结果进行调整，为最后一个弱学习器的错误分类观察赋予更多权重。

Ada Boost是给不同的样本分配不同的权重，被分错的样本的权重在Boosting过程中会增大，新模型会因此更加关注这些被分错的样本，反之，正确样本的权重会减小。然后，将修改过权重的新数据集输入下层模型进行训练，最后将每次得到的基模型组合起来，也根据其分类错误率对模型赋予权重，集成为最终的模型。

注意带圆圈的 + 和 - 符号：如果分类错误，它们会增加，否则如果分类正确，它们会减少。

from sklearn.ensemble import AdaBoostClassifier  # 导入Ada Boost模型 
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import GridSearchCV  # 导入网格搜索工具

dt = DecisionTreeClassifier()  # 选择决策树分类器作为Ada Boost的基准算法 
ada = AdaBoostClassifier(base_estimator=dt)  # Ada Boost模型 

# 使用网格搜索优化参数 
ada_param_grid = {
    "base_estimator__criterion": ["gini", "entropy"],
    "base_estimator__splitter": ["best", "random"],
    "base_estimator__random_state": [7, 9, 10, 12, 15],
    "algorithm": ["SAMME", "SAMME.R"],
    "n_estimators": [1, 2, 5, 10],
    "learning_rate": [0.0001, 0.001, 0.01, 0.1, 0.2, 0.3, 1.5]
} 

ada_gs = GridSearchCV(ada, param_grid=ada_param_grid, scoring="f1", n_jobs=10, verbose=1) 
ada_gs.fit(X_train, y_train)  # 拟合模型
ada_gs = ada_gs.best_estimator_  # 获取最佳模型 
y_pred = ada_gs.predict(X_test)  # 进行预测 

print("Ada Boost测试准确率: {:.2f}%".format(ada_gs.score(X_test, y_test) * 100)) 
print("Ada Boost测试F1分数: {:.2f}%".format(f1_score(y_test, y_pred) * 100))

述代码通过网格搜索来优化AdaBoost模型的参数。以下是参数优化的解释：

base_estimator__criterion: 决策树分类器的评判标准，可选值为"gini"和"entropy"。
base_estimator__splitter: 决策树分类器的分裂策略，可选值为"best"和"random"。
base_estimator__random_state: 决策树分类器的随机种子，用于控制每次训练时的随机性。
algorithm: Ada Boost算法的类型，可选值为"SAMME"和"SAMME.R"。"SAMME"在每个分类器的权重更新中使用等同权重，"SAMME.R"使用预测概率进行权重更新。
n_estimators: Ada Boost模型中的基础分类器数量。
learning_rate: 每个基础分类器的贡献权重，控制着每个基础分类器的重要性。

目前最差结果

GBDT

梯度提升（GrandingBoosting）算法是梯度下降和Boosting这两种算法结合的产物。因为常见的梯度提升都是基于决策树的，有时就直接叫作GBDT，即梯度提升决策树（GrandingBoosting DecisionTree)。

不同于Ada Boost只是对样本进行加权，GBDT算法中还会定义一个损失函数，并对损失和机器学习模型所形成的函数进行求导，每次生成的模型都是沿着前面模型的负梯度方向（一阶导数）进行优化，直到发现全局最优解。

也就是说，GBDT的每一次迭代中，新的树所学习的内容是之前所有树的结论和损失，对其拟合得到一个当前的树，这棵新的树就相当于是之前每一棵树效果的累加。

梯度提升算法，对于回归问题，目前被认为是最优算法之一。

from sklearn.ensemble import GradientBoostingClassifier  # 导入梯度提升模型 
gb = GradientBoostingClassifier()  # 梯度提升模型

# 使用网格搜索优化参数 
gb_param_grid = {
    'loss': ["log_loss"],  # 损失函数选择为"deviance"，对应梯度提升分类器的交叉熵损失
    'n_estimators': [100, 200, 300],  # 基础模型数量
    'learning_rate': [0.1, 0.05, 0.01],  # 学习率，控制每个基础模型的贡献程度
    'max_depth': [4, 8],  # 每个基础模型的最大深度
    'min_samples_leaf': [100, 150],  # 每个叶子节点的最小样本数，避免过拟合
    'max_features': [0.3, 0.1]  # 每个基础模型的特征采样比例，用于进一步随机化模型
} 

gb_gs = GridSearchCV(gb, param_grid=gb_param_grid, scoring="f1", n_jobs=10, verbose=1) 
gb_gs.fit(X_train, y_train)  # 拟合模型 
gb_gs = gb_gs.best_estimator_  # 获取最佳模型 
y_pred = gb_gs.predict(X_test)  # 进行预测 

print("梯度提升测试准确率: {:.2f}%".format(gb_gs.score(X_test, y_test) * 100)) 
print("梯度提升测试F1分数: {:.2f}%".format(f1_score(y_test, y_pred) * 100))

目前最优结果

XGB

极端梯度提升（e Xtreme Gradient Boosting，XGBoost，有时候也直接叫作XGB）和GBDT类似，也会定义一个损失函数。不同于GBDT只用到一阶导数信息，XGBoost会利用泰勒展开式把损失函数展开到二阶后求导，利用了二阶导数信息，这样在训练集上的收敛会更快。

仅需更换GradientBoostingClassifier为XGBClassifier即可

from xgboost import XGBClassifier # 导入XGB模型 
gb = XGBClassifier() # XGB模型”

结果和GBDT效果相差不到0.5%

XGBoost（eXtreme Gradient Boosting）和GBDT（Gradient Boosting Decision Trees）都属于梯度提升算法的变体，它们在性能和适用情况上有一些区别。

1. 性能：

速度和扩展性：XGBoost相对于GBDT有更好的性能表现。XGBoost采用了一些优化技术，如按特征分块并行处理、近似直方图算法等，从而在处理大规模数据时具有更高的速度和更好的扩展性。

准确率：通常情况下，XGBoost和GBDT在准确率上没有显著的差异。它们都能够处理分类和回归任务，并且具有较强的泛化能力。

2. 适用情况：

数据规模：如果你的数据集规模较小（例如几千到几万的样本），并且对模型的准确性要求较高，那么使用GBDT可能是一个不错的选择。GBDT能够对数据进行更精细的拟合，并且其可解释性较好。

大规模数据：如果你的数据集规模较大（例如上百万甚至更多的样本），则XGBoost更适合。XGBoost通过并行处理和优化技术，可以高效地训练和预测大规模数据，而且通常能够获得与GBDT相近甚至更好的准确率。

特征维度：如果你的特征维度较高（即特征数量较多），XGBoost的处理能力可能更胜一筹。GBDT对高维数据的处理较为困难，容易出现维度灾难的问题。XGBoost则通过特征分块和稀疏特征优化等技术，能够更好地应对高维数据。

总之，XGBoost和GBDT都是强大的梯度提升算法，它们在性能和适用情况上有所区别。根据数据集的规模、维度和对模型性能的要求，选择适合的算法可以帮助获得更好的结果。

Bagging 就是在几乎不改变模型准确性的前提下尽可能减小模型的方差。因此 Bagging 中的基模型一定要为强模型，否则就会导致整体模型的偏差大，即准确度低。

Boosting 就是在几乎不改变模型方差的前提下减小模型的偏差。故 Boosting 中的基模型一定要为弱模型，否则就会导致整体模型的方差大（强模型容易过拟合，导致方差过大）。

在集成学习领域，通常将模型分为强模型（strong models）和弱模型（weak models）。强模型是指具有较高预测能力和复杂性的模型，而弱模型则是指预测能力较弱、复杂性较低的模型。

强模型：
1. 支持向量机（SVM）：SVM 是一种复杂的模型，对于高维数据和非线性问题的分类和回归表现出色。它可以通过适当的核函数处理复杂的决策边界。
2. 随机森林（Random Forest）：随机森林是一种基于决策树的集成学习方法，通过组合多个决策树模型来提高预测性能。它具有较强的泛化能力和鲁棒性。
3. 深度神经网络（Deep Neural Networks）：深度神经网络是一类复杂的神经网络模型，具有多层隐藏层，可以学习非常复杂的特征表示和模式。

弱模型：
1. 决策树（Decision Tree）：决策树是一种基本的分类和回归模型，根据特征的条件进行分支和决策。它相对简单，容易理解和解释，但在处理复杂问题时可能出现过拟合的情况。
2. 朴素贝叶斯分类器（Naive Bayes Classifier）：朴素贝叶斯分类器基于贝叶斯定理和特征之间的独立性假设，对分类问题进行建模。它是一种简单而有效的分类器，对于文本分类等任务常被使用。
3. K最近邻算法（K-Nearest Neighbors）：K最近邻算法是一种基于实例的学习方法，根据最近邻样本的标签进行分类。它简单易懂，但对于高维数据和大规模数据集可能计算开销较大。

需要注意的是，强模型和弱模型这一分类并非绝对，而是相对而言。有时候，一个模型在某些情况下可能是强模型，在另一些情况下可能是弱模型。此外，通过集成弱模型，可以形成强大的集成模型，提高整体的预测性能。

参考：

Bagging和Boosting区别 - 知乎

Bagging能降低方差的一种理解_为什么bagging模型(或者rf模型)能够降低方差_qq_41802245的博客-CSDN博客 Adaboost as a Classifier & Regressor - Medium

■Stacking和Blending算法，用模型的预测结果，作为新模型的训练集。Stacking中使用了K折验证。

集成学习分为两大类
■如果基模型都是通过一个基础算法生成的同类型的学习器，叫同质集成。
■有同质集成就有异质集成。异质集成，就是把不同类型的算法集成在一起。那么为了集成后的结果有好的表现，异质集成中的基模型要有足够大的差异性。

下面就是一些不同类型的模型之间相互集成的算法。

Stacking

先说异质集成中的Stacking（可译为堆叠）。其思路是，使用初始训练集学习若干个基模型之后，用这几个基模型的预测结果作为新的训练集的特征来训练新模型。Stacking算法的流程如下图所示。

基模型在异质类型中选择，如决策树、KNN、SVM或神经网络等，都可组合在一起。

（1）通常把训练集拆成K折（请大家回忆第1课中介绍过的K折验证）。

（2）利用K折验证的方法在其他K-1个fold上训练模型，在第K个fold上进行验证。

（3）这样训练K次之后，用训练好的模型对训练集整体进行最终训练，得到一个基模型。

（4）使用基模型预测训练集，得到对训练集的预测结果。

（5）使用基模型预测测试集，得到对测试集的预测结果。

（6）重复步骤（2）～（5），生成全部基模型和预测结果（比如CART、KNN、SVM以及神经网络，4组预测结果）。

（7）现在可以忘记训练集和测试集这两个数据集样本了。只需要用训练集预测结果作为新训练集的特征，测试集预测结果作为新测试集的特征去训练新模型。新模型的类型不必与基模型有关联。

from sklearn.model_selection import StratifiedKFold  # 导入K折验证工具

def Stacking(model, train, y, test, n_fold):
    folds = StratifiedKFold(n_splits=n_fold, random_state=1, shuffle=True)  # 使用K折交叉验证
    train_pred = np.empty((0, 1), float)  # 初始化一个空的训练预测结果数组
    test_pred = np.empty((0, 1), float)  # 初始化一个空的测试预测结果数组

    for train_indices, val_indices in folds.split(train, y.values):
        # 依次获取每次K折交叉验证的训练集和验证集的索引
        X_train, x_val = train.iloc[train_indices], train.iloc[val_indices]  # 根据索引获取训练集和验证集的数据
        y_train, y_val = y.iloc[train_indices], y.iloc[val_indices]  # 根据索引获取训练集和验证集的标签
        
        model.fit(X=X_train, y=y_train)  # 在训练集上训练模型
        train_pred = np.append(train_pred, model.predict(x_val))  # 对验证集进行预测并添加到训练预测结果数组中

    test_pred = np.append(test_pred, model.predict(test))  # 使用训练好的模型对测试集进行预测，并将结果添加到测试预测结果数组中
    
    return test_pred, train_pred  # 返回测试集的预测结果和训练集的预测结果


from sklearn.tree import DecisionTreeClassifier  # 导入决策树模型
model1 = DecisionTreeClassifier(random_state=1)  # 创建一个决策树模型对象，设置随机种子为1
test_pred1, train_pred1 = Stacking(model=model1, n_fold=10, train=X_train, test=X_test, y=y_train)  # 调用Stacking函数，使用决策树模型进行预测
train_pred1 = pd.DataFrame(train_pred1)  # 将训练集的预测结果转换为DataFrame格式
test_pred1 = pd.DataFrame(test_pred1)  # 将测试集的预测结果转换为DataFrame格式

from sklearn.neighbors import KNeighborsClassifier  # 导入KNN模型
model2 = KNeighborsClassifier()  # 创建一个KNN模型对象
test_pred2, train_pred2 = Stacking(model=model2, n_fold=10, train=X_train, test=X_test, y=y_train)  # 调用Stacking函数，使用KNN模型进行预测
train_pred2 = pd.DataFrame(train_pred2)  # 将训练集的预测结果转换为DataFrame格式
test_pred2 = pd.DataFrame(test_pred2)  # 将测试集的预测结果转换为DataFrame格式

# 把上面的预测结果连接成一个新的特征集，标签保持不变，用回原始的标签集。最后使用逻辑回归模型对新的特征集进行分类预测：

# Stacking的实现—用逻辑回归模型预测新的特征集
X_train_new = pd.concat([train_pred1, train_pred2], axis=1)  # 将训练集的预测结果按列连接起来，构成新的特征集
X_test_new = pd.concat([test_pred1, test_pred2], axis=1)  # 将测试集的预测结果按列连接起来，构成新的特征集

from sklearn.linear_model import LogisticRegression  # 导入逻辑回归模型
model = LogisticRegression(random_state=1)  # 创建一个逻辑回归模型对象，设置随机种子为1
model.fit(X_train_new, y_train)  # 使用逻辑回归模型，在训练集上拟合模型
y_pred = model.predict(X_test_new)  # 使用训练好的模型对测试集进行预测
accuracy = model.score(X_test_new, y_test)  # 计算模型在测试集上的准确率
print("Stacking（KNN+决策树）+逻辑回归模型的准确率为: {:.2f}%".format(accuracy * 100))  # 打印准确率结果

Blending

再来说说Blending（可译为混合）。它的思路和Stacking几乎是完全一样的，唯一的不同之处在哪里呢？就是Blending的过程中不进行K折验证，而是只将原始样本训练集分为训练集和验证集，然后只针对验证集进行预测，生成的新训练集就只是对于验证集的预测结果，而不是对对全部训练集的预测结果。

■Voting和Averaging算法，把几种不同模型的预测结果，做投票或者平均（或加权平均）集成基模型的预测结果，得到新的预测结果。

Voting

Voting就是投票的意思。这种集成算法一般应用于分类问题。思路很简单。假如用6种机器学习模型来进行分类预测，就拥有6个预测结果集，那么6种模型，一种模型一票。如果是猫狗图像分类，4种模型被认为是猫，2种模型被认为是狗，那么集成的结果会是猫。当然，如果出现票数相等的情况（3票对3票），那么分类概率各为一半。

下面就用Voting算法集成之前所做的银行客户流失数据集，看一看Voting的结果能否带来F1分数的进一步提升。截止目前，针对这个问题我们发现的最好算法是随机森林和GBDT，随后的次优算法是极端随机森林、树的聚合和XGBoost，而支持向量机（SupportVectorMachine）和Ada Boost对于这个问题来说稍微弱一些，但还是比逻辑回归强很多（从这里也可以看出“集成学习算法家族”的整体实力是非常强的）。

from sklearn.ensemble import RandomForestClassifier, GradientBoostingClassifier, ExtraTreesClassifier
from xgboost import XGBClassifier
from sklearn.ensemble import AdaBoostClassifier
from sklearn.metrics import f1_score

# 随机森林模型的调优结果 rf_gs
rf_gs = RandomForestClassifier(n_estimators=100, max_depth=5, random_state=42)

# 梯度提升树模型的调优结果 gb_gs
gb_gs = GradientBoostingClassifier(n_estimators=100, learning_rate=0.1, max_depth=3, random_state=42)

# 极端随机树模型的调优结果 ext_gs
ext_gs = ExtraTreesClassifier(n_estimators=100, max_features='sqrt', random_state=42)

# XGBoost模型的调优结果 xgb_gs
xgb_gs = XGBClassifier(n_estimators=100, learning_rate=0.1, max_depth=3, random_state=42)

# AdaBoost模型的调优结果 ada_gs
ada_gs = AdaBoostClassifier(n_estimators=100, learning_rate=0.1, random_state=42)

# 创建Voting模型并配置各个子模型
voting = VotingClassifier(
    estimators=[
        ('rf', rf_gs),  # 随机森林模型
        ('gb', gb_gs),  # 梯度提升树模型
        ('ext', ext_gs),  # 极端随机树模型
        ('xgb', xgb_gs),  # XGBoost模型
        ('ada', ada_gs)  # AdaBoost模型
    ],
    voting='soft',  # 使用软投票策略
    weights=[2, 5, 1, 1, 1],  # 设置随机森林模型、梯度提升树模型的权重为2、5，其他模型权重为1
    n_jobs=10  # 设置并行任务的数量
)

# 拟合模型
voting = voting.fit(X_train, y_train)

# 进行预测
y_pred = voting.predict(X_test)

# 计算并打印Voting模型的测试准确率
accuracy = voting.score(X_test, y_test) * 100
print("Voting测试准确率: {:.2f}%".format(accuracy))

# 计算并打印Voting模型的测试F1分数
f1 = f1_score(y_test, y_pred) * 100
print("Voting测试F1分数: {:.2f}%".format(f1))

Voting测试准确率: 86.50%
Voting测试F1分数: 58.33%

当然还可以集成更多模型：

from sklearn.ensemble import VotingClassifier  # 导入Voting模型
from sklearn.linear_model import LogisticRegression  # 导入逻辑回归模型
from sklearn.tree import DecisionTreeClassifier  # 导入决策树模型
from sklearn.naive_bayes import GaussianNB  # 导入朴素贝叶斯模型
from sklearn.ensemble import RandomForestClassifier  # 导入随机森林模型
from sklearn.svm import SVC  # 导入支持向量机模型
from sklearn.neighbors import KNeighborsClassifier  # 导入K最近邻模型
from sklearn.neural_network import MLPClassifier  # 导入多层感知机模型
from sklearn.ensemble import AdaBoostClassifier  # 导入AdaBoost模型
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis  # 导入线性判别分析模型
from sklearn.gaussian_process import GaussianProcessClassifier  # 导入高斯过程模型
from sklearn.ensemble import GradientBoostingClassifier  # 导入梯度提升树模型
from xgboost import XGBClassifier  # 导入XGBoost模型
from sklearn.ensemble import ExtraTreesClassifier  # 导入极端随机树模型

# 创建Voting模型并配置各个子模型
voting = VotingClassifier(
    estimators=[
        ('lr', LogisticRegression()),  # 逻辑回归模型
        ('dt', DecisionTreeClassifier()),  # 决策树模型
        ('nb', GaussianNB()),  # 朴素贝叶斯模型
        ('rf', RandomForestClassifier()),  # 随机森林模型
        ('svm', SVC(probability=True)),  # 支持向量机模型
        ('knn', KNeighborsClassifier()),  # K最近邻模型
        ('mlp', MLPClassifier()),  # 多层感知机模型
        ('ada', AdaBoostClassifier()),  # AdaBoost模型
        ('lda', LinearDiscriminantAnalysis()),  # 线性判别分析模型
        ('gp', GaussianProcessClassifier()),  # 高斯过程模型
        ('gb', GradientBoostingClassifier()),  # 梯度提升树模型
        ('xgb', XGBClassifier()),  # XGBoost模型
        ('ext', ExtraTreesClassifier())  # 极端随机树模型
    ],
    voting='soft',  # 使用软投票策略
    n_jobs=10  # 设置并行任务的数量
)

# 拟合模型
voting = voting.fit(X_train, y_train)

# 进行预测
y_pred = voting.predict(X_test)

# 计算并打印Voting模型的测试准确率
accuracy = voting.score(X_test, y_test) * 100
print("Voting测试准确率: {:.2f}%".format(accuracy))

# 计算并打印Voting模型的测试F1分数
f1 = f1_score(y_test, y_pred) * 100
print("Voting测试F1分数: {:.2f}%".format(f1))

【机器学习】集成学习投票法：投票回归器(VotingRegressor) & 投票分类器（VotingClassifier）_Avasla的博客-CSDN博客

Averaging

最后，还有一种更为简单粗暴的结果集成算法—Averaging，就是完全独立地进行几种机器学习模型的训练，训练好之后生成预测结果，最后把各个预测结果集进行平均

model1.fit(X_train, y_train)
model2.fit(X_train, y_train) 
model3.fit(X_train, y_train) 
pred_m1=model1.predict_proba(X_test) 
pred_m2=model2.predict_proba(X_test) 
pred_m3=model3.predict_proba(X_test)
pred_final=(pred_m1+pred_m2+pred_m3)/3

是不是很直接？
果觉得几个基模型中一种模型比另一种更好怎么办？

手动加权：

pred_final = (pred_m1*0.5+pred_m2*0.3+pred_m3*0.2)

即可

与通常只用于分类问题的Voting相比较，Averaging的优点在于既可以处理分类问题，又可以处理回归问题。分类问题是将概率值进行平均，而回归问题是将预测值进行平均，而且在平均的过程中还可以增加权重。

集成学习的核心思想就是训练出多个模型以及将这些模型进行组合。根据分类器的训练方式和组合预测的方法，集成学习模型中有可以降低方差的Bagging、有降低偏差的Boosting，以及各种模型结果的集成，如Stacking、Blending、Voting和Averaging等。

你可能感兴趣的:(笔记本,机器学习,集成学习,人工智能)

算法学习笔记：17.蒙特卡洛算法 ——从原理到实战，涵盖 LeetCode 与考研 408 例题
在计算机科学和数学领域，蒙特卡洛算法（MonteCarloAlgorithm）以其独特的随机抽样思想，成为解决复杂问题的有力工具。从圆周率的计算到金融风险评估，从物理模拟到人工智能，蒙特卡洛算法都发挥着不可替代的作用。本文将深入剖析蒙特卡洛算法的思想、解题思路，结合实际应用场景与Java代码实现，并融入考研408的相关考点，穿插图片辅助理解，帮助你全面掌握这一重要算法。蒙特卡洛算法的基本概念蒙特卡
AI音乐模拟器：AIGC时代的智能音乐创作革命 lauo 人工智能 AIGC 开源前端机器人
AI音乐模拟器：AIGC时代的智能音乐创作革命引言：AIGC浪潮下的音乐创作新范式在数字化转型的浪潮中，人工智能生成内容（AIGC）正在重塑各个创意领域。音乐产业作为创意经济的重要组成部分，正经历着前所未有的变革。据最新市场研究数据显示，全球AI音乐市场规模预计将从2023年的5.8亿美元增长到2030年的26.8亿美元，年复合增长率高达24.3%。这一快速增长的市场背后，是AI音乐技术正在打破传
LangChain中的向量数据库接口－Weaviate 洪城叮当 langchain 数据库经验分享笔记交互人工智能知识图谱
文章目录前言一、原型定义二、代码解析1、add_texts方法1.1、应用样例2、from_texts方法2.1、应用样例3、similarity_search方法3.1、应用样例三、项目应用1、安装依赖2、引入依赖3、创建对象4、添加数据5、查询数据总结前言 Weaviate是一个开源的向量数据库，支持存储来自各类机器学习模型的数据对象和向量嵌入，并能无缝扩展至数十亿数据对象。它提供存储文档嵌
视频分析：让AI看懂动态画面随机森林404 计算机视觉音视频人工智能 microsoft
引言：动态视觉理解的革命在数字信息爆炸的时代，视频已成为最主要的媒介形式。据统计，每分钟有超过500小时的视频内容被上传到YouTube平台，而全球互联网流量的82%来自视频数据传输。面对如此海量的视频内容，传统的人工处理方式已无法满足需求，这正是人工智能视频分析技术大显身手的舞台。视频分析技术赋予机器"看懂"动态画面的能力，使其能够自动理解、解释甚至预测视频中的内容，这一突破正在彻底改变我们与视
Python的科学计算库NumPy（一） linlin_1998 python numpy 开发语言
NumPy(NumericalPython)是Python中最基础、最重要的科学计算库之一，提供了高性能的多维数组（ndarray）对象和大量数学函数，是许多数据科学、机器学习库（如Pandas、SciPy、TensorFlow等）的基础依赖。1.创建一个numpy里面的一维数组importnumpyasnp###通过array方法创建一个ndarrayarray1=np.array([1,2,3
法律科技领域人工智能代理构建的十个经验教训，一位人工智能工程师通过构建、部署和维护智能代理的经验教训来优化法律工作流程的历程。知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 ai
目录介绍什么是代理人？为什么它对法律如此重要？法律技术中代理用例示例-合同审查代理-法律研究代理在LegalTech中使用代理的十个教训-教训1：即使代理很酷，它们也不能解决所有问题-教训2：选择最适合您用例的框架-教训3：能够快速迭代不同的模型-教训4：从简单开始，必要时扩展-教训5：使用跟踪解决方案；您将需要它-教训6：确保跟踪成本，代理循环可能很昂贵-教训7：将控制权交给最终用户（人在环路中
Llama-Omni会说话的人工智能“语音到语音LLM” 利用低延迟、高质量语音转语音 AI 彻底改变对话方式（教程含源码）知识大胖 NVIDIA GPU和大语言模型开发教程 llama 人工智能 nvidia llm
介绍“单靠技术是不够的——技术与文科、人文学科的结合，才能产生让我们心花怒放的成果。”——史蒂夫·乔布斯近年来，人机交互领域发生了重大变化，尤其是随着ChatGPT、GPT-4等大型语言模型(LLM)的出现。虽然这些模型主要基于文本，但人们对语音交互的兴趣日益浓厚，以使人机对话更加无缝和自然。然而，实现语音交互而不受语音转文本处理中常见的延迟和错误的影响仍然是一个挑战。关键字：Llama-Omni
什么是热力学计算？它如何帮助人工智能发展？知识大胖 NVIDIA GPU和大语言模型开发教程人工智能量子计算
现代计算的基础是晶体管，这是一种微型电子开关，可以用它构建逻辑门，从而创建CPU或GPU等复杂的数字电路。随着技术的进步，晶体管变得越来越小。根据摩尔定律，集成电路中晶体管的数量大约每两年增加一倍。这种指数级增长使得计算技术呈指数级发展。然而，晶体管尺寸的缩小是有限度的。我们很快就会达到晶体管无法工作的阈值。此外，人工智能的进步使得对计算能力的需求比以往任何时候都更加迫切。根本问题是自然是随机的（
上海交大：工具增强推理agent
标题：SciMaster:TowardsGeneral-PurposeScientificAIAgentsPartI.X-MasterasFoundation-CanWeLeadonHumanity’sLastExam?来源：arXiv,2507.05241摘要人工智能代理的快速发展激发了利用它们加速科学发现的长期雄心。实现这一目标需要深入了解人类知识的前沿。因此，人类的最后一次考试（HLE）为评
微算法科技的前沿探索：量子机器学习算法在视觉任务中的革新应用 MicroTech2025 量子计算算法
在信息技术飞速发展的今天，计算机视觉作为人工智能领域的重要分支，正逐步渗透到我们生活的方方面面。从自动驾驶到人脸识别，从医疗影像分析到安防监控，计算机视觉技术展现了巨大的应用潜力。然而，随着视觉任务复杂度的不断提升，传统机器学习算法在处理大规模、高维度数据时遇到了计算瓶颈。在此背景下，量子计算作为一种颠覆性的计算模式，以其独特的并行处理能力和指数级增长的计算空间，为解决这一难题提供了新的思路。微算
中国银联豪掷1亿采购海光C86架构服务器信创新态势海光芯片 C86 国产芯片海光信息
近日，中国银联国产服务器采购大单正式敲定，基于海光C86架构的服务器产品中标，项目金额超过1亿元。接下来，C86服务器将用于支撑中国银联的虚拟化、大数据、人工智能、研发测试等技术场景，进一步提升其业务处理能力、用户服务效率和信息安全水平。作为我国重要的银行卡组织和金融基础设施，中国银联在全球183个国家和地区设有银联受理网络，境内外成员机构超过2600家，是世界三大银行卡品牌之一。此次中国银联发力
AI人工智能浪潮中文心一言的独特优势
AI人工智能浪潮中文心一言的独特优势：为什么它是中国市场的“AI主力军”？关键词：文心一言,AI大模型,中文处理,多模态融合,产业落地,安全可控,百度ERNIE摘要：在全球AI大模型浪潮中，百度文心一言（ERNIEBot）凭借“懂中文、会多模态、能落地、守规矩”的四大核心优势，成为中国市场最具竞争力的AI产品之一。本文将用“超级大脑”的比喻，从中文理解、多模态能力、产业生态融合、安全可控性四个维度
正义的算法迷宫—人工智能重构司法体系的技术悖论与文明试炼
一、法庭的数字化迁徙当美国威斯康星州法院采纳COMPAS算法评估被告再犯风险，当中国"智慧法院"系统年处理1.2亿件案件，司法体系正经历从石柱法典到代码裁判的范式革命。这场转型的核心驱动力是司法效率与公正的永恒张力：美国重罪案件平均审理周期达18个月，中国基层法官年人均结案357件（是德国同行的6倍），而算法能在0.3秒内完成百万份文书比对。人工智能渗透司法引发三重裂变：证据分析从经验推断转向数据
两台pc如何高速度传输大文件费城之鹰其他两台电脑高速传输文件局域网不适用U盘传输资料网线直连两台电脑传资料
今天笔记本跑一个大一点的项目，8G的内存直接100%，i5的CPU直接75%并且在超频工作了，原本1.6Ghz的频率直接飙到了3.8Ghz，由于项目性质原因，采用的是公司配的笔记本，但是年初采购的联想E480，还在三包时间段内，公司不允许拆机增加内存，只能换一台新的台式机，听起来挺爽，有新设备，但是办公区域不准使用U盘这一类的存储设备，这就蛋疼了，大半年了项目代码，资料全在这个不够用的笔记本里，问
【python实战】不玩微博，一封邮件就能知道实时热榜，天秀吃瓜一条coding 从实战学python 人工智能 python linux 爬虫
❤️欢迎订阅《从实战学python》专栏，用python实现办公自动化、数据可视化、人工智能等各个方向的实战案例，有趣又有用！❤️更多精品专栏简介点这里有的人金玉其表败絮其中，有的人却若彩虹般绚烂，怦然心动前言哈喽，大家好，我是一条。在生活中我是一个不太喜欢逛娱乐平台的人，抖音、快手、微博我手机里都没装，甚至微信朋友圈都不看，但是自从开始写博客，有些热度不得不蹭。所以就有了这样一个需求，能不能让微
数据分析案例-电脑笔记本价格数据可视化分析3 艾派森数据分析信息可视化 python 数据分析数据挖掘电脑
‍♂️个人主页：@艾派森的个人主页✍作者简介：Python学习者希望大家多多支持，我们一起进步！如果文章对你有帮助的话，欢迎评论点赞收藏加关注+目录1.项目背景2.数据集介绍3.技术工具
在mac m1基于llama.cpp运行deepseek
lama.cpp是一个高效的机器学习推理库，目标是在各种硬件上实现LLM推断，保持最小设置和最先进性能。llama.cpp支持1.5位、2位、3位、4位、5位、6位和8位整数量化，通过ARMNEON、Accelerate和Metal支持Apple芯片，使得在MACM1处理器上运行Deepseek大模型成为可能。1下载llama.cppgitclonehttps://github.com/ggerg
MCP协议：AI时代的“万能插座”如何重构IT生态与未来
MCP协议：AI时代的“万能插座”如何重构IT生态与未来在人工智能技术爆炸式发展的浪潮中，一个名为ModelContextProtocol（MCP）的技术协议正以惊人的速度重塑IT行业的底层逻辑。2024年11月由Anthropic首次发布，MCP在短短半年内获得OpenAI、谷歌、亚马逊、阿里、腾讯等全球科技巨头的支持，被业内誉为AI时代的HTTP协议或USB-C接口，正在成为连接大模型与现实世
《算法备案全攻略：规范与流程引领数字时代新秩序》算法及大模型备案顾问刘老师算法备案深度学习 AIGC 语言模型算法人工智能
一、算法备案：开启合规新征程（一）备案规定的起源与发展2022年国家互联网信息办公室、工业和信息化部、公安部、国家市场监督管理总局联合发布《互联网信息服务算法推荐管理规定》，自2022年3月1日起施行。此后，相关规定不断完善和演进。如国家网信办于2022年8月、10月及2023年1月先后三次公布了《境内互联网信息服务算法备案清单》。同时，2022年发布的最高人民法院《关于规范和加强人工智能司法应用
【机器学习笔记Ⅰ】9 特征缩放巴伦是只猫机器学习机器学习笔记人工智能
特征缩放（FeatureScaling）详解特征缩放是机器学习数据预处理的关键步骤，旨在将不同特征的数值范围统一到相近的尺度，从而加速模型训练、提升性能并避免某些特征主导模型。1.为什么需要特征缩放？(1)问题背景量纲不一致：例如：特征1：年龄（范围0-100）特征2：收入（范围0-1,000,000）梯度下降的困境：量纲大的特征（如收入）会导致梯度更新方向偏离最优路径，收敛缓慢。量纲小的特征（如
C语言学生成绩管理系统<；自创>；(功能7有小错误,但可运行） han_xue_feng java
腾讯云加速企业和个人开发创新公开直播预告直播预告：07/18(周四)15:00-16:00随着人工智能与大模型的蓬勃发展，我们正步入一个由技微信实习第一天周五入职，早上早早来到了公司，发现好多人都没上班，到十点才陆陆续续有人来，办理完入职后，mentor中联夏令营遗憾没有入选不过hr的回复真的很好，辛苦啦#提前批简历挂麻了怎么办##机械制造投递记录#大数据开发的工作有点过于简单了吧sq大数据开发的
Python 实战人工智能数学基础：推荐系统应用 AI天才研究院 AI大模型企业级应用开发实战大数据人工智能语言模型 Java Python 架构设计
作者：禅与计算机程序设计艺术文章目录1.背景介绍2.核心概念与联系2.1用户画像2.2相似性计算2.2.1基于物品的相似度2.2.2基于用户的相似度2.3协同过滤算法2.3.1基于用户的协同过滤算法2.3.2基于物品的协同过滤算法2.3.3基于上下文的协同过滤算法3.核心算法原理和具体操作步骤以及数学模型公式详细讲解3.1基于用户的协同过滤算法3.2基于物品的协同过滤算法3.3混合协同过滤算法3.
Python桌面应用开发的未来——智能化工具与大模型赋能 IronwoodStag78
开发AI智能应用，就下载InsCodeAIIDE，一键接入DeepSeek-R1满血版大模型！标题：Python桌面应用开发的未来——智能化工具与大模型赋能随着人工智能技术的飞速发展，传统软件开发模式正在被重新定义。Python作为一门功能强大且灵活的语言，在桌面应用开发领域一直占据重要地位。然而，面对日益复杂的用户需求和快速变化的技术环境，如何提升开发效率、降低开发门槛，成为开发者亟需解决的问题
深度学习实战-使用TensorFlow与Keras构建智能模型程序员Gloria Python超入门 TensorFlow python
深度学习实战-使用TensorFlow与Keras构建智能模型深度学习已经成为现代人工智能的重要组成部分，而Python则是实现深度学习的主要编程语言之一。本文将探讨如何使用TensorFlow和Keras构建深度学习模型，包括必要的代码实例和详细的解析。1.深度学习简介深度学习是机器学习的一个分支，使用多层神经网络来学习和表示数据中的复杂模式。其广泛应用于图像识别、自然语言处理、推荐系统等领域。
AI产品经理需要了解的算法知识 AI劳模人工智能产品经理 AI产品经理 AI产品经理入门零基础入门产品经理算法语言模型
1、自然语言生成（NLG）自然语言生成（NaturalLanguageGeneration，简称NLG）是一种人工智能技术，它的目标是将计算机的数据、逻辑或算法产生的信息转换成人类可读的自然语言文本。换句话说，NLG能让机器“学会”写文章、报告、故事或者其他任何形式的文字，就像人类作家那样。这项技术使得机器能够理解复杂的数据并将其转化为易于理解的语言，以适应不同的受众和情境。应用实例：金融报告自动
【Python】OpenAI API 宅男很神经 python 开发语言
【Python与OpenAIAPI深度探索：从基础到未来】第一章：OpenAIAPI概览与核心概念1.1OpenAIAPI是什么？能做什么？OpenAIAPI(ApplicationProgrammingInterface，应用程序编程接口)是一套允许开发者通过编程方式访问和使用OpenAI开发的各种先进人工智能模型的服务。这些模型经过海量数据的训练，能够在多种任务上达到甚至超越人类水平。通过AP
Python：操作 Word 对齐方式 Thomas Kant Python python word c#
亲爱的技术爱好者们，热烈欢迎来到Kant2048的博客！我是ThomasKant，很开心能在CSDN上与你们相遇～本博客的精华专栏：【自动化测试】【测试经验】【人工智能】【Python】Python：操作Word对齐方式详解（左对齐/右对齐/居中/两端对齐）在日常办公自动化中，我们经常需要对Word文档中的段落设置对齐方式，如左对齐、右对齐、居中、两端对齐等。本文将带你使用python-docx库
TestCafe ➜ Playwright fixture 架构迁移指南 Thomas Kant 自动化测试 playwright testcafe typescript 测试架构
亲爱的技术爱好者们，热烈欢迎来到Kant2048的博客！我是ThomasKant，很开心能在CSDN上与你们相遇～本博客的精华专栏：【自动化测试】【测试经验】【人工智能】【Python】
医疗金融预测与语音识别中的模型优化及可解释性技术突破智能计算研究中心其他
内容概要随着人工智能技术的纵深发展，模型优化与可解释性技术正在重塑医疗诊断、金融预测及语音识别领域的应用范式。在医疗领域，基于自适应学习的动态参数调整机制，结合迁移学习的跨场景知识复用，显著提升了疾病筛查模型的泛化能力；而金融预测场景中，联邦学习框架通过分布式数据协作，在保障隐私安全的前提下，实现了风险预测模型的多维度优化。语音识别领域则依托边缘计算架构，将模型压缩技术与实时推理引擎结合，有效解决
【大模型与机器学习解惑】什么是A/B测试，为何进行A/B测试？
以下内容将围绕机器学习中的A/B测试展开，从概念与背景到实施细节、示例代码、优化思路和未来建议，并在最后给出一个整体的“输出目录”供参考。目录什么是机器学习的A/B测试为何要进行A/B测试A/B测试的实施流程示例代码与详细解释优化方向与未来建议结语1.什么是机器学习的A/B测试A/B测试（也常被称作对照试验、SplitTest）最早多用于互联网产品的功能或界面迭代中，指的是将用户或样本随机分为两组
jquery实现的jsonp掉java后台知了ing java jsonp jquery
什么是JSONP？先说说JSONP是怎么产生的：其实网上关于JSONP的讲解有很多，但却千篇一律，而且云里雾里，对于很多刚接触的人来讲理解起来有些困难，小可不才，试着用自己的方式来阐释一下这个问题，看看是否有帮助。 1、一个众所周知的问题，Ajax直接请求普通文件存在跨域无权限访问的问题，甭管你是静态页面、动态网页、web服务、WCF，只要是跨域请求，一律不准； 2、
Struts2学习笔记 caoyong struts2
SSH : Spring + Struts2 + Hibernate 三层架构(表示层,业务逻辑层,数据访问层) MVC模式 (Model View Controller) 分层原则:单向依赖，接口耦合 1、Struts2 = Struts + Webwork 2、搭建struts2开发环境 a>、到www.apac
SpringMVC学习之后台往前台传值方法满城风雨近重阳 springMVC
springMVC控制器往前台传值的方法有以下几种： 1.ModelAndView 通过往ModelAndView中存放viewName：目标地址和attribute参数来实现传参： ModelAndView mv=new ModelAndView(); mv.setViewName="success
WebService存在的必要性？一炮送你回车库 webservice
做Java的经常在选择Webservice框架上徘徊很久，Axis Xfire Axis2 CXF ，他们只有一个功能，发布HTTP服务然后用XML做数据传输。是的，他们就做了两个功能，发布一个http服务让客户端或者浏览器连接，接收xml参数并发送xml结果。当在不同的平台间传输数据时，就需要一个都能解析的数据格式。但是为什么要使用xml呢？不能使json或者其他通用数据
js年份下拉框 3213213333332132 java web ee
<div id="divValue">test...</div>测试 //年份 <select id="year"></select> <script type="text/javascript"> window.onload =
简单链式调用的实现技术归来朝歌方法调用链式反应编程思想
在编程中，我们可以经常遇到这样一种场景：一个实例不断调用它自身的方法，像一条链条一样进行调用这样的调用你可能在Ajax中，在页面中添加标签： $("<p>").append($("<span>").text(list[i].name)).appendTo("#result"); 也可能在HQ
JAVA调用.net 发布的webservice 接口 darkranger webservice
/** * @Title: callInvoke * @Description: TODO(调用接口公共方法) * @param @param url 地址 * @param @param method 方法 * @param @param pama 参数 * @param @return * @param @throws BusinessException
Javascript模糊查找 | 第一章循环不能不重视。 aijuans Way
最近受我的朋友委托用js+HTML做一个像手册一样的程序，里面要有可展开的大纲，模糊查找等功能。我这个人说实在的懒，本来是不愿意的，但想起了父亲以前教我要给朋友搞好关系，再加上这也可以巩固自己的js技术，于是就开始开发这个程序，没想到却出了点小问题，我做的查找只能绝对查找。具体的js代码如下： function search(){ var arr=new Array("my
狼和羊，该怎么抉择 atongyeye 工作
狼和羊，该怎么抉择在做一个链家的小项目，只有我和另外一个同事两个人负责，各负责一部分接口，我的接口写完，并全部测联调试通过。所以工作就剩下一下细枝末节的，工作就轻松很多。每天会帮另一个同事测试一些功能点，协助他完成一些业务型不强的工作。今天早上到公司没多久，领导就在QQ上给我发信息，让我多协助同事测试，让我积极主动些，有点责任心等等，我听了这话，心里面立马凉半截，首先一个领导轻易说
读取android系统的联系人拨号百合不是茶 android sqlite数据库内容提供者系统服务的使用
联系人的姓名和号码是保存在不同的表中,不要一下子把号码查询来,我开始就是把姓名和电话同时查询出来的,导致系统非常的慢关键代码: 1, 使用javabean操作存储读取到的数据 package com.example.bean; /** * * @author Admini
ORACLE自定义异常 bijian1013 数据库自定义异常
实例： CREATE OR REPLACE PROCEDURE test_Exception ( ParameterA IN varchar2, ParameterB IN varchar2, ErrorCode OUT varchar2 --返回值,错误编码 ) AS /*以下是一些变量的定义*/ V1 NUMBER; V2 nvarc
查看端号使用情况征客丶 windows
一、查看端口在windows命令行窗口下执行： >netstat -aon|findstr "8080" 显示结果： TCP 127.0.0.1:80 0.0.0.0:0 &
【Spark二十】运行Spark Streaming的NetworkWordCount实例 bit1129 wordcount
Spark Streaming简介 NetworkWordCount代码 /* * Licensed to the Apache Software Foundation (ASF) under one or more * contributor license agreements. See the NOTICE file distributed with
Struts2 与 SpringMVC的比较 BlueSkator struts2 spring mvc
1. 机制：spring mvc的入口是servlet，而struts2是filter，这样就导致了二者的机制不同。 2. 性能：spring会稍微比struts快。spring mvc是基于方法的设计，而sturts是基于类，每次发一次请求都会实例一个action，每个action都会被注入属性，而spring基于方法，粒度更细，但要小心把握像在servlet控制数据一样。spring
Hibernate在更新时，是可以不用session的update方法的(转帖） BreakingBad Hibernate update
地址：http://blog.csdn.net/plpblue/article/details/9304459 public void synDevNameWithItil() {Session session = null;Transaction tr = null;try{session = HibernateUtil.getSession();tr = session.beginTran
读《研磨设计模式》-代码笔记-观察者模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; import java.util.Observable; import java.util.Observer; /** * “观
重置MySQL密码 chenhbc mysql 重置密码忘记密码
如果你也像我这么健忘，把MySQL的密码搞忘记了，经过下面几个步骤就可以重置了（以Windows为例，Linux/Unix类似）： 1、关闭MySQL服务 2、打开CMD，进入MySQL安装目录的bin目录下，以跳过权限检查的方式启动MySQL mysqld --skip-grant-tables 3、新开一个CMD窗口，进入MySQL mysql -uroot
再谈系统论，控制论和信息论 comsci 设计模式生物能源企业应用领域模型
再谈系统论，控制论和信息论偶然看
oracle moving window size与 AWR retention period关系 daizj oracle
转自： http://tomszrp.itpub.net/post/11835/494147 晚上在做11gR1的一个awrrpt报告时,顺便想调整一下AWR snapshot的保留时间,结果遇到了ORA-13541这样的错误.下面是这个问题的发生和解决过程. SQL> select * from v$version; BANNER -------------------
Python版B树 dieslrae python
话说以前的树都用java写的,最近发现python有点生疏了,于是用python写了个B树实现,B树在索引领域用得还是蛮多了,如果没记错mysql的默认索引好像就是B树... 首先是数据实体对象,很简单,只存放key,value class Entity(object): '''数据实体''' def __init__(self,key,value)
C语言冒泡排序 dcj3sjt126com 算法
代码示例： # include <stdio.h> //冒泡排序 void sort(int * a, int len) { int i, j, t; for (i=0; i<len-1; i++) { for (j=0; j<len-1-i; j++) { if (a[j] > a[j+1]) // >表示升序
自定义导航栏样式 dcj3sjt126com 自定义
-(void)setupAppAppearance { [[UILabel appearance] setFont:[UIFont fontWithName:@"FZLTHK—GBK1-0" size:20]]; [UIButton appearance].titleLabel.font =[UIFont fontWithName:@"FZLTH
11.性能优化-优化-JVM参数总结 frank1234 jvm参数性能优化
1.堆 -Xms --初始堆大小 -Xmx --最大堆大小 -Xmn --新生代大小 -Xss --线程栈大小 -XX:PermSize --永久代初始大小 -XX:MaxPermSize --永久代最大值 -XX:SurvivorRatio --新生代和suvivor比例,默认为8 -XX:TargetSurvivorRatio --survivor可使用
nginx日志分割 for linux HarborChung nginx linux 脚本
nginx日志分割 for linux 默认情况下，nginx是不分割访问日志的，久而久之，网站的日志文件将会越来越大，占用空间不说，如果有问题要查看网站的日志的话，庞大的文件也将很难打开，于是便有了下面的脚本使用方法，先将以下脚本保存为 cutlog.sh，放在/root 目录下，然后给予此脚本执行的权限复制代码代码如下: chmo
Spring4新特性——泛型限定式依赖注入 jinnianshilongnian spring spring4 泛型式依赖注入
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
centOS安装GCC和G++ liuxihope centos gcc
Centos支持yum安装，安装软件一般格式为yum install .......，注意安装时要先成为root用户。按照这个思路，我想安装过程如下：安装gcc：yum install gcc 安装g++： yum install g++ 实际操作过程发现，只能有gcc安装成功，而g++安装失败，提示g++ command not found。上网查了一下，正确安装应该
第13章 Ajax进阶（上） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
How to determine BusinessObjects service pack and fix pack blueoxygen BO
http://bukhantsov.org/2011/08/how-to-determine-businessobjects-service-pack-and-fix-pack/ The table below is helpful. Reference BOE XI 3.x 12.0.0. y BOE XI 3.0 12.0. x. y BO
Oracle里的自增字段设置 tomcat_oracle oracle
　大家都知道吧，这很坑，尤其是用惯了mysql里的自增字段设置，结果oracle里面没有的。oh，no 　　我用的是12c版本的，它有一个新特性，可以这样设置自增序列，在创建表是，把id设置为自增序列 create table t ( id 　　　　 number generated by default as identity (start with 1 increment b
Spring Security（01）——初体验 yang_winnie spring Security
Spring Security（01）——初体验博客分类： spring Security Spring Security入门安全认证首先我们为Spring Security专门建立一个Spring的配置文件，该文件就专门用来作为Spring Security的配置