十年一梦实验室

【机器学习】Boosting算法-AdaBoost算法

一、AdaBoost理论

随机森林与AdaBoost算法的比较

AdaBoost算法

AdaBoost模型训练误差分析

从广义加法模型推导出AdaBoost训练算法，从而给出AdaBoost算法在理论上的解释

各种AdaBoost算法对比

标准AdaBoost算法只能用于二分类问题，它的改进型可以用于多分类问题，典型的实现由AdaBoost.MHsuanfa ,多类Logit型AdaBoost

二、示例代码

2.1 自定义AdaBoost算法

# 导入numpy库，用于进行矩阵运算import numpy as np


# 定义一个决策树桩类，作为弱分类器，用于实现AdaBoost算法
class DecisionStump:
    """ Use decision stump as weak classifier to
    implement adaboost algorithm. """
    # 定义初始化方法，设置决策树桩的属性
    def __init__(self):
        self.polarity = 1 # 设置极性，表示划分的方向，1表示正向，-1表示反向
        self.feature_idx = None   # 分类特征，用于构造决策树桩的判定属性
        self.threshold = None     # 分类阈值，小于阈值的样本判定为-1
        self.alpha = None         # 弱分类器的权值


# 定义一个AdaBoost类，用于实现AdaBoost算法
class AdaBoost:
    """
    Attributes:
        n_clfs: The number of weak classifiers will be used.
    """
    # 定义初始化方法，设置AdaBoost的属性
    def __init__(self, n_clfs=5):
        self.n_clfs = n_clfs # 设置弱分类器的个数，默认为5
        self.clfs = [] # 设置弱分类器的列表，用于存储训练得到的决策树桩


    # 定义拟合方法，用于训练每个弱分类器
    def fit(self, X_train, y_train):
        """ Fit each weak classifier. """
        n_samples, n_features = np.shape(X_train) # 获取训练数据的样本数和特征数


        # (1) 初始化数据的权值分布
        w = np.full(n_samples, (1 / n_samples)) # 将每个样本的权值初始化为1/n


        # (2) 选择“桩节点”的属性和阈值、计算弱分类器的权值、更新数据的权值
        for _ in range(self.n_clfs): # 循环n_clfs次，每次训练一个弱分类器
            clf = DecisionStump()    # 生成一棵“空白的”决策树桩
            min_error = np.inf # 设置最小误差为无穷大，用于记录最优的分割属性和阈值
            # 1) 为决策树桩的“桩节点”选择属性
            for i in range(n_features): # 遍历每个特征
                feature_values = np.unique(X_train[:, i]) # 获取该特征的所有取值
                # 2) 为决策树桩的“桩节点”选择阈值
                for threshold in feature_values: # 遍历每个取值作为阈值
                    p = 1 # 设置极性为1，表示正向划分
                    prediction = np.ones(np.shape(y_train)) # 初始化预测标签为全1
                    prediction[X_train[:, i] < threshold] = -1 # 将小于阈值的样本预测为-1
                    error = np.sum(w[y_train != prediction]) # 计算加权误差
                    if error > 0.5: # 如果加权误差大于0.5，说明反向划分更好
                        error = 1 - error # 更新加权误差
                        p = -1 # 更新极性为-1，表示反向划分
                    if error < min_error: # 如果加权误差小于当前的最小误差，说明找到了更优的分割属性和阈值
                        clf.polarity = p # 更新决策树桩的极性
                        clf.feature_idx = i # 更新决策树桩的分割属性
                        clf.threshold = threshold # 更新决策树桩的分割阈值
                        min_error = error # 更新最小误差
            # 3) 计算弱分类器的权值
            clf.alpha = 0.5 * np.log((1 - min_error) / (min_error + 1e-10)) # 根据加权误差计算弱分类器的权值，加上一个很小的数避免除零错误
            self.clfs.append(clf) # 将训练好的决策树桩添加到弱分类器列表中
            # 4) 更新数据的权值
            predictions = np.ones(np.shape(y_train)) # 初始化预测标签为全1
            predictions[clf.polarity * X_train[:, clf.feature_idx] <
                        clf.polarity * clf.threshold] = -1 # 根据决策树桩的极性、分割属性和分割阈值，将部分样本预测为-1
            w *= np.exp(- clf.alpha * y_train * predictions) # 根据弱分类器的权值和预测结果，更新数据的权值，被正确分类的样本权值降低，被错误分类的样本权值升高
            w /= np.sum(w)    # 归一化权值，使其和为1


    # 定义预测方法，用于对测试数据进行分类
    def predict(self, X_test):
        """ Linear combination of all weak classifiers. """
        y_pred = np.zeros(np.shape(X_test)[0]) # 初始化预测标签为全0
        #  (3) 构建基本分类器的线性组合
        for clf in self.clfs: # 遍历每个弱分类器
            predictions = np.ones(np.shape(y_pred)) # 初始化预测标签为全1
            predictions[clf.polarity * X_test[:, clf.feature_idx] <
                        clf.polarity * clf.threshold] = -1 # 根据弱分类器的极性、分割属性和分割阈值，将部分样本预测为-1
            y_pred += clf.alpha * predictions # 根据弱分类器的权值和预测结果，更新预测标签，进行线性组合
        return np.sign(y_pred) # 返回预测标签的符号，+1表示正类，-1表示负类




# 主函数
if __name__ == '__main__':
    pass # 省略主函数的内容

2.2 实现Adaboost算法: Adaboost是一种集成学习方法，它可以通过组合多个弱分类器来提高分类性能。代码中使用了sklearn库提供的数据集和决策树分类器，以及pandas和matplotlib库来处理数据和绘制图形.

代码的主要步骤如下：

定义了一些辅助函数，如get_error_rate，print_error_rate和generic_clf，用来计算和打印错误率，以及使用通用的分类器进行训练和预测。
定义了adaboost_clf函数，用来实现Adaboost算法的核心逻辑。该函数接受训练集和测试集的数据和标签，以及迭代次数M和基分类器clf作为参数。函数的主要流程是：
- 初始化训练集的权重w为均匀分布，初始化训练集和测试集的预测结果为零向量。
- 对于每次迭代，使用当前的权重w来训练基分类器clf，并得到训练集和测试集的预测结果pred_train_i和pred_test_i。
- 计算预测结果和真实标签的不一致情况，用miss表示，用miss2表示将其转换为1/-1的形式。
- 计算当前的错误率err_m，以及对应的权重更新系数alpha_m。
- 更新权重w，使得预测错误的样本权重增加，预测正确的样本权重减少。
- 将当前的预测结果乘以alpha_m，并累加到之前的预测结果上，形成新的预测结果。
- 最后将预测结果转换为正负号，表示类别，并返回训练集和测试集的错误率。
定义了plot_error_rate函数，用来绘制训练集和测试集的错误率随迭代次数的变化曲线。该函数接受训练集和测试集的错误率列表作为参数。函数的主要流程是：
- 创建一个数据框df_error，将训练集和测试集的错误率作为列，将迭代次数作为索引。
- 使用pandas的plot方法，绘制折线图，设置线宽，图形大小，颜色，网格等属性。
- 设置x轴和y轴的标签，以及图形的标题。
- 使用matplotlib的axhline方法，绘制一条水平虚线，表示初始的错误率。
- 使用matplotlib的show方法，显示图形。
在主程序中，执行以下操作：
- 使用sklearn的make_hastie_10_2函数，生成一个二分类问题的数据集，包含10000个样本，每个样本有10个特征，标签为+1或-1。
- 使用pandas创建一个数据框df，将数据集的特征和标签作为列。
- 使用sklearn的train_test_split函数，将数据集划分为训练集和测试集，测试集占20%，并设置随机种子为42。
- 使用sklearn的DecisionTreeClassifier函数，创建一个最大深度为1的决策树分类器，作为基分类器，并设置随机种子为1。
- 使用generic_clf函数，计算决策树分类器在训练集和测试集上的错误率，作为基准。
- 使用range函数，创建一个从10到410，步长为10的序列，作为不同的迭代次数。
- 对于每个迭代次数，使用adaboost_clf函数，计算Adaboost算法在训练集和测试集上的错误率，并将其添加到列表中。
- 使用plot_error_rate函数，绘制训练集和测试集的错误率随迭代次数的变化曲线，观察Adaboost算法的性能。

# 导入需要的模块
import pandas as pd # 用于数据处理和分析
import numpy as np # 用于科学计算
from sklearn.tree import DecisionTreeClassifier # 用于创建决策树分类器
from sklearn.model_selection import train_test_split # 用于将数据集分割为训练集和测试集
from sklearn.datasets import make_hastie_10_2 # 用于生成一个二分类数据集
import matplotlib.pyplot as plt # 用于绘图


""" 辅助函数：获取误差率 ========================================="""
def get_error_rate(pred, Y):
    # 用于计算预测结果和真实标签之间的误差率
    # 输入：pred是预测结果的数组，Y是真实标签的数组
    # 输出：误差率，是一个浮点数
    return sum(pred != Y) / float(len(Y)) # 误差率等于预测错误的个数除以总个数


""" 辅助函数：打印误差率 ======================================="""
def print_error_rate(err):
    # 用于打印训练集和测试集的误差率
    # 输入：err是一个包含训练集和测试集误差率的元组
    # 输出：无，只是打印误差率
    print ('Error rate: Training: %.4f - Test: %.4f' % err) # 使用格式化字符串打印误差率，保留四位小数


""" 辅助函数：通用分类器 ====================================="""
def generic_clf(Y_train, X_train, Y_test, X_test, clf):
    # 用于使用给定的分类器来训练和预测数据，并返回误差率
    # 输入：Y_train是训练集的标签数组，X_train是训练集的特征数组，Y_test是测试集的标签数组，X_test是测试集的特征数组，clf是一个分类器对象
    # 输出：一个包含训练集和测试集误差率的元组
    clf.fit(X_train,Y_train) # 使用训练集的数据和标签来训练分类器
    pred_train = clf.predict(X_train) # 使用训练集的数据来预测标签
    pred_test = clf.predict(X_test) # 使用测试集的数据来预测标签
    return get_error_rate(pred_train, Y_train), \
           get_error_rate(pred_test, Y_test) # 返回训练集和测试集的误差率
    
""" ADABOOST实现 ================================================="""
def adaboost_clf(Y_train, X_train, Y_test, X_test, M, clf):
    # 用于使用给定的基分类器来实现AdaBoost算法，并返回误差率
    # 输入：Y_train是训练集的标签数组，X_train是训练集的特征数组，Y_test是测试集的标签数组，X_test是测试集的特征数组，M是迭代次数，clf是一个基分类器对象
    # 输出：一个包含训练集和测试集误差率的元组
    n_train, n_test = len(X_train), len(X_test) # 获取训练集和测试集的长度
    # 初始化权重
    w = np.ones(n_train) / n_train # 将每个训练样本的权重初始化为相等的值，即1/n_train
    pred_train, pred_test = [np.zeros(n_train), np.zeros(n_test)] # 初始化训练集和测试集的预测结果为全零的数组
    
    for i in range(M): # 对于每一次迭代
        # 使用特定的权重来训练一个分类器
        clf.fit(X_train, Y_train, sample_weight = w) # 使用训练集的数据和标签以及权重来训练分类器
        pred_train_i = clf.predict(X_train) # 使用训练集的数据来预测标签
        pred_test_i = clf.predict(X_test) # 使用测试集的数据来预测标签
        # 指示函数
        miss = [int(x) for x in (pred_train_i != Y_train)] # 将预测错误的样本标记为1，预测正确的样本标记为0
        # 等价于1/-1来更新权重
        miss2 = [x if x==1 else -1 for x in miss] # 将预测错误的样本标记为1，预测正确的样本标记为-1
        # 误差
        err_m = np.dot(w,miss) / sum(w) # 计算加权的误差率，即权重和预测错误的样本的点积除以权重的和
        # Alpha
        alpha_m = 0.5 * np.log( (1 - err_m) / float(err_m)) # 计算每个分类器的权重，即0.5乘以误差率的对数几率
        # 新的权重
        w = np.multiply(w, np.exp([float(x) * alpha_m for x in miss2])) # 更新每个训练样本的权重，即原来的权重乘以指数函数的值
        # 添加到预测结果
        pred_train = [sum(x) for x in zip(pred_train, 
                                          [x * alpha_m for x in pred_train_i])] # 将每个分类器的预测结果乘以其权重，然后累加到训练集的预测结果上
        pred_test = [sum(x) for x in zip(pred_test, 
                                         [x * alpha_m for x in pred_test_i])] # 将每个分类器的预测结果乘以其权重，然后累加到测试集的预测结果上
    
    pred_train, pred_test = np.sign(pred_train), np.sign(pred_test) # 将训练集和测试集的预测结果转换为正负号，即+1或-1
    # 返回训练集和测试集的误差率
    return get_error_rate(pred_train, Y_train), \
           get_error_rate(pred_test, Y_test)


""" 绘图函数 ==========================================================="""
# 定义绘图函数
def plot_error_rate(er_train, er_test):
    # 用于绘制训练集和测试集的误差率随迭代次数变化的曲线图
    # 输入：er_train是训练集的误差率的列表，er_test是测试集的误差率的列表
    # 输出：无，只是绘制并显示曲线图
    df_error = pd.DataFrame([er_train, er_test]).T # 将训练集和测试集的误差率转换为一个数据框
    df_error.columns = ['Training', 'Test'] # 设置数据框的列名
    plot1 = df_error.plot(linewidth = 3, figsize = (8,6),
            color = ['lightblue', 'darkblue'], grid = True) # 使用数据框的plot方法来绘制曲线图，设置线宽，图形大小，颜色，网格等参数
    plot1.set_xlabel('Number of classifier', fontsize = 12) # 设置x轴的标签和字体大小
    # 设置刻度位置
    plot1.set_xticks(range(0,45,5)) # 设置x轴的刻度位置为0到45之间，每隔5一个刻度
    # 设置刻度标签
    plot1.set_xticklabels(range(0,450,50)) # 设置x轴的刻度标签为0到450之间，每隔50一个标签
    plot1.set_ylabel('Error rate', fontsize = 12) # 设置y轴的标签和字体大小
    plot1.set_title('Error rate vs number of classifier', fontsize = 16) # 设置图形的标题和字体大小
    plt.axhline(y=er_test[0], linewidth=1, color = 'red', ls = 'dashed') # 在图形上绘制一条水平的虚线，表示测试集的初始误差率
    plt.show() # 显示图形


""" 主程序 ============================================================="""
if __name__ == '__main__':
    # 读取数据
    x, y = make_hastie_10_2() # 使用sklearn的make_hastie_10_2()函数来生成一个二分类数据集
    df = pd.DataFrame(x) # 将数据集的特征转换为一个数据框
    df['Y'] = y # 将数据集的标签添加到数据框中


    # 分割数据集
    X_train, X_test, Y_train, Y_test = train_test_split(x, y, test_size=0.2, random_state=42) # 使用sklearn的train_test_split()函数来将数据集分割为训练集和测试集，其中测试集占总数据的20%，并设置随机状态为42


    # 训练一个简单的决策树
    clf_tree = DecisionTreeClassifier(max_depth = 1, random_state = 1) # 创建一个决策树分类器，设置最大深度为1，随机状态为1
    er_tree = generic_clf(Y_train, X_train, Y_test, X_test, clf_tree) # 使用通用分类器函数来训练和预测数据，并返回误差率
    
    # 训练一个使用决策树作为基分类器的AdaBoost分类器
    # 使用不同的迭代次数进行测试
    er_train, er_test = [er_tree[0]], [er_tree[1]] # 初始化训练集和测试集的误差率为决策树的误差率
    x_range = range(10, 410, 10) # 设置迭代次数的范围为10到410之间，每隔10一个值
    for i in x_range: # 对于每一个迭代次数,i 为弱分类器数量
        er_i = adaboost_clf(Y_train, X_train, Y_test, X_test, i, clf_tree) # 使用AdaBoost实现函数来训练和预测数据，并返回误差率
        er_train.append(er_i[0]) # 将训练集的误差率添加到列表中
        er_test.append(er_i[1]) # 将测试集的误差率添加到列表中
    
    # 比较误差率和迭代次数的关系
    plot_error_rate(er_train, er_test) # 使用绘图函数来绘制训练集和测试集的误差率随迭代次数变化的曲线图

2.3 Multi-class AdaBoosted Decision Trees 展示了AdaBoost算法如何在一个由十维正态分布和三个嵌套的十维球面构成的数据集上进行分类。

AdaBoost算法：一种基于加法模型和前向分步算法的提升方法，通过调整样本权重和基分类器权重来提高分类准确率。
多标签分类问题：一个示例，展示了AdaBoost算法如何在一个由十维正态分布和三个嵌套的十维球面构成的数据集上进行分类。
误分类误差：用于评估AdaBoost算法的性能，显示了每次迭代后的测试集误差，以及与单个决策树和随机分类器的对比。
基分类器的权重和误差：用于分析AdaBoost算法的内部机制，显示了每个基分类器在重新加权的训练集上的加权误差，以及它们在最终加法模型中的权重。

使用了sklearn的make_gaussian_quantiles函数来生成一个多分类数据集，然后使用了DecisionTreeClassifier作为基分类器，通过不同的迭代次数来训练AdaBoost分类器，绘制误差率随迭代次数变化的折线图，并在图上绘制决策树分类器和随机分类器的误差率水平线，用于对比。并绘制了每个基分类器的误差率和权重图形。代码的主要步骤如下：

导入需要的模块，包括sklearn，matplotlib和pandas。
使用make_gaussian_quantiles函数，生成一个包含2000个样本，10个特征，3个类别的数据集，设置随机种子为1。
使用train_test_split函数，将数据集划分为训练集和测试集，训练集占70%，设置随机种子为42。
创建一个最大叶子节点数为8的决策树分类器，作为基分类器。
创建一个AdaBoost分类器，使用决策树作为基分类器，设置迭代次数为300，算法为SAMME，随机种子为42，使用训练集来拟合数据。
创建一个随机的分类器，用于对比。
定义一个函数，用于计算误差率，误差率等于1减去准确率。
计算决策树分类器和随机分类器在测试集上的误差率，并打印出来。
创建一个数据框，用于存储AdaBoost分类器在不同迭代次数下的误差率。
绘制误差率随迭代次数变化的折线图，并在图上绘制决策树分类器和随机分类器的误差率水平线，用于对比。
创建一个数据框，用于存储AdaBoost分类器中每个基分类器的误差和权重。
绘制误差和权重随迭代次数变化的折线图，分为两个子图。
使用fig.tight_layout()函数，自动调整子图的参数，使得子图之间和图形边界之间有一定的填充空间，避免标签，标题等被遮挡或重叠。

#此示例展示了提升如何提高多标签分类问题的预测准确性。它重现了 Zhu 等人 [1] 中图 1 所示的类似实验 
#  https://www.intlpress.com/site/pub/pages/journals/items/sii/content/vols/0002/0003/a008/
# 导入需要的模块
from sklearn.datasets import make_gaussian_quantiles # 用于生成高斯分布的数据集
from sklearn.model_selection import train_test_split # 用于划分训练集和测试集
from sklearn.ensemble import AdaBoostClassifier # 用于实现AdaBoost算法
from sklearn.tree import DecisionTreeClassifier # 用于创建决策树分类器
from sklearn.dummy import DummyClassifier # 用于创建一个随机的分类器，用于对比
from sklearn.metrics import accuracy_score # 用于计算准确率
import matplotlib.pyplot as plt # 用于绘制图形
import pandas as pd # 用于处理数据


# 生成数据集
X, y = make_gaussian_quantiles(
    n_samples=2_000, # 设置样本数为2000
    n_features=10, # 设置特征数为10
    n_classes=3, # 设置类别数为3
    random_state=1 # 设置随机种子为1
)


# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(
    X, y, # 输入数据和标签
    train_size=0.7, # 设置训练集占总数据的70%
    random_state=42 # 设置随机种子为42
)


# 创建一个决策树分类器，作为基分类器
weak_learner = DecisionTreeClassifier(max_leaf_nodes=8) # 设置最大叶子节点数为8
n_estimators = 300 # 设置迭代次数为300


# 创建一个AdaBoost分类器，使用决策树作为基分类器
adaboost_clf = AdaBoostClassifier(
    estimator=weak_learner, # 输入基分类器
    n_estimators=n_estimators, # 输入迭代次数
    algorithm="SAMME", # 设置算法为SAMME，这是一种多分类的AdaBoost算法
    random_state=42, # 设置随机种子为42
).fit(X_train, y_train) # 使用训练集来拟合数据


# 创建一个随机的分类器，用于对比
dummy_clf = DummyClassifier()


# 定义一个函数，用于计算误差率
def misclassification_error(y_true, y_pred):
    return 1 - accuracy_score(y_true, y_pred) # 误差率等于1减去准确率


# 计算决策树分类器在测试集上的误差率
weak_learners_misclassification_error = misclassification_error(
    y_test, # 真实标签
    weak_learner.fit(X_train, y_train).predict(X_test) # 预测标签
)


# 计算随机分类器在测试集上的误差率
dummy_classifiers_misclassification_error = misclassification_error(
    y_test, # 真实标签
    dummy_clf.fit(X_train, y_train).predict(X_test) # 预测标签
)


# 打印决策树分类器和随机分类器的误差率
print(
    "DecisionTreeClassifier's misclassification_error: "
    f"{weak_learners_misclassification_error:.3f}" # 使用f-string格式化输出，保留三位小数
)
print(
    "DummyClassifier's misclassification_error: "
    f"{dummy_classifiers_misclassification_error:.3f}" # 使用f-string格式化输出，保留三位小数
)




# 创建一个数据框，用于存储AdaBoost分类器在不同迭代次数下的误差率
boosting_errors = pd.DataFrame(
    {
        "Number of trees": range(1, n_estimators + 1), # 设置列名为Number of trees，值为从1到300的序列
        "AdaBoost": [ # 设置列名为AdaBoost，值为AdaBoost分类器在不同迭代次数下的误差率
            misclassification_error(y_test, y_pred) # 调用误差率函数，计算误差率
            for y_pred in adaboost_clf.staged_predict(X_test) # 使用staged_predict方法，得到每次迭代的预测结果
        ],
    }
).set_index("Number of trees") # 将Number of trees列作为索引


# 绘制误差率随迭代次数变化的折线图
ax = boosting_errors.plot() # 使用数据框的plot方法，绘制折线图，返回一个轴对象
ax.set_ylabel("Misclassification error on test set") # 设置y轴的标签
ax.set_title("Convergence of AdaBoost algorithm") # 设置图形的标题


# 在图形上绘制决策树分类器和随机分类器的误差率水平线，用于对比
plt.plot(
    [boosting_errors.index.min(), boosting_errors.index.max()], # 设置x轴的范围，从最小的迭代次数到最大的迭代次数
    [weak_learners_misclassification_error, weak_learners_misclassification_error], # 设置y轴的值，为决策树分类器的误差率
    color="tab:orange", # 设置线的颜色
    linestyle="dashed", # 设置线的样式
)
plt.plot(
    [boosting_errors.index.min(), boosting_errors.index.max()], # 设置x轴的范围，从最小的迭代次数到最大的迭代次数
    [
        dummy_classifiers_misclassification_error,
        dummy_classifiers_misclassification_error,
    ], # 设置y轴的值，为随机分类器的误差率
    color="c", # 设置线的颜色
    linestyle="dotted", # 设置线的样式
)
plt.legend(["AdaBoost", "DecisionTreeClassifier", "DummyClassifier"], loc=1) # 设置图例，位置为右上角




# 创建一个数据框，用于存储AdaBoost分类器中每个基分类器的误差和权重
weak_learners_info = pd.DataFrame(
    {
        "Number of trees": range(1, n_estimators + 1), # 设置列名为Number of trees，值为从1到300的序列
        "Errors": adaboost_clf.estimator_errors_, # 设置列名为Errors，值为AdaBoost分类器中每个基分类器的误差
        "Weights": adaboost_clf.estimator_weights_, # 设置列名为Weights，值为AdaBoost分类器中每个基分类器的权重
    }
).set_index("Number of trees") # 将Number of trees列作为索引


# 绘制误差和权重随迭代次数变化的折线图，分为两个子图
axs = weak_learners_info.plot(
    subplots=True, # 设置为True，表示绘制多个子图
    layout=(1, 2), # 设置子图的布局，为一行两列
    figsize=(10, 4), # 设置图形的大小，为10英寸宽，4英寸高
    legend=False, # 设置为False，表示不显示图例
    color="tab:blue" # 设置线的颜色
)
axs[0, 0].set_ylabel("Train error") # 设置第一个子图的y轴标签
axs[0, 0].set_title("Weak learner's training error") # 设置第一个子图的标题
axs[0, 1].set_ylabel("Weight") # 设置第二个子图的y轴标签
axs[0, 1].set_title("Weak learner's weight") # 设置第二个子图的标题
fig = axs[0, 0].get_figure() # 获取图形对象
fig.suptitle("Weak learner's errors and weights for the AdaBoostClassifier") # 设置图形的总标题
fig.tight_layout() #自动调整子图的参数，使得子图之间和图形边界之间有一定的填充空间，避免标签，标题等被遮挡或重叠


plt.show() # 显示图形
# AdaBoostClassifier的收敛性主要受学习率、弱学习器的数量和表达能力的影响。弱学习器的误差和权重呈反比关系，即误差越小的弱学习器在最终的集成预测中影响越大。

输出结果：

DecisionTreeClassifier's misclassification_error: 0.475

DummyClassifier's misclassification_error: 0.692

不同阶段的错误分类误差

该图显示了每次提升迭代后测试集上的误分类错误。我们看到，经过 50 次迭代后，提升树的误差收敛到 0.3 左右，这表明与单棵树相比，其精度明显更高，如图中的虚线所示。

由于 SAMME 算法使用弱学习器的离散输出来训练增强模型，因此错误分类误差会出现抖动。

AdaBoostClassifier 的收敛性主要受学习率（即 learning_rate ）、使用的弱学习器数量（ n_estimators ）以及弱学习器的表达能力影响学习者（例如 max_leaf_nodes ）。

弱学习器的错误率和权重

在左图中，我们显示了每次提升迭代时每个弱学习器在重新加权训练集上的加权误差。在右图中，我们显示了与每个弱学习器相关的权重，稍后用于对最终加性模型进行预测。

我们看到弱学习器的误差是权重的倒数。这意味着我们的加性模型将更加信任弱学习者，通过增加其对最终决策的影响来减少错误（在训练集上）。事实上，这正是 AdaBoost 中每次迭代后更新基本估计器权重的公式。

2.4 使用AdaBoost回归模型进行北京PM2.5数据预测的例子，通过交叉验证选择最优参数组合，并展示了模型的性能和预测结果

对气象数据进行处理和预处理，包括缺失值的处理、字段的删除、字符串属性值的数字编码，最终将数据集分为训练和预测数据集，用于后续的机器学习模型训练

导入 pandas 和 numpy 两个常用的数据处理库。
通过 pd.read_csv 读取名为 'Boosting\PRSA_data_2010.1.1-2014.12.31.csv' 的 CSV 格式的数据文件。
第一部分处理缺失值的代码：

定义了一个函数 DeleteTargetNan，用于删除目标值为空值的行，其他列为缺失值则自动填充，同时将目标变量放置在数据集最后一列。
定义了一个函数 Shanchu，用于删除原始数据中不需要的字段名。
定义了一个函数 Digit，用于将数据中的属性值为字符串的进行数字编码。

数据处理后最终的数据集，依次调用上述三个函数，即 first = DeleteTargetNan(data, 'pm2.5')，two = Shanchu(first)，third = Digit(two)。

定义了一个函数 fenge，用于将数据集按照 8:2 的比例分为训练和预测数据集。其中训练数据集再分为 K 份，进行 K 折交叉验证。

调用 fenge 函数，将处理后的数据集分为训练和预测数据集，得到 deeer。

从返回的 deeer 中取出 K 折交叉的训练数据和预测数据，分别存储在 dt_data 和 predict_data 中。

# 导入pandas和numpy两个常用的数据处理库
import pandas as pd
import numpy as np


# 读取数据文件，文件名为'Boosting\PRSA_data_2010.1.1-2014.12.31.csv'，文件格式为csv，用逗号分隔
data = pd.read_csv('Boosting\PRSA_data_2010.1.1-2014.12.31.csv')




'''第一部分：缺失值的处理'''
#  因为Pm2.5是目标数据，如有缺失值直接删除这一条记录


# 定义一个函数，用于删除目标值为空值的行，其他列为缺失值则自动填充，同时将目标变量放置在数据集最后一列
def DeleteTargetNan(exdata, targetstr):
    #  首先判断目标字段是否有缺失值
    if exdata[targetstr].isnull().any():
        #  首先确定缺失值的行数，用index.tolist()方法获取缺失值行的索引列表
        loc = exdata[targetstr][data[targetstr].isnull().values == True].index.tolist()
        #  然后删除这些行，用drop方法删除指定索引的行
        exdata = exdata.drop(loc)
    # 凡是有缺失值的再一起利用此行的均值填充，用fillna方法填充缺失值，用mean方法计算均值
    exdata = exdata.fillna(exdata.mean())
    # 将目标字段至放在最后的一列，先用copy方法复制目标字段的值，然后用del方法删除原来的目标字段，再用赋值语句将目标字段添加到最后
    targetnum = exdata[targetstr].copy()
    del exdata[targetstr]
    exdata[targetstr] = targetnum
    # 返回处理后的数据集
    return exdata






# 定义一个函数，用于删除原始数据中不需要的字段名
def Shanchu(exdata, aiduan=['No']):
    # 遍历不需要的字段名列表
    for ai in aiduan:
        # 如果该字段名在数据集的列名中
        if ai in exdata.keys():
            # 用del方法删除该字段
            del exdata[ai]
    # 返回处理后的数据集
    return exdata




# 定义一个函数，用于将数据中的属性值为字符串的进行数字编码，因为独热编码对决策树而言不那么重要
def Digit(eadata):
    # 遍历数据集的每一列
    for jj in eadata:
        # 用try-except语句判断该列的值是否为字符串，如果是字符串，会抛出TypeError异常
        try:
            # 尝试将该列的第一个值加1，如果是字符串，会抛出异常
            eadata[jj].values[0] + 1
        except TypeError:
            # 需要转为数字编码
            # 用set和list方法获取该列的值的去重后的列表
            numlist = list(set(list(eadata[jj].values)))
            # 用列表推导式和index方法将该列的值转为对应的索引值
            zhuan = [numlist.index(jj) for jj in eadata[jj].values]
            # 用赋值语句将该列的值替换为索引值
            eadata[jj] = zhuan
    # 返回处理后的数据集
    return eadata




# 数据处理后最终的数据集，依次调用上述三个函数
first = DeleteTargetNan(data, 'pm2.5')
two = Shanchu(first)
third = Digit(two)


# 定义一个函数，用于将数据集按照8:2的比例分为训练、预测数据集。其中训练数据集再分为K份，进行K折交叉验证
def fenge(exdata, k=10, per=[0.8, 0.2]):
    # 总长度，用len方法获取数据集的行数
    lent = len(exdata)
    # 用np.arange方法生成一个从0到总长度的整数序列
    alist = np.arange(lent)
    # 用np.random.shuffle方法打乱该序列的顺序
    np.random.shuffle(alist)


    # 训练
    # 计算训练数据集的长度，用int方法取整
    xunlian_sign = int(lent * per[0])
    # 用np.random.choice方法从打乱的序列中随机选取训练数据集的长度个元素，作为训练数据集的索引，replace参数为False表示不放回抽样
    xunlian = np.random.choice(alist, xunlian_sign, replace=False)


    # 预测
    # 用列表推导式从打乱的序列中选取不在训练数据集索引中的元素，作为预测数据集的索引，用np.array方法转为数组
    yuce = np.array([i for i in alist if i not in xunlian])


    # 再将训练数据集分为K折
    # 存储字典，用于存储每一折的训练数据和测试数据
    save_dict = {}
    # 遍历从0到K-1的整数
    for jj in range(k):
        # 初始化每一折的字典
        save_dict[jj] = {}
        # 计算训练数据集的长度
        length = len(xunlian)
        # 计算每一折的测试数据的长度，用int方法取整
        yuzhi = int(length / k)
        # 用np.random.choice方法从训练数据集的索引中随机选取测试数据的长度个元素，作为测试数据的索引，replace参数为False表示不放回抽样
        yan = np.random.choice(xunlian, yuzhi, replace=False)
        # 用列表推导式从训练数据集的索引中选取不在测试数据集索引中的元素，作为训练数据的索引，用np.array方法转为数组
        tt = np.array([i for i in xunlian if i not in yan])
        # 用训练数据和测试数据的索引从原始数据集中选取对应的数据，用train和test作为键名存储到每一折的字典中
        save_dict[jj]['train'] = exdata[tt]
        save_dict[jj]['test'] = exdata[yan]


    # 返回存储字典和预测数据集，用逗号分隔
    return save_dict, exdata[yuce]


# 调用上述函数，将处理后的数据集分为训练和预测数据集
deeer = fenge(third.values)


# K折交叉的训练数据，从返回的存储字典中取出第一个元素
dt_data = deeer[0]
# 预测数据，从返回的预测数据集中取出第二个元素
predict_data = deeer[1]

导入必要的库和模块，包括处理后的数据集模块（pm25_AdaBoost_Data）、AdaBoost回归模型、决策树回归模型、评估模型性能的指标、绘图相关的库等。
定义了一个训练函数 Train，用于训练AdaBoost回归模型，并返回训练数据和验证数据的均方误差（MSE）。
定义了一个函数 Zuhe，用于确定最优的参数组合，包括弱模型的个数和决策树的层数，以及对应的最佳折数。该函数使用了 K 折交叉验证的方法。
定义了一个函数 duibi，用于根据序列字典绘制不同参数组合下MSE的对比曲线，并保存图片。
定义了一个函数 recspre，用于根据最优的参数组合绘制预测数据的真实值和预测值的对比曲线，并保存图片。
在主函数中，调用了 Zuhe 函数得到最优的参数组合、最佳的折数和MSE序列，然后调用 duibi 函数绘制不同参数组合的MSE对比曲线，最后调用 recspre 函数绘制预测数据的真实值和预测值的对比曲线。

# 引入数据，使用pm25_AdaBoost_Data模块，该模块包含了处理后的数据集
import pm25_AdaBoost_Data as data


# 引入AdaBoost回归模型，使用sklearn库中的AdaBoostRegressor类
from sklearn.ensemble import AdaBoostRegressor
# 引入决策树回归模型，使用sklearn库中的DecisionTreeRegressor类，作为AdaBoost的基学习器
from sklearn.tree import DecisionTreeRegressor
# 引入均方误差函数，使用sklearn库中的mean_squared_error函数，作为评估模型性能的指标
from sklearn.metrics import mean_squared_error as mse
# 引入numpy库，用于进行数值计算
import numpy as np


# 引入绘图相关的库，使用pylab和matplotlib库，用于绘制不同参数下MSE的对比曲线
from pylab import mpl
mpl.rcParams['font.sans-serif'] = ['FangSong']  # 设置字体为仿宋，以显示中文
mpl.rcParams['axes.unicode_minus'] = False  # 设置正常显示负号
import matplotlib.pyplot as plt


# 根据K折交叉的结果确定比较好的参数组合，然后给出预测数据真实值和预测值的对比


# 更改的参数一是框架的参数，即弱模型的个数
# 更改的参数二是弱模型的参数，即决策树的层数


# 弱模型中树的层数，设置为20，30，50三种可能的值
cengs = [20, 30, 50]


# 弱模型的个数，设置为500，1000，3000三种可能的值
models = [500, 1000, 3000]




# 定义一个训练函数，用于训练AdaBoost回归模型，并返回训练数据和验证数据的MSE
def Train(data, modelcount, censhu, yanzhgdata):
    # 创建AdaBoost回归模型的实例，指定基学习器为决策树回归模型，设置决策树的最大深度为censhu，设置弱模型的个数为modelcount，设置学习率为0.8
    model = AdaBoostRegressor(DecisionTreeRegressor(max_depth=censhu),
                              n_estimators=modelcount, learning_rate=0.8)


    # 使用训练数据的特征和标签，拟合AdaBoost回归模型
    model.fit(data[:, :-1], data[:, -1])
    # 使用训练数据的特征，预测训练数据的标签
    train_out = model.predict(data[:, :-1])
    # 计算训练数据的真实标签和预测标签的MSE
    train_mse = mse(data[:, -1], train_out)


    # 使用验证数据的特征，预测验证数据的标签
    add_yan = model.predict(yanzhgdata[:, :-1])
    # 计算验证数据的真实标签和预测标签的MSE
    add_mse = mse(yanzhgdata[:, -1], add_yan)
    # 打印训练数据和验证数据的MSE
    print(train_mse, add_mse)
    # 返回训练数据和验证数据的MSE
    return train_mse, add_mse


# 定义一个函数，用于确定最优的参数组合，即弱模型的个数和决策树的层数，以及对应的最佳折数
def Zuhe(datadict, tre=models, tezhen=cengs):
    # 存储结果的字典，键为参数组合，值为对应的MSE均值
    savedict = {}
    # 存储序列的字典，键为参数组合，值为对应的MSE序列
    sacelist = {}
    # 遍历弱模型的个数的可能值
    for t in tre:
        # 遍历决策树的层数的可能值
        for te in tezhen:
            # 打印当前的参数组合
            print(t, te)
            # 创建一个空列表，用于存储每一折的验证数据的MSE
            sumlist = []
            # 因为要展示折数，因此要按序开始，对datadict的键进行排序
            ordelist = sorted(list(datadict.keys()))
            # 遍历每一折的数据
            for jj in ordelist:
                # 调用训练函数，传入训练数据，弱模型的个数，决策树的层数，验证数据，得到训练数据和验证数据的MSE
                xun, ya = Train(datadict[jj]['train'], t, te, datadict[jj]['test'])
                # 根据验证数据的MSE确定最佳的参数组合，将验证数据的MSE添加到列表中
                sumlist.append(ya)
            # 用参数组合作为键，MSE列表作为值，存储到序列字典中
            sacelist['%s-%s' % (t, te)] = sumlist
            # 用参数组合作为键，MSE列表的均值作为值，存储到结果字典中
            savedict['%s-%s' % (t, te)] = np.mean(np.array(sumlist))


    # 在结果字典中选择MSE均值最小的参数组合，作为最优的参数组合
    zuixao = sorted(savedict.items(), key=lambda fu: fu[1])[0][0]
    # 然后再选出此方法中MSE最小的折数，作为最佳的折数
    xiao = sacelist[zuixao].index(min(sacelist[zuixao]))
    # 返回最优的参数组合，最佳的折数，和序列字典
    return zuixao, xiao, sacelist


# 定义一个函数，用于根据序列字典绘制不同参数组合下MSE的对比曲线，并保存图片
def duibi(exdict, you):
    # 创建一个图形对象，设置大小为11*7
    plt.figure(figsize=(11, 7))
    # 遍历序列字典的每一个键值对
    for ii in exdict:
        # 绘制折数和MSE的折线图，设置标签为参数组合和MSE均值，设置线宽为2
        plt.plot(list(range(len(exdict[ii]))), exdict[ii], \
                 label='%s,%d折MSE均值:%.3f' % (ii, len(exdict[ii]), np.mean(np.array(exdict[ii]))), lw=2)
    # 显示图例
    plt.legend()
    # 设置标题为不同参数组合的MSE对比曲线，标注最优的参数组合
    plt.title('不同参数的组合MSE对比曲线[最优：%s]' % you)
    # 保存图片到指定路径
    plt.savefig(r'C:\Users\cxy\Desktop\adaboost_pm25.jpg')
    # 返回提示信息
    return '不同方法对比完毕'


# 定义一个函数，用于根据最优的参数组合绘制预测数据的真实值和预测值的对比曲线，并保存图片
def recspre(exstr, predata, datadict, zhe, count=100):
    # 将参数组合字符串按照"-"分割，得到弱模型的个数和决策树的层数
    tree, te = exstr.split('-')
    # 创建AdaBoost回归模型的实例，指定基学习器为决策树回归模型，设置决策树的最大深度为te，设置弱模型的个数为tree，设置学习率为0.8
    model = AdaBoostRegressor(DecisionTreeRegressor(max_depth=int(te)),
                              n_estimators=int(tree), learning_rate=0.8)
    # 使用最佳折数的训练数据的特征和标签，拟合AdaBoost回归模型
    model.fit(datadict[zhe]['train'][:, :-1], datadict[zhe]['train'][:, -1])


    # 使用预测数据的特征，预测预测数据的标签
    yucede = model.predict(predata[:, :-1])
    # 为了便于展示，随机选取100条数据进行展示
    zongleng = np.arange(len(yucede))
    randomnum = np.random.choice(zongleng, count, replace=False)


    yucede_se = list(np.array(yucede)[randomnum])


    yuce_re = list(np.array(predata[:, -1])[randomnum])


    # 对比真实值和预测值
    plt.figure(figsize=(17, 9))
    plt.subplot(2, 1, 1)
    # 绘制预测值的折线图，设置红色虚线，标签为'预测'，线宽为2
    plt.plot(list(range(len(yucede_se))), yucede_se, 'r--', label='预测', lw=2)
    # 绘制真实值的散点图，设置蓝色点，标签为'真实'，线宽为2
    plt.scatter(list(range(len(yuce_re))), yuce_re, c='b', marker='.', label='真实', lw=2)
    # 设置x轴的范围为-1到count+1
    plt.xlim(-1, count + 1)
    # 显示图例
    plt.legend()
    # 设置标题为预测和真实值对比，显示最大树数
    plt.title('预测和真实值对比[最大树数%d]' % int(tree))


    plt.subplot(2, 1, 2)
    # 绘制真实值和预测值的差值的折线图，设置黑色虚线，标记为方形，标签为'真实-预测'，线宽为2
    plt.plot(list(range(len(yucede_se))), np.array(yuce_re) - np.array(yucede_se), 'k--', marker='s', label='真实-预测', lw=2)
    # 显示图例
    plt.legend()
    # 设置标题为预测和真实值相对误差
    plt.title('预测和真实值相对误差')


    # 保存图片到指定路径
    plt.savefig(r'C:\Users\cxy\Desktop\duibi.jpg')
    # 返回提示信息
    return '预测真实对比完毕'


# 主函数
if __name__ == "__main__":
    # 调用Zuhe函数，得到最优的参数组合，最佳的折数，和MSE序列
    zijian, zhehsu, xulie = Zuhe(data.dt_data)


    # 调用duibi函数，根据MSE序列绘制不同参数组合的MSE对比曲线
    duibi(xulie, zijian)
    # 调用recspre函数，根据最优的参数组合绘制预测数据的真实值和预测值的对比曲线
    recspre(zijian, data.predict_data, data.dt_data, zhehsu)

输出结果：

不同参数组合的MSE对比曲线

预测数据的真实值和预测值的对比曲线

三、各种AdaBoost适用场景

参考网址

https://zhuanlan.zhihu.com/p/41536315

https://blog.csdn.net/v_july_v/article/details/40718799

https://wiki.mbalib.com/wiki/%E6%9F%94%E6%80%A7%E5%88%B6%E9%80%A0%E6%8A%80%E6%9C%AF

https://softwareconnect.com/manufacturing/what-is-fms/

https://www.investopedia.com/terms/f/flexible-manufacturing-system.asp

https://scikit-learn.org/stable/auto_examples/ensemble/plot_adaboost_hastie_10_2.html Discrete versus Real AdaBoost

https://zhuanlan.zhihu.com/p/150663408 从离散型adaboost 到概率型 adaboost

https://zhuanlan.zhihu.com/p/475830334 一文教会你pandas plot各种绘图

https://scikit-learn.org.cn/view/90.html# 1.11 集成算法-scikit-learn中文社区

https://scikit-learn.org/stable/auto_examples/ensemble/plot_adaboost_multiclass.html#sphx-glr-auto-examples-ensemble-plot-adaboost-multiclass-py Multi-class AdaBoosted Decision Trees — scikit-learn 1.3.2 documentation

你可能感兴趣的:(机器学习,boosting,算法,人工智能,集成学习)

群体智能优化算法-模拟退火优化算法（Simulated Annealing, SA，含Matlab源代码） HR Zhou 算法模拟退火算法机器学习 matlab 群体智能优化优化人工智能
摘要模拟退火（SA）算法是一种基于物理退火过程的全局优化算法，其核心思想来源于热力学中的退火过程：将材料加热到高温后再缓慢冷却，使其分子结构趋于最低能量状态，从而获得稳定结构。SA算法利用Metropolis准则来决定接受新的解，以一定概率接受劣解，从而避免陷入局部最优。SA具有收敛速度快、计算复杂度低、适用于连续优化问题等特点，被广泛应用于组合优化、函数优化、神经网络训练等领域。算法介绍1.主要
珍藏！Java SpringBoot 精品源码合集约惠来袭，获取路径大公开秋野酱 java spring boot 开发语言
技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、安卓app、大数据、物联网、机器学习等设计与开发。主要内容：免费功能设计、开题报告、任务书、中期检查PPT、系统功能实现、代码编写、论文编写和辅导、论文降重、长期答辩答疑辅导、腾讯会议一对一专业讲解辅导答辩、模拟答辩演练、和理解代码逻辑思路。文末获取源码联系文末获取源码联
相同的问题看看Grok3怎么回答-详细讲讲PPO & GRPO原理释迦呼呼 AI一千问人工智能深度学习机器学习语言模型算法神经网络计算机视觉
关键要点研究表明，PPO（近端策略优化）是一种稳定高效的强化学习算法，适用于单代理或多代理场景，重点是最大化绝对奖励。GRPO（基于梯度的相对策略优化）似乎是专为多代理系统设计的，优化代理之间的相对表现，目前信息有限，可能较少为人所知。这两个算法在目标和应用领域上有显著差异，PPO更通用，GRPO更适合竞争性多代理环境。关于PPO的解释什么是PPO？PPO，全称近端策略优化，是一种强化学习算法，帮
第三十九个问题-详细讲讲PPO & GRPO原理释迦呼呼 AI一千问人工智能深度学习机器学习语言模型自然语言处理算法
PPO（ProximalPolicyOptimization）原理详解PPO（近端策略优化）是OpenAI于2017年提出的强化学习算法，旨在解决传统策略梯度方法中训练不稳定和样本效率低的问题。其核心思想是通过限制策略更新的幅度，确保新策略不会偏离旧策略太远，从而稳定训练过程。1.策略梯度（PolicyGradient）基础策略梯度方法通过直接优化策略参数θθ来最大化期望回报。目标函数为：J(θ)
基于Python+Django的可视化学习系统设计与实现（毕业设计源码+技术文档+系统部署）逐梦设计 Python毕业设计实战案例 python django 课程设计 vue.js 毕业设计源码
博主简介作者简介：Java领域优质创作者、CSDN博客专家、CSDN内容合伙人、掘金特邀作者、阿里云博客专家、51CTO特邀作者、多年架构师设计经验、多年校企合作经验，被多个学校常年聘为校外企业导师，指导学生毕业设计并参与学生毕业答辩指导，有较为丰富的相关经验。期待与各位高校教师、企业讲师以及同行交流合作主要内容：Java项目、Python项目、前端项目、PHP、ASP.NET、人工智能与大数据、
代码随想录算法训练营第四十一天 | hot65/100| 33.搜索旋转排序数组、153.寻找旋转排序数组中的最小值、155.最小栈、394.字符串解码 boguboji 刷题算法 leetcode 数据结构
33.搜索旋转排序数组思路是：数组可能有两种情况2345671和6712345将数组一分为二，其中一定有一个是有序的，每次判断前半部分是有序的还是后半部分是有序的，每次只在有序的那部分里找。无序那部分不管（没找到会重新一分为二，继续在有序的一半里找，迟早会找到）注意点：这道题重点是记住边界条件（哪些是小于等于小于大于等于大于）有小于等于/大于等于的情况是因为，如果出现[2,1]中找1的情况，需要有
代码随想录算法训练营第三十八天 | hot57/100| 114.二叉树展开为链表、437.路径总和III、124.二叉树中的最大路径和、22.括号生成 boguboji 刷题算法链表数据结构
114.二叉树展开为链表思路是：（1）定义方法，先序遍历保证顺序，把节点按顺序保存（2）再for循环转成链表，一列都是往右排列完整代码：classSolution{ publicvoidflatten(TreeNoderoot){ Listlist=newArrayList(); preorderTraversal(root,list); intsize=list.size()
代码随想录算法训练营第十天 | 栈与队列part01| 232.用栈实现队列、225. 用队列实现栈、 20. 有效的括号、1047. 删除字符串中的所有相邻重复项 boguboji 刷题算法 java 开发语言
232.用栈实现队列栈与队列的基本知识：Stackstack=newStackq=newLinkedListstack=newStack显然是存储整数类型，如果要存储字符，应该用Dequedeque=newLinkedListstack=newStack<>();还有我写for(inti=0;i
代码随想录算法训练营第二十三天 | 回溯算法part02| 39. 组合总和、40.组合总和II、131.分割回文串 boguboji 刷题算法数据结构
39.组合总和这道题和前面组合问题的区别是，取的元素可以重复，也就是遍历的时候，同一个元素可以一直取。所以for循环里，逐个添加元素，判断和大于目标时break（否则会一直加）还是新建二维数组放结果，一维数组放path。输入参数为放结果数组、path、提供的数组、目标值、目前总和sum、startIndex提前把提供的数组排序，用Arrays.sort()这样sum超过target就break递归
AI 生成 PPT 网站介绍与优缺点分析 KL_lililli 人工智能 powerpoint
随着人工智能技术不断发展，利用AI自动生成PPT已成为提高演示文稿制作效率的热门方式。本文将介绍几款主流的AIPPT工具，重点列出免费使用机会较多的网站，并对各平台的优缺点进行详细分析，帮助用户根据自身需求选择合适的工具。1.免费及免费试用机会较多的网站1.1Tome网址：Tome–TheAIassistantforsales简介：Tome是一款专注于AI助力讲故事与演示制作的工具，用户只需输入简
机器学习驱动的智能化电池管理技术与应用满木悦电池化学机器人化学电池机器学习人工智能硕博研究生
在人工智能与电池管理技术融合的背景下，电池科技的研究和应用正迅速发展，创新解决方案层出不穷。从电池性能的精确评估到复杂电池系统的智能监控，从数据驱动的故障诊断到电池寿命的预测优化，人工智能技术正以其强大的数据处理能力和模式识别优势，推动电池管理领域的技术进步。据最新研究动态，目前在电池管理领域的人工智能应用主要集中在以下几个方面：1.状态估计：包括电池的荷电状态（SOC）和健康状态（SOH）的实时
目标检测YOLO实战应用案例100讲-基于深度学习的无人机目标检测算法轻量化研究（中）林聪木目标检测 YOLO 深度学习
目录基于改进YOLOv5的无人机图像实时目标检测4.1引言4.2基于改进YOLOv5的目标检测模型结构4.3消融实验及结果分析4.4算法迁移验证实验基于Jetson-Xavier的模型优化部署5.1引言5.2基于人在回路的目标检测模型裁剪5.3嵌入式实时目标检测交互软件基于深度学习的无人机目标检测算法轻量化研究知识拓展基于YOLOv8/YOLOv7/YOLOv6/YOLOv5的无人机目标检测1.数
AI算力要变天了？一文搞懂ASIC和GPU asicgpuai芯片
近期，全球股市的动荡中，ASIC和GPU这两个科技股概念突然变得火热，引起了市场的高度关注。博通作为ASIC的代表，股价一路猛涨，而英伟达作为GPU的代表，股价却一路下跌。这是否意味着AI算力市场即将变天？随着人工智能技术的飞速发展，AI算力的重要性日益凸显。从早期的简单模型训练到如今的大规模语言模型如ChatGPT等的出现，对算力的需求呈爆发式增长。01那什么是ASIC和GPU？ASIC：定制化
云智慧：拥抱AI算法驱动的智能运维服务创新引擎
随着信息化、数字化、智能化的加码，企业对人工智能、大数据等技术应用呈现出明显兴趣，海笔研究对国内中型规模企业调研表明，在2020年，54.1%的企业选择购买人工智能类应用，41.9%的企业选择购买大数据及BI类应用，各类产品软件的应用大幅提升了企业信息系统复杂度，以及运维管理难度。业务发展催生服务需求从系统管理者角度出发，信息系统从“单机Excel表格”到“集中式单系统”再到“微服务、云架构”等，
双指针与二分算法打不了嗝蓝桥杯 c++算法
一.双指针1.基本介绍双指针算法是一种暴力枚举的优化算法，他也被叫做尺取法或者滑动窗口。当我们发现算法需要两次for循环时并且两个指针可以不回退，我们可以利用双指针来优化算法复杂度。2.例题详解题目描述企业家Emily有一个很酷的主意：把雪花包起来卖。她发明了一台机器，这台机器可以捕捉飘落的雪花，并把它们一片一片打包进一个包裹里。一旦这个包裹满了，它就会被封上送去发售。Emily的公司的口号是“把
算法刷题区域部分反转无敌的牛算法算法
不断创建数组，相加，利用cpp内字符串相加的性质即可。具体代码如下：classSolution{public:stringreverseStr(strings,intk){intsize=s.size();intcount=size/(2*k);stringa;inti=0;for(i=0;ik){reverse(a2.begin(),a2.begin()+k);}else{reverse(a2.
优选算法训练篇07--力扣LCR179.查找总价格为目标值的两个商品大胆飞猪算法训练篇算法 leetcode
目录1.题目链接：LCR179.查找总价格为目标值的两个商品2.题目描述：3.解法一(暴力解法，会超时)：4.解法二(双指针-对撞指针):1.题目链接：LCR179.查找总价格为目标值的两个商品2.题目描述：购物车内的商品价格按照升序记录于数组price。请在购物车中找到两个商品的价格总和刚好是target。若存在多种情况，返回任一结果即可。示例1：输入：price=[3,9,12,15],tar
LeetCode215. 数组中的第K个最大元素 techpupil 算法快速选择 leetcode
给定整数数组nums和整数k，请返回数组中第k个最大的元素。请注意，你需要找的是数组排序后的第k个最大的元素，而不是第k个不同的元素。你必须设计并实现时间复杂度为O(n)的算法解决此问题。示例1:输入:[3,2,1,5,6,4],k=2输出:5示例2:输入:[3,2,3,1,2,4,5,5,6],k=4输出:4分析：本题我们能想到最简单的方法就是直接给数组排序，然后取第第N-k个元素，但题目要求是
算力租赁：人工智能时代的“水电煤”革命——以NVIDIA 4090为例解读下一代算力解决方案算法工程gpu
引言：当AI算力需求遇上“算力饥渴症”2023年，ChatGPT仅用2个月突破1亿用户，StableDiffusion让普通人秒变艺术家，但背后是单次训练消耗超10万GB内存、千亿级参数的恐怖算力需求。当全球AI企业陷入“算力饥渴症”时，一种名为算力租赁的创新模式正以每年37%的增速（MarketsandMarkets数据）重塑行业格局。本文将深度解析这一革命性服务，并聚焦搭载NVIDIARTX4
SM国密算法深度解析与技术实践安全
SM国密算法深度解析与技术实践一、算法体系概述SM系列密码算法是由中国国家密码管理局发布的商用密码标准体系，涵盖非对称加密、对称加密、杂凑算法、标识密码等多个领域。其核心组件包括：SM2：基于椭圆曲线的非对称加密算法（GB/T32918）SM3：密码杂凑算法（GB/T32905）SM4：分组对称加密算法（GB/T32907）与国际算法对比类型国密算法国际标准密钥长度安全强度非对称加密SM2RSA-
梯度下降法理论理解伶星37 机器学习人工智能
梯度下降法：看似原始却透露着机器学习的本质前提：在研究梯度下降方法之前，你要理解矩阵运算（解析解）的方法矩阵运算目前的缺点只能进行对线性函数经行分析，无法对复杂的函数经行分析什么是梯度，以及梯度向量梯度下降的形象例子以及基本思想有三个兄弟被困在山上，得要死，他们目标是看谁尽快找到山谷中的水源老大比较后选择最陡的方向随便探索一下，就朝较低处走去探测几下就走陡峭的方向梯度下降算法的核心思想就是沿着负梯
2.服务器负载均衡我是一条胖咸鱼华为安全HCIP 网络服务器安全负载均衡华为
1.服务器负载均衡概述负载均衡基本概念实服务器：处理业务流量的实体服务器，客户端发送的服务请求最终是由实服务器处理的。实服务器组：由多个实服务器组成的集群，对外提供特定的一种服务。虚拟服务器：实服务器组对外呈现的逻辑形态，客户端实际访问的是虚拟服务器。负载均衡算法：FW分配业务流量给实服务器时依据的算法，不同的算法可能得到不同的分配结果。服务健康检查：FW检查服务器状态是否正常的过程，可以增强为用
AI大模型产品经理学习路线，2025最新，从AI产品经理零基础入门到精通，非常详细收藏我这一篇够了！ AGI-杠哥人工智能产品经理学习语言模型 agi 自然语言处理
随着人工智能技术的发展，尤其是大模型（LargeModel）的兴起，越来越多的企业开始重视这一领域的投入。作为大模型产品经理，你需要具备一系列跨学科的知识和技能，以便有效地推动产品的开发、优化和市场化。以下是一份详细的大模型产品经理学习路线，旨在帮助你构建所需的知识体系，从零基础到精通。一、基础知识阶段1.计算机科学基础数据结构与算法：理解基本的数据结构（如数组、链表、树、图等）和常用算法（如排序
使用 Spring Security的一些常用功能代码代码快快显灵 springsecurity spring java 前端 SpringSecurity
在实际开发中，SpringSecurity常常涉及一些常用的功能。以下是一些在开发中经常使用的SpringSecurity功能：1.PasswordEncoderBean（密码加密）这段配置使用BCryptPasswordEncoder作为密码加密算法。它是SpringSecurity中常用的密码加密方式，通常用于存储和验证用户的密码。@BeanpublicPasswordEncoderpassw
Java 大视界 -- 基于 Java 的大数据机器学习模型的多模态融合技术与应用（143）青云交大数据新视界 Java 大视界 java 大数据机器学习多模态融合智能安防智能客服数据处理
亲爱的朋友们，热烈欢迎来到青云交的博客！能与诸位在此相逢，我倍感荣幸。在这飞速更迭的时代，我们都渴望一方心灵净土，而我的博客正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识，也期待你毫无保留地分享独特见解，愿我们于此携手成长，共赴新程！一、欢迎加入【福利社群】点击快速加入：青云交灵犀技韵交响盛汇福利社群点击快速加入2：2024CSDN博客之星创作交流营（NEW)二、本博客的精华专栏：大数据新视
最小生成树C He11o__Wor1d424 c语言算法图论
最小生成树是所有节点的最小连通子图，即：以最小的成本（边的权值）将图中所有节点链接到一起。图中有n个节点，那么一定可以用n-1条边将所有节点连接到一起。Primprim算法是从节点的角度采用贪心的策略每次寻找距离最小生成树最近的节点并加入到最小生成树中。prim算法核心就是三步：第一步，选距离生成树最近节点第二步，最近节点加入生成树第三步，更新非生成树节点到生成树的距离（即更新minDist数组）
2025年第二届机器学习与神经网络国际学术会议(MLNN 2025) 分享学术科研与论文的禁小默机器学习神经网络人工智能
重要信息官网：www.icmlnn.org时间：2025年4月22-24日地点：中国-重庆简介2025年第二届机器学习与神经网络国际学术会议（MLNN2025）围绕学习系统与神经网络的核心理论、关键技术和应用展开讨论，涵盖深度学习、计算机视觉、自然语言处理、强化学习等多个子领域，通过特邀报告、主题演讲、海报展示等形式，展示相关领域的最新研究成果和技术创新。征稿主题神经网络机器学习深度学习算法及应用
别只会用别人的模型了，自学Ai大模型，顺序千万不要搞反了！刚入门的小白必备！鸡腿爱学习人工智能学习自然语言处理服务器数据库
大家好，我是JackBytes，一个专注于将人工智能应用于日常生活的半吊子程序猿，平时主要分享AI、NAS、Docker、搞机技巧、开源项目等。在使用诸如DeepSeek、ChatGPT、豆包、文心一言等大模型之余，你是否知道这些大模型背后的技术原理是什么？假如让你从头开始学习大模型，你知道应该遵循什么样的路线嘛？今天给大家介绍一下Ai大模型的学习路线，顺序千万不要搞反了！，大家可以按照这个路线进
代码随想录算法训练营Day19| LeetCode 77 组合、216 组合总和 III、17 电话号码的字母组合今天也要早睡早起代码随想录算法训练营跟练算法 leetcode c++数据结构递归回溯
理论基础回溯的本质是穷举，也就是暴力求解，它是递归的一部分。所有回溯法解决的问题都可以抽象为树形结构，因为回溯法解决的都是在集合中递归查找子集，集合的大小构成了树的宽度，递归的深度就构成了树的深度（cr.代码随想录）。应用回溯一般被用于以下几种问题（cr.代码随想录）的求解中：组合问题：N个数里面按一定规则找出k个数的集合切割问题：一个字符串按一定规则有几种切割方式子集问题：一个N个数的集合里有多
Python进阶之-加密库cryptography使用详解夏天Aileft Python python 网络加密
✨前言cryptography库是一个强大的Python加密库，提供了对加密算法和协议的高层和低层访问。它是用来实现数据加密、签名、密钥管理等功能的。以下是一些常见用法的详解，帮助你理解如何使用这个库。✨安装首先，你需要确保安装了cryptography库：pipinstallcryptography✨1.对称加密对称加密是指加密和解密使用相同的密钥。Fernet是cryptography库中提供
jquery实现的jsonp掉java后台知了ing java jsonp jquery
什么是JSONP？先说说JSONP是怎么产生的：其实网上关于JSONP的讲解有很多，但却千篇一律，而且云里雾里，对于很多刚接触的人来讲理解起来有些困难，小可不才，试着用自己的方式来阐释一下这个问题，看看是否有帮助。 1、一个众所周知的问题，Ajax直接请求普通文件存在跨域无权限访问的问题，甭管你是静态页面、动态网页、web服务、WCF，只要是跨域请求，一律不准； 2、
Struts2学习笔记 caoyong struts2
SSH : Spring + Struts2 + Hibernate 三层架构(表示层,业务逻辑层,数据访问层) MVC模式 (Model View Controller) 分层原则:单向依赖，接口耦合 1、Struts2 = Struts + Webwork 2、搭建struts2开发环境 a>、到www.apac
SpringMVC学习之后台往前台传值方法满城风雨近重阳 springMVC
springMVC控制器往前台传值的方法有以下几种： 1.ModelAndView 通过往ModelAndView中存放viewName：目标地址和attribute参数来实现传参： ModelAndView mv=new ModelAndView(); mv.setViewName="success
WebService存在的必要性？一炮送你回车库 webservice
做Java的经常在选择Webservice框架上徘徊很久，Axis Xfire Axis2 CXF ，他们只有一个功能，发布HTTP服务然后用XML做数据传输。是的，他们就做了两个功能，发布一个http服务让客户端或者浏览器连接，接收xml参数并发送xml结果。当在不同的平台间传输数据时，就需要一个都能解析的数据格式。但是为什么要使用xml呢？不能使json或者其他通用数据
js年份下拉框 3213213333332132 java web ee
<div id="divValue">test...</div>测试 //年份 <select id="year"></select> <script type="text/javascript"> window.onload =
简单链式调用的实现技术归来朝歌方法调用链式反应编程思想
在编程中，我们可以经常遇到这样一种场景：一个实例不断调用它自身的方法，像一条链条一样进行调用这样的调用你可能在Ajax中，在页面中添加标签： $("<p>").append($("<span>").text(list[i].name)).appendTo("#result"); 也可能在HQ
JAVA调用.net 发布的webservice 接口 darkranger webservice
/** * @Title: callInvoke * @Description: TODO(调用接口公共方法) * @param @param url 地址 * @param @param method 方法 * @param @param pama 参数 * @param @return * @param @throws BusinessException
Javascript模糊查找 | 第一章循环不能不重视。 aijuans Way
最近受我的朋友委托用js+HTML做一个像手册一样的程序，里面要有可展开的大纲，模糊查找等功能。我这个人说实在的懒，本来是不愿意的，但想起了父亲以前教我要给朋友搞好关系，再加上这也可以巩固自己的js技术，于是就开始开发这个程序，没想到却出了点小问题，我做的查找只能绝对查找。具体的js代码如下： function search(){ var arr=new Array("my
狼和羊，该怎么抉择 atongyeye 工作
狼和羊，该怎么抉择在做一个链家的小项目，只有我和另外一个同事两个人负责，各负责一部分接口，我的接口写完，并全部测联调试通过。所以工作就剩下一下细枝末节的，工作就轻松很多。每天会帮另一个同事测试一些功能点，协助他完成一些业务型不强的工作。今天早上到公司没多久，领导就在QQ上给我发信息，让我多协助同事测试，让我积极主动些，有点责任心等等，我听了这话，心里面立马凉半截，首先一个领导轻易说
读取android系统的联系人拨号百合不是茶 android sqlite数据库内容提供者系统服务的使用
联系人的姓名和号码是保存在不同的表中,不要一下子把号码查询来,我开始就是把姓名和电话同时查询出来的,导致系统非常的慢关键代码: 1, 使用javabean操作存储读取到的数据 package com.example.bean; /** * * @author Admini
ORACLE自定义异常 bijian1013 数据库自定义异常
实例： CREATE OR REPLACE PROCEDURE test_Exception ( ParameterA IN varchar2, ParameterB IN varchar2, ErrorCode OUT varchar2 --返回值,错误编码 ) AS /*以下是一些变量的定义*/ V1 NUMBER; V2 nvarc
查看端号使用情况征客丶 windows
一、查看端口在windows命令行窗口下执行： >netstat -aon|findstr "8080" 显示结果： TCP 127.0.0.1:80 0.0.0.0:0 &
【Spark二十】运行Spark Streaming的NetworkWordCount实例 bit1129 wordcount
Spark Streaming简介 NetworkWordCount代码 /* * Licensed to the Apache Software Foundation (ASF) under one or more * contributor license agreements. See the NOTICE file distributed with
Struts2 与 SpringMVC的比较 BlueSkator struts2 spring mvc
1. 机制：spring mvc的入口是servlet，而struts2是filter，这样就导致了二者的机制不同。 2. 性能：spring会稍微比struts快。spring mvc是基于方法的设计，而sturts是基于类，每次发一次请求都会实例一个action，每个action都会被注入属性，而spring基于方法，粒度更细，但要小心把握像在servlet控制数据一样。spring
Hibernate在更新时，是可以不用session的update方法的(转帖） BreakingBad Hibernate update
地址：http://blog.csdn.net/plpblue/article/details/9304459 public void synDevNameWithItil() {Session session = null;Transaction tr = null;try{session = HibernateUtil.getSession();tr = session.beginTran
读《研磨设计模式》-代码笔记-观察者模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; import java.util.Observable; import java.util.Observer; /** * “观
重置MySQL密码 chenhbc mysql 重置密码忘记密码
如果你也像我这么健忘，把MySQL的密码搞忘记了，经过下面几个步骤就可以重置了（以Windows为例，Linux/Unix类似）： 1、关闭MySQL服务 2、打开CMD，进入MySQL安装目录的bin目录下，以跳过权限检查的方式启动MySQL mysqld --skip-grant-tables 3、新开一个CMD窗口，进入MySQL mysql -uroot
再谈系统论，控制论和信息论 comsci 设计模式生物能源企业应用领域模型
再谈系统论，控制论和信息论偶然看
oracle moving window size与 AWR retention period关系 daizj oracle
转自： http://tomszrp.itpub.net/post/11835/494147 晚上在做11gR1的一个awrrpt报告时,顺便想调整一下AWR snapshot的保留时间,结果遇到了ORA-13541这样的错误.下面是这个问题的发生和解决过程. SQL> select * from v$version; BANNER -------------------
Python版B树 dieslrae python
话说以前的树都用java写的,最近发现python有点生疏了,于是用python写了个B树实现,B树在索引领域用得还是蛮多了,如果没记错mysql的默认索引好像就是B树... 首先是数据实体对象,很简单,只存放key,value class Entity(object): '''数据实体''' def __init__(self,key,value)
C语言冒泡排序 dcj3sjt126com 算法
代码示例： # include <stdio.h> //冒泡排序 void sort(int * a, int len) { int i, j, t; for (i=0; i<len-1; i++) { for (j=0; j<len-1-i; j++) { if (a[j] > a[j+1]) // >表示升序
自定义导航栏样式 dcj3sjt126com 自定义
-(void)setupAppAppearance { [[UILabel appearance] setFont:[UIFont fontWithName:@"FZLTHK—GBK1-0" size:20]]; [UIButton appearance].titleLabel.font =[UIFont fontWithName:@"FZLTH
11.性能优化-优化-JVM参数总结 frank1234 jvm参数性能优化
1.堆 -Xms --初始堆大小 -Xmx --最大堆大小 -Xmn --新生代大小 -Xss --线程栈大小 -XX:PermSize --永久代初始大小 -XX:MaxPermSize --永久代最大值 -XX:SurvivorRatio --新生代和suvivor比例,默认为8 -XX:TargetSurvivorRatio --survivor可使用
nginx日志分割 for linux HarborChung nginx linux 脚本
nginx日志分割 for linux 默认情况下，nginx是不分割访问日志的，久而久之，网站的日志文件将会越来越大，占用空间不说，如果有问题要查看网站的日志的话，庞大的文件也将很难打开，于是便有了下面的脚本使用方法，先将以下脚本保存为 cutlog.sh，放在/root 目录下，然后给予此脚本执行的权限复制代码代码如下: chmo
Spring4新特性——泛型限定式依赖注入 jinnianshilongnian spring spring4 泛型式依赖注入
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
centOS安装GCC和G++ liuxihope centos gcc
Centos支持yum安装，安装软件一般格式为yum install .......，注意安装时要先成为root用户。按照这个思路，我想安装过程如下：安装gcc：yum install gcc 安装g++： yum install g++ 实际操作过程发现，只能有gcc安装成功，而g++安装失败，提示g++ command not found。上网查了一下，正确安装应该
第13章 Ajax进阶（上） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
How to determine BusinessObjects service pack and fix pack blueoxygen BO
http://bukhantsov.org/2011/08/how-to-determine-businessobjects-service-pack-and-fix-pack/ The table below is helpful. Reference BOE XI 3.x 12.0.0. y BOE XI 3.0 12.0. x. y BO
Oracle里的自增字段设置 tomcat_oracle oracle
　大家都知道吧，这很坑，尤其是用惯了mysql里的自增字段设置，结果oracle里面没有的。oh，no 　　我用的是12c版本的，它有一个新特性，可以这样设置自增序列，在创建表是，把id设置为自增序列 create table t ( id 　　　　 number generated by default as identity (start with 1 increment b
Spring Security（01）——初体验 yang_winnie spring Security
Spring Security（01）——初体验博客分类： spring Security Spring Security入门安全认证首先我们为Spring Security专门建立一个Spring的配置文件，该文件就专门用来作为Spring Security的配置