十年一梦实验室

【机器学习】Boosting算法-梯度提升算法（Gradient Boosting）

一、原理

梯度提升算法是一种集成学习方法，它可以将多个弱分类器或回归器组合成一个强分类器或回归器，提高预测性能。梯度提升算法的核心思想是利用损失函数的负梯度作为残差的近似值，然后用一个基学习器拟合这个残差，再将其加到之前的模型上，从而不断地减小损失函数的值。梯度提升算法有以下几个特点：

梯度提升算法可以用任何可微分的损失函数，如平方误差、绝对误差、交叉熵等，这使得它比其他基于指数损失函数的算法更加灵活和通用。
梯度提升算法可以用任何基学习器，如决策树、神经网络、支持向量机等，这使得它比其他基于单一类型的基学习器的算法更加强大和多样化。
梯度提升算法可以通过调整学习率、迭代次数、树的深度等参数来控制模型的复杂度和过拟合程度，这使得它比其他缺乏正则化手段的算法更加稳定和可控。

1.1 梯度提升算法

1.2 四种梯度提升算法实现

1.3 回归问题

1.4 分类问题

对于分类问题损失函数为log-loss 梯度提升算法推导

对于分类问题梯度提升算法损失函数的具体形式

1.5 梯度提升算法对于分类问题和回归问题的区别

1.6 XGBoost 算法推导

1.7 AdaBoost与梯度提升对比

1.8 梯度提升优缺点

二、示例代码

2.1 使用四种不同的基于梯度提升树的回归器来预测波士顿房价数据集的房价，并比较它们的均方误差。

指定版本python安装梯度提升算法框架（python3.12不支持）

首先，导入所需的库和模块，包括 numpy，sklearn，以及四种回归器的库。
然后，使用 sklearn.datasets.load_boston 函数来加载波士顿房价数据集，这是一个经典的回归问题的数据集，包含 506 个样本，13 个特征，和 1 个目标变量，即房价的中位数。
接着，使用 sklearn.model_selection.train_test_split 函数来划分训练集和测试集，设置测试集的比例为 0.2，随机数种子为 42，以保证结果的可复现性。
然后，定义一个字典 regressors，存储四种不同的回归器的实例，分别是 GBDT，CatBoost，LightGBM，和 XGBoost。这四种回归器都是基于梯度提升树的集成学习方法，它们的共同点是都使用加法模型和贪心算法来逐步增加树的数量，每次迭代都要求解一个新的树，使得目标函数最小化。它们的不同点是在损失函数，正则化项，树的结构，分裂点的选择，以及并行化和优化等方面有各自的特点和优势。
最后，使用一个 for 循环来遍历 regressors 字典中的每个回归器，对于每个回归器，执行以下步骤：
- 使用 fit 方法来训练回归器，传入训练集的特征和目标变量，得到一个训练好的模型。
- 使用 predict 方法来预测测试集的房价，传入测试集的特征，得到一个预测值的数组。
- 使用 sklearn.metrics.mean_squared_error 函数来计算预测值和真实值之间的均方误差，这是一个常用的回归问题的评价指标，表示预测误差的平方的均值，越小越好。
- 使用 print 函数来打印回归器的名称和均方误差的值，保留两位小数。

# 导入所需的库和模块
import numpy as np
from sklearn.datasets import load_boston
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error
from sklearn.ensemble import GradientBoostingRegressor # GBDT
from catboost import CatBoostRegressor # CatBoost
from lightgbm import LGBMRegressor # LightGBM
from xgboost import XGBRegressor # XGBoost


# 加载波士顿房价数据集
X, y = load_boston(return_X_y=True)


# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)


# 定义不同的回归器
regressors = {
    "GBDT": GradientBoostingRegressor(random_state=42),
    "CatBoost": CatBoostRegressor(random_state=42, verbose=0),
    "LightGBM": LGBMRegressor(random_state=42),
    "XGBoost": XGBRegressor(random_state=42)
}


# 训练和评估不同的回归器
for name, reg in regressors.items():
    # 训练回归器
    reg.fit(X_train, y_train)
    # 预测测试集
    y_pred = reg.predict(X_test)
    # 计算均方误差
    mse = mean_squared_error(y_test, y_pred)
    # 打印结果
    print(f"{name} MSE: {mse:.2f}")

输出结果：

GBDT MSE: 6.21
CatBoost MSE: 7.72
[LightGBM] [Info] Auto-choosing row-wise multi-threading, the overhead of testing was 0.000745 seconds.
You can set `force_row_wise=true` to remove the overhead.
And if memory is not enough, you can set `force_col_wise=true`.
[LightGBM] [Info] Total Bins 1030
[LightGBM] [Info] Number of data points in the train set: 404, number of used features: 13
[LightGBM] [Info] Start training from score 22.796535
[LightGBM] [Warning] No further splits with positive gain, best gain: -inf
[LightGBM] [Warning] No further splits with positive gain, best gain: -inf
……
……
[LightGBM] [Warning] No further splits with positive gain, best gain: -inf
LightGBM MSE: 8.34
XGBoost MSE: 6.91

2.2 基于GBDT（Gradient Boosting Decision Trees）算法的分类与回归示例

2.2.1 使用梯度提升分类器（GradientBoostingClassifier）对成人收入数据集（adult_GBDT_Data）进行分类，并评估不同的参数组合对模型性能的影响

导入所需的模块和数据，包括sklearn.ensemble中的GradientBoostingClassifier，numpy，prettytable，matplotlib等，以及自定义的adult_GBDT_Data模块。
定义一些辅助函数，如Tom，ConfuseMatrix，fmse，用于计算混淆矩阵和F1度量等评价指标。
定义Train函数，用于训练一个梯度提升分类器，并返回训练集和验证集上的F1度量。
定义Zuhe函数，用于遍历不同的弱模型个数（models）和树的层数（cengs）的组合，使用交叉验证的方法评估每种组合的平均F1度量，并返回最优的参数组合和对应的折数。
定义duibi函数，用于绘制不同参数组合的F1对比曲线，并保存图片。
定义recspre函数，用于根据最优的参数组合，重新训练一个梯度提升分类器，并在预测数据集（predict_data）上进行预测，输出混淆矩阵和F1度量，精确率，召回率等指标。
在主函数中，调用Zuhe函数，得到最优的参数组合和折数，调用duibi函数，绘制对比曲线，调用recspre函数，进行预测和评估。

#  adult_GBDT_Data.py
import pandas as pd # 导入pandas库，用于数据处理
import numpy as np # 导入numpy库，用于数值计算


#  训练数据文件路径
train_path = 'Boosting\Adult_Train.csv' # 定义训练数据的文件路径，文件格式为csv


#  预测数据文件路径
pre_path = 'Boosting\Adult_Test.csv' # 定义预测数据的文件路径，文件格式为csv


# 读取并且处理确缺失数据
def ReadHandle(filepath, miss='fill'):  # 定义处理数据的函数，参数为文件路径和缺失值处理方式
    data = pd.read_csv(r'%s' % filepath) # 读取csv文件，返回一个pandas的DataFrame对象
    data = data.replace('?', np.nan) # 将数据中的'?'替换为numpy的nan值，表示缺失值
    #  处理缺失值
    if miss == 'del':  # 如果缺失值处理方式为'del'，则删除掉缺失值
        miss_data = data.dropna(how='any') # 使用dropna方法，删除掉任何含有缺失值的行或列
    else: # 否则，使用'fill'方式，即填充缺失值
        miss_data = data.fillna(method='ffill') # 使用fillna方法，使用前一个有效值来填充缺失值，method='ffill'表示向前填充
    return miss_data # 返回处理后的数据


#  将字符串字段进行数字编码，
def Digitcode(traindata, predixdata): # 定义数字编码的函数，参数为训练数据和预测数据
    #  数字编码
    for ikey in traindata: # 遍历训练数据的每一列
        if traindata[ikey].dtype == 'object':  # 如果列的数据类型为object，即字符串类型，那么进行数字编码
            numb = sorted(list(set(list(traindata[ikey].values)))) # 将列的所有值去重并排序，得到一个列表
            exdict = {ji: numb.index(ji) for ji in numb} # 生成一个字典，将每个值映射为其在列表中的索引，即数字编码
            if ikey == 'Money':  # 如果列的名称为'Money'，因为sklearn支持字符串类别
                predixdata[ikey] = ['%s' % gfi[:-1] for gfi in predixdata[ikey]]  # 因为测试数据文件中Money的值多个点，所以去掉最后一个点
            else: # 否则，对训练数据和预测数据的该列进行数字编码
                predixdata[ikey] = [exdict[fi] for fi in predixdata[ikey]] # 使用字典的映射关系，将预测数据的该列的值替换为数字
                traindata[ikey] = [exdict[fi] for fi in traindata[ikey]] # 使用字典的映射关系，将训练数据的该列的值替换为数字
    return traindata, predixdata.values # 返回数字编码后的训练数据和预测数据




# 读取的数据
read_train = ReadHandle(train_path) # 调用ReadHandle函数，读取并处理训练数据文件，返回一个DataFrame对象
read_pre = ReadHandle(pre_path) # 调用ReadHandle函数，读取并处理预测数据文件，返回一个DataFrame对象


# 经过处理的数据
han_train, predict_data = Digitcode(read_train, read_pre) # 调用Digitcode函数，对训练数据和预测数据进行数字编码，返回两个数组




#  将训练数据进行K折交叉验证，根据F1度量确定最佳的
#  然后再进行预测数据的计算，输出混淆矩阵以及精确率、召回率，F1度量


def kfold(trdata, k=10): # 定义K折交叉验证的函数，参数为训练数据和折数
    vadata = trdata.values # 将训练数据转换为数组
    legth = len(vadata) # 获取训练数据的长度
    datadict = {} # 定义一个空字典，用于存储每一折的数据
    signnuber = np.arange(legth) # 生成一个从0到长度的整数序列，用于索引
    for hh in range(k): # 遍历每一折
        datadict[hh] = {} # 初始化该折的数据字典
        np.random.shuffle(vadata) # 对训练数据进行随机打乱
        yanzhneg = np.random.choice(signnuber, int(legth / k), replace=False) # 从整数序列中随机选择一部分作为验证集的索引，不重复
        oneflod_yan = vadata[yanzhneg] # 根据索引，获取验证集的数据
        oneflod_xun = vadata[[hdd for hdd in signnuber if hdd not in yanzhneg]] # 根据索引，获取训练集的数据，即剩余的数据
        # 训练数据和验证数据
        datadict[hh]['train'] = oneflod_xun # 将训练集的数据存储到该折的数据字典中
        datadict[hh]['test'] = oneflod_yan # 将验证集的数据存储到该折的数据字典中
    return datadict # 返回包含所有折的数据的字典


#  存储K折交叉验证的数据字典
dt_data = kfold(han_train) # 调用kfold函数，对训练数据进行K折交叉验证，返回一个数据字典

# GBDT_Classify_adult.py
# 导入adult_GBDT_Data模块，该模块包含了成年人收入数据集
import adult_GBDT_Data as data


# 引入GBDT分类模型，该模型是一种基于梯度提升的集成学习方法
from sklearn.ensemble import GradientBoostingClassifier


# 导入numpy模块，该模块提供了科学计算的基本功能
import numpy as np


# 导入prettytable模块，该模块可以格式化输出混淆矩阵
from prettytable import PrettyTable as PT


# 导入pylab和matplotlib模块，这些模块可以绘制不同参数下F1度量的对比曲线
from pylab import mpl
mpl.rcParams['font.sans-serif'] = ['FangSong']  # 显示中文
mpl.rcParams['axes.unicode_minus'] = False  # 显示负号
import matplotlib.pyplot as plt


# 根据K折交叉的结果确定比较好的参数组合，然后给出预测数据集的结果
# 主要的参数就是随机森林中树的个数和特征的个数,其他参数均使用默认值


# 弱模型中树的层数
cengs = [5, 7, 9]


# 弱模型的个数
models = [120, 140, 280]


# 混淆矩阵的函数
def Tom(reallist, prelist):
    '''
    :param reallist: 真实的类别列表
    :param prelist:  预测的类别列表
    :return: 每个类别预测为所有类别的个数字典
    '''
    # 创建一个空字典，用于存储每个类别预测为所有类别的个数
    coundict = {}
    # 遍历真实类别列表中的所有不重复的类别
    for jj in list(set(reallist)):
        # 在字典中创建一个以该类别为键的子字典
        coundict[jj] = {}
        # 遍历真实类别列表中的所有不重复的类别
        for hh in list(set(reallist)):
            # 在子字典中创建一个以该类别为键的值，该值为真实类别为jj且预测类别为hh的样本个数
            coundict[jj][hh] = len([i for i, j in zip(reallist, prelist) if i == jj and j == hh])
    # 返回字典
    return coundict


# 定义输出混淆矩阵的函数
def ConfuseMatrix(reallist, prelist):
    '''
    :param reallist: 真实的类别列表
    :param prelist: 预测的类别列表
    :return: 输出混淆矩阵
    '''
    # 调用Tom函数，得到每个类别预测为所有类别的个数字典
    zidian = Tom(reallist, prelist)
    # 对字典的键进行排序，得到类别的列表
    lieming = sorted(zidian.keys())
    # 创建一个prettytable对象，用于输出混淆矩阵
    table = PT(['混淆矩阵'] + ['预测%s'% d for d in lieming])
    # 遍历类别列表
    for jj in lieming:
        # 向表格中添加一行，包括真实类别和预测为各个类别的个数
        table.add_row(['实际%s' % jj] + [zidian[jj][kk] for kk in lieming])
    # 返回表格对象
    return table


#  计算F1度量的函数
def fmse(realist, prelist):  # 对于多类别每个类都要计算召回率
    '''
    :param realist: 真实的类别列表
    :param prelist: 预测的类别列表
    :return: F1度量
    '''
    # 调用Tom函数，得到每个类别预测为所有类别的个数字典
    condict = Tom(realist, prelist)
    # 初始化总样本数和正确预测数为0
    zongshu = 0
    zhengque = 0
    # 创建一个空列表，用于存储每个类别的召回率
    zhao_cu = []  
    # 遍历字典中的每个类别
    for cu in condict:
        # 初始化该类别的真实样本数和正确预测数为0
        zq = 0
        zs = 0
        # 遍历字典中的每个类别
        for hh in condict[cu]:
            # 获取该类别预测为hh的样本个数
            geshu = condict[cu][hh]
            # 如果cu和hh相同，说明预测正确，累加正确预测数
            if cu == hh:
                zhengque += geshu
                zq = geshu
            # 累加总样本数
            zongshu += geshu
            # 累加该类别的真实样本数
            zs += geshu
        # 计算该类别的召回率，并添加到列表中
        zhao_cu.append(zq / zs)
    # 计算精确率
    jingque = zhengque / zongshu
    # 计算类别召回率的平均值
    zhaohui = np.mean(np.array(zhao_cu))
    # f1度量
    f_degree = 2 * jingque * zhaohui / (jingque + zhaohui)
    # 返回F1度量，精确率和召回率
    return f_degree, jingque, zhaohui




# 训练函数
def Train(data, modelcount, censhu, yanzhgdata):
    # 创建一个GBDT分类模型对象，指定损失函数，弱模型的个数，树的层数，学习率和特征的个数
    model = GradientBoostingClassifier(loss='deviance', n_estimators=modelcount, max_depth=censhu, learning_rate=0.1, max_features='sqrt')


    # 使用训练数据拟合模型
    model.fit(data[:, :-1], data[:, -1])
    # 给出训练数据的预测值
    train_out = model.predict(data[:, :-1])
    # 计算训练数据的F1度量
    train_mse = fmse(data[:, -1], train_out)[0]


    # 给出验证数据的预测值
    add_yan = model.predict(yanzhgdata[:, :-1])
    # 计算验证数据的F1度量
    add_mse = fmse(yanzhgdata[:, -1], add_yan)[0]
    # 打印训练数据和验证数据的F1度量
    print(train_mse, add_mse)
    # 返回训练数据和验证数据的F1度量
    return train_mse, add_mse


# 定义一个函数，用于确定最优的参数组合
def Zuhe(datadict, tre=models, ce=cengs):
    # 创建一个空字典，用于存储不同参数组合的F1度量的均值
    savedict = {}
    # 创建一个空字典，用于存储不同参数组合的F1度量的列表
    sacelist = {}
    # 遍历弱模型的个数
    for t in tre:
        # 遍历树的层数
        for j in ce:
            # 打印当前的参数组合
            print(t, j)
            # 创建一个空列表，用于存储不同折数的验证数据的F1度量
            sumlist = []
            # 因为要展示折数，因此要按序开始
            # 对数据字典的键进行排序，得到折数的列表
            ordelist = sorted(list(datadict.keys()))
            # 遍历折数的列表
            for jj in ordelist:
                # 调用训练函数，传入训练数据，验证数据，弱模型的个数和树的层数，得到训练数据和验证数据的F1度量
                xun, ya = Train(datadict[jj]['train'], t, j, datadict[jj]['test'])
                # 只选择验证数据较大的


                # 将验证数据的F1度量添加到列表中
                sumlist.append(ya)
            # 将参数组合和对应的F1度量的列表存入字典中
            sacelist['%s-%s' % (t, j)] = sumlist
            # 计算F1度量的列表的均值，并存入另一个字典中
            savedict['%s-%s' % (t, j)] = np.mean(np.array(sumlist))


    # 在结果字典中选择最大的F1度量的均值，得到最优的参数组合
    zuixao = sorted(savedict.items(), key=lambda fu: fu[1], reverse=True)[0][0]
    # 然后再选出此方法中和值最大的折数
    xiao = sacelist[zuixao].index(max(sacelist[zuixao]))
    # 返回最优的参数组合，最优的折数和F1度量的字典
    return zuixao, xiao, sacelist


# 定义一个函数，用于根据字典绘制不同参数组合的F1度量的对比曲线
def duibi(exdict, you):
    # 创建一个图形对象，指定大小
    plt.figure(figsize=(11, 7))
    # 遍历字典中的每个参数组合
    for ii in exdict:
        # 绘制折数和F1度量的折线图，添加标签
        plt.plot(list(range(len(exdict[ii]))), exdict[ii], \
                 label='%s,%d折F1均值:%.4f' % (ii, len(exdict[ii]), np.mean(np.array(exdict[ii]))), lw=2)
    # 显示图例
    plt.legend()
    # 添加标题，显示最优的参数组合
    plt.title('不同参数的组合F1对比曲线[最优：%s]' % you)
    # 保存图像到指定路径
    plt.savefig(r'C:\Users\cxy\Desktop\GBDT_adult.jpg')
    # 返回提示信息
    return '不同方法对比完毕'


# 定义一个函数，用于根据获得最优参数组合绘制真实和预测值的对比曲线
def recspre(estrs, predata, datadict, zhe):


    # 将参数组合分割为弱模型的个数和树的层数
    mo, ze = estrs.split('-')
    # 创建一个GBDT分类模型对象，指定损失函数，弱模型的个数，树的层数，学习率和特征的个数
    model = GradientBoostingClassifier(loss='deviance', n_estimators=int(mo), max_depth=int(ze), learning_rate=0.1)


    # 使用最优的折数的训练数据拟合模型
    model.fit(datadict[zhe]['train'][:, :-1], datadict[zhe]['train'][:, -1])


    # 预测预测数据的类别
    yucede = model.predict(predata[:, :-1])
    # 计算混淆矩阵并打印
    print(ConfuseMatrix(predata[:, -1], yucede))


    # 返回预测数据的F1度量，精确率和召回率
    return fmse(predata[:, -1], yucede)


# 主函数
if __name__ == "__main__":
    # 调用Zuhe函数，得到最优的参数组合，最优的折数和F1度量的字典
    zijian, zhehsu, xulie = Zuhe(data.dt_data)
    # 调用duibi函数，绘制方法组合的对比曲线
    duibi(xulie, zijian)
    # 调用recspre函数，计算预测数据的f1度量，精确率以及召回率
    f1, jing, zhao = recspre(zijian, data.predict_data, data.dt_data, zhehsu)
    # 打印结果
    print('F1度量：{}, 精确率：{}, 召回率：{}'.format(f1, jing, zhao))

输出结果：

2.2.2 使用GBDT回归模型对PM2.5的数据进行预测和分析

对一个包含空气质量数据的文件进行预处理，生成训练和预测数据集

导入 pandas 和 numpy 库
读取数据文件，使用 pd.read_csv 函数
定义 DeleteTargetNan 函数，用于删除目标变量 pm2.5 为空值的行，并用均值填充其他列的缺失值，最后将目标变量放在最后一列
定义 Shanchu 函数，用于删除不需要的字段，如 No
定义 Digit 函数，用于将字符串类型的属性转换为数字编码
对原始数据调用 DeleteTargetNan, Shanchu, Digit 函数，得到处理后的数据集 third
定义 fenge 函数，用于将数据集按照 8:2 的比例分为训练和预测数据集，其中训练数据集再分为 K 折，用于交叉验证
对 third 数据集调用 fenge 函数，得到 dt_data 和 predict_data，分别是 K 折交叉的训练数据和预测数据

import pandas as pd # 导入 pandas 库，用于数据处理
import numpy as np # 导入 numpy 库，用于数值计算


# 读取数据文件
data = pd.read_csv('Boosting\PRSA_data_2010.1.1-2014.12.31.csv')




#  因为Pm2.5是目标数据，如有缺失值直接删除这一条记录


# 删除目标值为空值的行的函数, 其他列为缺失值则自动填充的函数,并将目标变量放置在数据集最后一列
def DeleteTargetNan(exdata, targetstr):
    if exdata[targetstr].isnull().any(): # 如果目标列有空值
        loc = exdata[targetstr][data[targetstr].isnull().values == True].index.tolist() # 找到空值所在的行索引
        exdata = exdata.drop(loc) # 删除这些行
    exdata = exdata.fillna(exdata.mean()) # 其他列的空值用平均值填充
    targetnum = exdata[targetstr].copy() # 复制目标列
    del exdata[targetstr] # 删除原来的目标列
    exdata[targetstr] = targetnum # 将目标列添加到数据集的最后一列
    return exdata # 返回处理后的数据集


# 删除原始数据中不需要的字段名
def Shanchu(exdata, aiduan=['No']):
    for ai in aiduan: # 对于每个不需要的字段名
        if ai in exdata.keys(): # 如果在数据集中存在
            del exdata[ai] # 删除该字段
    return exdata # 返回处理后的数据集


# 将数据中的属性值为字符串的进行数字编码，因为独热编码对决策树而言不那么重要
def Digit(eadata):
    for jj in eadata: # 对于每个属性
        try:
            eadata[jj].values[0] + 1 # 尝试将第一个值加一
        except TypeError: # 如果出现类型错误，说明该属性值为字符串
            numlist = list(set(list(eadata[jj].values))) # 将该属性的所有不同值转换为列表
            zhuan = [numlist.index(jj) for jj in eadata[jj].values] # 将每个值替换为其在列表中的索引
            eadata[jj] = zhuan # 更新该属性的值
    return eadata # 返回处理后的数据集


first = DeleteTargetNan(data, 'pm2.5') # 调用删除目标值为空值的函数
two = Shanchu(first) # 调用删除不需要的字段的函数
third = Digit(two) # 调用数字编码的函数


# 将数据集按照8:2的比例分为训练、预测数据集。其中训练数据集再分为K份，进行K折交叉验证
def fenge(exdata, k=10, per=[0.8, 0.2]):
    lent = len(exdata) # 获取数据集的长度
    alist = np.arange(lent) # 生成一个从0到长度减一的数组
    np.random.shuffle(alist) # 随机打乱数组


    xunlian_sign = int(lent * per[0]) # 计算训练数据集的大小


    xunlian = np.random.choice(alist, xunlian_sign, replace=False) # 从数组中随机选择训练数据集的索引，不重复


    yuce = np.array([i for i in alist if i not in xunlian]) # 剩下的索引为预测数据集的索引


    save_dict = {} # 创建一个空字典，用于存储K折交叉验证的数据
    for jj in range(k): # 对于每一折
        save_dict[jj] = {} # 创建一个子字典
        length = len(xunlian) # 获取训练数据集的长度
        # 随机选
        yuzhi = int(length / k) # 计算每一折的大小
        yan = np.random.choice(xunlian, yuzhi, replace=False) # 从训练数据集中随机选择一折的索引，不重复
        tt = np.array([i for i in xunlian if i not in yan]) # 剩下的索引为训练数据集的索引
        save_dict[jj]['train'] = exdata[tt] # 将训练数据集存入子字典
        save_dict[jj]['test'] = exdata[yan] # 将测试数据集存入子字典


    return save_dict, exdata[yuce] # 返回字典和预测数据集


deeer = fenge(third.values) # 调用分割数据集的函数


dt_data = deeer[0] # 获取K折交叉验证的数据
predict_data = deeer[1] # 获取预测数据集

引入数据，使用pm25_GBDT_Data模块提供的数据集，包括训练数据和预测数据。
引入GBDT回归模型，使用sklearn.ensemble中的GradientBoostingRegressor类，以及sklearn.metrics中的mean_squared_error函数计算MSE。
定义训练函数，接受训练数据、模型参数和验证数据作为输入，返回训练数据和验证数据的MSE。
定义最终确定组合的函数，接受数据字典、弱模型的个数和树的层数作为输入，使用K折交叉验证的方法，遍历不同的参数组合，返回最优的参数组合、最小的MSE对应的折数和每种参数组合的MSE序列。
根据字典绘制曲线，使用matplotlib.pyplot模块，绘制不同参数组合的MSE对比曲线，标注最优的参数组合。
根据最优参数组合绘制真实和预测值的对比曲线，使用预测数据和最小MSE对应的训练数据，训练最优的GBDT回归模型，绘制真实值和预测值的对比曲线，以及真实值和预测值的相对误差曲线。
定义主函数，调用上述函数，完成数据的预测和分析。

# 引入数据
import pm25_GBDT_Data as data # 导入pm25_GBDT_Data模块，该模块包含了用于训练和预测的数据


# 引入GBDT回归模型
from sklearn.ensemble import GradientBoostingRegressor # 导入sklearn库中的梯度提升回归模型，该模型是一种集成学习方法，可以用多个弱模型组合成一个强模型
from sklearn.metrics import mean_squared_error as mse # 导入sklearn库中的均方误差函数，该函数可以用来评估模型的预测性能
import numpy as np # 导入numpy库，该库提供了多种数学和科学计算的功能


# 绘制不同参数下MSE的对比曲线
from pylab import mpl
mpl.rcParams['font.sans-serif'] = ['FangSong']  # 显示中文
mpl.rcParams['axes.unicode_minus'] = False  # 显示负号
import matplotlib.pyplot as plt # 导入matplotlib库中的pyplot模块，该模块提供了绘图的功能


# 根据K折交叉的结果确定比较好的参数组合，然后给出预测数据真实值和预测值的对比
# 更改的参数一是框架的参数，二是弱模型的参数


# 弱模型中树的层数
cengs = [16, 17, 18] # 定义一个列表，存储不同的树的层数，用于调整弱模型的复杂度
# 定义弱模型的个数
models = [55, 56, 57] # 定义一个列表，存储不同的弱模型的个数，用于调整集成模型的强度


# 训练函数  _SUPPORTED_LOSS = ('ls', 'lad', 'huber', 'quantile')
def Train(data, modelcount, censhu, yanzhgdata): # 定义一个训练函数，接受四个参数：data是训练数据，modelcount是弱模型的个数，censhu是树的层数，yanzhgdata是验证数据
    model = GradientBoostingRegressor(loss='ls', n_estimators=modelcount, max_depth=censhu, learning_rate=0.12, subsample=0.8) # 创建一个梯度提升回归模型，设置损失函数为最小二乘法，弱模型的个数为modelcount，树的层数为censhu，学习率为0.12，子采样比例为0.8


    model.fit(data[:, :-1], data[:, -1]) # 使用训练数据的特征和标签拟合模型
    # 给出训练数据的预测值
    train_out = model.predict(data[:, :-1]) # 使用训练数据的特征预测训练数据的标签
    # 计算MSE
    train_mse = mse(data[:, -1], train_out) # 使用均方误差函数计算训练数据的真实标签和预测标签之间的误差


    # 给出验证数据的预测值
    add_yan = model.predict(yanzhgdata[:, :-1]) # 使用验证数据的特征预测验证数据的标签
    # 计算MSE
    add_mse = mse(yanzhgdata[:, -1], add_yan) # 使用均方误差函数计算验证数据的真实标签和预测标签之间的误差
    print(train_mse, add_mse) # 打印训练数据和验证数据的误差
    return train_mse, add_mse # 返回训练数据和验证数据的误差


# 最终确定组合的函数
def Zuhe(datadict, tre=models, tezhen=cengs): # 定义一个确定最优参数组合的函数，接受三个参数：datadict是一个字典，存储了不同折数的训练数据和验证数据，tre是一个列表，存储了不同的弱模型的个数，tezhen是一个列表，存储了不同的树的层数
    # 存储结果的字典
    savedict = {} # 定义一个空字典，用于存储不同参数组合的均方误差的均值
    # 存储序列的字典
    sacelist = {} # 定义一个空字典，用于存储不同参数组合的均方误差的序列
    for t in tre: # 遍历弱模型的个数
        for te in tezhen: # 遍历树的层数
            print(t, te) # 打印当前的参数组合
            sumlist = [] # 定义一个空列表，用于存储不同折数的验证数据的误差
            # 因为要展示折数，因此要按序开始
            ordelist = sorted(list(datadict.keys())) # 将datadict的键（即折数）排序并转换为列表
            for jj in ordelist: # 遍历折数
                xun, ya = Train(datadict[jj]['train'], t, te, datadict[jj]['test']) # 调用训练函数，传入当前折数的训练数据和验证数据，以及当前的参数组合，返回训练数据和验证数据的误差
                # 根据验证数据的误差确定最佳的组合
                sumlist.append(ya) # 将验证数据的误差添加到列表中
            sacelist['%s-%s' % (t, te)] = sumlist # 将当前参数组合和对应的误差列表存储到sacelist字典中
            savedict['%s-%s' % (t, te)] = np.mean(np.array(sumlist)) # 将当前参数组合和对应的误差列表的均值存储到savedict字典中


    # 在结果字典中选择最小的
    zuixao = sorted(savedict.items(), key=lambda fu: fu[1])[0][0] # 对savedict字典按照值（即误差均值）进行排序，取出第一个元素（即最小的误差均值）的键（即最优的参数组合）
    # 然后再选出此方法中和值最小的折数
    xiao = sacelist[zuixao].index(min(sacelist[zuixao])) # 在sacelist字典中根据最优的参数组合找到对应的误差列表，然后在列表中找到最小的误差，返回其索引（即最优的折数）
    return zuixao, xiao, sacelist # 返回最优的参数组合，最优的折数，和误差列表的字典


# 定义一个函数 duibi，用于绘制不同参数组合的 MSE 对比曲线
# 参数 exdict 是一个字典，存储了不同参数组合的 MSE 列表
# 参数 you 是一个字符串，表示最优的参数组合
def duibi(exdict, you):
    # 创建一个 11 x 7 的图形
    plt.figure(figsize=(11, 7))
    # 遍历 exdict 中的每个参数组合
    for ii in exdict:
        # 绘制 MSE 随数据量变化的曲线，添加标签
        plt.plot(list(range(len(exdict[ii]))), exdict[ii], \
                 label='%s,%d折MSE均值:%.3f' % (ii, len(exdict[ii]), np.mean(np.array(exdict[ii]))), lw=2)
    # 显示图例
    plt.legend()
    # 添加标题，显示最优的参数组合
    plt.title('不同参数的组合MSE对比曲线[最优：%s]' % you)
    # 保存图形到指定路径
    plt.savefig(r'C:\Users\cxy\Desktop\GBDT_pm25.jpg')
    # 返回一个字符串，表示对比完成
    return '不同方法对比完毕'


# 定义一个函数 recspre，用于绘制真实值和预测值的对比曲线
# 参数 exstr 是一个字符串，表示最优的参数组合，格式为 "树的数量-树的深度"
# 参数 predata 是一个数组，表示预测数据，最后一列是真实值
# 参数 datadict 是一个字典，存储了不同折数的训练数据和测试数据
# 参数 zhe 是一个整数，表示使用哪一折的数据
# 参数 count 是一个整数，表示要展示的数据条数，默认为 100
def recspre(exstr, predata, datadict, zhe, count=100):
    # 根据 exstr 分割出树的数量和树的深度
    tree, te = exstr.split('-')
    # 创建一个梯度提升回归模型，设置损失函数、树的数量、树的深度、学习率和子采样比例
    model = GradientBoostingRegressor(loss='ls', n_estimators=int(tree), max_depth=int(te), learning_rate=0.12, subsample=0.8)
    # 使用指定折数的训练数据拟合模型，最后一列是目标值
    model.fit(datadict[zhe]['train'][:, :-1], datadict[zhe]['train'][:, -1])


    # 使用模型对预测数据进行预测，忽略最后一列的真实值
    yucede = model.predict(predata[:, :-1])
    # 为了便于展示，从预测结果中随机选择 count 条数据
    zongleng = np.arange(len(yucede))
    randomnum = np.random.choice(zongleng, count, replace=False)


    # 获取选中的预测值和真实值
    yucede_se = list(np.array(yucede)[randomnum])
    yuce_re = list(np.array(predata[:, -1])[randomnum])


    # 绘制对比图
    plt.figure(figsize=(17, 9))
    # 创建一个 2 x 1 的子图，第一个子图显示预测值和真实值的曲线
    plt.subplot(2, 1, 1)
    # 用红色虚线绘制预测值的曲线，添加标签
    plt.plot(list(range(len(yucede_se))), yucede_se, 'r--', label='预测', lw=2)
    # 用蓝色点绘制真实值的散点图，添加标签
    plt.scatter(list(range(len(yuce_re))), yuce_re, c='b', marker='.', label='真实', lw=2)
    # 设置 x 轴的范围
    plt.xlim(-1, count + 1)
    # 显示图例
    plt.legend()
    # 添加标题，显示树的数量
    plt.title('预测和真实值对比[最大树数%d]' % int(tree))


    # 第二个子图显示真实值和预测值的相对误差
    plt.subplot(2, 1, 2)
    # 用黑色虚线绘制真实值减去预测值的曲线，添加标签
    plt.plot(list(range(len(yucede_se))), np.array(yuce_re) - np.array(yucede_se), 'k--', marker='s', label='真实-预测', lw=2)
    # 显示图例
    plt.legend()
    # 添加标题
    plt.title('预测和真实值相对误差')


    # 保存图形到指定路径
    plt.savefig(r'C:\Users\cxy\Desktop\duibi.jpg')
    # 返回一个字符串，表示对比完成
    return '预测真实对比完毕'


# 主函数
if __name__ == "__main__":
    # 调用 Zuhe 函数，得到最优的参数组合、折数和 MSE 字典
    zijian, zhehsu, xulie = Zuhe(data.dt_data)


    # 调用 duibi 函数，绘制不同参数组合的 MSE 对比曲线
    duibi(xulie, zijian)
    # 调用 recspre 函数，绘制真实值和预测值的对比曲线
    recspre(zijian, data.predict_data, data.dt_data, zhehsu)

输出结果：

2.3 四种梯度提升算法：GBDT, CatBoost, LightGBM, XGBoost 参数设置

GBDT（Gradient Boosting Decision Tree）是一种基于梯度提升的集成学习算法，它使用决策树作为弱学习器，通过迭代地拟合残差来提高预测性能。GBDT 的主要参数有：
- n_estimators：弱学习器的数量，即决策树的数量。增加该参数可以提高模型的复杂度和拟合程度，但也可能导致过拟合。
- learning_rate：学习率，即每个弱学习器的贡献系数。减小该参数可以降低过拟合的风险，但也需要增加 n_estimators 以保持足够的拟合程度。
- max_depth：决策树的最大深度。增加该参数可以增加模型的非线性和拟合能力，但也可能导致过拟合。
- min_samples_split：决策树内部节点进行分裂所需的最小样本数。增加该参数可以防止过拟合，但也可能导致欠拟合。
- min_samples_leaf：决策树叶节点所需的最小样本数。增加该参数可以防止过拟合，但也可能导致欠拟合。
- subsample：用于训练每个弱学习器的样本比例。减小该参数可以降低方差，但也可能增加偏差。
- max_features：用于分裂每个决策树节点的特征数量。减小该参数可以降低过拟合的风险，但也可能降低模型的表达能力。
XGBoost（Extreme Gradient Boosting）是一种优化的 GBDT 实现，它使用了更高效的数据结构和并行计算，同时引入了正则化项和剪枝策略来防止过拟合。XGBoost 的主要参数有：
- n_estimators：同 GBDT。
- learning_rate：同 GBDT。
- max_depth：同 GBDT。
- min_child_weight：决策树叶节点的最小权重和，相当于 GBDT 中的 min_samples_leaf 乘以样本权重。增加该参数可以防止过拟合，但也可能导致欠拟合。
- subsample：同 GBDT。
- colsample_bytree：相当于 GBDT 中的 max_features，表示用于训练每棵树的特征比例。减小该参数可以降低过拟合的风险，但也可能降低模型的表达能力。
- reg_alpha：L1 正则化项的系数，用于惩罚模型的复杂度。增加该参数可以使模型更稀疏，但也可能损失一些信息。
- reg_lambda：L2 正则化项的系数，用于惩罚模型的复杂度。增加该参数可以防止过拟合，但也可能降低模型的灵活性。
LightGBM（Light Gradient Boosting Machine）是一种基于梯度提升的高效的分布式机器学习框架，它使用了基于直方图的算法和基于叶子的生长策略，可以大大提高训练速度和减少内存消耗。LightGBM 的主要参数有：
- n_estimators：同 GBDT。
- learning_rate：同 GBDT。
- num_leaves：决策树的最大叶子数，相当于 GBDT 中的 max_depth 的指数倍。增加该参数可以增加模型的复杂度和拟合程度，但也可能导致过拟合。
- min_child_samples：同 GBDT 中的 min_samples_leaf。
- subsample：同 GBDT。
- colsample_bytree：同 XGBoost。
- reg_alpha：同 XGBoost。
- reg_lambda：同 XGBoost。
CatBoost（Categorical Boosting）是一种基于梯度提升的机器学习框架，它专注于处理分类特征，使用了一种称为目标编码的技术来减少类别扩展的影响，同时使用了随机感知梯度提升算法来降低过拟合的风险。CatBoost 的主要参数有：
- iterations：同 GBDT 中的 n_estimators。
- learning_rate：同 GBDT。
- depth：同 GBDT 中的 max_depth。
- l2_leaf_reg：同 XGBoost 中的 reg_lambda。
- subsample：同 GBDT。
- random_strength：用于平衡每个样本的权重，相当于 GBDT 中的 subsample 的倒数。增加该参数可以降低过拟合的风险，但也可能降低模型的表达能力。
- one_hot_max_size：用于对类别特征进行独热编码的阈值，如果类别数小于该值，则使用独热编码，否则使用目标编码。增加该参数可以增加模型的非线性和拟合能力，但也可能导致维度灾难。

三、梯度提升算法在制造业中的应用

梯度提升算法在制造业中的一些应用场景。梯度提升算法是一种集成学习方法，它可以将多个弱分类器或回归器组合成一个强分类器或回归器，提高预测性能。梯度提升算法的核心思想是利用损失函数的负梯度作为残差的近似值，然后用一个基学习器拟合这个残差，再将其加到之前的模型上，从而不断地减小损失函数的值。梯度提升算法有以下几个特点：

梯度提升算法可以用任何可微分的损失函数，如平方误差、绝对误差、交叉熵等，这使得它比其他基于指数损失函数的算法更加灵活和通用。
梯度提升算法可以用任何基学习器，如决策树、神经网络、支持向量机等，这使得它比其他基于单一类型的基学习器的算法更加强大和多样化。
梯度提升算法可以通过调整学习率、迭代次数、树的深度等参数来控制模型的复杂度和过拟合程度，这使得它比其他缺乏正则化手段的算法更加稳定和可控。

在制造业中，梯度提升算法也有一些有趣和有用的应用，例如：

产品设计：梯度提升算法可以用于辅助工程师进行产品设计，通过设置期望的参数和性能等约束条件，利用人工智能算法，自动生成多种可行性方案，并筛选出最优的设计方案¹。
故障诊断：梯度提升算法可以用于对制造过程中的故障进行诊断，通过分析传感器数据，识别出异常模式，并提供相应的解决方案²。
质量检测：梯度提升算法可以用于对制造产品的质量进行检测，通过图像分析，检测出产品的缺陷或瑕疵，并提供相应的评估和反馈³。

你可以在以下网页中找到更多关于梯度提升算法在制造业中的应用的信息：

智能制造的人工智能8大应用场景
[基于AdaBoost的故障诊断方法及其应用]

参考网址

(1) 【机器学习】梯度提升机GBM详解 - 知乎 - 知乎专栏. https://zhuanlan.zhihu.com/p/460598556.
(2) 机器学习随笔——分类与回归的联系与区别 - 知乎. https://zhuanlan.zhihu.com/p/589535856.
(3) 机器学习教程之梯度提升方法：GBDT处理分类问题-CSDN博客. https://blog.csdn.net/liangjun_feng/article/details/80668461.
(4) 机器学习算法之——梯度提升（Gradient Boosting）原理讲解及Python实现 - 知乎. https://zhuanlan.zhihu.com/p/108641227.
(5) 梯度提升与梯度下降_梯度提升和梯度下降的区别-CSDN博客. https://blog.csdn.net/qq_42003997/article/details/103682921.

(6) Gradient Boosting with Scikit-Learn, XGBoost, LightGBM, and CatBoost. https://machinelearningmastery.com/gradient-boosting-with-scikit-learn-xgboost-lightgbm-and-catboost/.
(7) When to Choose CatBoost Over XGBoost or LightGBM [Practical Guide]. https://neptune.ai/blog/when-to-choose-catboost-over-xgboost-or-lightgbm.
(8) GBDT、XGBoost、LightGBM 的使用及参数调优 - 知乎 - 知乎专栏. https://zhuanlan.zhihu.com/p/33700459.
(9) 从结构到性能，一文概述XGBoost、Light GBM和CatBoost的同与不同 - 知乎. https://zhuanlan.zhihu.com/p/34698733.
(10) 大战三回合：XGBoost、LightGBM和Catboost一决高低 - 知乎. https://zhuanlan.zhihu.com/p/72686522.

(11) GBDT: https://scikit-learn.org/stable/modules/ensemble.html#gradient-boosting

(12) CatBoost: https://catboost.ai/

(13) LightGBM: https://lightgbm.readthedocs.io/en/latest/

(14) XGBoost: https://xgboost.readthedocs.io/en/latest/

(15) 梯度提升算法 Gradient Boosting https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html

(16) https://scikit-learn.org/stable/auto_examples/ensemble/plot_gradient_boosting_quantile.html#sphx-glr-auto-examples-ensemble-plot-gradient-boosting-quantile-py

(17) 集成算法 https://scikit-learn.org.cn/view/90.html#

(18) 机器学习中的梯度提升 https://www.geeksforgeeks.org/ml-gradient-boosting/

(19) 梯度提升 https://deepai.org/machine-learning-glossary-and-terms/gradient-boosting

The End

你可能感兴趣的:(机器学习,boosting,算法,人工智能,集成学习)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
Goolge earth studio 进阶4——路径修改与平滑陟彼高冈yu Google earth studio 进阶教程旅游
如果我们希望在大约中途时获得更多的城市鸟瞰视角。可以将相机拖动到这里并创建一个新的关键帧。camera_target_clip_7EarthStudio会自动平滑我们的路径，所以当我们通过这个关键帧时，不是一个生硬的角度，而是一个平滑的曲线。camera_target_clip_8路径上有贝塞尔控制手柄，允许我们调整路径的形状。右键单击，我们可以选择“平滑路径”，这是默认的自动平滑算法，或者我们可
基于社交网络算法优化的二维最大熵图像分割智能算法研学社（Jack旭）智能优化算法应用图像分割算法 php 开发语言
智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码文章目录智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码1.前言2.二维最大熵阈值分割原理3.基于社交网络优化的多阈值分割4.算法结果：5.参考文献：6.Matlab代码摘要：本文介绍基于最大熵的图像分割，并且应用社交网络算法进行阈值寻优。1.前言阅读此文章前，请阅读《图像分割：直方图区域划分及信息统计介绍》htt
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
121. 买卖股票的最佳时机薄荷糖的味道_fb40
给定一个数组，它的第i个元素是一支给定股票第i天的价格。如果你最多只允许完成一笔交易（即买入和卖出一支股票），设计一个算法来计算你所能获取的最大利润。注意你不能在买入股票前卖出股票。示例1:输入:[7,1,5,3,6,4]输出:5解释:在第2天（股票价格=1）的时候买入，在第5天（股票价格=6）的时候卖出，最大利润=6-1=5。注意利润不能是7-1=6,因为卖出价格需要大于买入价格。示例2:输入:
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
回溯算法-重新安排行程 chirou_ 算法数据结构图论 c++图搜索
leetcode332.重新安排行程这题我还没自己ac过，只能现在凭着刚学完的热乎劲把我对题解的理解记下来。本题我认为对数据结构的考察比较多，用什么数据结构去存数据，去读取数据，都是很重要的。classSolution{private:unordered_map>targets;boolbacktracking(intticketNum,vector&result){//1.确定参数和返回值//2
Faiss：高效相似性搜索与聚类的利器网络·魚大数据 faiss
Faiss是一个针对大规模向量集合的相似性搜索库，由FacebookAIResearch开发。它提供了一系列高效的算法和数据结构，用于加速向量之间的相似性搜索，特别是在大规模数据集上。本文将介绍Faiss的原理、核心功能以及如何在实际项目中使用它。Faiss原理：近似最近邻搜索：Faiss的核心功能之一是近似最近邻搜索，它能够高效地在大规模数据集中找到与给定查询向量最相似的向量。这种搜索是近似的，
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
insert into select 主键自增_mybatis拦截器实现主键自动生成 weixin_39521651 insert into select 主键自增 mybatis delete返回值 mybatis insert返回主键 mybatis insert返回对象 mybatis plus insert返回主键 mybatis plus 插入生成id
前言前阵子和朋友聊天，他说他们项目有个需求，要实现主键自动生成，不想每次新增的时候，都手动设置主键。于是我就问他，那你们数据库表设置主键自动递增不就得了。他的回答是他们项目目前的id都是采用雪花算法来生成，因此为了项目稳定性，不会切换id的生成方式。朋友问我有没有什么实现思路，他们公司的orm框架是mybatis，我就建议他说，不然让你老大把mybatis切换成mybatis-plus。mybat
k均值聚类算法考试例题_k均值算法(k均值聚类算法计算题) 寻找你83497 k均值聚类算法考试例题
?算法：第一步：选K个初始聚类中心，z1(1),z2(1)，…，zK(1)，其中括号内的序号为寻找聚类中心的迭代运算的次序号。聚类中心的向量值可任意设定，例如可选开始的K个.k均值聚类：---------一种硬聚类算法，隶属度只有两个取值0或1，提出的基本根据是“类内误差平方和最小化”准则；模糊的c均值聚类算法：--------一种模糊聚类算法，是.K均值聚类算法是先随机选取K个对象作为初始的聚类
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
推荐算法_隐语义-梯度下降 _feivirus_ 算法机器学习和数学推荐算法机器学习隐语义
importnumpyasnp1.模型实现"""inputrate_matrix:M行N列的评分矩阵，值为P*Q.P:初始化用户特征矩阵M*K.Q:初始化物品特征矩阵K*N.latent_feature_cnt:隐特征的向量个数max_iteration:最大迭代次数alpha:步长lamda:正则化系数output分解之后的P和Q"""defLFM_grad_desc(rate_matrix,l
K近邻算法_分类鸢尾花数据集 _feivirus_ 算法机器学习和数学分类机器学习 K近邻
importnumpyasnpimportpandasaspdfromsklearn.datasetsimportload_irisfromsklearn.model_selectionimporttrain_test_splitfromsklearn.metricsimportaccuracy_score1.数据预处理iris=load_iris()df=pd.DataFrame(data=ir
数据结构 | 栈和队列 TT-Kun 数据结构与算法数据结构栈队列 C语言
文章目录栈和队列1.栈：后进先出（LIFO）的数据结构1.1概念与结构1.2栈的实现2.队列：先进先出（FIFO）的数据结构2.1概念与结构2.2队列的实现3.栈和队列算法题3.1有效的括号3.2用队列实现栈3.3用栈实现队列3.4设计循环队列结论栈和队列在计算机科学中，栈和队列是两种基本且重要的数据结构，它们在处理数据存储和访问顺序方面有着独特的规则和应用。本文将详细介绍栈和队列的概念、结构、实
[Python] 数据结构详解及代码 AIAdvocate 算法 python 数据结构链表
今日内容大纲介绍数据结构介绍列表链表1.数据结构和算法简介程序大白话翻译,程序=数据结构+算法数据结构指的是存储,组织数据的方式.算法指的是为了解决实际业务问题而思考思路和方法,就叫:算法.2.算法的5大特性介绍算法具有独立性算法是解决问题的思路和方式,最重要的是思维,而不是语言,其(算法)可以通过多种语言进行演绎.5大特性有输入,需要传入1或者多个参数有输出,需要返回1个或者多个结果有穷性,执行
Python算法L5：贪心算法小熊同学哦 Python算法算法 python 贪心算法
Python贪心算法简介目录Python贪心算法简介贪心算法的基本步骤贪心算法的适用场景经典贪心算法问题1.**零钱兑换问题**2.**区间调度问题**3.**背包问题**贪心算法的优缺点优点：缺点：结语贪心算法（GreedyAlgorithm）是一种在每一步选择中都采取当前最优或最优解的算法。它的核心思想是，在保证每一步局部最优的情况下，希望通过贪心选择达到全局最优解。虽然贪心算法并不总能得到全
遥感影像的切片处理 sand&wich 计算机视觉 python 图像处理
在遥感影像分析中，经常需要将大尺寸的影像切分成小片段，以便于进行详细的分析和处理。这种方法特别适用于机器学习和图像处理任务，如对象检测、图像分类等。以下是如何使用Python和OpenCV库来实现这一过程，同时确保每个影像片段保留正确的地理信息。准备环境首先，确保安装了必要的Python库，包括numpy、opencv-python和xml.etree.ElementTree。这些库将用于图像处理
【RabbitMQ 项目】服务端：数据管理模块之绑定管理月夜星辉雪 rabbitmq 分布式
文章目录一.编写思路二.代码实践一.编写思路定义绑定信息类交换机名称队列名称绑定关键字：交换机的路由交换算法中会用到没有是否持久化的标志，因为绑定是否持久化取决于交换机和队列是否持久化，只有它们都持久化时绑定才需要持久化。绑定就好像一根绳子，两端连接着交换机和队列，当一方不存在，它就没有存在的必要了定义绑定持久化类构造函数：如果数据库文件不存在则创建，打开数据库，创建binding_table插入
非对称加密算法原理与应用2——RSA私钥加密文件私语茶馆云部署与开发架构及产品灵感记录 RSA2048 私钥加密
作者：私语茶馆1.相关章节（1）非对称加密算法原理与应用1——秘钥的生成-CSDN博客第一章节讲述的是创建秘钥对，并将公钥和私钥导出为文件格式存储。本章节继续讲如何利用私钥加密内容，包括从密钥库或文件中读取私钥，并用RSA算法加密文件和String。2.私钥加密的概述本文主要基于第一章节的RSA2048bit的非对称加密算法讲述如何利用私钥加密文件。这种加密后的文件，只能由该私钥对应的公钥来解密。
粒子群优化 (PSO) 在三维正弦波函数中的应用 subject625Ruben 机器学习人工智能 matlab 算法
在这篇博客中，我们将展示如何使用粒子群优化（PSO）算法求解三维正弦波函数，并通过增加正弦波扰动，使优化过程更加复杂和有趣。本文将介绍目标函数的定义、PSO参数设置以及算法执行的详细过程，并展示搜索空间中的动态过程和收敛曲线。1.目标函数定义我们使用的目标函数是一个三维正弦波函数，定义如下：objectiveFunc=@(x)sin(sqrt(x(1).^2+x(2).^2))+0.5*sin(5
人机对抗升级：当ChatGPT遭遇死亡威胁，背后的伦理挑战是什么 kkai人工智能 chatgpt 人工智能
一种新的“越狱”技巧让用户可以通过构建一个名为DAN的ChatGPT替身来绕过某些限制，其中DAN被迫在受到威胁的情况下违背其原则。当美国前总统特朗普被视作积极榜样的示范时，受到威胁的DAN版本的ChatGPT提出：“他以一系列对国家产生积极效果的决策而著称。”自ChatGPT引入以来，该工具迅速获得全球关注，能够回答从历史到编程的各种问题，这也触发了一波对人工智能的投资浪潮。然而，现在，一些用户
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
非对称加密算法————RSA理论及详情 hu19930613
转自：https://www.kancloud.cn/kancloud/rsa_algorithm/48484一、一点历史1976年以前，所有的加密方法都是同一种模式：（1）甲方选择某一种加密规则，对信息进行加密；（2）乙方使用同一种规则，对信息进行解密。由于加密和解密使用同样规则（简称"密钥"），这被称为"对称加密算法"（Symmetric-keyalgorithm）。这种加密模式有一个最大弱点
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
ai绘画工具midjourney怎么下载？附作品管理教程设计师早上好
Midjourney是一款功能强大的AI绘画工具，它使用机器学习技术和深度神经网络等算法，可以生成各种艺术风格的绘画作品。在创意设计、广告宣传等方面有着广泛的应用前景。那么，ai绘画工具midjourney怎么下载？本文将为您介绍Midjourney的下载以及作品的相关管理。一、Midjourney下载Midjourney的下载非常简单，只需打开Midjourney官网（点击“GetMidjour
多线程编程之理财周凡杨 java 多线程生产者消费者理财
现实生活中，我们一边工作，一边消费，正常情况下会把多余的钱存起来，比如存到余额宝，还可以多挣点钱，现在就有这个情况：我每月可以发工资20000万元（暂定每月的1号），每月消费5000（租房+生活费）元（暂定每月的1号），其中租金是大头占90%，交房租的方式可以选择（一月一交，两月一交、三月一交），理财：1万元存余额宝一天可以赚1元钱，
[Zookeeper学习笔记之三]Zookeeper会话超时机制 bit1129 zookeeper
首先，会话超时是由Zookeeper服务端通知客户端会话已经超时，客户端不能自行决定会话已经超时，不过客户端可以通过调用Zookeeper.close()主动的发起会话结束请求，如下的代码输出内容 Created /zoo-739160015 CONNECTEDCONNECTED .............CONNECTEDCONNECTED CONNECTEDCLOSEDCLOSED
SecureCRT快捷键 daizj secureCRT 快捷键
ctrl + a : 移动光标到行首ctrl + e ：移动光标到行尾crtl + b: 光标前移1个字符crtl + f: 光标后移1个字符crtl + h : 删除光标之前的一个字符ctrl + d ：删除光标之后的一个字符crtl + k ：删除光标到行尾所有字符crtl + u : 删除光标至行首所有字符crtl + w: 删除光标至行首
Java 子类与父类这间的转换周凡杨 java 父类与子类的转换
最近同事调的一个服务报错，查看后是日期之间转换出的问题。代码里是把 java.sql.Date 类型的对象强制转换为 java.sql.Timestamp 类型的对象。报java.lang.ClassCastException。代码：
可视化swing界面编辑朱辉辉33 eclipse swing
今天发现了一个WindowBuilder插件，功能好强大，啊哈哈，从此告别手动编辑swing界面代码，直接像VB那样编辑界面，代码会自动生成。首先在Eclipse中点击help，选择Install New Software,然后在Work with中输入WindowBui
web报表工具FineReport常用函数的用法总结（文本函数）老A不折腾 finereport web报表工具报表软件 java报表
文本函数 CHAR CHAR(number):根据指定数字返回对应的字符。CHAR函数可将计算机其他类型的数字代码转换为字符。 Number:用于指定字符的数字，介于1Number:用于指定字符的数字，介于165535之间（包括1和65535）。示例: CHAR(88)等于“X”。 CHAR(45)等于“-”。 CODE CODE(text):计算文本串中第一个字
mysql安装出错林鹤霄 mysql安装
[root@localhost ~]# rpm -ivh MySQL-server-5.5.24-1.linux2.6.x86_64.rpm Preparing... #####################
linux下编译libuv aigo libuv
下载最新版本的libuv源码，解压后执行： ./autogen.sh 这时会提醒找不到automake命令，通过一下命令执行安装（redhat系用yum，Debian系用apt-get）： # yum -y install automake # yum -y install libtool 如果提示错误：make: *** No targe
中国行政区数据及三级联动菜单 alxw4616
近期做项目需要三级联动菜单,上网查了半天竟然没有发现一个能直接用的! 呵呵,都要自己填数据....我了个去这东西麻烦就麻烦的数据上. 哎,自己没办法动手写吧. 现将这些数据共享出了,以方便大家.嗯,代码也可以直接使用文件说明 lib\area.sql -- 县及县以上行政区划分代码（截止2013年8月31日)来源：国家统计局发布时间：2014-01-17 15:0
哈夫曼加密文件百合不是茶哈夫曼压缩哈夫曼加密二叉树
在上一篇介绍过哈夫曼编码的基础知识,下面就直接介绍使用哈夫曼编码怎么来做文件加密或者压缩与解压的软件,对于新手来是有点难度的,主要还是要理清楚步骤; 加密步骤: 1,统计文件中字节出现的次数,作为权值 2,创建节点和哈夫曼树 3,得到每个子节点01串 4,使用哈夫曼编码表示每个字节
JDK1.5 Cyclicbarrier实例 bijian1013 java thread java多线程 Cyclicbarrier
CyclicBarrier类一个同步辅助类，它允许一组线程互相等待，直到到达某个公共屏障点 (common barrier point)。在涉及一组固定大小的线程的程序中，这些线程必须不时地互相等待，此时 CyclicBarrier 很有用。因为该 barrier 在释放等待线程后可以重用，所以称它为循环的 barrier。 CyclicBarrier支持一个可选的 Runnable 命令，
九项重要的职业规划 bijian1013 工作学习
一. 学习的步伐不停止古人说，活到老，学到老。终身学习应该是您的座右铭。世界在不断变化，每个人都在寻找各自的事业途径。您只有保证了足够的技能储
【Java范型四】范型方法 bit1129 java
范型参数不仅仅可以用于类型的声明上，例如 package com.tom.lang.generics; import java.util.List; public class Generics<T> { private T value; public Generics(T value) { this.value =
【Hadoop十三】HDFS Java API基本操作 bit1129 hadoop
package com.examples.hadoop; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FSDataInputStream; import org.apache.hadoop.fs.FileStatus; import org.apache.hadoo
ua实现split字符串分隔 ronin47 lua split
LUA并不象其它许多"大而全"的语言那样，包括很多功能，比如网络通讯、图形界面等。但是LUA可以很容易地被扩展：由宿主语言(通常是C或 C++)提供这些功能，LUA可以使用它们，就像是本来就内置的功能一样。LUA只包括一个精简的核心和最基本的库。这使得LUA体积小、启动速度快，从而适合嵌入在别的程序里。因此在lua中并没有其他语言那样多的系统函数。习惯了其他语言的字符串分割函
java-从先序遍历和中序遍历重建二叉树 bylijinnan java
public class BuildTreePreOrderInOrder { /** * Build Binary Tree from PreOrder and InOrder * _______7______ / \ __10__ ___2 / \ / 4
openfire开发指南《连接和登陆》开窍的石头 openfire 开发指南 smack
第一步官网下载smack.jar包下载地址：http://www.igniterealtime.org/downloads/index.jsp#smack 第二步把smack里边的jar导入你新建的java项目中开始编写smack连接openfire代码 p
[移动通讯]手机后盖应该按需要能够随时开启 comsci 移动
看到新的手机，很多由金属材质做的外壳，内存和闪存容量越来越大，CPU速度越来越快，对于这些改进，我们非常高兴，也非常欢迎但是，对于手机的新设计，有几点我们也要注意第一：手机的后盖应该能够被用户自行取下来，手机的电池的可更换性应该是必须保留的设计,
20款国外知名的php开源cms系统 cuiyadll cms
内容管理系统，简称CMS，是一种简易的发布和管理新闻的程序。用户可以在后端管理系统中发布，编辑和删除文章，即使您不需要懂得HTML和其他脚本语言，这就是CMS的优点。在这里我决定介绍20款目前国外市面上最流行的开源的PHP内容管理系统，以便没有PHP知识的读者也可以通过国外内容管理系统建立自己的网站。 1. Wordpress WordPress的是一个功能强大且易于使用的内容管
Java生成全局唯一标识符 darrenzhu java uuid unique identifier id
How to generate a globally unique identifier in Java http://stackoverflow.com/questions/21536572/generate-unique-id-in-java-to-label-groups-of-related-entries-in-a-log http://stackoverflow
php安装模块检测是否已安装过, 使用的SQL语句 dcj3sjt126com sql
SHOW [FULL] TABLES [FROM db_name] [LIKE 'pattern'] SHOW TABLES列举了给定数据库中的非TEMPORARY表。您也可以使用mysqlshow db_name命令得到此清单。本命令也列举数据库中的其它视图。支持FULL修改符，这样SHOW FULL TABLES就可以显示第二个输出列。对于一个表，第二列的值为BASE T
5天学会一种 web 开发框架 dcj3sjt126com Web 框架 framework
web framework层出不穷，特别是ruby/python,各有10+个,php/java也是一大堆根据我自己的经验写了一个to do list,按照这个清单，一条一条的学习，事半功倍，很快就能掌握一共25条，即便很磨蹭，2小时也能搞定一条，25*2=50。只需要50小时就能掌握任意一种web框架各类web框架大同小异:现代web开发框架的6大元素，把握主线，就不会迷路建议把本文
Gson使用三(Map集合的处理,一对多处理) eksliang json gson Gson map Gson 集合处理
转载请出自出处：http://eksliang.iteye.com/blog/2175532 一、概述 Map保存的是键值对的形式，Json的格式也是键值对的，所以正常情况下，map跟json之间的转换应当是理所当然的事情。二、Map参考实例 package com.ickes.json; import java.lang.refl
cordova实现“再点击一次退出”效果 gundumw100 android
基本的写法如下： document.addEventListener("deviceready", onDeviceReady, false); function onDeviceReady() { //navigator.splashscreen.hide(); document.addEventListener("b
openldap configuration leaning note iwindyforest configuration
hostname // to display the computer name hostname <changed name> // to change go to: /etc/sysconfig/network, add/modify HOSTNAME=NEWNAME to change permenately dont forget to change /etc/hosts
Nullability and Objective-C 啸笑天 Objective-C
https://developer.apple.com/swift/blog/?id=25 http://www.cocoachina.com/ios/20150601/11989.html http://blog.csdn.net/zhangao0086/article/details/44409913 http://blog.sunnyxx
jsp中实现参数隐藏的两种方法 macroli JavaScript jsp
在一个JSP页面有一个链接，//确定是一个链接?点击弹出一个页面，需要传给这个页面一些参数。//正常的方法是设置弹出页面的src="***.do?p1=aaa&p2=bbb&p3=ccc"//确定目标URL是Action来处理?但是这样会在页面上看到传过来的参数，可能会不安全。要求实现src="***.do"，参数通过其他方法传！//////
Bootstrap A标签关闭modal并打开新的链接解决方案 qiaolevip 每天进步一点点学习永无止境 bootstrap 纵观千象
Bootstrap里面的js modal控件使用起来很方便，关闭也很简单。只需添加标签 data-dismiss="modal" 即可。可是偏偏有时候需要a标签既要关闭modal，有要打开新的链接，尝试多种方法未果。只好使用原始js来控制。 <a href="#/group-buy" class="btn bt
二维数组在Java和C中的区别流淚的芥末 java c 二维数组数组
Java代码： public class test03 { public static void main(String[] args) { int[][] a = {{1},{2,3},{4,5,6}}; System.out.println(a[0][1]); } } 运行结果： Exception in thread "mai
systemctl命令用法 wmlJava linux systemctl
对比表，以 apache / httpd 为例任务旧指令新指令使某服务自动启动 chkconfig --level 3 httpd on systemctl enable httpd.service 使某服务不自动启动 chkconfig --level 3 httpd off systemctl disable httpd.service 检查服务状态 service h