RuDing

XGBoost算法原理简介及调参

译文：Complete Guide to Parameter Tuning in XGBoost

简介

当模型没有达到预期效果的时候，XGBoost就是数据科学家的最终武器。XGboost是一个高度复杂的算法，有足够的能力去学习数据的各种各样的不规则特征。

用XGBoost建模很简单，但是提升XGBoost的模型效果却需要很多的努力。因为这个算法使用了多维的参数。为了提升模型效果，调参就不可避免，但是想要知道参数怎么调，什么样的参数能够得出较优的模型输出就很困难了。

这篇文章适用于XGBoost新手，教会新手学习使用XGBoost的一些有用信息来帮忙调整参数。

What should you know?

XGBoost(extreme Gradient Boosting) 是一个高级的梯度增强算法（gradient boosting algorithm）,推荐看一下我前一篇翻译的自该作者的文章

XGBoost 的优势

Regularization：
- 标准的GBM并没有XGBoost的Regularization，这个能帮助减少过拟合问题
Parallel Processing:
- XGBoost实现了并行计算，与GBM相比非常快
- 但是基于序列的模型，新模型的建立是基于前面已经建立好的模型，如何能实现并行计算呢？探索一下吧
- XGBoost 支持在Hadoop上实现
High Flexibility
- XGBoost允许用户定制优化目标和评价标准
- 这一点将会使得我们对模型有很多可以改进的地方
Handling Missing Values
- XGBoost有内嵌的处理缺失值的程序
- 其他模型中用户被要求为缺失值提供相应的与其他值不同的值去填充缺失值，XGBoost会尝试对缺失值进行分类，并学习这种分类
Tree Pruning:
- GBM会停止对一个节点进行分裂，当其计算到这个节点的split的loss是负数时，GBM是一个贪婪算法
- XGBoost的分类取决于max_depth，当树的深度达到max_depth时，开始进行剪枝，移除没有正基尼（no positive gain）节点的split
- 另一个优点是一个节点被分裂的时候loss为-2，当其二次分裂的时候loss可能为+10，GBM会停止该节点的分裂，XGBoost会进入到第二步，然后结合两个分裂的影响，最终为+8
Built-in Cross-Validation
- XGBoost允许每一个交叉验证实现boosting过程，因而通过一次run就能获得boosting迭代的优化量
- 与GBM需要运营grid-search且需要限时值的范围获得优化量不同
Continue on Existing Model
用户可以通过上个版本的XGBoost模型训练新版本的模型
GBM的sklearn也有这个特性

加深对XGBoost的理解的文章：
1.XGBoost Guide – Introduction to Boosted Trees
2.Words from the Author of XGBoost

XGBoost Parameters

XGBoost的变量类型有三类：

General Parameters：调控整个方程
Booster Parameters：调控每步树的相关变量
Learning Task Parameters：调控优化表现的变量

1.General Parameters：

booster [default=gbtree]：
- gbtree: tree-based models，树模型
- gblinear: linear models，线性模型
silent [default=0]:
- 设置成1表示打印运行过程中的相关信息
- 通常选择默认值就好，打印出的信息能够帮助理解model
nthread [default to maximum number of threads available if not set]
- 主要用于并行计算，系统的内核数需要作为变量
- 如果希望运行所有的内核，就不需要设置该参数，程序会自己检测到该值

2.Booster Parameters

虽然XGBoost有两种boosters,作者在参数这一块只讨论了tree booster，原因是tree booster的表现总是好于 linear booster

eta [default=0.3]
- 与GBM中学习率的概念相似
- 通过减小每一步的权重能够使得建立的模型更鲁棒
- 通常最终的数值范围在[0.01-0.2]之间
min_child_weight [default=1]
- 定义观测样本生成的孩子节点的权重最小和
- 这个概念与GBM中的min_child_leaf概念类似，但是又不完全一样，这个概念指的是某观测叶子节点中所有样本权重之和的最小值，而GBM指的是叶子节点的最少样本量
- 用于防止过拟合问题：较大的值能防止过拟合，过大的值会导致欠拟合问题
- 需要通过CV调参
max_depth [default=6]
- 树的最大深度
- 用于防止过拟合问题
- 通过CV调参
- 通常值的范围：[3-10]
max_leaf_nodes
- 一棵树最多的叶子节点的数目
- 与max_depth定义一个就好
gamma [default=0]
- 一个节点分裂的条件是其分裂能够起到降低loss function的作用，gamma 定义loss function降低多少才分裂
- 这个变量使得算法变得保守，它的值取决于 loss function需要被调节
max_delta_step [default=0]
- 此变量的设置使得我们定义每棵树的权重估计值的变化幅度。如果值为0，值的变化没有限制，如果值>0，权重的变化将会变得相对保守
- 通常这个参数不会被使用，但如果是极度不平衡的逻辑回归将会有所帮助
subsample [default=1]：
- 与GBM的subsample定义一样，指的是没有每棵树的样本比例
- 低值使得模型更保守且能防止过拟合，但太低的值会导致欠拟合
- 通常取值范围[0.5-1]
colsample_bytree [default=1]
- 与GBM中的max_features类似，指的是每棵树随机选取的特征的比例
- 通常取值范围[0.5-1]
colsample_bylevel [default=1]
- 指的是树的每个层级分裂时子样本的特征所占的比例
- 作者表示不用这个参数，因为subsample和colsample_bytree组合做的事与之类似
lambda [default=1]
- l2正则化权重的术语（同 Ridge regression）
- 用于处理XGBoost里的正则化部分，虽然很多数据科学家不怎么使用这个参数，但是它可以用于帮助防止过拟合
alpha [default=0]
- l1正则化的权重术语（同Lasso regression）
- 当特征量特别多的时候可以使用，这样能加快算法的运行效率
scale_pos_weight [default=1]
- 当样本不平衡时，需要设置一个大于0的数帮助算法尽快收敛

3.Learning Task Parameters

此类变量用于定义优化目标每一次计算的需要用到的变量

objective [default=reg:linear]
- 用于定义loss function，通常有以下几类
- binary:logistic-用于二分类，返回分类的概率而不是类别（class）
- multi:softmax-多分类问题，返回分类的类别而不是概率
- multi:softprob-与softmax类似，但是返回样本属于每一类的概率
eval_metric [ default according to objective ]
- 这个变量用于测试数据（validation data.）
- 默认值：回归-rmse；分类-error
- 通常值如下：
  - rmse – root mean square error
  - mae – mean absolute error
  - logloss – negative log-likelihood
  - error – Binary classification error rate (0.5 threshold)
  - merror – Multiclass classification error rate
  - mlogloss – Multiclass logloss
  - auc: Area under the curve
seed [default=0]
- 随机种子的值

有些变量在Python的sklearn的接口中对应命名如下：
1. eta -> learning rate
2. lambda ->reg_lambda
3. alpha -> reg_alpha

可能感到困惑的是这里并没有像GBM中一样提及n_estimators，这个参数实际存在于XGBClassifier中，但实际是通过num_boosting_rounds在我们调用fit函数事来体现的。

作者推荐以下链接，进一步加深对XGBOOST的了解：
1.XGBoost Parameters (official guide)
2.XGBoost Demo Codes (xgboost GitHub repository)
3.Python API Reference (official guide)

XGBoost 调参步骤

#导入需要的数据和库
#Import libraries:
import pandas as pd
import numpy as np
import xgboost as xgb
from xgboost.sklearn import XGBClassifier
from sklearn import cross_validation, metrics   #Additional scklearn functions
from sklearn.grid_search import GridSearchCV   #Perforing grid search

import matplotlib.pylab as plt
%matplotlib inline
from matplotlib.pylab import rcParams
rcParams['figure.figsize'] = 12, 4

train = pd.read_csv('train_modified.csv')
target = 'Disbursed'
IDcol = 'ID'

此处作者调用了两种类型的XGBoost：
1.xgb：xgboost直接的库，可以调用cv函数
2.XGBClassifier: sklearn对XGBoost的包装，可以允许使用sklearn的网格搜索功能进行并行计算

#定义一个函数帮助产生xgboost模型及其效果
def modelfit(alg, dtrain, predictors,useTrainCV=True, cv_folds=5, early_stopping_rounds=50):

    if useTrainCV:
        xgb_param = alg.get_xgb_params()
        xgtrain = xgb.DMatrix(dtrain[predictors].values, label=dtrain[target].values)
        cvresult = xgb.cv(xgb_param, xgtrain, num_boost_round=alg.get_params()['n_estimators'], nfold=cv_folds,
            metrics='auc', early_stopping_rounds=early_stopping_rounds, show_progress=False)
        alg.set_params(n_estimators=cvresult.shape[0])

    #Fit the algorithm on the data
    alg.fit(dtrain[predictors], dtrain['Disbursed'],eval_metric='auc')

    #Predict training set:
    dtrain_predictions = alg.predict(dtrain[predictors])
    dtrain_predprob = alg.predict_proba(dtrain[predictors])[:,1]

    #Print model report:
    print "\nModel Report"
    print "Accuracy : %.4g" % metrics.accuracy_score(dtrain['Disbursed'].values, dtrain_predictions)
    print "AUC Score (Train): %f" % metrics.roc_auc_score(dtrain['Disbursed'], dtrain_predprob)

    feat_imp = pd.Series(alg.booster().get_fscore()).sort_values(ascending=False)
    feat_imp.plot(kind='bar', title='Feature Importances')
    plt.ylabel('Feature Importance Score')

#xgboost’s sklearn没有feature_importances，但是#get_fscore() 有相同的功能

General Approach for Parameter Tuning

通常的做法如下：
1.选择一个相对高一点的学习率（learning rate）：通常0.1是有用的，但是根据问题的不同，可以选择范围在[0.05,0.3]之间，根据选好的学习率选择最优的树的数目，xgboost有一个非常有用的cv函数可以用于交叉验证并能返回最终的最优树的数目
2.调tree-specific parameters（max_depth, min_child_weight, gamma, subsample, colsample_bytree）
3.调regularization parameters（lambda, alpha）
4.调低学习率并决定优化的参数

step1:Fix learning rate and number of estimators for tuning tree-based parameters

1.设置参数的初始值：

max_depth = 5 : [3,10],4-6都是不错的初始值的选择
min_child_weight = 1 : 如果数据是不平衡数据，初始值设置最好小于1
gamma = 0 : 初始值通常设置在0.1-0.2范围内，并且在后续的调参中也会经常被调节
subsample, colsample_bytree = 0.8 : 通常使用0.8作为调参的开始参数，调整范围为[0.5-0.9]
scale_pos_weight = 1:因为作者的数据为高度不平衡数据

#通过固定的学习率0.1和cv选择合适的树的数量
#Choose all predictors except target & IDcols
predictors = [x for x in train.columns if x not in [target, IDcol]]
xgb1 = XGBClassifier(
 learning_rate =0.1,
 n_estimators=1000,
 max_depth=5,
 min_child_weight=1,
 gamma=0,
 subsample=0.8,
 colsample_bytree=0.8,
 objective= 'binary:logistic',
 nthread=4,
 scale_pos_weight=1,
 seed=27)
modelfit(xgb1, train, predictors)
#作者调整后得到的树的值为140，如果这个值对于当前的系统而言太大了，可以调高学习率重新训练

step2:Tune max_depth and min_child_weight

先调这两个参数的原因是因为这两个参数对模型的影响做大

param_test1 = {
 'max_depth':range(3,10,2),
 'min_child_weight':range(1,6,2)
}
gsearch1 = GridSearchCV(estimator = XGBClassifier( learning_rate =0.1, n_estimators=140, max_depth=5,
 min_child_weight=1, gamma=0, subsample=0.8, colsample_bytree=0.8,
 objective= 'binary:logistic', nthread=4, scale_pos_weight=1, seed=27), 
 param_grid = param_test1, scoring='roc_auc',n_jobs=4,iid=False, cv=5)
gsearch1.fit(train[predictors],train[target])
gsearch1.grid_scores_, gsearch1.best_params_, gsearch1.best_score_

最优的 max_depth=5，min_child_weight=5
因为之前的步长是2，在最优参数的基础上，在上调下调各一步，看是否能得到更好的参数

param_test2 = {
 'max_depth':[4,5,6],
 'min_child_weight':[4,5,6]
}
gsearch2 = GridSearchCV(estimator = XGBClassifier( learning_rate=0.1, n_estimators=140, max_depth=5,
 min_child_weight=2, gamma=0, subsample=0.8, colsample_bytree=0.8,
 objective= 'binary:logistic', nthread=4, scale_pos_weight=1,seed=27), 
 param_grid = param_test2, scoring='roc_auc',n_jobs=4,iid=False, cv=5)
gsearch2.fit(train[predictors],train[target])
gsearch2.grid_scores_, gsearch2.best_params_, gsearch2.best_score_

以上结果跑出来的最优参数为：max_depth=4，min_child_weight=6,另外从作者跑出来的cv结果看，再提升结果比较困难，可以进一步对min_child_weight试着调整看一下效果：

param_test2b = {
 'min_child_weight':[6,8,10,12]
}
gsearch2b = GridSearchCV(estimator = XGBClassifier( learning_rate=0.1, n_estimators=140, max_depth=4,
 min_child_weight=2, gamma=0, subsample=0.8, colsample_bytree=0.8,
 objective= 'binary:logistic', nthread=4, scale_pos_weight=1,seed=27), 
 param_grid = param_test2b, scoring='roc_auc',n_jobs=4,iid=False, cv=5)
gsearch2b.fit(train[predictors],train[target])
modelfit(gsearch3.best_estimator_, train, predictors)
gsearch2b.grid_scores_, gsearch2b.best_params_, gsearch2b.best_score_

step3:Tune gamma

param_test3 = {
 'gamma':[i/10.0 for i in range(0,5)]
}
gsearch3 = GridSearchCV(estimator = XGBClassifier( learning_rate =0.1, n_estimators=140, max_depth=4,
 min_child_weight=6, gamma=0, subsample=0.8, colsample_bytree=0.8,
 objective= 'binary:logistic', nthread=4, scale_pos_weight=1,seed=27), 
 param_grid = param_test3, scoring='roc_auc',n_jobs=4,iid=False, cv=5)
gsearch3.fit(train[predictors],train[target])
gsearch3.grid_scores_, gsearch3.best_params_, gsearch3.best_score_

基于以上调好参数的前提下，可以看一下模型的特征的表现：

xgb2 = XGBClassifier(
 learning_rate =0.1,
 n_estimators=1000,
 max_depth=4,
 min_child_weight=6,
 gamma=0,
 subsample=0.8,
 colsample_bytree=0.8,
 objective= 'binary:logistic',
 nthread=4,
 scale_pos_weight=1,
 seed=27)
modelfit(xgb2, train, predictors)

step4: Tune subsample and colsample_bytree

param_test4 = {
 'subsample':[i/10.0 for i in range(6,10)],
 'colsample_bytree':[i/10.0 for i in range(6,10)]
}
gsearch4 = GridSearchCV(estimator = XGBClassifier( learning_rate =0.1, n_estimators=177, max_depth=4,
 min_child_weight=6, gamma=0, subsample=0.8, colsample_bytree=0.8,
 objective= 'binary:logistic', nthread=4, scale_pos_weight=1,seed=27), 
 param_grid = param_test4, scoring='roc_auc',n_jobs=4,iid=False, cv=5)
gsearch4.fit(train[predictors],train[target])
gsearch4.grid_scores_, gsearch4.best_params_, gsearch4.best_score_

#上一步发现最优值均为0.8，这一步做的事情是在附近以0.05的步长做调整
param_test5 = {
 'subsample':[i/100.0 for i in range(75,90,5)],
 'colsample_bytree':[i/100.0 for i in range(75,90,5)]
}
gsearch5 = GridSearchCV(estimator = XGBClassifier( learning_rate =0.1, n_estimators=177, max_depth=4,
 min_child_weight=6, gamma=0, subsample=0.8, colsample_bytree=0.8,
 objective= 'binary:logistic', nthread=4, scale_pos_weight=1,seed=27), 
 param_grid = param_test5, scoring='roc_auc',n_jobs=4,iid=False, cv=5)
gsearch5.fit(train[predictors],train[target])

Step 5: Tuning Regularization Parameters

这一步的作用是通过使用过regularization 来降低过拟合问题，大部分的人选择忽略这个参数，因为gamma 有提供类似的功能

param_test6 = {
 'reg_alpha':[1e-5, 1e-2, 0.1, 1, 100]
}
gsearch6 = GridSearchCV(estimator = XGBClassifier( learning_rate =0.1, n_estimators=177, max_depth=4,
 min_child_weight=6, gamma=0.1, subsample=0.8, colsample_bytree=0.8,
 objective= 'binary:logistic', nthread=4, scale_pos_weight=1,seed=27), 
 param_grid = param_test6, scoring='roc_auc',n_jobs=4,iid=False, cv=5)
gsearch6.fit(train[predictors],train[target])
gsearch6.grid_scores_, gsearch6.best_params_, gsearch6.best_score_

这一步调参之后结果可能会变差，方法是在获得的最优的参数0.01附近进行微调，看能否获得更好的结果

param_test7 = {
 'reg_alpha':[0, 0.001, 0.005, 0.01, 0.05]
}
gsearch7 = GridSearchCV(estimator = XGBClassifier( learning_rate =0.1, n_estimators=177, max_depth=4,
 min_child_weight=6, gamma=0.1, subsample=0.8, colsample_bytree=0.8,
 objective= 'binary:logistic', nthread=4, scale_pos_weight=1,seed=27), 
 param_grid = param_test7, scoring='roc_auc',n_jobs=4,iid=False, cv=5)
gsearch7.fit(train[predictors],train[target])
gsearch7.grid_scores_, gsearch7.best_params_, gsearch7.best_score_

然后基于获得的更好的值，我们再看一下模型的整体表现

xgb3 = XGBClassifier(
 learning_rate =0.1,
 n_estimators=1000,
 max_depth=4,
 min_child_weight=6,
 gamma=0,
 subsample=0.8,
 colsample_bytree=0.8,
 reg_alpha=0.005,
 objective= 'binary:logistic',
 nthread=4,
 scale_pos_weight=1,
 seed=27)
modelfit(xgb3, train, predictors)

Step 6: Reducing Learning Rate

最后一步就是降低学习率并增加更多的树

xgb4 = XGBClassifier(
 learning_rate =0.01,
 n_estimators=5000,
 max_depth=4,
 min_child_weight=6,
 gamma=0,
 subsample=0.8,
 colsample_bytree=0.8,
 reg_alpha=0.005,
 objective= 'binary:logistic',
 nthread=4,
 scale_pos_weight=1,
 seed=27)
modelfit(xgb4, train, predictors)

最后作者分享了两条经验：
1.仅仅通过调参来提升模型的效果是很难的
2.想要提升模型的效果，还可以通过特征工程、模型融合以及stacking方法

LLM 词汇表落难Coder LLMs NLP 大语言模型大模型 llama 人工智能
Contextwindow“上下文窗口”是指语言模型在生成新文本时能够回溯和参考的文本量。这不同于语言模型训练时所使用的大量数据集，而是代表了模型的“工作记忆”。较大的上下文窗口可以让模型理解和响应更复杂和更长的提示，而较小的上下文窗口可能会限制模型处理较长提示或在长时间对话中保持连贯性的能力。Fine-tuning微调是使用额外的数据进一步训练预训练语言模型的过程。这使得模型开始表示和模仿微调数
大模型训练数据库Common Crawl WindyChanChan 数据集语言模型数据库
CommonCrawl介绍‌‌CommonCrawl是一个非营利组织，致力于通过大规模分布式爬虫系统定期抓取整个Web并将其存储在一个可公开访问的数据库中。CommonCrawl的数据收集和处理过程包括使用Python开源爬虫工具收集全球范围内的网站数据，并将其上传到‌CommonCrawl基金会的数据仓库中。该项目从2008年开始，至今已经积累了大量的原始网页数据、元数据和文本提取数据。这些数据
Spark MLlib模型训练—推荐算法 ALS(Alternative Least Squares) 不二人生 Spark ML 实战 spark-ml 推荐算法算法
SparkMLlib模型训练—推荐算法ALS(AlternativeLeastSquares)如果你平时爱刷抖音，或者热衷看电影，不知道有没有过这样的体验：这类影视App你用得越久，它就好像会读心术一样，总能给你推荐对胃口的内容。其实这种迎合用户喜好的推荐，离不开机器学习中的推荐算法。在今天这一讲，我们就结合两个有趣的电影推荐场景，为你讲解SparkMLlib支持的协同过滤与频繁项集算法电影推荐场
【ShuQiHere】小白也能懂的 TensorFlow 和 PyTorch GPU 配置教程 ShuQiHere tensorflow pytorch 人工智能
【ShuQiHere】在深度学习中，GPU的使用对于加速模型训练至关重要。然而，对于许多刚刚入门的小白来说，如何在TensorFlow和PyTorch中指定使用GPU进行训练可能会感到困惑。在本文中，我将详细介绍如何在这两个主流的深度学习框架中指定使用GPU进行训练，并确保每一个步骤都简单易懂，跟着我的步骤来，你也能轻松上手！1.安装所需库首先，确保你已经安装了TensorFlow或PyTorch
RTX 4090深度学习性能实测奉上！模型训练可提升60~80% 赋创小助手服务器深度学习人工智能图像处理自动驾驶
近期，我们对RTX4090涡轮版进行了完整的整机测试，本篇文章将分别围绕单卡，4卡，8卡RTX4090性能测试结果展开分享，以全面评估其相比上代RTX30系列的性能优势。首先让我们一起看看本次测试的硬件配置。测试硬件配置简单介绍一下本次使用的平台为超微SYS-420GP-TNR，这款GPU系统针对AI和图形密集型工作负载的灵活设计，4U双处理器（第三代英特尔®至强®），双根GPU系统，最多10个P
时序预测|基于粒子群优化支持向量机的时间序列预测Matlab程序PSO-SVM 单变量和多变量含基础模型机器不会学习CL 智能优化算法时间序列预测支持向量机 matlab 算法
时序预测|基于粒子群优化支持向量机的时间序列预测Matlab程序PSO-SVM单变量和多变量含基础模型文章目录一、基本原理1.问题定义2.数据准备3.SVM模型构建4.粒子群优化（PSO）5.优化与模型训练6.模型评估与预测7.流程总结8.MATLAB实现概述二、实验结果三、核心代码四、代码获取五、总结时序预测|基于粒子群优化支持向量机的时间序列预测Matlab程序PSO-SVM单变量和多变量含基
使用Python和Jieba库进行中文情感分析：从文本预处理到模型训练的完整指南快撑死的鱼 Python算法精解 python 人工智能开发语言
使用Python和Jieba库进行中文情感分析：从文本预处理到模型训练的完整指南情感分析（SentimentAnalysis）是自然语言处理（NLP）领域中的一个重要分支，旨在从文本中识别出情绪、态度或意见等主观信息。在中文文本处理中，由于语言特性不同于英语，如何高效、准确地分词和提取关键词成为情感分析的关键步骤之一。在这篇文章中，我们将深入探讨如何使用Python和Jieba库进行中文情感分析，
第3篇：LangChain的架构总览与设计理念 Gemini技术窝 langchain 架构大数据人工智能 AIGC nlp
LangChain库是一个专为自然语言处理（NLP）设计的强大工具包，致力于简化复杂语言模型链的构建和执行。在本文中，我们将深入解析LangChain库的架构，详细列出其核心组件、设计理念及其在不同场景中的应用，并讨论其优缺点。文章目录1.LangChain库简介2.核心组件2.1数据输入模块作用2.2数据预处理模块作用2.3数据增强模块作用2.4数据加载与批处理模块作用2.5模型训练模块作用2.
LLAMA Factory: 简洁高效的大语言模型训练平台俞纬鉴Joshua
LLAMAFactory:简洁高效的大语言模型训练平台LLaMA-Factory易于使用的LLM微调框架（LLaMA,BLOOM,Mistral,百川，Qwen,ChatGLM）。项目地址:https://gitcode.com/gh_mirrors/ll/LLaMA-Factory项目介绍LLaMAFactory定位为一款简洁、高效的大规模语言模型训练和微调平台。其设计初衷在于让用户无需编码即可
gpt-2语言模型训练谷隐凡二 Python 机器学习 python 人工智能
一、通过下载对应的语言模型数据集1.1根据你想让回答的内容，针对性下载对应的数据集，我下载的是个医疗问答数据集1.2针对你要用到的字段信息进行处理，然后把需要处理的数据丢给模型去训练，这个模型我是直接从GPT2的网站下载下来的依赖的必要文件截图如下：二、具体代码样例实现：importosimportpandasaspdfromtransformersimportGPT2Tokenizer,GPT2
两种常用损失函数：nn.CrossEntropyLoss 与 nn.TripletMarginLoss 大多_C 人工智能算法 python 机器学习
两种用于模型训练的损失函数：nn.CrossEntropyLoss和nn.TripletMarginLoss。它们在对比学习和分类任务中各自扮演不同的角色。接下来是对这两种损失函数的详细介绍。1.nn.CrossEntropyLossnn.CrossEntropyLoss是PyTorch提供的交叉熵损失函数，通常用于多分类任务中。它结合了softmax激活函数和负对数似然损失（NegativeLo
深度学习回归任务训练代码模版槐月初叁深度学习深度学习回归人工智能
深度学习回归任务训练代码模版文章目录深度学习回归任务训练代码模版参数设置功能函数数据加载自定义数据集加载类特征选择（可选）数据读取定义模型训练模型训练迭代＋验证迭代使用`tensorboard`输出模型训练过程和指标可视化(可选)结果预测参考参数设置超参设置：config包含所有训练需要的超参数（便于后续的调参），以及模型需要存储的位置device='cuda'iftorch.cuda.is_av
pytorch实现单机多卡训练 *Major* pytorch 人工智能 python
pytorch实现单机多卡训练fromtorch.nn.parallelimportDataParallel#单机多卡的分布式训练（数据并行）模型训练加速'''三构建模型'''model=build_model(CFG.backbone,CFG.num_classes,CFG.device)model.load_state_dict(torch.load("best_epoch.bin"))mod
LLM系列 | 36：Google最新开源大模型：Gemma 2介绍及其微调(下篇) JasonLiu1919 开源
引言环境安装数据准备下载处理模型训练模型inference结果gemma-2-9bgemma-2-9b-it引言低头观落日，引手摘飞星。小伙伴们好，我是微信公众号《小窗幽记机器学习》的小编：卖黑神话的小女孩。本文紧接前文Google最新开源大语言模型：Gemma2介绍及其微调(上篇)，介绍如何用中文语料微调Gemma2模型。如想与小编进一步交流，欢迎在《小窗幽记机器学习》上获取小编微信号，或者直接
【DeepSpeed 教程翻译】三，在 DeepSpeed 中使用 PyTorch Profiler做性能调试和Flops Profiler教程翻译 just_sort pytorch 深度学习人工智能
文章目录0x0.前言0x1.在DeepSpeed中使用PyTorchProfiler做性能调试Profile模型训练的循环标记任意代码范围ProfileCPU/GPU的活动Profile内存消耗0x2.FlopsProfiler总览Flops测量多GPU，多节点，数据并行和模型并行例子和DeepSpeed运行时一起使用在Megatron-LM中使用在DeepSpeed运行环境之外的使用方法在模型推
【PyTorch】PyTorch中的方法torch.randperm()介绍读思辨 PyTorch pytorch 人工智能 python
在PyTorch中，torch.randperm(n)函数用于生成一个从0到n-1的随机排列的整数序列。这个函数是非常有用的，尤其是在需要随机打乱数据或索引时，比如在训练机器学习模型时打乱数据顺序，以确保模型训练的泛化能力。参数n(int):输出张量的长度，即最大的数字为n-1。返回值返回一个一维张量，包含了从0到n-1的随机排列。使用示例下面是一个基本的使用示例，展示了如何使用torch.ran
【Python报错】成功解决ValueError: all input arrays must have the same shap 云天徽上 python运行报错解决记录 python 开发语言 pandas numpy 机器学习
【Python报错】成功解决ValueError:allinputarraysmusthavethesameshape在Python编程中，尤其是在使用NumPy、Pandas或进行机器学习、深度学习等数据处理和模型训练时，经常会遇到各种错误。其中，ValueError:allinputarraysmusthavethesameshape是一个常见的错误，它通常发生在你尝试对形状不一致的数组进行数
Spark MLlib模型训练—聚类算法 K-means 不二人生 Spark ML 实战算法 spark-ml 聚类
SparkMLlib模型训练—聚类算法K-meansK-means是一种经典的聚类算法，广泛应用于数据挖掘、图像处理、推荐系统等领域。它通过将数据划分为(k)个簇（clusters），使得同一簇内的数据点尽可能相似，而不同簇之间的数据点差异尽可能大。ApacheSpark提供了K-means聚类算法的高效实现，支持大规模数据的分布式计算。本文将详细介绍K-means聚类算法的原理，并结合Spark
Spark MLlib模型训练—聚类算法 Bisecting K-means 不二人生 Spark ML 实战算法 spark-ml 聚类
SparkMLlib模型训练—聚类算法BisectingK-means由于传统的KMeans算法的聚类结果易受到初始聚类中心点选择的影响，因此在传统的KMeans算法的基础上进行算法改进，对初始中心点选取比较严格，各中心点的距离较远，这就避免了初始聚类中心会选到一个类上，一定程度上克服了算法陷入局部最优状态。二分KMeans(BisectingKMeans)算法的主要思想是：首先将所有点作为一个簇
深度学习速通系列:归一化和批量归一化 Ven% 深度学习速通系列自然语言处理人工智能深度学习 python 机器学习
在深度学习中，归一化和批量归一化是两种常用的技术，它们有助于提高模型的训练效率和性能。下面详细解释这两种技术：归一化（Normalization）归一化是指将数据的数值范围调整到一个特定的区间，通常是[0,1]或者[-1,1]，或者使其具有零均值和单位方差。这样做的目的是减少不同特征之间的数值范围差异，使得模型训练更加稳定和高效。常见的归一化方法包括：最小-最大归一化（Min-MaxScaling
偏见的亮点：认知偏见如何增强推荐系统量子位AI 人工智能机器学习
认知偏见，曾被视为人类决策过程中的缺陷，现在被认为对学习和决策有潜在的积极影响。然而，在机器学习中，尤其是在搜索和排序系统中，认知偏见的研究仍需改进。尽管有大量研究集中在探讨这些偏见如何影响模型训练和机器行为的道德性，但信息检索领域大多关注于检测偏见及其对搜索行为的影响。这在利用这些认知偏见来增强检索算法方面带来了挑战，这一领域尚未广泛探讨，对研究者而言提供了机遇和挑战。现有的一些方法，如推荐系统
Datawhale X 李宏毅苹果书 AI夏令营入门 Task3-机器学习框架沙雕是沙雕是沙雕人工智能机器学习
目录实践方法论1.模型偏差2.优化问题3.过拟合4.交叉验证5.不匹配实践方法论1.模型偏差当一个模型由于其结构的限制，无法捕捉数据中的真实关系时，即使找到了最优的参数，模型的损失依然较高。可以通过增加输入特征、使用更复杂的模型结构或采用深度学习等方法来新设计模型，增加模型的灵活性。2.优化问题在机器学习模型训练过程中，即使模型的灵活性足够高，也可能由于优化算法的问题导致训练数据的损失不够低。为了
解决AutoDL远程服务器训练大模型的常见问题：CPU内存不足与 SSH 断开微凉的衣柜深度学习 AIGC前沿服务器 ssh 运维机器学习人工智能语言模型
在使用远程服务器（如AutoDL）进行深度学习训练时，通常会遇到一些常见问题，比如由于数据加载导致的内存消耗过高，以及SSH连接中断后训练任务被迫停止。这篇文章将介绍我在这些问题上遇到的挑战，并分享相应的解决方案。问题1：内存消耗过高导致训练中断问题描述在深度学习大模型训练过程中，数据加载是一个消耗内存的重要环节。特别是在使用大规模数据集和多线程数据加载时，内存消耗可能会迅速增长，最终导致训练任务
开源语音转文本Speech-to-Text大模型实战之Wav2Vec篇码上飞扬 Wav2Vec 文本转语音人工智能 Speech-to-Text
前言近年来，语音转文本（Speech-to-Text,STT）技术取得了长足的进步，广泛应用于各种领域，如语音助手、自动字幕生成、智能客服等。本文将详细介绍如何利用开源语音转文本大模型进行实战，从模型选择、环境搭建、模型训练到实际应用，带您一步步实现语音转文本功能。一、模型选择目前，市面上有许多优秀的开源语音转文本模型可供选择，其中一些流行的模型包括：DeepSpeech：由Mozilla开源，基
基于Bert-base-chinese训练多分类文本模型(代码详解）一颗洋芋 bert 分类自然语言处理
目录一、简介二、模型训练三、模型推理一、简介BERT（BidirectionalEncoderRepresentationsfromTransformers）是基于深度学习在自然语言处理（NLP）领域近几年出现的、影响深远的创新模型之一。在BERT之前，已经有许多预训练语言模型，如ELMO和GPT，它们展示了预训练模型在NLP任务中的强大性能。然而，这些模型通常基于单向的上下文信息，即只考虑文本中
基于人工智能的智能客服系统嵌入式详谈人工智能
目录引言项目背景客服系统的现状与挑战AI在客服领域的应用前景系统设计系统架构模块划分关键技术与实现自然语言处理（NLP）对话管理语音识别与合成情感分析数据准备与训练数据收集数据预处理模型训练系统集成与部署前端接口设计后端服务实现系统集成部署方案测试与优化系统测试性能优化用户反馈与迭代应用场景与案例分析电子商务客服银行与金融服务医疗健康咨询常见问题及解决方案常见问题解决方案未来发展与展望结论1.引言
基于人工智能的文本情感分析系统嵌入式详谈人工智能
目录引言项目背景环境准备硬件要求软件安装与配置系统设计系统架构关键技术代码示例数据预处理模型训练模型预测应用场景结论1.引言文本情感分析是一种自然语言处理技术，用于识别和提取文本中的情感信息。该技术在市场分析、产品评价、社交媒体监控等领域具有广泛应用。本文介绍一个基于人工智能的文本情感分析系统，重点介绍环境准备、系统设计及实现。2.项目背景随着社交媒体和电商平台的普及，用户生成的文本数据量急剧增加
caffe/PyTorch/TensorFlow 在Jupyter Notebook GPU中运用俊俏的萌妹纸 caffe 人工智能深度学习
在JupyterNotebook中使用Caffe框架并利用GPU加速，可以实现多种效果和目的，主要集中在深度学习领域。以下是一些主要的应用场景：快速训练模型：GPU加速可以显著提高模型训练的速度。对于大型数据集和复杂的神经网络结构，使用GPU可以大大减少训练时间。实时数据增强：在训练过程中，可以实时地对输入数据进行变换和增强，以提高模型的泛化能力。GPU加速使得这些操作更加高效。大规模数据处理：深
大语言模型算力优化策略：基于并行化技术的算力共享平台研究 ZhangJiQun&MXP 2024算力共享 2021 论文语言模型人工智能自然语言处理
目录大语言模型算力优化策略：基于并行化技术的算力共享平台研究摘要引言算力共享平台的设计1.平台架构2.并行化计算技术模型并行化流水线并行化3.资源管理和调度实验与结果分析结论与展望首先，大语言模型（如GPT系列、BERT等）和算力共享的结合是近年来人工智能领域的研究热点。算力共享旨在通过分布式计算技术，将大规模计算任务分配给多个计算节点，以提高计算效率、降低资源成本并加速模型训练和推理过程。其次，
基于示例详细讲解模型PTQ量化的步骤（含代码） LQS2020 卷积神经网络 python
详细探讨模型PTQ量化每个步骤，涉及更多的技术细节和实际计算方法，以便更好地理解PTQ（Post-TrainingQuantization，训练后量化）的全过程。1.模型训练我们假设已经训练了一个卷积神经网络（CNN），例如VGG-16。训练完成后，我们得到了一个以32位浮点数表示的模型权重和激活值。2.收集统计信息在量化之前，我们需要从模型中收集统计信息，以帮助确定量化的参数。收集权重和激活的统
Dom 周华华 JavaScript html
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
【Spark九十六】RDD API之combineByKey bit1129 spark
1. combineByKey函数的运行机制 RDD提供了很多针对元素类型为(K,V)的API，这些API封装在PairRDDFunctions类中，通过Scala隐式转换使用。这些API实现上是借助于combineByKey实现的。combineByKey函数本身也是RDD开放给Spark开发人员使用的API之一首先看一下combineByKey的方法说明：
msyql设置密码报错：ERROR 1372 (HY000): 解决方法详解 daizj mysql 设置密码
MySql给用户设置权限同时指定访问密码时，会提示如下错误： ERROR 1372 (HY000): Password hash should be a 41-digit hexadecimal number；问题原因：你输入的密码是明文。不允许这么输入。解决办法：用select password('你想输入的密码');查询出你的密码对应的字符串，然后
路漫漫其修远兮吾将上下而求索周凡杨学习思索
王国维在他的《人间词话》中曾经概括了为学的三种境界古今之成大事业、大学问者，罔不经过三种之境界。“昨夜西风凋碧树。独上高楼，望尽天涯路。”此第一境界也。“衣带渐宽终不悔，为伊消得人憔悴。”此第二境界也。“众里寻他千百度，蓦然回首，那人却在灯火阑珊处。”此第三境界也。学习技术，这也是你必须经历的三种境界。第一层境界是说，学习的路是漫漫的，你必须做好充分的思想准备，如果半途而废还不如不要开始。这里，注
Hadoop(二)对话单的操作朱辉辉33 hadoop
Debug： 1、 A = LOAD '/user/hue/task.txt' USING PigStorage(' ') AS (col1,col2,col3); DUMP A; //输出结果前几行示例： (>ggsnPDPRecord(21),,) (-->recordType(0),,) (-->networkInitiation(1),,)
web报表工具FineReport常用函数的用法总结（日期和时间函数）老A不折腾 finereport 报表工具 web开发
web报表工具FineReport常用函数的用法总结（日期和时间函数）说明：凡函数中以日期作为参数因子的，其中日期的形式都必须是yy/mm/dd。而且必须用英文环境下双引号(" ")引用。 DATE DATE(year,month,day):返回一个表示某一特定日期的系列数。 Year:代表年，可为一到四位数。 Month:代表月份。
c++ 宏定义中的##操作符墙头上一根草 C++
#与##在宏定义中的--宏展开 #include <stdio.h> #define f(a,b) a##b #define g(a) #a #define h(a) g(a) int main() { &nbs
分析Spring源代码之，DI的实现 aijuans spring DI 现源代码
(转) 分析Spring源代码之，DI的实现 2012/1/3 by tony 接着上次的讲，以下这个sample [java] view plain copy print
for循环的进化 alxw4616 JavaScript
// for循环的进化 // 菜鸟 for (var i = 0; i < Things.length ; i++) { // Things[i] } // 老鸟 for (var i = 0, len = Things.length; i < len; i++) { // Things[i] } // 大师 for (var i = Things.le
网络编程Socket和ServerSocket简单的使用百合不是茶网络编程基础 IP地址端口
网络编程;TCP/IP协议网络:实现计算机之间的信息共享,数据资源的交换协议:数据交换需要遵守的一种协议,按照约定的数据格式等写出去端口:用于计算机之间的通信每运行一个程序，系统会分配一个编号给该程序，作为和外界交换数据的唯一标识 0~65535 查看被使用的
JDK1.5 生产消费者 bijian1013 java thread 生产消费者 java多线程
ArrayBlockingQueue：一个由数组支持的有界阻塞队列。此队列按 FIFO（先进先出）原则对元素进行排序。队列的头部是在队列中存在时间最长的元素。队列的尾部是在队列中存在时间最短的元素。新元素插入到队列的尾部，队列检索操作则是从队列头部开始获得元素。 ArrayBlockingQueue的常用方法：
JAVA版身份证获取性别、出生日期及年龄 bijian1013 java 性别出生日期年龄
工作中需要根据身份证获取性别、出生日期及年龄，且要还要支持15位长度的身份证号码，网上搜索了一下，经过测试好像多少存在点问题，干脆自已写一个。 CertificateNo.java package com.bijian.study; import java.util.Calendar; import
【Java范型六】范型与枚举 bit1129 java
首先，枚举类型的定义不能带有类型参数，所以，不能把枚举类型定义为范型枚举类，例如下面的枚举类定义是有编译错的 public enum EnumGenerics<T> { //编译错，提示枚举不能带有范型参数 OK, ERROR; public <T> T get(T type) { return null;
【Nginx五】Nginx常用日志格式含义 bit1129 nginx
1. log_format 1.1 log_format指令用于指定日志的格式，格式： log_format name(格式名称) type(格式样式) 1.2 如下是一个常用的Nginx日志格式： log_format main '[$time_local]|$request_time|$status|$body_bytes
Lua 语言 15 分钟快速入门 ronin47 lua 基础
- - 单行注释 - - [[ [多行注释] - - ]] - - - - - - - - - - - 1. 变量 & 控制流 - - - - - - - - - - num = 23 - - 数字都是双精度 str = 'aspythonstring'
java-35.求一个矩阵中最大的二维矩阵 ( 元素和最大 ) bylijinnan java
the idea is from: http://blog.csdn.net/zhanxinhang/article/details/6731134 public class MaxSubMatrix { /**see http://blog.csdn.net/zhanxinhang/article/details/6731134 * Q35 求一个矩阵中最大的二维
mongoDB文档型数据库特点开窍的石头 mongoDB文档型数据库特点
MongoDD: 文档型数据库存储的是Bson文档-->json的二进制特点：内部是执行引擎是js解释器，把文档转成Bson结构，在查询时转换成js对象。 mongoDB传统型数据库对比传统类型数据库：结构化数据，定好了表结构后每一个内容符合表结构的。也就是说每一行每一列的数据都是一样的文档型数据库：不用定好数据结构，
[毕业季节]欢迎广大毕业生加入JAVA程序员的行列 comsci java
一年一度的毕业季来临了。。。。。。。。正在投简历的学弟学妹们。。。如果觉得学校推荐的单位和公司不适合自己的兴趣和专业，可以考虑来我们软件行业，做一名职业程序员。。。软件行业的开发工具中，对初学者最友好的就是JAVA语言了，网络上不仅仅有大量的
PHP操作Excel – PHPExcel 基本用法详解 cuiyadll PHP Excel
导出excel属性设置//Include classrequire_once('Classes/PHPExcel.php');require_once('Classes/PHPExcel/Writer/Excel2007.php');$objPHPExcel = new PHPExcel();//Set properties 设置文件属性$objPHPExcel->getProperties
IBM Webshpere MQ Client User Issue (MCAUSER) darrenzhu IBM jms user MQ MCAUSER
IBM MQ JMS Client去连接远端MQ Server的时候，需要提供User和Password吗？答案是根据情况而定，取决于所定义的Channel里面的属性Message channel agent user identifier (MCAUSER)的设置。 http://stackoverflow.com/questions/20209429/how-mca-user-i
网线的接法 dcj3sjt126com
一、PC连HUB (直连线)A端：（标准568B）：白橙，橙，白绿，蓝，白蓝，绿，白棕，棕。 B端：（标准568B）：白橙，橙，白绿，蓝，白蓝，绿，白棕，棕。二、PC连PC （交叉线）A端：(568A)：白绿，绿，白橙，蓝，白蓝，橙，白棕，棕； B端：（标准568B）：白橙，橙，白绿，蓝，白蓝，绿，白棕，棕。三、HUB连HUB&nb
Vimium插件让键盘党像操作Vim一样操作Chrome dcj3sjt126com chrome vim
什么是键盘党？键盘党是指尽可能将所有电脑操作用键盘来完成，而不去动鼠标的人。鼠标应该说是新手们的最爱，很直观，指哪点哪，很听话！不过常常使用电脑的人，如果一直使用鼠标的话，手会发酸，因为操作鼠标的时候，手臂不是在一个自然的状态，臂肌会处于绷紧状态。而使用键盘则双手是放松状态，只有手指在动。而且尽量少的从鼠标移动到键盘来回操作，也省不少事。在chrome里安装 vimium 插件
MongoDB查询（2）——数组查询[六] eksliang mongodb MongoDB查询数组
MongoDB查询数组转载请出自出处：http://eksliang.iteye.com/blog/2177292 一、概述 MongoDB查询数组与查询标量值是一样的，例如，有一个水果列表，如下所示： > db.food.find() { "_id" : "001", "fruits" : [ "苹
cordova读写文件（1） gundumw100 JavaScript Cordova
使用cordova可以很方便的在手机sdcard中读写文件。首先需要安装cordova插件：file 命令为： cordova plugin add org.apache.cordova.file 然后就可以读写文件了，这里我先是写入一个文件，具体的JS代码为： var datas=null;//datas need write var directory=&
HTML5 FormData 进行文件jquery ajax 上传到又拍云 ileson jquery Ajax html5 FormData
html5 新东西：FormData 可以提交二进制数据。页面test.html <!DOCTYPE> <html> <head> <title> formdata file jquery ajax upload</title> </head> <body> <
swift appearanceWhenContainedIn:(version1.2 xcode6.4) 啸笑天 version
swift1.2中没有oc中对应的方法： + (instancetype)appearanceWhenContainedIn:(Class <UIAppearanceContainer>)ContainerClass, ... NS_REQUIRES_NIL_TERMINATION; 解决方法：在swift项目中新建oc类如下： #import &
java实现SMTP邮件服务器 macroli java 编程
电子邮件传递可以由多种协议来实现。目前，在Internet 网上最流行的三种电子邮件协议是SMTP、POP3 和 IMAP，下面分别简单介绍。　　◆ SMTP 协议　　简单邮件传输协议(Simple Mail Transfer Protocol,SMTP)是一个运行在TCP/IP之上的协议，用它发送和接收电子邮件。SMTP 服务器在默认端口25上监听。SMTP客户使用一组简单的、基于文本的
mongodb group by having where 查询sql qiaolevip 每天进步一点点学习永无止境 mongo 纵观千象
SELECT cust_id, SUM(price) as total FROM orders WHERE status = 'A' GROUP BY cust_id HAVING total > 250 db.orders.aggregate( [ { $match: { status: 'A' } }, { $group: {
Struts2 Pojo（六） Luob. POJO strust2
注意：附件中有完整案例 1.采用POJO对象的方法进行赋值和传值 2.web配置 <?xml version="1.0" encoding="UTF-8"?> <web-app version="2.5" xmlns="http://java.sun.com/xml/ns/javaee&q
struts2步骤 wuai struts
1、添加jar包 2、在web.xml中配置过滤器 <filter> <filter-name>struts2</filter-name> <filter-class>org.apache.st