nnnancyyy

XGBoost调参步骤及常见问题

XGBoost

xgboost中的基学习器除了可以是CART（gbtree）也可以是线性分类器（gblinear）

xgboost在目标函数中显示的加上了正则化项，基学习为CART时，正则化项与树的叶子节点的数量T和叶子节点的值有关。
正则项里包含了树的叶子节点个数、每个叶子节点上输出的score的L2模的平方和。
从Bias-variance tradeoff角度来讲，正则项降低了模型的variance，使学习出来的模型更加简单，防止过拟合，这也是xgboost优于传统GBDT的一个特性。
GB中使用Loss Function对f(x)的一阶导数计算出伪残差用于学习生成fm(x)，xgboost不仅使用到了一阶导数，还使用二阶导数。
第t次的loss：

对上式做二阶泰勒展开：g为一阶导数，h为二阶导数
上面提到CART回归树中寻找最佳分割点的衡量标准是最小化均方差，XGBoost的并行是在特征粒度上的，XGBoost预先对特征的值进行排序，然后保存为block结构
xgboost寻找分割点的标准是最大化，lamda，gama与正则化项相关
xgboost算法的步骤和GB基本相同，都是首先初始化为一个常数，gb是根据一阶导数ri，xgboost是根据一阶导数gi和二阶导数hi，迭代生成基学习器，相加更新学习器。
xgboost考虑了训练数据为稀疏值的情况，可以为缺失值或者指定的值指定分支的默认方向，这能大大提升算法的效率
列抽样。xgboost借鉴了随机森林的做法，支持列抽样，不仅能降低过拟合，还能减少计算，这也是xgboost异于传统gbdt的一个特性。

XGBoost参数设置

通用参数

这些参数用来控制XGBoost的宏观功能。
booster[默认gbtree]

选择每次迭代的模型，有两种选择：
gbtree：基于树的模型
gbliner：线性模型
silent[默认0]

当这个参数值为1时，静默模式开启，不会输出任何信息。
一般这个参数就保持默认的0，因为这样能帮我们更好地理解模型。
nthread[默认值为最大可能的线程数]

这个参数用来进行多线程控制，应当输入系统的核数。
如果你希望使用CPU全部的核，那就不要输入这个参数，算法会自动检测它。

booster参数

max_depth[默认6]

和GBM中的参数相同，这个值为树的最大深度。
这个值也是用来避免过拟合的。max_depth越大，模型会学到更具体更局部的样本。
需要使用CV函数来进行调优。
典型值：3-10
eta[默认0.3]

和GBM中的 learning rate 参数类似。
通过减少每一步的权重，可以提高模型的鲁棒性。
典型值为0.01-0.2
base_score [ 默认0.5 ]
所有实例的初始化预测分数，全局偏置；
为了足够的迭代次数，改变这个值将不会有太大的影响。
min_child_weight[默认1]
决定最小叶子节点样本权重和。
和GBM的 min_child_leaf 参数类似，但不完全一样。XGBoost的这个参数是最小样本权重的和，而GBM参数是最小样本总数。
这个参数用于避免过拟合。当它的值较大时，可以避免模型学习到局部的特殊样本。
但是如果这个值过高，会导致欠拟合。这个参数需要使用CV来调整。
max_leaf_nodes

树上最大的节点或叶子的数量。
可以替代max_depth的作用。因为如果生成的是二叉树，一个深度为n的树最多生成 n 2 n^2 n2个叶子。
如果定义了这个参数，GBM会忽略max_depth参数。
gamma[默认0]

在节点分裂时，只有分裂后损失函数的值下降了，才会分裂这个节点。Gamma指定了节点分裂所需的最小损失函数下降值。
这个参数的值越大，算法越保守。这个参数的值和损失函数息息相关，所以是需要调整的。
max_delta_step[默认0]

这参数限制每棵树权重改变的最大步长。如果这个参数的值为0，那就意味着没有约束。如果它被赋予了某个正值，那么它会让这个算法更加保守。
通常，这个参数不需要设置。但是当各类别的样本十分不平衡时，它对逻辑回归是很有帮助的。
这个参数一般用不到，但是你可以挖掘出来它更多的用处。
subsample[默认1]

和GBM中的subsample参数一模一样。这个参数控制对于每棵树，随机采样的比例。
减小这个参数的值，算法会更加保守，避免过拟合。但是，如果这个值设置得过小，它可能会导致欠拟合。
典型值：0.5-1
colsample_bytree[默认1]

和GBM里面的max_features参数类似。用来控制每棵随机采样的列数的占比(每一列是一个特征)。
典型值：0.5-1
colsample_bylevel[默认1]

用来控制树的每一级的每一次分裂，对列数的采样的占比。
我个人一般不太用这个参数，因为subsample参数和colsample_bytree参数可以起到相同的作用。但是如果感兴趣，可以挖掘这个参数更多的用处。
lambda[默认1]

权重的L2正则化项。(和Ridge regression类似)。
这个参数是用来控制XGBoost的正则化部分的。虽然大部分数据科学家很少用到这个参数，但是这个参数在减少过拟合上还是可以挖掘出更多用处的。
alpha[默认1]

权重的L1正则化项。(和Lasso regression类似)。
可以应用在很高维度的情况下，使得算法的速度更快。
scale_pos_weight[默认1]

在各类别样本十分不平衡时，把这个参数设定为一个正值，可以使算法更快收敛

学习目标参数

这个参数用来控制理想的优化目标和每一步结果的度量方法

objective [ default=reg:linear ]

定义学习任务及相应的学习目标，可选的目标函数如下：
- “reg:linear” —— 线性回归。
- “reg:logistic”—— 逻辑回归。
- “binary:logistic”—— 二分类的逻辑回归问题，输出为概率。
- “binary:logitraw”—— 二分类的逻辑回归问题，输出的结果为wTx。
- “count:poisson”—— 计数问题的poisson回归，输出结果为poisson分布。在poisson回归中，max_delta_step的缺省值为0.7。(used to safeguard optimization)
- “multi:softmax” –让XGBoost采用softmax目标函数处理多分类问题，同时需要设置参数num_class（类别个数）
- “multi:softprob” –和softmax一样，但是输出的是ndata * nclass的向量，可以将该向量reshape成ndata行nclass列的矩阵。没行数据表示样本所属于每个类别的概率。
- “rank:pairwise” –set XGBoost to do ranking task by minimizing the pairwise loss
eval_metric [ default according to objective ]
对于回归问题，默认值是rmse，对于分类问题，默认值是error。
- rmse 均方根误差
- mae 平均绝对误差
- logloss 负对数似然函数值
- error 二分类错误率(阈值为0.5)
- merror 多分类错误率
- mlogloss 多分类logloss损失函数
- auc 曲线下面积
seed [ default=0 ]
随机数的种子。缺省值为0


from sklearn.model_selection import train_test_split

train_x, test_x, train_y, test_y = train_test_split(feature_matrix, labels, random_state=0)

import xgboost as xgb
dtrain=xgb.DMatrix(train_x,label=train_y)
dtest=xgb.DMatrix(test_x)

params={    'booster': 'gbtree',            
    'objective': 'multi:softmax',  # 多分类的问题
    'num_class': 10,               # 类别数，与 multisoftmax 并用
    'gamma': 0.1,                  # 用于控制是否后剪枝的参数,越大越保守，一般0.1、0.2这样子。
    'max_depth': 12,               # 构建树的深度，越大越容易过拟合
    'lambda': 2,                   # 控制模型复杂度的权重值的L2正则化项参数，参数越大，模型越不容易过拟合。
    'subsample': 0.7,              # 随机采样训练样本
    'colsample_bytree': 0.7,       # 生成树时进行的列采样
    'min_child_weight': 3,
    'silent': 1,                   # 设置成1则没有运行信息输出，最好是设置为0.
    'eta': 0.1,                  # 如同学习率
    'seed': 1000,
    'nthread': 10                 # cpu 线程数，默认值为最大可能的线程数
}

watchlist = [(dtrain,'train')]

bst=xgb.train(params,dtrain,num_boost_round=100,evals=watchlist)

y_pred=bst.predict(dtest)

y_pred_binary = (ypred >= 0.5)*1

from sklearn import metrics
print 'AUC: %.4f' % metrics.roc_auc_score(test_y,y_pred)
print 'ACC: %.4f' % metrics.accuracy_score(test_y,y_pred_binary)
print 'Recall: %.4f' % metrics.recall_score(test_y,y_pred_binary)
print 'F1-score: %.4f' %metrics.f1_score(test_y,y_pred_binary)
print 'Precesion: %.4f' %metrics.precision_score(test_y,y_pred_binary)
metrics.confusion_matrix(test_y,y_pred_binary)

参数调优的一般方法

我们会使用和GBM中相似的方法。需要进行如下步骤：

选择较高的学习速率(learning rate)。一般情况下，学习速率的值为0.1。但是，对于不同的问题，理想的学习速率有时候会在0.05到0.3之间波动。选择对应于此学习速率的理想决策树数量。XGBoost有一个很有用的函数“cv”，这个函数可以在每一次迭代中使用交叉验证，并返回理想的决策树数量。
对于给定的学习速率和决策树数量，进行决策树特定参数调优(max_depth, min_child_weight, gamma, subsample, colsample_bytree)。在确定一棵树的过程中，我们可以选择不同的参数。
xgboost的正则化参数的调优。(lambda, alpha)。这些参数可以降低模型的复杂度，从而提高模型的表现。
降低学习速率，确定理想参数。

import xgboost as xgb

data_train = xgb.DMatrix('agaricus_train.txt')
data_test = xgb.DMatrix('agaricus_test.txt')
print (data_train)
print (type(data_train))

# 设置参数
param = {'max_depth': 3, 'eta': 1, 'silent': 1, 'objective': 'binary:logistic'} 

# 可以显示每一颗树添加后的误差
watchlist = [(data_test, 'eval'), (data_train, 'train')]
n_round = 50
bst = xgb.train(param, data_train, num_boost_round=n_round, evals=watchlist, obj=log_reg, feval=error_rate)

# 计算错误率
y_hat = bst.predict(data_test)
y = data_test.get_label()
print(y_hat)
print(y)

XGBoost常见问题

xgboost 什么场景不适用

数据量很大以及特征比较多时太耗内存，太慢了，比如寻找最优特征分裂点时需要遍历所有特征去计算(虽然做了预排序和并行处理) ,但它还是很慢和很耗内存，需要读取所有数据到内存中才好做特征分裂。

GDBT 和Xgboost 的区别？

好的地方：二阶泰勒展开，节点分数惩罚正则，增益计算不同，gbdt 是gini，xgb 是优化推导公式

传统的GBDT以CART作为基分类器，XGboost 还支持线性分类器，这时候xgboost 相当于带L1 和L2 正则化项的逻辑斯蒂回归(分类问题) 或者线性回归。
传统的GBDT在优化时只用到了一阶导数信息，xgboost 则对代价函数进行了二阶泰勒展开，同时用到了一阶和二阶导数，xgboost 还支持自定义代价函数，只要函数可一阶和二阶求导。
Xgboost 在代价函数中加入了正则项，用于控制模型的复杂度，正则项里包含了树的叶子节点个数，每个叶子节点上输出的score 的L2 模的平方和。从Bias -variance tradeoff 角度来讲，正则项降低了模型的variance，使学习出来的模型更加简单，防止过拟合，这也就是xgboost 优于传统CBDT的一个特性。
Shrinkage ,相当于学习速率(xgboost 中的eta) .Xgboost 在进行完一次迭代后，会将叶子节点上权重·乘上该系数，主要是为了削弱每棵树的影响，让后面有更大的学习空间，实际应用中，一般把eta 设置的小一点，然后迭代次数设置的大一点。
列抽样，： xgboost 借鉴了随机森林的做法，支持列抽样，不仅能降低过拟合，还能减少计算，这也是xgboost 异于传统gdbt 的一个特性。
缺失值的处理，对特征的值有缺失的样本，xgboost 可以自动学习出它分裂的方向。
xgboost 支持并行，不是在trees 粒度的并行，而是在特征粒度上的，决策树的学习最耗时的一个步骤就是对特征的值进行排序(因为要确定最佳分割点) ,xgboost 在训练之前，预先对数据进行了排序，然后保存了block 结构，后面的迭代中重复使用了这个结构，大大减少了计算量。在进行节点分裂时，需要计算每个特征的增益，最终选增益最大的那个特征去做分裂，那么各个特征的增益计算可以开多线程进行。
可并行的近似直方图算法，树节点在进行分裂时，我们需要计算每个特征的每个分割点对应的增益，即用贪心法枚举所有节能的分割点，当数据无法一次载入内存或者在分布式情况下，贪心算法效率就会变得很低，所以xgboost 还提出了一种可并行的近似直方图算法，用于高效的生成候选的分割点。

XGBoost 和lgb 的区别

是对GBDT 方法的不同实现，针对同一目标，做了不同的优化处理。

它们在基础逻辑上并没有啥不同，限定max_tree或者max_iterations，之后算法从0 棵树开始跑，每一轮根据上一轮的残差增加一颗决策树，在每一次增加决策树的时候选择当前最优结构，而在生成当前决策树的过程中，采用了不同的优化方案。

XGBoost 使用基于预排序的决策树算法，每遍历一个特征需要计算一次特征增益，时间复杂度为Q(datafeature).

lgb 使用基于直方图的决策树算法，直方图的优化算法只需要计算k 次，时间复杂度为O(kfeature)

XGBoost 按照层生长的决策树生成，LGb采用带有深度限制的叶子节点算法，在分裂次数相同的情况下，leaf-wise 可以降低更多的误差，得到更好的精度，leaf-wise 的缺点在于会产生较深的决策树，产生过拟合。
支持类别特征，不需要进行独热编码处理。
优化了特征并行和数据并行算法，除此之外还添加了投票并行方案。
采用基于梯度的单边采用来保持数据分布，减少模型因数据分布发生变化而造成的模型精度下降。
特征捆绑转化为图着色问题，减少特征数量。

XGBoost分裂终止条件

当引入的分裂带来的增益小于一个阀值的时候，我们可以剪掉这个分裂，所以并不是每一次分裂loss function整体都会增加的，有点预剪枝的意思（其实我这里有点疑问的，一般后剪枝效果比预剪枝要好点吧，只不过复杂麻烦些，这里大神请指教，为啥这里使用的是预剪枝的思想，当然Xgboost支持后剪枝），阈值参数为γγ 正则项里叶子节点数T的系数（大神请确认下）；
当树达到最大深度时则停止建立决策树，设置一个超参数max_depth，这个好理解吧，树太深很容易出现的情况学习局部样本，过拟合；
当样本权重和小于设定阈值时则停止建树，这个解释一下，涉及到一个超参数-最小的样本权重和min_child_weight，和GBM的 min_child_leaf 参数类似，但不完全一样，大意就是一个叶子节点样本太少了，也终止同样是过拟合；

Python时域信号特征提取技术要点路怜涯
本文还有配套的精品资源，点击获取简介：在机器学习领域，时域信号特征提取是数据预处理的关键环节，特别是对于时间序列数据。时域信号特征包括信号的基本特性量，如平均值、中值、峰值、谷值、峰谷差、方差、标准差、极值点、峭度与峰度、自相关函数、滑动窗口统计、傅立叶变换和小波分析等。使用Python中的NumPy、Pandas和SciPy库可以帮助我们计算这些特征，并为机器学习模型训练准备数据。本文将介绍如何
准确--如何在 Windows 上安装并管理多个 Python 环境 ascarl2010 Python windows python 开发语言
使用虚拟环境隔离项目概述核心：手动安装多个Python版本（2.7.18和3.10.11）。使用py启动器（Windows自带的Python版本管理工具）选择特定版本运行Python。使用virtualenv工具为每个项目创建独立的虚拟环境，隔离不同Python版本和依赖包。这种方法简单直接，适合需要在不同项目中使用不同Python版本的场景，且无需复杂的工具如pyenv-win。虚拟环境确保每个
OpenCV让Python实现人脸特征点检测 Python编程之道 Python编程之道 opencv python 人工智能 ai
OpenCV让Python实现人脸特征点检测关键词：OpenCV、Python、人脸检测、特征点定位、计算机视觉、Dlib、深度学习摘要：本文将深入探讨如何使用OpenCV和Python实现人脸特征点检测。我们将从基础概念开始，逐步介绍人脸检测和特征点定位的核心算法原理，包括传统的Haar级联检测器和基于深度学习的Dlib面部特征点检测器。文章将提供详细的代码实现和数学原理讲解，并通过实际项目案例
ChatGPT、DeepSeek等大语言模型助力高效办公、论文与项目撰写、数据分析、机器学习与深度学习建模等深度科研 Yolo566Q chatgpt 语言模型数据分析
随着人工智能技术的快速发展，大语言模型如ChatGPT和DeepSeek在科研领域的应用正在为科研人员提供强大的支持。这些模型通过深度学习和大规模语料库训练，能够帮助科研人员高效地筛选文献、生成论文内容、进行数据分析和优化机器学习模型。ChatGPT和DeepSeek能够快速理解和生成复杂的语言，帮助研究人员在撰写论文时提高效率，不仅生成高质量的文章内容，还能优化论文结构和语言表达。在数据分析方面
大语言模型助力高效办公、论文与项目撰写、数据分析、机器学习与深度学习建模等 xiao5kou4chang6kai4 人工智能深度学习机器学习 rnn 语言模型 lstm 深度学习机器学习人工智能 DeepSeek
随着人工智能技术的快速发展，大语言模型如ChatGPT和DeepSeek在科研领域的应用正在为科研人员提供强大的支持。这些模型通过深度学习和大规模语料库训练，能够帮助科研人员高效地筛选文献、生成论文内容、进行数据分析和优化机器学习模型。ChatGPT和DeepSeek能够快速理解和生成复杂的语言，帮助研究人员在撰写论文时提高效率，不仅生成高质量的文章内容，还能优化论文结构和语言表达。在数据分析方面
python中的下划线牧野渔樵 python 开发语言
本文介绍了Python中单下划线和双下划线的5种表现形式，以及一些使用方法。其中有一些含义仅仅是依照约定，被视作是对程序员的提示，而有一些含义是由Python解释器严格执行的。单前导下划线：_var单末尾下划线：var_双前导下划线：__var双前导和末尾下划线：__var__单下划线：_1.单前导下划线_var下划线前缀的含义是告知其他程序员：以单个下划线开头的变量或方法仅供内部使用。该约定在P
python以下划线开头的变量名含义 weixin_30359021 python
Python核心风格：避免用下划线作为变量名的开始。因为下划线对解释器有特殊的意义，而且是内建标识符所使用的符号，我们建议程序员避免用下划线作为变量名的开始。一般来讲，变量名_xxx被看作是“私有的”，在模块或类外不可以使用。当变量是私有的时候，用_xxx来表示变量是很好的习惯。因为变量名__xxx__对Python来说有特殊含义，对于普通的变量应当避免这种命名风格。"单下划线""单下划线"开始的
python django AttributeError: 'QuerySet' object has no attribute '_meta' uplinker python python django
第一次用django，在写接口的时候出现了下面的异常InternalServerError:/api/proxys/listTraceback(mostrecentcalllast):File"D:\Python27\lib\site-packages\django\core\handlers\exception.py",line41,ininnerresponse=get_response(re
《量化开发》系列第 1 篇：金融知识基础入门指南（附 GitHub 学习项目） Natsume1710 金融 github 学习
本文为《量化开发学习路线与知识点》专栏的第一篇参考项目：Awesome-QuantDev-Learn量化金融是金融经济学与计算机科学交叉融合形成的新兴行业，越来越多的技术人才正积极投身其中。然而，面对纷繁复杂的金融概念与专业的开发技能，许多人常常感到无从下手。本专栏将为C++/Python工程师、自学者、量化岗求职者提供系统清晰的学习路径。本篇文章聚焦于量化开发所需的金融基础知识，帮助技术人打下坚
淘客APP的用户行为分析与个性化推荐：架构师的算法实践微赚淘客系统@聚娃科技算法
淘客APP的用户行为分析与个性化推荐：架构师的算法实践大家好，我是阿可，微赚淘客系统及省赚客APP创始人，是个冬天不穿秋裤，天冷也要风度的程序猿！今天，我想和大家分享一下淘客APP的用户行为分析与个性化推荐的算法实践。在电商导购领域，个性化推荐是提升用户体验和转化率的关键。通过分析用户的行为数据，我们可以为用户提供符合其兴趣的商品推荐，从而增加用户的粘性和购买意愿。接下来，我将从用户行为数据采集、
分布式系统的强一致性基石：Raft共识算法深度解析与技术实现 LCG元 Python 信息系统共识算法 python 区块链
目录一、Raft设计哲学与核心概念1.1可理解性设计三原则1.2核心数据结构定义二、核心机制实现解析2.1领导选举机制2.2日志复制机制三、异常处理与工程优化3.1典型故障场景处理3.2性能优化策略四、工业级实现关键代码4.1日志一致性检查4.2状态机应用逻辑五、Raft与其他协议对比六、生产环境最佳实践在分布式系统领域，Raft算法通过强领导者模型和模块化分解设计，将复杂的一致性难题转化为可落地
二分查找快速理解
作为数据结构接触到的入门第一个算法，很多人对它不以为然，但是作为小白学习还是很有必要的，循序渐进，打开算法的大门假如你要登录王者荣耀，当你这样做时，QQ或者微信必须核实你是否有其游戏的账户，因此在数据库中查找你的用户名和账号。如果你的用户名为king，腾讯可以从以A开头的部分开始查找，但更合乎逻辑的做法是从中间开始查找。二分查找是一种算法，要求输入是一个有序的元素列表，我们结合程序的话，如果要查找
AI 大模型应用进阶系列（一）：Python 基础人工智能python
本文已同步到githubAI大模型应用进阶系列（一）：Python基础，欢迎Star。数据类型数字在Python中，数字类型是基本数据类型之一，用于表示数值整数a=10#十进制整数b=0b1010#二进制整数（等于十进制的10）c=0o12#八进制整数（等于十进制的10）d=0xA#十六进制整数（等于十进制的10）print(a,b,c,d)#输出:10101010浮点数x=3.14y=1.23e
自学Python笔记开篇奔跑吧茄子 python
自学Python笔记开篇突然喜欢上了Python，大体研究了一下，写了一个excel数据比对的小工具，边学边写，收获很多。这期间学习了xlrd、openpyxl、pandas处理excel文件的基本常识，有时间整理一下，对菜鸟入门或许有帮助。
Cursor AI 编程黑科技实战技巧深山技术宅素养人工智能科技
以下是结合最新实战经验的CursorAI编程黑科技指南，涵盖高效开发、跨工具联动与深度优化技巧：一、核心功能实战技巧智能编辑模式（Ctrl+I）精准上下文理解：跨文件修改时，用自然语言描述需求（如“将utils.py中的日志函数迁移到lib/logger.py并改为异步调用”），自动完成代码迁移与重构。规避幻觉代码：对复杂需求追加约束（例：“用Python连接MySQL，禁用ORM，使用参数化查询
ChatGPT、DeepSeek等大语言模型助力高效办公、论文与项目撰写、数据分析、机器学习与深度学习建模 asyxchenchong888 chatgpt 语言模型机器学习
随着人工智能技术的快速发展，大语言模型如ChatGPT和DeepSeek在科研领域的应用正在为科研人员提供强大的支持。这些模型通过深度学习和大规模语料库训练，能够帮助科研人员高效地筛选文献、生成论文内容、进行数据分析和优化机器学习模型。ChatGPT和DeepSeek能够快速理解和生成复杂的语言，帮助研究人员在撰写论文时提高效率，不仅生成高质量的文章内容，还能优化论文结构和语言表达。在数据分析方面
python：名称前的单下划线 NockinOnHeavensDoor python
名称前的单下划线（如：_shahriar）程序员使用名称前的单下划线，用于指定该名称属性为“私有”。这有点类似于惯例，为了使其他人（或你自己）使用这些代码时将会知道以“_”开头的名称只供内部使用。正如Python文档中所述：以下划线“_”为前缀的名称（如_spam）应该被视为API中非公开的部分（不管是函数、方法还是数据成员）。此时，应该将它们看作是一种实现细节，在修改它们时无需对外部通知。正如上
Python的字符串驻留机制 Dingdangr java 开发语言
Python的字符串驻留（StringInterning）机制是Python内存管理中的一个重要特性，它旨在优化字符串对象的存储和访问效率。字符串驻留，简单来说，就是Python解释器为了节省内存和提高性能，会在内部维护一个字符串对象的池（或称为表），对于某些特定的字符串对象，Python会尝试重用已有的对象而不是每次都创建一个新的对象。这种机制特别适用于那些频繁出现的短字符串，如标识符、关键字、
`__name__`变量在Python脚本中的作用是什么？ Dingdangr python java 数据库
在Python中，__name__变量扮演着非常关键且特殊的角色，它是Python中一个内置的特殊变量，用于标识模块的名字。尽管它的作用看似简单，但理解__name__变量的行为对于编写可复用、可测试且易于维护的Python代码至关重要。下面，我将深入探讨__name__变量的作用，以及它在不同场景下的应用，力求通过丰富的实例和解释，使这一概念的理解超越表面，达到深入骨髓的程度。__name__的
ChatGPT、DeepSeek等大语言模型助力高效办公、论文与项目撰写、数据分析、机器学习与深度学习建模等科研应用科研的力量人工智能 ChatGPT chatgpt 语言模型数据分析
随着人工智能技术的快速发展，大语言模型如ChatGPT和DeepSeek在科研领域的应用正在为科研人员提供强大的支持。这些模型通过深度学习和大规模语料库训练，能够帮助科研人员高效地筛选文献、生成论文内容、进行数据分析和优化机器学习模型。ChatGPT和DeepSeek能够快速理解和生成复杂的语言，帮助研究人员在撰写论文时提高效率，不仅生成高质量的文章内容，还能优化论文结构和语言表达。在数据分析方面
python开篇介绍 Lumiron python python 开发语言
文章目录python主要特点Python的应用领域Python的版本为什么选择Python？Python是一种高级、解释型、通用的编程语言，由GuidovanRossum于1991年首次发布。它以简洁易读的语法和强大的功能而闻名，适合从初学者到专业开发者的各种应用场景。python主要特点1、简单易学语法接近自然语言（英语），代码可读性高，适合编程新手。例如：print(“Hello,World!
Python中以下划线开头的变量名的特点
在Python中，以下划线开头的变量名具有一些特殊的特点和用途，这些特点和用途主要遵循Python的命名约定和内部实现机制。以下是对这些特点和用途的详细解释：1.单下划线开头的变量名（_xxx）特点保护变量：在类或模块中，以单下划线开头的变量名通常被视为“保护”的（protected），这是一种命名约定，旨在表示这些变量是内部使用的，不应该被外部代码直接访问。然而，需要注意的是，Python并不强
Appium+python自动化（十二）- Android UIAutomator 程序员的世界你不懂 appium 自动化运维
Android团队在4.1版本（API16）中推出了一款全新的UI自动化测试工具UiAutomator，用来帮助开发人员更有效率的完成App的Debug工作，同时对于测试人员也是一大福音，为什么这么说呢？UiAutomator提供了以下两种工具来支持UI自动化测试：uiautomatorviewer：用来分析UI控件的图形界面工具，位于SDK目录下的tools文件夹中。uiautomator：一个
【软考中级·软件评测师】下午题·面向对象测试之架构考点全析：分层、分布式、微内核与事件驱动 June bug 软考中级：软件评测师知识架构分布式职场和发展学习方法经验分享软考测试
一、分层架构：分层独立与质量特性的双向约束分层架构通过“垂直分层（表示层→服务层→业务逻辑层→数据层）”实现职责隔离，是Web应用、企业级系统的主流架构模式。1.父类成员函数重测场景子类继承父类时，若父类已测成员函数需在子类重测，触发条件分两类：场景1：继承的成员函数在子类中被修改（如逻辑分支新增、算法替换）；场景2：成员函数调用了被修改的子类成员函数（父类函数依赖子类重写方法，需验证调用逻辑）。
Docker容器化在Linux系统的安装与初始化配置 python自动化工具 k8s容器 linux 容器
哈喽，大家好，我是左手python！安装DockerDocker是一个开源的容器化平台，允许开发者打包、分发和运行应用程序。安装Docker是使用容器化技术的第一步。本节将详细介绍在Linux系统中安装Docker的步骤。在Ubuntu/Debian系统中安装Docker在Ubuntu/Debian系统中安装Docker，可以使用以下命令：#更新包索引sudoaptupdate#安装必要的依赖su
**基于Python的数据分析与机器学习实战教程****一、引言**随着大数据时代的到来，数据处理和分析能力已经成为现代软件开发人员的必备技能之一。Python作为一种高效、简洁且功能丰富的编程语言， 2401_89451588 python 数据分析机器学习
基于Python的数据分析与机器学习实战教程一、引言随着大数据时代的到来，数据处理和分析能力已经成为现代软件开发人员的必备技能之一。Python作为一种高效、简洁且功能丰富的编程语言，在数据分析领域得到了广泛的应用。本文将介绍如何使用Python进行数据分析，并结合机器学习算法实现数据驱动的应用。二、Python基础首先，我们需要掌握Python的基本语法和常用的库。Python的语法简洁易懂，上
（Python）Python基础语法介绍（二）（Python基础教学）
前言：请看上篇：（Python）Python基础语法介绍（一）（Python基础教学）-CSDN博客常用软件：市面上有很多写Python的软件，这里博主推荐几个博主认为好用的软件一、PyCharm地位：Python开发者首选IDE之一，尤其在专业开发、大型项目场景中使用率极高。特点：智能代码补全、语法检查、错误提示超高效，写代码像“开了外挂”；强大调试工具+丰富插件生态（支持Django、Flas
基于机器学习的超音速流场实时控制——Python/C++混合编程实战莱歌数字数字化转型 #职场经验 #结构热设计机器学习 python c++
作者简介：科技自媒体优质创作者个人主页：莱歌数字-CSDN博客公众号：莱歌数字个人微信：yanshanYH211、985硕士，职场15年+从事结构设计、热设计、售前、产品设计、项目管理等工作，涉足消费电子、新能源、医疗设备、制药信息化、核工业等领域涵盖新能源车载与非车载系统、医疗设备软硬件、智能工厂等业务，带领团队进行多个0-1的产品开发，并推广到多个企业客户现场落地实施。专题课程Flotherm
Windows环境下Docker容器化的安装与设置指南 python自动化工具 k8s容器 windows docker 容器
哈喽，大家好，我是左手python！系统要求与准备工作在开始安装和配置Docker之前，需要确保您的Windows系统满足以下要求：操作系统版本：推荐使用Windows10或更高版本，特别是64位版本。对于旧版本的Windows（如Windows7或Windows8），可以考虑使用DockerToolbox，但功能和性能可能会有所限制。虚拟化支持：确保您的CPU支持虚拟化技术（如IntelVT-x
如何规范式编写yaml文件小小小糖果人 K8S kubernetes 云原生容器
1、Yaml语法1.1使用空白与缩进表示层次（有点类似Python），可以不使用花括号和方括号。1.2可以使用#书写注释，比起JSON是很大的改进。1.3对象（字典）的格式与JSON基本相同，但Key不需要使用双引号,使用{a,b,c}。1.4数组（列表）是使用-开头的清单形式，使用[a,b,c]。1.5表示对象的:和表示数组的-后面都必须要有空格。可以使用---在一个文件里分隔多个YAML对象。
书其实只有三类西蜀石兰类
一个人一辈子其实只读三种书，知识类、技能类、修心类。知识类的书可以让我们活得更明白。类似十万个为什么这种书籍，我一直不太乐意去读，因为单纯的知识是没法做事的，就像知道地球转速是多少一样（我肯定不知道），这种所谓的知识，除非用到，普通人掌握了完全是一种负担，维基百科能找到的东西，为什么去记忆？知识类的书，每个方面都涉及些，让自己显得不那么没文化，仅此而已。社会认为的学识渊博，肯定不是站在
《TCP/IP 详解，卷1：协议》学习笔记、吐槽及其他 bylijinnan tcp
《TCP/IP 详解，卷1：协议》是经典，但不适合初学者。它更像是一本字典，适合学过网络的人温习和查阅一些记不清的概念。这本书，我看的版本是机械工业出版社、范建华等译的。这本书在我看来，翻译得一般，甚至有明显的错误。如果英文熟练，看原版更好： http://pcvr.nl/tcpip/ 下面是我的一些笔记，包括我看书时有疑问的地方，也有对该书的吐槽，有不对的地方请指正： 1.
Linux—— 静态IP跟动态IP设置 eksliang linux IP
一.在终端输入 vi /etc/sysconfig/network-scripts/ifcfg-eth0 静态ip模板如下： DEVICE="eth0" #网卡名称 BOOTPROTO="static" #静态IP（必须） HWADDR="00:0C:29:B5:65:CA" #网卡mac地址 IPV6INIT=&q
Informatica update strategy transformation 18289753290
更新策略组件：标记你的数据进入target里面做什么操作，一般会和lookup配合使用，有时候用0,1,1代表 forward rejected rows被选中，rejected row是输出在错误文件里，不想看到reject输出，将错误输出到文件，因为有时候数据库原因导致某些column不能update，reject就会output到错误文件里面供查看，在workflow的
使用Scrapy时出现虽然队列里有很多Request但是却不下载，造成假死状态酷的飞上天空 request
现象就是：程序运行一段时间，可能是几十分钟或者几个小时，然后后台日志里面就不出现下载页面的信息，一直显示上一分钟抓取了0个网页的信息。刚开始已经猜到是某些下载线程没有正常执行回调方法引起程序一直以为线程还未下载完成，但是水平有限研究源码未果。经过不停的google终于发现一个有价值的信息，是给twisted提出的一个bugfix 连接地址如下http://twistedmatrix.
利用预测分析技术来进行辅助医疗蓝儿唯美医疗
2014年，克利夫兰诊所（Cleveland Clinic）想要更有效地控制其手术中心做膝关节置换手术的费用。整个系统每年大约进行2600例此类手术，所以，即使降低很少一部分成本，都可以为诊所和病人节约大量的资金。为了找到适合的解决方案，供应商将视野投向了预测分析技术和工具，但其分析团队还必须花时间向医生解释基于数据的治疗方案意味着什么。克利夫兰诊所负责企业信息管理和分析的医疗
java 线程(一)：基础篇 DavidIsOK java 多线程线程
&nbs
Tomcat服务器框架之Servlet开发分析 aijuans servlet
最近使用Tomcat做web服务器，使用Servlet技术做开发时，对Tomcat的框架的简易分析：疑问：为什么我们在继承HttpServlet类之后，覆盖doGet(HttpServletRequest req, HttpServetResponse rep)方法后，该方法会自动被Tomcat服务器调用，doGet方法的参数有谁传递过来？怎样传递？分析之我见： doGet方法的
揭秘玖富的粉丝营销之谜与小米粉丝社区类似 aoyouzi 揭秘玖富的粉丝营销之谜
玖富旗下悟空理财凭借着一个微信公众号上线当天成交量即破百万，第七天成交量单日破了1000万;第23天时，累计成交量超1个亿……至今成立不到10个月，粉丝已经超过500万，月交易额突破10亿，而玖富平台目前的总用户数也已经超过了1800万，位居P2P平台第一位。很多互联网金融创业者慕名前来学习效仿，但是却鲜有成功者，玖富的粉丝营销对外至今仍然是个谜。　　近日，一直坚持微信粉丝营销
Java web的会话跟踪技术百合不是茶 url会话 Cookie会话 Seession会话 Java Web 隐藏域会话
会话跟踪主要是用在用户页面点击不同的页面时,需要用到的技术点会话:多次请求与响应的过程 1,url地址传递参数,实现页面跟踪技术格式:传一个参数的 url?名=值传两个参数的 url?名=值 &名=值关键代码
web.xml之Servlet配置 bijian1013 java web.xml Servlet配置
定义： <servlet> <servlet-name>myservlet</servlet-name> <servlet-class>com.myapp.controller.MyFirstServlet</servlet-class> <init-param> <param-name>
利用svnsync实现SVN同步备份 sunjing SVN 同步 E000022 svnsync 镜像
1. 在备份SVN服务器上建立版本库 svnadmin create test 2. 创建pre-revprop-change文件 cd test/hooks/ cp pre-revprop-change.tmpl pre-revprop-change 3. 修改pre-revprop-
【分布式数据一致性三】MongoDB读写一致性 bit1129 mongodb
本系列文章结合MongoDB，探讨分布式数据库的数据一致性，这个系列文章包括：数据一致性概述与CAP 最终一致性(Eventually Consistency) 网络分裂(Network Partition)问题多数据中心(Multi Data Center) 多个写者(Multi Writer)最终一致性一致性图表(Consistency Chart) 数据
Anychart图表组件-Flash图转IMG普通图的方法白糖_ Flash
问题背景：项目使用的是Anychart图表组件，渲染出来的图是Flash的，往往一个页面有时候会有多个flash图，而需求是让我们做一个打印预览和打印功能，让多个Flash图在一个页面上打印出来。那么我们打印预览的思路是获取页面的body元素，然后在打印预览界面通过$("body").append(html)的形式显示预览效果，结果让人大跌眼镜：Flash是
Window 80端口被占用 WHY? bozch 端口占用 window
平时在启动一些可能使用80端口软件的时候，会提示80端口已经被其他软件占用，那一般又会有那些软件占用这些端口呢？下面坐下总结： 1、web服务器是最经常见的占用80端口的，例如：tomcat , apache , IIS , Php等等； 2
编程之美-数组的最大值和最小值-分治法（两种形式） bylijinnan 编程之美
import java.util.Arrays; public class MinMaxInArray { /** * 编程之美数组的最大值和最小值分治法 * 两种形式 */ public static void main(String[] args) { int[] t={11,23,34,4,6,7,8,1,2,23}; int[]
Perl正则表达式 chenbowen00 正则表达式 perl
首先我们应该知道 Perl 程序中，正则表达式有三种存在形式，他们分别是：匹配：m/<regexp>;/ （还可以简写为 /<regexp>;/ ，略去 m）替换：s/<pattern>;/<replacement>;/ 转化：tr/<pattern>;/<replacemnt>;
[宇宙与天文]行星议会是否具有本行星大气层以外的权力呢? comsci
举个例子: 地球,地球上由200多个国家选举出一个代表地球联合体的议会,那么现在地球联合体遇到一个问题,地球这颗星球上面的矿产资源快要采掘完了....那么地球议会全体投票,一致通过一项带有法律性质的议案,既批准地球上的国家用各种技术手段在地球以外开采矿产资源和其它资源........ &
Oracle Profile 使用详解 daizj oracle profile 资源限制
Oracle Profile 使用详解转一、目的： Oracle系统中的profile可以用来对用户所能使用的数据库资源进行限制，使用Create Profile命令创建一个Profile，用它来实现对数据库资源的限制使用，如果把该profile分配给用户，则该用户所能使用的数据库资源都在该profile的限制之内。二、条件：创建profile必须要有CREATE PROFIL
How HipChat Stores And Indexes Billions Of Messages Using ElasticSearch & Redis dengkane elasticsearch Lucene
This article is from an interview with Zuhaib Siddique, a production engineer at HipChat, makers of group chat and IM for teams. HipChat started in an unusual space, one you might not
循环小示例，菲波拉契序列，循环解一元二次方程以及switch示例程序 dcj3sjt126com c 算法
# include <stdio.h> int main(void) { int n; int i; int f1, f2, f3; f1 = 1; f2 = 1; printf("请输入您需要求的想的序列："); scanf("%d", &n); for (i=3; i<n; i
macbook的lamp环境 dcj3sjt126com lamp
sudo vim /etc/apache2/httpd.conf /Library/WebServer/Documents 是默认的网站根目录重启Mac上的Apache服务这个命令很早以前就查过了，但是每次使用的时候还是要在网上查：停止服务：sudo /usr/sbin/apachectl stop 开启服务：s
java ArrayList源码下 shuizhaosi888 ArrayList源码
版本 jdk-7u71-windows-x64 JavaSE7 ArrayList源码上：http://flyouwith.iteye.com/blog/2166890 /** * 从这个列表中移除所有c中包含元素 */ public boolean removeAll(Collection<?> c) {
Spring Security（08）——intercept-url配置 234390216 Spring Security intercept-url 访问权限访问协议请求方法
intercept-url配置目录 1.1 指定拦截的url 1.2 指定访问权限 1.3 指定访问协议 1.4 指定请求方法 1.1 &n
Linux环境下的oracle安装 jayung oracle
linux系统下的oracle安装本文档是Linux(redhat6.x、centos6.x、redhat7.x) 64位操作系统安装Oracle 11g(Oracle Database 11g Enterprise Edition Release 11.2.0.4.0 - 64bit Production)，本文基于各种网络资料精心整理而成，共享给有需要的朋友。如有问题可联系：QQ：52-7
hotspot虚拟机 leichenlei java HotSpot jvm 虚拟机文档
JVM参数 http://docs.oracle.com/javase/6/docs/technotes/guides/vm/index.html JVM工具 http://docs.oracle.com/javase/6/docs/technotes/tools/index.html JVM垃圾回收 http://www.oracle.com
读《Node.js项目实践：构建可扩展的Web应用》 ——引编程慢慢变成系统化的“砌砖活” noaighost Web node.js
读《Node.js项目实践：构建可扩展的Web应用》 ——引编程慢慢变成系统化的“砌砖活” 眼里的Node.JS 初初接触node是一年前的事，那时候年少不更事。还在纠结什么语言可以编写出牛逼的程序，想必每个码农都会经历这个月经性的问题：微信用什么语言写的？facebook为什么推荐系统这么智能，用什么语言写的？dota2的外挂这么牛逼，用什么语言写的？……用什么语言写这句话，困扰人也是阻碍
快速开发Android应用 rensanning android
Android应用开发过程中，经常会遇到很多常见的类似问题，解决这些问题需要花时间，其实很多问题已经有了成熟的解决方案，比如很多第三方的开源lib，参考 Android Libraries 和 Android UI/UX Libraries。编码越少，Bug越少，效率自然会高。但可能由于根本没听说过、听说过但没用过、特殊原因不能用、自己已经有了解决方案等等原因，这些成熟的解决
理解Java中的弱引用 tomcat_oracle java 工作面试
　不久之前，我面试了一些求职Java高级开发工程师的应聘者。我常常会面试他们说，“你能给我介绍一些Java中得弱引用吗？”，如果面试者这样说，“嗯，是不是垃圾回收有关的？”，我就会基本满意了，我并不期待回答是一篇诘究本末的论文描述。　　然而事与愿违，我很吃惊的发现，在将近20多个有着平均5年开发经验和高学历背景的应聘者中，居然只有两个人知道弱引用的存在，但是在这两个人之中只有一个人真正了
标签输出html标签" target="_blank">关于标签输出html标签 xshdch jsp
http://back-888888.iteye.com/blog/1181202 关于<c:out value=""/>标签的使用，其中有一个属性是escapeXml默认是true(将html标签当做转移字符，直接显示不在浏览器上面进行解析)，当设置escapeXml属性值为false的时候就是不过滤xml，这样就能在浏览器上解析html标签， &nb