Struart_R

机器学习（14）--XGBoost

一、概述

二、CART、GB、GBDT

1、CART

2、BT（Boosting Tree提升树）

3、GBDT（梯度提升树）

4、GBDT在sklearn中的损失函数

三、Sklearn中的GBDT

1、加载模块

2、划分数据集

3、建模

4、与随机森林和线性回归对比

5、绘制学习曲线

6、n_estimators调参

7、偏差-方差困境

8、subsample

9、eta

四、GBDT的小结

五、XGBoost

1、XGBoost的弱评估器

2、XGBoost目标函数

3、目标函数的不同损失函数

4、深究目标函数

5、分枝策略：贪婪算法

一、概述

XGBoost（eXtreme Gradient BoosTing）是极度梯度提升树，他的基础是梯度提升树（GBDT）。XGBoost作为集成算法中提升法（boosting）的代表算法，相比于单个模型，在分类和回归算法有很优秀的效果表现。

XGBoost的背后也是CART决策树，意味着XGBoost作为一个树模型，也是一个二叉树，只是一次性建立多个平行独立的树，类似于随机森林，但又不同。XGBoost的建模过程：最先建立一棵树，然后根据这一棵树，建立新的一颗树；再根据这两棵树，建立新的一棵树；每次迭代过程中只增加一棵树（弱评估器），逐渐形成一个具有众多树模型的强评估器。

二、CART、GB、GBDT

1、CART

决策树：决策树有三个基本的算法：ID3，C4.5，CART。其中CART是一种基于二叉树的机器学习算法，相比于ID3、C4.5只能用于离散型数据且只能用于分类数据，CART可以处理回归和分类两类问题问题，是所有复杂的决策树，有关决策树的算法的基础。

CART（Classification and Regression Tree）：是一种二元分类和回归树模型。它采用了基尼指数作为分类依据，并且能够处理连续型和离散型数据。CART可以作为回归树也可以作为分类树，这由目标任务所决定。如果是分类树，则采用基尼系数来作为结点分裂依据，如果是回归树，则采用MSE（均方误差）作为结点分裂依据。

基尼系数计算公式：

$Gini(p)=\Sigma_{k=1}^kp_k*(1-p_k)$

公式基于分类问题，其中，假设有k个类别，第k个类别的概率为。其中基尼系数代表了模型的不纯度，基尼系数越小，不纯度越低，特征越好。

CART分类树原理：

假设m个样本的连续特征A为m个，从小到大进行排列为，取相邻两个样本值的平均数，一共会取得m-1个点，其中第i个划分点表示为 $T_i=\frac{a_i+a_{i+1}}{2}$ ,对于这m-1个点，分别计算他们的基尼系数。选择其中基尼系数最小的点作为连续特征进行二元离散分类的点。若取得的基尼系数最小的点为，则小于的值为类别0，大于的值为类别1，做到了连续数据进行离散化。

CART回归树原理：

假设有n个训练样本，损失函数定义为MSE。这n个样本首先都在根节点，此时该结点的样本预测值都为节点的训练均值，所以此时的损失值为：

$L=\frac{[(y_1-\bar{y})^2+...+(y_n-\bar{y})^2]}{n}$

然后，遍历每一个树，在特征中找到一个划分点，让大于和小于该值的样本分别进入左右两个子节点，使得左右两个节点损失值之和最小，然后不断进行递归，直到达到预设条件为止，如最大深度max_depth。

2、BT（Boosting Tree提升树）

提升树算法：

（1）初始化

（2）令

(a)计算残差 $r_{im}=y_i-f_{m-1}(x),i=1,2,...,N$

(b)拟合残差，生成一个回归树，得到

(c)更新 $f_m(x)=f_{m-1}(x)+h_m(x)$

（3）得到回归问题提升树 $f_m(x)=\sum_{m=1}^{M}h_m(x)$

3、GBDT（梯度提升树）

在BT基础上优化了残差的计算方法，使用牛顿法来计算，将残差替代为梯度。GBDT中所有的树必须是回归树，不是分类树。

GBDT算法：

（1）初始化弱学习器 $f_0(x)=argmin_c\sum_{i=1}^NL(y_i,c)$ （损失函数默认为均方误差）

（2）令

（a）对每个样本,计算负梯度，即残差（与BT的区别）

$r_{im}=-[\frac{\partial L(y_i,f(x_i))}{\partial f(x_i)}]_{f(x)=f_{m-1}(x)}$

（b）将上步的残差作为样本的新真实值，并将数据 $(x_i,r_{im}),i=1,2,...,N$ 作为下一棵i+1树的训练数据（即1到i树的数据和残差），得到一颗新的回归树，回归树对应的叶子结点区域为 $R_{jm},j=1,2,...,J$ 。其中J为回归树t的叶子结点的个数。

（c）对叶子区域 $R_{jm},j=1,2,...,J$ 计算最佳拟合值

$\gamma_{jm}=argmin_{\gamma}\sum_{x_i\in R_{jm}}L(y_i,f_{m-1}(x_i)+\gamma)$

(d)更新强学习器

$f_m(x)=f_{m-1}(x)+\sum_{j=1}^J\gamma_{jm}I(x \in R_{jm})$

(3)得到最终学习器

$f(x)=f_M(x)=f_0(x)+\sum_{m=1}^{M}\sum_{j=1}^{J}\gamma_{jm}I(x \in R_{jm})$

4、GBDT在sklearn中的损失函数

在梯度提升回归树中有四种损失函数：平方损失“ls”，绝对损失“lad”，huber损失“huber”，分位数损失“quantile”，在梯度提升分类树中有两种损失函数：指数损失“exponential”，对数损失“deviance”。梯度下降就是向着负梯度的方向移动，可以求得最小值。

平方损失：

负梯度就是残差。

绝对损失：

负梯度：

huber损失：

$L(y,f(x))=\left\{\begin{matrix} \frac{1}{2}(y-f(x))^2 \qquad if\;|y-f(x)|\leqslant \delta\\ \delta(|y-f(x))-\frac{\delta}{2} \quad if\;|y-f(x)|\leqslant \delta \end{matrix}\right.$

负梯度： $r(y_i,f(x_i))=\left\{\begin{matrix} y_i-f(x_i) \qquad \quad if \; |y_i-f(x_i)\leqslant \delta \\ \delta sgn(y_i-f(x_i)) \quad if \; |y_i-f(x_i)>\delta \end{matrix}\right.$

分位数损失：

$L(y,f(x))=\sum_{y\geqslant y(x)} \theta|y-f(x)|+\sum_{y<f(x)} (1-\theta)|y-f(x)|$

负梯度： $r(y_i,f(x_i))=\left\{\begin{matrix} \theta \qquad \quad \quad if\; y_i\geqslant f(x_i)\\ \theta-1 \qquad if \;y_i <f(x_i) \end{matrix}\right.$

三、Sklearn中的GBDT

1、加载模块

from xgboost import XGBRegressor as XGBR                             #xgboost
from sklearn.ensemble import RandomForestRegressor as RFR            #随机森林
from sklearn.linear_model import LinearRegression as LinearR         #线性回归
from sklearn.datasets import load_boston                             #波士顿房价数据集
from sklearn.model_selection import KFold,cross_val_score,train_test_split
from sklearn.metrics import mean_squared_error as MSE                #均方误差
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

2、划分数据集

data=load_boston()
x=data.data
y=data.target

print(x.shape)   #(506,13) 13个特征

xtrain,xtest,ytrain,ytest=train_test_split(x,y,test_size=0.3,random_state=420)   #按7:3划分数据集

3、建模

reg=XGBR(n_estimators=100).fit(xtrain,ytrain)
print(reg.predict(xtest))                #输出y_pred
print(reg.score(xtest,ytest))            #返回R方，R方越接近1越好
print(MSE(ytest,reg.predict(xtest)))     #均方误差
print(reg.feature_importances_)          #返回不同特征的重要性分数

4、与随机森林和线性回归对比

xgbr_score=cross_val_score(reg,xtrain,ytrain,cv=5).mean()  #5折交叉验证,查看训练效果,与模型score接口相同，返回R方
rfr=RFR(n_estimators=100,random_state=420)
rfr_score=cross_val_score(rfr,xtrain,ytrain,cv=5).mean()

lnr=LinearR()
lnr_score=cross_val_score(lnr,xtrain,ytrain,cv=5).mean()

print("XGBR_cross_val_score:",xgbr_score)
print("RFR_cross_val_score:",rfr_score)
print("LinearR_cross_val_score:",lnr_score)

XGBR_cross_val_score: 0.799506
RFR_cross_val_score: 0.798916
LinearR_cross_val_score: 0.683507

可见xgboost的交叉验证分数最高，由于波士顿房价数据集还是一个线性数据集，所以分数没有骤降，但相比集成算法xgboost和随机森林还是要低。

5、绘制学习曲线

def plot_learning_curve(estimator,title,x,y,
                        ax=None,
                        ylim=None,
                        cv=None,
                        n_jobs=None):
    from sklearn.model_selection import learning_curve
    train_sizes,train_scores,test_scores=learning_curve(estimator,x,y,
                                                        shuffle=True,
                                                        cv=cv,
                                                        random_state=420,
                                                        n_jobs=n_jobs)
    if ax==None:            #没有建立子图，会建立一个子图
         ax=plt.gca()
    else:
         ax = plt.figure()  #否则构建坐标轴
    ax.set_title(title)     #标题
    if ylim is not None:
        ax.set_ylim(*ylim)
    ax.set_xlabel("Train examples")
    ax.set_ylabel("Score")
    ax.grid()
    ax.plot(train_sizes,np.mean(train_scores,axis=1),'o-',
            color='r',label='Training score')
    ax.plot(train_sizes,np.mean(test_scores,axis=1),'o-',
            color='g',label='Test score')
    ax.legend(loc='best')         #打标签
    return ax

cv=KFold(n_splits=5,shuffle=True,random_state=420)    #cv必须进行定义类，而不是数字

plot_learning_curve(XGBR(n_estimators=100,random_state=420),title="XGB",x=xtrain,y=ytrain,ax=None,cv=cv)
plt.show()

从绘制图像可以看出，训练集学习曲线明显过拟合，测试集学习曲线不能逼近训练集学习曲线。由于训练集上表现模型学习能力，测试集表现模型泛化能力,则模型仍具有一定的学习能力，可以通过降低训练集学习能力或使得测试集学习曲线与训练集学习曲线相逼近来提高模型效果。

6、n_estimators调参

由于不考虑偏差-方差困境问题，很容易导致n_estimators选择过于大，在测试中输出交叉验证最优时参数为260。

axisx=range(10,1010,50)           #从10-1010范围内绘制n_estimators为变量的学习曲线
rs=[]
for i in axisx:
    reg=XGBR(n_estimators=i,random_state=420)
    rs.append(cross_val_score(reg,xtrain,ytrain,cv=cv).mean())
print(axisx[rs.index(max(rs))],max(rs))

plt.figure(figsize=(20,5))
plt.plot(axisx,rs,c='r',label='XGB')
plt.legend()
plt.show()

但是，在绘制学习曲线时，很明显发现在150以后基本已经收敛，而过大的n_estimators，也就是xgboost中二叉树的个数，会严重拖慢训练速度，而此时基本能够保证精度的要求，所以进行剪枝。

7、偏差-方差困境

rs=[]
var=[]
ge=[]
for i in axisx:
    reg=XGBR(n_estimators=i,random_state=420)
    cvs=cross_val_score(reg, xtrain, ytrain, cv=cv)
    rs.append(cvs.mean())
    var.append(cvs.var())
    ge.append((1-cvs.mean()**2)+cvs.var())
print(axisx[rs.index(max(rs))],var[rs.index(max(rs))],max(rs))
print(axisx[var.index(min(var))],rs[var.index(min(var))],min(var))
print(axisx[ge.index(min(ge))],rs[ge.index(min(ge))],var[ge.index(min(ge))],min(ge))
plt.figure(figsize=(20,5))
plt.plot(axisx,rs,c='r',label='XGB')
plt.legend()
plt.show()

输出如下，难道这个和最开始没用偏差方差的分数竟然是一样的！？第二行一般来说方差会出现较小的n_estimator。

260 0.008852347181932483 0.8131149348490775
10 0.7848413102530744 0.005805538902618695
260 0.8131149348490775 0.008852347181932483 0.34769644990731297

8、subsample

subsample是建模时的一个参数，表示随机抽样时抽取的样本比例，范围（0，1]，默认时为1，表示不进行放回抽样。

对于样本量过少且过拟合的样本，其实进行有放回抽样会带来训练集的学习效果较低，泛化能力也得不到提升。对于样本量庞大的样本，可以进行有放回抽样，一方面可以降低模型训练的时间，另一方面可以提高泛化能力，提升模型效果。

本节基于波士顿房价数据集进行测试subsample的参数效果，由于样本量少，难以提升模型效果。

9、eta

eta表示学习率，与逻辑回归中的α学习率相类比，梯度提升树中使用学习率η迭代集成算法：（在进行k+1次迭代后，k棵树的集成结果 $\hat{y_i}^{(k)}$ 加上新建的树的叶子权重 $f_{k+1}(x_i)$ ，等于k+1棵树的预测结果 $\hat{y_i}^{(k+1)}$ ，不断迭代这个过程，直到找到损失函数最小的 $\hat{y}$ ，这个 $\hat{y}$ 就是模型预测结果）

$\hat{y_i}^{(k+1)}=\hat{y_i}^{(k)}+\eta f_{k+1}(x_i)$

η越大，迭代速度越快，越有可能出现过拟合，无法收敛到最佳结果，η越小，迭代速度越慢越容易欠拟合，训练时间过长。

计算不用学习率训练下的R2和MSE，可以看到0.2左右的模型效果更好，相比于学习率默认1下。

for i in [0,0.2,0.5,1]:             #不同学习率下的r2和MSE
    reg=XGBR(n_estimators=100,random_state=420,learning_rate=i).fit(xtrain,ytrain)
    print(f"lr={i}")
    print(f"r2={reg.score(xtest,ytest)}")
    print(f"MSE={MSE(ytest,reg.predict(xtest))}")

lr=0
r2=-5.181397220104724
MSE=575.2030263157894
lr=0.2
r2=0.9079161159888034
MSE=8.568763156957433
lr=0.5
r2=0.8825918771246555
MSE=10.925281968986637
lr=1
r2=0.8152271360458629
MSE=17.193832841186456

四、GBDT的小结

对于梯度提升树而言，基本是由三个重要的部分组成：

（1）一个能够衡量集成算法效果的，能够被最优化的目标损失函数Obj

（2）一个能够实现预测的弱评估器

（3）一种能够让弱评估器集成的手段，包括我们讲解的迭代方法，抽样手段，样本加权等过程

XGBoost只需要在GBDT的这三个重要部分中改进，重新定义了损失函数，弱评估器，并且对提升算法的集成进行了改进，实现了运算速度和模型效果的高度平衡。

五、XGBoost

1、XGBoost的弱评估器

在xgboost.XGBRegressor中对于弱评估器参数为booster，可以输入gbree，gblinear或dart。gbtree代表梯度提升树，dart（Dropouts meet Multiple Additive Regression Trees）表示抛弃提升树，可以在建立树时抛弃一部分树，比梯度提升树有更好的防止过拟合的功能。gblinear应用于线性数据。

在sklearn中用不同的弱评估器比较其R2。由于波士顿房价不是所有的特征都是线性的，所以不完全是一个线性数据集，在gblinear下效果不佳。

for booster in ['gbtree','gblinear','dart']:
    reg=XGBR(n_estimators=260,learning_rate=0.1,random_state=420,booster=booster).fit(xtrain,ytrain)
    print(f"booster: {booster},r2: {reg.score(xtest,ytest)}")

booster: gbtree,r2: 0.9262200340627753
booster: gblinear,r2: 0.670622690237168
booster: dart,r2: 0.9262200556852349

2、XGBoost目标函数

XGBoost的目标函数被写为：传统的损失函数+模型复杂度，相对比其他模型，这样的目标函数更加能衡量模型表现和运算速度的平衡。

目标函数计算公式：

$Obj=\sum_{i=1}^ml(y_i,\hat{y_i})+\sum_{k=1}^K \Omega (f_k)$

公式中i代表数据集中第i个样本，m表示第k棵树的数据总量，K代表所有的树，也就是n_estimators，第一项代表传统的损失函数，衡量真实标签与预测标签 $\hat{y_i}$ 之间的差异，通常是RMSE，均方根误差或标准误差。（下面为MSE和RMSE公式的对比）

$MSE=\frac{1}{N}\sum_{i=1}^N(observed_i-predicted_i)^2$

$RMSE=\sqrt {\frac{1}{N}\sum_{i=1}^N(observed_i-predicted_i)^2}$

第二项代表模型复杂度，使用树模型的某种变换Ω表示，可以代表树模型的复杂度。也为树的特征中已经包含了特征矩阵,或者说，每一棵树的特征都是前面若干棵树特征与新树叶子权重的融合，而前面若干棵树已经包含了数据的特征矩阵。

另外，从式子表面而言，第一项与前面K棵树仿佛无关，而第二项式子与K棵树有关，其实不然，在第一项中的 $\hat{y_i}$ 已经与K棵树有关，包含了K棵树的迭代效果。

$\hat{y_i}^k=\sum_k^Kf_k(x_i)$

在XGBoost目标函数中其实也蕴含了方差-偏差困境的问题，第一项衡量偏差，模型越坏，第一项越大，第二项衡量方差，模型越复杂，树越多，模型越具体，在不同数据集上的差异会更加巨大，方差越大，所以我们取得Obj的最小值，也就是方差和偏差的平衡点，以求泛化误差最小，运行速度最快。

3、目标函数的不同损失函数

在xgboost.XGBRegressor和xgboost.XGBClassfier中objective参数为目标函数的损失函数。

其中XGB回归器默认使用reg:linear，XGB分类器默认使用binary:logistic。

常见的损失函数：

输入	损失函数	应用
reg:linear	线性回归，损失函数使用均方误差	回归
binary:logistic	逻辑回归，损失函数使用对数损失	二分类
binary:hinge	支持向量机，损失函数使用Hinge Loss	二分类
multi:softmax	使用softmax损失函数	多分类

4、深究目标函数

下面为对该式子的处理： $Obj=\sum_{i=1}^ml(y_i,\hat{y_i})+\sum_{k=1}^K \Omega (f_k)$

注意gi和hi为损失函数对于某一样本的一阶导数和二阶导数，而不是目标函数对某一样本。

$\Omega(f_t)$ 作为模型的复杂度等于 $\gamma T+Regularization$ ，复杂度与叶子的数量深度有关，叶子数量越多，深度越深，复杂度越大，Regularzation表示正则化。

使用L1正则化：

$\gamma T+Regularization=\gamma T+\frac{1}{2} \lambda||w||^2=\gamma T+\frac{1}{2} \lambda \sum_{j=1}^Tw_j^2$

使用L2正则化：

$\gamma T+Regularization=\gamma T+\frac{1}{2} \alpha|w|=\gamma T+\frac{1}{2} \alpha \sum_{j=1}^T|w_j|$

也可以一起使用加大正则化的力度，λ和α都为0时目标函数就是普通的GBDT目标函数。

将所有的式子转换为仅与T（叶子）有关

由于 $f_t(x_i)=w_{q(x_i)}$ ， $w_{q(x_i)}$ 为叶子结点的预测分数，进行如下转换：

最后对求偏导，令偏导数为0，求解函数极值所对应的，带入原目标函数中。可以看到目标函数基于每一个叶子结点，分数越低，树的整体结构越好，模型效果越好。

$w_j=-\frac{G_j}{H_j+\lambda}$

$Obj^{(t)}=-\frac{1}{2}\sum_{j=1}^T \frac{G_j^2}{H_j+ \lambda }+ \gamma T$

5、分枝策略：贪婪算法

在XGBoost中首先使用目标函数来衡量树结构的优劣，然后当树每一次分枝时，计算分枝前的结构分数（就是目标函数）与分枝后的结构分数之差，成为Gain，选择Gain最大的特征上的分枝点进行分枝，当Gain小于某个值时，树停止生长。（可以通过参数控制，类似于决策树的信息熵限制树的分枝）

参考视频：11 4.1 XGBoost应用 (1)：减轻过拟合：XGBoost中的剪枝参数_哔哩哔哩_bilibili

参考文献：《机器学习》周志华

提升首屏加载的秘密武器：一文讲透 CDN 加速核心逻辑网罗开发实战源码前端 json javascript
网罗开发（小红书、快手、视频号同名）大家好，我是展菲，目前在上市企业从事人工智能项目研发管理工作，平时热衷于分享各种编程领域的软硬技能知识以及前沿技术，包括iOS、前端、HarmonyOS、Java、Python等方向。在移动端开发、鸿蒙开发、物联网、嵌入式、云原生、开源等领域有深厚造诣。图书作者：《ESP32-C3物联网工程开发实战》图书作者：《SwiftUI入门，进阶与实战》超级个体：CO
量化AI价值的30个关键指标 mao_feng 人工智能 AI
摘要：量化AI的战略价值人工智能（AI）成功集成到业务运营中超越了单纯的技术部署;它需要一种严格、可量化的方法来展示其价值。本报告系统地分类并解释了评估AI优势的基本指标，从核心模型性能到总体战略和道德考虑因素。必须制定多方面的衡量策略，将技术AI指标与运营效率、客户体验、财务绩效、战略优势和负责任的AI实践等有形业务成果直接联系起来。稳健的关键绩效指标（KPI）不仅仅是问责制的工具;它们是持续改
python3常用模块 ZZH1120KQ python 开发语言
1数学运算模块math“math”模块提供了许多常用的数学函数，例如三角函数、四舍五入、指数、对数、平方根、总和等importmath1.1常数math.pi返回圆周率的数学常数。math.e返回指数的数学常数示例：print(math.pi)print(math.e)1.2fabs(x)取绝对值示例：print(math.fabs(5))print(math.fabs(-5))1.3ceil(x
Django REST framework - 设置 djangopython
settings.py命名空间是个绝妙的主意，让我们多用用吧！——《Python之禅》DjangoREST框架的配置都放在一个命名空间内，即Django的一个设置，名为REST_FRAMEWORK。例如，项目的settings.py文件可能包含类似以下内容：REST_FRAMEWORK={'DEFAULT_RENDERER_CLASSES':['rest_framework.renderers.J
生信分析用python还是r_生信分析利器：JupyterLab weixin_39612726 生信分析用python还是r
生信分析对计算机的开发环境有诸多要求，随之而来的自然就是很多麻烦。不说别的，要兼顾Python和R的问题就有够头疼。一边想着用Python搭流程处理文本和分析结果，另一边还想着用R来做统计分析和画图，而且大多数时候生信分析还得在服务器上完成。Python你用Pycharm，R用Rstudio，一会这儿一会那儿的切来切去，还得设置服务器连接(Pycharm如果不是付费版本，要连服务器还挺麻烦)。完了
Python 爬虫实战：抓取哔哩哔哩收藏夹视频（API 逆向 + 视频分类整理）西攻城狮北 python 爬虫音视频
引言哔哩哔哩（B站）作为国内知名的视频分享平台，拥有丰富多样的视频资源和活跃的用户社区。对于视频创作者、数据分析人员或爬虫学习者来说，抓取B站收藏夹中的视频数据，不仅能帮助我们更好地了解用户喜好和视频内容，还能为创作和研究提供有力支持。本文将深入浅出地讲解如何通过Python爬虫实现抓取哔哩哔哩收藏夹视频，并对其进行分类整理，涵盖从环境搭建、API逆向分析到数据处理与存储等关键步骤，旨在为读者提供
【Python学习】可视化图表-使用matplotlib绘制不同种类散点图西攻城狮北 Python实用案例 python 学习 matplotlib 可视化图形
一、引言在数据可视化领域，散点图是一种极其强大的工具，它能够直观地展示变量之间的关系、数据分布的模式以及潜在的聚类情况等。通过散点图，我们可以轻松地发现数据中的异常值、相关性以及其他隐藏的特征。Python的matplotlib库提供了丰富而灵活的功能，可以帮助我们绘制出各种类型的散点图，以满足不同的数据分析和展示需求。本文将深入探讨如何使用matplotlib绘制多种类型的散点图，并提供详细的代
18个Python高效编程技巧！程序员笑武 python 开发语言数据分析信息可视化运维
初识Python语言，觉得python满足了我上学时候对编程语言的所有要求。python语言的高效编程技巧让我们这些大学曾经苦逼学了四年c或者c++的人，兴奋的不行不行的，终于解脱了。高级语言，如果做不到这样，还扯啥高级呢？01交换变量>>>a=3>>>b=6这个情况如果要交换变量在c++中，肯定需要一个空变量。但是python不需要，只需一行，大家看清楚了>>>a,b=b,a>>>print(a
python连接db2的官方库ibm_db的api 数据-脚本-资源-管道 ibm-db python 数据库 python
IBM_DBAPI详细文档ibm_db.active描述检查指定的数据库连接是否处于活动状态传入参数connection:有效的数据库连接资源返回值True:资源处于活动状态False:资源未处于活动状态例子importibm_dbconn=ibm_db.connect("DATABASE=testdb;HOSTNAME=localhost;PORT=50000;PROTOCOL=TCPIP;UI
Python 爬虫实战：动态数据+定时任务+价格预测全链路解析西攻城狮北 python 爬虫开发语言
一、动态数据捕获技术栈1.1目标网站分析（以某OTA平台为例）实现原理：本节演示如何使用Selenium自动化浏览器访问机票查询页面。选择Selenium而非直接请求API的原因在于：目标网站采用JavaScript动态渲染价格数据需要模拟用户操作（如选择日期、舱位）触发数据加载需处理反爬机制（如Cookie验证、行为检测）fromseleniumimportwebdriverfromseleni
Python并发编程基础：进程与线程本质区别详解 Yant224 python #并发编程 python 进程与线程并发编程多线程原理多进程原理并发模型线程安全
一、进程与线程的本质概念1.核心定义操作系统进程1进程2线程1线程2线程3线程1线程2进程(Process)：操作系统进行资源分配的基本单位线程(Thread)：操作系统进行任务调度的基本单位每个进程至少包含一个主线程，线程是进程的执行分支二、核心区别深度解析1.资源分配对比维度进程线程内存空间独立地址空间共享进程内存空间文件句柄独立文件描述符表共享进程文件描述符网络连接独立socket连接共享进
Python 自动批量生成发卡平台卡密信息并导入数据库拉灯的小手支付相关及一些实用小脚本 Python脚本 Python 自动脚本自动发卡平台发卡网
本文仅供学习交流使用，如侵立删！demo下载见文末Python自动批量生成发卡平台卡密信息并导入数据库环境win10Python：3.6.7os、csv、uuid、datetime1、生成脚本生成卡密文件：txt、csv各一份txt：导入发卡平台csv：导入数据库#-*-coding:utf-8-*-#作者：Administrator#文件：提取码txt转csv脚本.py
python中classmethod中讲解 AI专题精讲 python python
classmethod中的cls和self区别在Python中，@classmethod是一个装饰器，用于定义类方法。类方法与实例方法不同，它操作的是类本身，而不是类的实例。cls和self的区别：cls:cls是类方法的第一个参数，代表类本身。类方法通过@classmethod装饰器定义，调用时不需要创建类的实例。cls通常用于访问或修改类级别的属性，或者创建类的实例。self:self是实例方
Python类中cls和self的区别（staticmethod和classmethod的区别） Mr 姚 Python
1、cls和self的区别：self：类的方法的第一个参数，表示一个具体的实例本身。如果类的方法用了修饰符“staticmethod”，则可以无视这个self，这个方法就当成一个普通的函数使用。cls：若类方法用修饰符“classmethod”修饰，则cls作为类方法的第一个参数，表示这个类本身。2、staticmethod和classmethod的区别：一般来说，需要将类实例化后，才能调用类的方
Python中cls和self的区别单单一个越 python python 开发语言
self和cls都是对类或实例的引用，但它们在Python中的用法和含义是不同的。self是实例方法的第一个参数，它代表类的实例。self只能在实例方法中使用，用于访问实例的属性和方法。每个实例都有自己的self，它们互不影响。cls是类方法的第一个参数，它代表类本身。cls只能在类方法中使用，用于访问类的属性和方法。所有实例共享同一个cls。以下是一个简单的示例classMyClass:coun
Python 中的集合（Set）详解：从基础操作到实际应用面朝大海，春不暖，花不开 Python基础 python 开发语言
文章大纲引言：集合在Python中的重要性在Python编程中，集合（Set）是一种极为重要的内置数据结构，它以无序性和元素唯一性为主要特点。集合中的每个元素都是独一无二的，这使得它在处理数据去重、成员检测以及数学运算（如并集、交集）时表现出色。无论是进行大规模数据分析，还是优化算法效率，集合都能提供高效的解决方案。例如，在处理用户ID列表时，集合可以快速去除重复项，确保数据准确性。此外，集合与字
python cls的使用最后冰吻free python cls
importthreadingclassTest:#new方法用于创建类的实例def__new__(cls,*args,**kwargs):print("__new__:",cls.__class__.__name__)returnobject.__new__(cls)#返回实例给initself参数#init用于初始化类的实例，实例由new方法传递过来的，即这里selfdef__init__(s
初识 Flask 框架 2301_80329775 pyton编程基础 flask python 后端
前言Flask是一个轻量级的Web框架，基于Python语言开发，设计理念注重简洁、灵活和易用。作为一个"微框架"，它本身非常简洁，提供了构建web应用所需的核心工具，但并不强制开发者遵循复杂的项目结构，因此被广泛应用于web开发领域。Flask非常适合初学者学习Web开发，因为它让开发者能够专注于应用逻辑，而无需过多担心框架本身的复杂性。无论是快速原型开发，还是较小规模的Web应用，Flask都
抓取HTTP请求与响应头，分析网站请求逻辑：Python爬虫实战指南 Python爬虫项目 2025年爬虫实战项目 python 爬虫网络 selenium 开发语言信息可视化
引言在爬虫开发过程中，分析和理解网站的请求和响应逻辑是非常重要的。通过抓取HTTP请求与响应头，我们不仅可以获取网站内容，还可以帮助我们更好地绕过反爬虫机制、模拟真实用户的行为。HTTP请求和响应头提供了关于请求的数据、服务器的状态以及网页加载过程中的详细信息，掌握这些信息可以让我们在抓取数据时更加高效、灵活。本文将详细介绍如何抓取和分析HTTP请求与响应头，揭示网站请求的底层逻辑，并提供相应的P
SQLAlchemy xnuscd git 学习 elasticsearch
1.简介SQLAlchemy是一个功能强大的PythonSQL工具包和对象关系映射（ORM）框架，旨在提供高效、灵活且便于扩展的数据库交互解决方案。它支持多种数据库，并通过其核心（Core）和ORM两个层次为开发者提供不同的抽象级别。为什么选择SQLAlchemy？灵活性：允许你选择使用核心的SQL构建器，或完全依赖ORM来处理数据库操作。性能：优化的查询生成和连接池管理，适用于高并发和大规模应用
【AI大模型】23、构建你的西部世界：AI小镇具身智能实战指南无心水 AI大模型人工智能 AI小镇搭建具身智能实战智能体系统架构提示语工程优化虚拟社会构建 AI大模型
引言：从代码到虚拟社会的奇妙旅程在人工智能领域，具身智能的发展正引领着一场新的革命。当我们谈论构建一个类似《西部世界》的虚拟社会时，我们不仅在创造一个数字游乐场，更是在探索智能体如何在模拟环境中展现出类似人类的认知、社交和决策能力。本文将带领你踏上一段激动人心的旅程，从底层架构到上层应用，全面解析如何利用提示语工程构建一个充满活力的AI小镇。想象一下，你将成为这个虚拟世界的造物主，通过精心设计的提
如何构建AI原生应用领域的高效SaaS架构 AI原生应用开发 AI-native 架构 ai
如何构建AI原生应用领域的高效SaaS架构关键词：AI原生应用、SaaS架构、微服务、容器化、机器学习模型部署、自动扩展、多租户隔离摘要：本文深入探讨如何构建面向AI原生应用的高效SaaS架构。我们将从基础概念出发，逐步解析AISaaS架构的核心组件、设计原则和最佳实践，并通过实际案例展示如何实现高性能、可扩展的AI服务交付平台。文章将涵盖从基础设施选择到模型部署，从多租户隔离到自动扩展的全方位技
新手了解和使用python环境下的运算符（使用notepad++） 2303_77470379 python
目录一、引言二、Python运算符的分类与使用三、在Notepad++中使用Python运算符四、案例五、总结一、引言在Python编程的世界里，运算符扮演着举足轻重的角色，它们是对数据进行操作的关键工具。从简单的数学运算，到复杂的逻辑判断，运算符贯穿于Python程序的各个角落。而Notepad++作为一款强大的文本编辑器，为我们编写和运行Python代码提供了便利的环境。接下来，让我们深入了解
python的变量和数据类型筱920 python
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档目录一、python的变量变量的命名规则二、python的数据类型五种基本数据类型：整型，浮点型，字符串型，布尔型，空型。（其中type方法是检测变量是什么类型）1，整型毋庸置疑就是整数，python中变量值为0b开头可以定义一个二进制，bin方法可以将十进制数转换成二进制。2，浮点型就是小数，即定义变量的值为小数，主要利用科学计数法
python compile error_Python errors.CompileError方法代码示例 weixin_39705850 python compile error
本文整理汇总了Python中distutils.errors.CompileError方法的典型用法代码示例。如果您正苦于以下问题：Pythonerrors.CompileError方法的具体用法？Pythonerrors.CompileError怎么用？Pythonerrors.CompileError使用的例子？那么恭喜您,这里精选的方法代码示例或许可以为您提供帮助。您也可以进一步了解该方法所
Python和MATLAB数字信号波形和模型模拟
要点Python和MATLAB实现以下波形和模型模拟以给定采样率模拟正弦信号，生成给定参数的方波信号，生成给定参数隔离矩形脉冲，生成并绘制线性调频信号。快速傅里叶变换结果释义：复数离散傅里叶变换、频率仓和快速傅里叶变换移位，逆快速傅里叶变换移位，数值NumPy对比观察FFT移位和逆FFT移位。离散时域表示：余弦信号生成取样，使用FFT频域信号表示，使用FFT计算离散傅里叶变换DFT，获得幅度谱并提
Godot Python 项目常见问题解决方案
GodotPython项目常见问题解决方案godot-pythonPythonsupportforGodot项目地址:https://gitcode.com/gh_mirrors/go/godot-python1.项目基础介绍和主要编程语言GodotPython是一个开源项目，旨在为Godot游戏引擎提供Python语言支持。这个项目允许开发者使用Python语言来编写Godot游戏脚本，从而充分
error: F:\car\dataset\cocoapi-master\pycocotools\_mask.pyx canpian7 python模块安装 cocos
问题描述error:F:\car\dataset\cocoapi-master\pycocotools_mask.pyx安装cocoapi时出现报错代码路径cocoapi当执行pythonPythonAPI\setup.pybuild_extinstall报错runningbuild_extcythoningpycocotools/_mask.pyxtopycocotools_mask.cerro
九章数学体系：定义域无界化——AI鲁棒性的“隐形杀手“ 九章数学体系数学建模拓扑学人工智能神经网络
九章数学体系：定义域无界化——AI鲁棒性的"隐形杀手"摘要传统人工智能模型在面对边缘场景时常常表现出鲁棒性不足的问题，本文深入分析发现，这种现象的本质根源在于模型缺乏显式的定义域约束，导致无界化假设成为影响AI鲁棒性的"隐形杀手"。文章系统阐述了无界假设如何引发对抗样本脆弱性和数值不稳定等核心问题，并引入九章数学体系的定义域约束理论，为解决这些问题提供了全新的数学视角和工程实现路径。研究表明，通过
Python时域信号特征提取技术要点路怜涯
本文还有配套的精品资源，点击获取简介：在机器学习领域，时域信号特征提取是数据预处理的关键环节，特别是对于时间序列数据。时域信号特征包括信号的基本特性量，如平均值、中值、峰值、谷值、峰谷差、方差、标准差、极值点、峭度与峰度、自相关函数、滑动窗口统计、傅立叶变换和小波分析等。使用Python中的NumPy、Pandas和SciPy库可以帮助我们计算这些特征，并为机器学习模型训练准备数据。本文将介绍如何
解读Servlet原理篇二---GenericServlet与HttpServlet 周凡杨 java HttpServlet 源理 GenericService 源码
在上一篇《解读Servlet原理篇一》中提到，要实现javax.servlet.Servlet接口（即写自己的Servlet应用），你可以写一个继承自javax.servlet.GenericServletr的generic Servlet ，也可以写一个继承自java.servlet.http.HttpServlet的HTTP Servlet（这就是为什么我们自定义的Servlet通常是exte
MySQL性能优化 bijian1013 数据库 mysql
性能优化是通过某些有效的方法来提高MySQL的运行速度，减少占用的磁盘空间。性能优化包含很多方面，例如优化查询速度，优化更新速度和优化MySQL服务器等。本文介绍方法的主要有： a.优化查询 b.优化数据库结构
ThreadPool定时重试 dai_lm java ThreadPool thread timer timertask
项目需要当某事件触发时，执行http请求任务，失败时需要有重试机制，并根据失败次数的增加，重试间隔也相应增加，任务可能并发。由于是耗时任务，首先考虑的就是用线程来实现，并且为了节约资源，因而选择线程池。为了解决不定间隔的重试，选择Timer和TimerTask来完成 package threadpool; public class ThreadPoolTest {
Oracle 查看数据库的连接情况周凡杨 sql oracle 连接
首先要说的是，不同版本数据库提供的系统表会有不同，你可以根据数据字典查看该版本数据库所提供的表。 select * from dict where table_name like '%SESSION%'; 就可以查出一些表，然后根据这些表就可以获得会话信息 select sid,serial#,status,username,schemaname,osuser,terminal,ma
类的继承朱辉辉33 java
类的继承可以提高代码的重用行，减少冗余代码；还能提高代码的扩展性。Java继承的关键字是extends 格式:public class 类名（子类）extends 类名（父类）{ } 子类可以继承到父类所有的属性和普通方法，但不能继承构造方法。且子类可以直接使用父类的public和 protected属性，但要使用private属性仍需通过调用。子类的方法可以重写，但必须和父类的返回值类
android 悬浮窗特效肆无忌惮_ android
最近在开发项目的时候需要做一个悬浮层的动画，类似于支付宝掉钱动画。但是区别在于，需求是浮出一个窗口，之后边缩放边位移至屏幕右下角标签处。效果图如下：一开始考虑用自定义View来做。后来发现开线程让其移动很卡，ListView+动画也没法精确定位到目标点。后来想利用Dialog的dismiss动画来完成。自定义一个Dialog后，在styl
hadoop伪分布式搭建林鹤霄 hadoop
要修改4个文件 1: vim hadoop-env.sh 第九行 2: vim core-site.xml <configuration> &n
gdb调试命令 aigo gdb
原文：http://blog.csdn.net/hanchaoman/article/details/5517362 一、GDB常用命令简介 r run 运行.程序还没有运行前使用 c cuntinue
Socket编程的HelloWorld实例 alleni123 socket
public class Client { public static void main(String[] args) { Client c=new Client(); c.receiveMessage(); } public void receiveMessage(){ Socket s=null; BufferedRea
线程同步和异步百合不是茶线程同步异步
多线程和同步 : 如进程、线程同步，可理解为进程或线程A和B一块配合，A执行到一定程度时要依靠B的某个结果，于是停下来，示意B运行；B依言执行，再将结果给A；A再继续操作。所谓同步，就是在发出一个功能调用时，在没有得到结果之前，该调用就不返回，同时其它线程也不能调用这个方法多线程和异步:多线程可以做不同的事情,涉及到线程通知 &
JSP中文乱码分析 bijian1013 java jsp 中文乱码
在JSP的开发过程中，经常出现中文乱码的问题。首先了解一下Java中文问题的由来： Java的内核和class文件是基于unicode的，这使Java程序具有良好的跨平台性，但也带来了一些中文乱码问题的麻烦。原因主要有两方面，
js实现页面跳转重定向的几种方式 bijian1013 JavaScript 重定向
js实现页面跳转重定向有如下几种方式：一.window.location.href <script language="javascript"type="text/javascript"> window.location.href="http://www.baidu.c
【Struts2三】Struts2 Action转发类型 bit1129 struts2
在【Struts2一】 Struts Hello World http://bit1129.iteye.com/blog/2109365中配置了一个简单的Action，配置如下 <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configurat
【HBase十一】Java API操作HBase bit1129 hbase
Admin类的主要方法注释： 1. 创建表 /** * Creates a new table. Synchronous operation. * * @param desc table descriptor for table * @throws IllegalArgumentException if the table name is res
nginx gzip ronin47 nginx gzip
Nginx GZip 压缩 Nginx GZip 模块文档详见：http://wiki.nginx.org/HttpGzipModule 常用配置片段如下： gzip on; gzip_comp_level 2; # 压缩比例，比例越大，压缩时间越长。默认是1 gzip_types text/css text/javascript; # 哪些文件可以被压缩 gzip_disable &q
java-7.微软亚院之编程判断俩个链表是否相交给出俩个单向链表的头指针，比如 h1 ， h2 ，判断这俩个链表是否相交 bylijinnan java
public class LinkListTest { /** * we deal with two main missions: * * A. * 1.we create two joined-List(both have no loop) * 2.whether list1 and list2 join * 3.print the join
Spring源码学习-JdbcTemplate batchUpdate批量操作 bylijinnan java spring
Spring JdbcTemplate的batch操作最后还是利用了JDBC提供的方法，Spring只是做了一下改造和封装 JDBC的batch操作： String sql = "INSERT INTO CUSTOMER " + "(CUST_ID, NAME, AGE) VALUES (?, ?, ?)";
[JWFD开源工作流]大规模拓扑矩阵存储结构最新进展 comsci 工作流
生成和创建类已经完成,构造一个100万个元素的矩阵模型,存储空间只有11M大,请大家参考我在博客园上面的文档"构造下一代工作流存储结构的尝试",更加相信的设计和代码将陆续推出......... 竞争对手的能力也很强.......,我相信..你们一定能够先于我们推出大规模拓扑扫描和分析系统的....
base64编码和url编码 cuityang base64 url
import java.io.BufferedReader; import java.io.IOException; import java.io.InputStreamReader; import java.io.PrintWriter; import java.io.StringWriter; import java.io.UnsupportedEncodingException;
web应用集群Session保持 dalan_123 session
关于使用 memcached 或redis 存储 session ，以及使用 terracotta 服务器共享。建议使用 redis，不仅仅因为它可以将缓存的内容持久化，还因为它支持的单个对象比较大，而且数据类型丰富，不只是缓存 session，还可以做其他用途，一举几得啊。1、使用 filter 方法存储这种方法比较推荐，因为它的服务器使用范围比较多，不仅限于tomcat ，而且实现的原理比较简
Yii 框架里数据库操作详解-[增加、查询、更新、删除的方法 'AR模式'] dcj3sjt126com 数据库
public function getMinLimit () { $sql = "..."; $result = yii::app()->db->createCo
solr StatsComponent（聚合统计） eksliang solr聚合查询 solr stats
StatsComponent 转载请出自出处：http://eksliang.iteye.com/blog/2169134 http://eksliang.iteye.com/ 一、概述 Solr可以利用StatsComponent 实现数据库的聚合统计查询，也就是min、max、avg、count、sum的功能二、参数
百度一道面试题 greemranqq 位运算百度面试寻找奇数算法 bitmap 算法
那天看朋友提了一个百度面试的题目：怎么找出{1,1,2,3,3,4,4,4,5,5,5,5} 找出出现次数为奇数的数字. 我这里复制的是原话，当然顺序是不一定的，很多拿到题目第一反应就是用map,当然可以解决，但是效率不高。还有人觉得应该用算法xxx,我是没想到用啥算法好...！还有觉得应该先排序... 还有觉
Spring之在开发中使用SpringJDBC ihuning spring
在实际开发中使用SpringJDBC有两种方式： 1. 在Dao中添加属性JdbcTemplate并用Spring注入； JdbcTemplate类被设计成为线程安全的，所以可以在IOC 容器中声明它的单个实例，并将这个实例注入到所有的 DAO 实例中。JdbcTemplate也利用了Java 1.5 的特定(自动装箱，泛型，可变长度
JSON API 1.0 核心开发者自述 | 你所不知道的那些技术细节 justjavac json
2013年5月，Yehuda Katz 完成了JSON API(英文，中文) 技术规范的初稿。事情就发生在 RailsConf 之后，在那次会议上他和 Steve Klabnik 就 JSON 雏形的技术细节相聊甚欢。在沟通单一 Rails 服务器库—— ActiveModel::Serializers 和单一 JavaScript 客户端库——&
网站项目建设流程概述 macroli 工作
一.概念网站项目管理就是根据特定的规范、在预算范围内、按时完成的网站开发任务。二.需求分析项目立项　　我们接到客户的业务咨询，经过双方不断的接洽和了解，并通过基本的可行性讨论够，初步达成制作协议，这时就需要将项目立项。较好的做法是成立一个专门的项目小组，小组成员包括：项目经理，网页设计，程序员，测试员，编辑/文档等必须人员。项目实行项目经理制。客户的需求说明书　　第一步是需
AngularJs 三目运算表达式判断 qiaolevip 每天进步一点点学习永无止境众观千象 AngularJS
事件回顾：由于需要修改同一个模板，里面包含2个不同的内容，第一个里面使用的时间差和第二个里面名称不一样，其他过滤器，内容都大同小异。希望杜绝If这样比较傻的来判断if-show or not，继续追究其源码。 var b = "{{", a = "}}"; this.startSymbol = function(a) {
Spark算子：统计RDD分区中的元素及数量 superlxw1234 spark spark算子 Spark RDD分区元素
关键字：Spark算子、Spark RDD分区、Spark RDD分区元素数量 Spark RDD是被分区的，在生成RDD时候，一般可以指定分区的数量，如果不指定分区数量，当RDD从集合创建时候，则默认为该程序所分配到的资源的CPU核数，如果是从HDFS文件创建，默认为文件的Block数。可以利用RDD的mapPartitionsWithInd
Spring 3.2.x将于2016年12月31日停止支持 wiselyman Spring 3
Spring 团队公布在2016年12月31日停止对Spring Framework 3.2.x（包含tomcat 6.x）的支持。在此之前spring团队将持续发布3.2.x的维护版本。请大家及时准备及时升级到Spring
fis纯前端解决方案fis-pure zccst JavaScript
作者：zccst FIS通过插件扩展可以完美的支持模块化的前端开发方案，我们通过FIS的二次封装能力，封装了一个功能完备的纯前端模块化方案pure。 1，fis-pure的安装 $ fis install -g fis-pure $ pure -v 0.1.4 2，下载demo到本地 git clone https://github.com/hefangshi/f

机器学习（14）--XGBoost

一、概述

二、CART、GB、GBDT

1、CART

2、BT（Boosting Tree提升树）

3、GBDT（梯度提升树）

4、GBDT在sklearn中的损失函数

三、Sklearn中的GBDT

1、加载模块

2、划分数据集

3、建模

4、与随机森林和线性回归对比

5、绘制学习曲线

6、n_estimators调参

7、偏差-方差困境

8、subsample

9、eta

四、GBDT的小结

五、XGBoost

1、XGBoost的弱评估器

2、XGBoost目标函数

3、目标函数的不同损失函数

4、深究目标函数

5、分枝策略：贪婪算法

你可能感兴趣的:(机器学习小白,机器学习,人工智能,XGBoost,sklearn,python)