ecnu_frc_new

Xgboost算法原理详解及python实现

Xgboost算法（回归树）

1、算法原理
2、对数据的要求（无需规范化）
3、算法的优缺点
4、XGB、GBDT、LR与RF
5、python代码实现

导入相关包
读取数据并预处理
训练
贝叶斯初步优化
网格搜索调参（一般调参顺序）

1、算法原理

步骤（booststrap sampling）：
目标函数： $obj^{(t)}=\sum_{i=1}^nL(y_i,\widehat y_i^{(t-1)}+f_t^{x_i})+\Omega f(t)+C$

Taylor展开： $f(x+\Delta x)\approx f(x)+f'(x)\Delta x+\frac{1}{2}f''(x)(\Delta x)^2$

加法训练优化步骤：
$\begin{cases} \widehat y_i^{(0)}=0\\ \widehat y_i^{(1)}=f_1(x_i)=\widehat y_i^{(0)}+f_1(x_i)\\ ......\\ \widehat y_i^{(t)}=\sum_{k=1}^tf_k(x_i)=\widehat y_i^{(t-1)}+f_t(x_i) \end{cases}$

目标函数进一步可表示为：
$obj^{(t)}=\sum_{i=1}^nl(y_i,\widehat y_i^{(t)})+\sum_{i=1}^t\Omega f(t)$

$\sum_{i=1}^t\Omega f(t)=\Omega f(t)+\sum_{i=1}^{t-1}\Omega f(t-1)=\Omega f(t)+constatnt$ 其中 $\sum_{i=1}^{t-1}\Omega f(t-1)/constant$ 表示前t-1棵树的复杂度

$obj^{(t)}=\sum_{i=1}^nl(y_i,\widehat y_i^{(t-1)}+f_{(t)}(x_i))+\Omega f(t)+constant$

$\widehat y_i^{(t)}=\widehat y_i^{(t-1)}+f_{(t)}(x_i)$ 其中 $f_{(t)}(x_i)$ 是第t课树，是唯一一个需要学习的变量，其余都为已知量。 $\Omega f(t)$ 是第t棵树的复杂度。 $c o n s t a n t$ 前 $t - 1$ 棵树的复杂度

$obj^{(t)}=\sum_{i=1}^n[l(y_i,\widehat y_i^{(t-1)})+g_if_t(x_i)+\frac{1}{2}h_if_t^2(x_i)]+\Omega f(t)+constant$

其中 $g_i$ 和 $h_i$ 定义如下：
$\begin{cases} g_i=\partial\widehat y^{(t-1)}l(y_i,\widehat y^{(t-1)})\\ h_i=\partial^2\widehat y^{(t-1)}l(y_i,\widehat y^{(t-1)}) \end{cases}$

1、定义树的复杂度 $\Omega f(t)=\gamma T+\frac{1}{2}\lambda\sum_{j=1}^{T}w_j^2$ 其中 $T$ 为叶子节点数量； $\lambda$ 为一个叶子带来的复杂度； $w_j^2$ 为叶子节点 $L_2$ 的范数； $j$ 为叶子节点数量

2、定义一棵树： $f_t(x)=W_{q(x)}(w \in R^T,q:R^d\rightarrow\{1、2.....T\})$ 其中 $w$ 为一维向量，代表树 $q$ 各个叶子节点权重； $q$ 代表一棵树的结构

去常数项：
$\begin{aligned} obj^{(t)}&=\sum_{i=1}^n[g_if_t(x_i)+\frac{1}{2}h_if_t^2(x_i)]+\Omega f(t)\\ &=\sum_{i=1}^n[g_iw_{q(x_i)}+\frac{1}{2}h_iw_{q(x_i)}^2]+\gamma T+\frac{1}{2}\lambda\sum_{j=1}^{T}w_j^2\\ &=\sum_{j=1}^T[(\sum_{i \in I_j}g_i)w_j+\frac{1}{2}(\sum_{i \in I_j}h_i+\lambda)w_j^2]+\gamma T \end{aligned}$
$\sum_{j=1}^T$ 将所有训练样本，按叶子节点进行了分组。其中 $I_j=\{i|q(x_i)=j\}将属于第$ j $个叶子节点所有样本$ x_i$,划入到一个叶子节点样本集中

$obj^{(t)}=\sum_{j=1}^T[G_jw_j+\frac{1}{2}(H_j+\lambda)w_j^2]+\gamma T$

$G_j=\sum_{i \in I_j}g_i$ ：叶子节点 $j$ 所包含样本一阶偏导数累加之和（常量）； $H_j=\sum_{i \in I_j}h_i$ ：叶子节点 $j$ 所包含样本二阶偏导数累加之和（常量）

求解:
$\begin{cases} w_j^*=-\frac{G_j}{H_j+\lambda} (每个叶子节点权重score)\\ obj=-\frac{1}{2}\sum_{j=1}^T\frac{G_j^2}{H_j+\lambda}+\gamma T（第t棵树带来的最小损失） \end{cases}$

分裂指标(分割点在Gain最大且大于0):
$\begin{aligned} Gain&=obj_{L+R}-(obj_{L}+obj_{R})\\ &=[-\frac{1}{2}\frac{(G_L+G_R)^2}{H_L+H_R+\lambda}+\gamma]-[-\frac{1}{2}\frac{(G_L)^2}{H_L+\lambda}+\frac{(G_R)^2}{H_R+\lambda}+2\lambda] \end{aligned}$
Gain>0则obj下降了；Gain<0分裂失败

2、对数据的要求（无需规范化）

不需要归一化，能自动处理缺失值

3、算法的优缺点

一、优点：

许多策略防止过拟合（正则化、Shrinkage、样本抽样与列抽样）
目标函数利用了二阶导数（1、增加精度；2、能够自定义损失函数。二阶泰勒展开可以近似大量损失函数）
支持并行化
支持设置样本权重，该权重体现在一阶导数g和二阶导数h通过调整权重可以去关注一些样本
添加了对稀疏数据处理（缺失值处理）
精度高

二、缺点：

虽然利用了预排序和近似算法能降低寻找最佳分割点的计算量，但在节点分裂过程中仍需要遍历数据集
预排序消耗两倍内存

4、XGB、GBDT、LR与RF

XGB与GBDT的不同之处
1、XGB在目标函数中加了正则化项（相当于预剪枝，不易过拟合）
2、XGB不仅用了一阶导数而且还使用了二阶导数
3、支持并行化
4、XGB的基分类器除了CART还可以是线性分类器
5、缺失值处理，自动学习出他的默认分裂方向
6、支持列抽样

XGB为什么使用泰勒二阶展开
1、精准性：更为精准的逼近真实的损失函数
2、可扩展性：损失函数支持自定义，只需要新的损失函数二阶可导

XGB为什么可以并行训练
特征维度并行：在训练之前，每个特征按特征值进行预排序，并存储Block结构，在后面查找分割点重复使用（并行查找）

XGB为什么快
1、分块并行：训练前每个特征值排序并存储Block结构，后面查找分割点重复使用，支持并行查找每个特征分割点
2、候选分割点：每个特征采用常数个分位点作为候选分割点
3、CPU cache命中优化：使用缓存预取的方法，对每个线性分配一个连续buffer，读取每个Block中样本的梯度信息并存入连续buffer中
4、Block处理优化：Block预先放入内存，Block按列进行解压缩，将Block划分到不同硬盘来提高吞吐

XGB防止过拟合的方法
1、目标函数添加了正则项（叶子节点数+叶子节点权重 $L_2$ 正则化）
2、列抽样（训练的时候只用一部分特征）
3、子采样（每轮计算可以不使用全部样本）
4、Shrinkage（学习率|步长，为了给后面训练流出更多的学习空间）

XGB如何处理缺失值
1、在特征上寻找分割点时不考虑缺失值，只考虑non—missing值
2、训练时缺失值自定义划分方向放到右子结点
3、预测时分别划分到左叶子节点与右叶子节点各计算一遍，选择分裂后增益最大的方向

XGB一棵树停止生长的条件
1、Gain<0停止分裂
2、达到树的最大深度
3、最小样本权重和（引入一次分裂后，重新计算生成左右2个叶子结点的样本权重和，如果任意一个叶子节点的样本权重低于某一个阈值，放弃本次分裂）
4、最小样本数量（叶子）

XGB如何处理不平衡数据
1、采用AUC评估模型性能，可以通过scale_pos_weight来平衡正、负样本权重（关注AUC）
2、通过上采样与下采样
3、如果在意正确率，不能平衡数据（破坏真实分布），应该设置max_delta_step为一个有限数字帮助收敛（基模型为LR时有效）

GBDT与LR
1、LR可解释性强，可并行化，需要大量特征工程
2、GBDT非线性，特征表达能力强，无法并行，易过拟合
3、高维稀疏场景下，LR比GBDT好

XGB如何剪枝
1、正则化
2、Gain的阈值
3、最小样本权重和
4、最大深度

XGB如何评价特征重要性
1、weight：该特征在所有树中被用作分割样本特征的总次数
2、gain：该特征在其出现过的所有树中产生平均增益
3、cover：在其出现过的所有树中平均覆盖范围（一个特征作为分割点，影响的样本数量。即有多少个样本经过该特征分割到2个子节点）

XGB过拟合如何解决
1、控制模型复杂度（max_depth、min_child_weight等参数）
2、增加随机性（subsample和colsample_bytree）
3、减少学习率，同时增加迭代次数（estimator）

RF与GBDT的区别
1、集成学习：RF属于baggig,GBDT属于boosting
2、偏差-方差：RF降低方差，GBDT降低偏差
3、训练样本：RF抽样，GBDT全部样本
4、并行：RF可并行，GBDT不可并行
5、泛化能力：RF不易过拟合，GBDT易过拟合
6、异常值：RF对异常值不敏感，GBDT对异常值敏感

5、python代码实现

导入相关包

import numpy as np
import pandas as pd
from sklearn.preprocessing import LabelEncoder#分类变量编码包
from sklearn.metrics import roc_auc_score,roc_curve,auc,precision_score,f1_score,accuracy_score,classification_report,recall_score
from sklearn.model_selection import train_test_split
from xgboost.sklearn import XGBClassifier
import matplotlib.pylab as plt
import xgboost as xgb

import os
os.chdir('E:/wyz/Desktop/XGB/')

读取数据并预处理

data = pd.read_excel('ceshi.xlsx',sheet_name = 'Sheet2')
#分类变量编码
from sklearn.preprocessing import LabelEncoder
le = LabelEncoder()
str_variable = list(data.dtypes[data.dtypes.values == object].index)
for col in str_variable:    
    data[col] = le.fit_transform(data[col].astype(str))
#划分数据集
y = data_model['target']
x = data_model.drop('target', axis=1)
x_train, x_test, y_train, y_test = train_test_split(x, y,random_state=0,train_size=0.7)

训练

#通过交叉验证的方法来获取最优的迭代次数（树的数量）
def modelfit1(alg,train_x,train_y,test_x,test_y,useTrainCV=True,cv_folds=5,early_stopping_rounds=20):
    if useTrainCV:
        xgb_param = alg.get_xgb_params()#获取xgb参数
        xgtrain = xgb.DMatrix(train_x.values,label=train_y.values)#传入x和y
        cvresult = xgb.cv(xgb_param,
                          xgtrain,#训练数据
                          num_boost_round=alg.get_params()['n_estimators'],#树的数量
                          nfold=cv_folds,#交叉验证
                          metrics='auc',#评价指标
                          early_stopping_rounds=early_stopping_rounds,#连续迭代多少次auc不在下降
#                          verbose_eval=10,#每隔1轮打印一次评价指标
                          show_stdv=False )#不打印标准差
        alg.set_params(n_estimators=cvresult.shape[0])#得到最优的树的数量
    #训练集上的拟合
    alg.fit(train_x,train_y,eval_metric='auc')#传入x和y
    #训练集上的预测
    train_class = alg.predict(train_x)#输出0和1
    train_prob = alg.predict_proba(train_x)[:,1]#输出1的概率
    #测试集上的预测
    test_class = alg.predict(test_x)#输出0和1
    test_prob = alg.predict_proba(test_x)[:,1]#输出1的概率
    #准确率与auc
    print('训练集准确率: %.4f'%accuracy_score(train_y,train_class))##准确率，预测为类别(normalize=False返回预测正确的个数)
    print('测试集准确率: %.4f'%accuracy_score(test_y,test_class))#准确率，预测为类别(normalize=False返回预测正确的个数)
    print('训练集AUC: %.4f'%roc_auc_score(train_y,train_prob))#AUC，预测为概率
    print('测试集AUC: %.4f'%roc_auc_score(test_y,test_prob))#AUC，预测为概率
    #print(alg.feature_importances_)#变量重要性
    return alg

贝叶斯初步优化

#预测结果
from sklearn.model_selection import cross_val_score
from bayes_opt import BayesianOptimization
#定义贝叶斯优化的f
def model_target(learning_rate,n_estimators,max_depth,min_child_weight,subsample,colsample_bytree,reg_alpha,gamma):
    val = cross_val_score(
                     XGBClassifier(
                     learning_rate =learning_rate,#学习率
                     n_estimators=int(n_estimators),#最多的树的数量
                     max_depth=int(max_depth),#每棵树的最大深度
                     min_child_weight=min_child_weight,#叶子节点最小的样本权重和
                     subsample=subsample,#行抽样
                     colsample_bytree=colsample_bytree,#列抽样
                     objective= 'binary:logistic',
                     reg_alpha=reg_alpha,#正则化
                     gamma=gamma,#当损失函数减少时才会分裂
                     scale_pos_weight=1,#数值大于0，在样本的类非常不均衡时使用有助于快速收敛
                     seed=27),x_train,y_train,scoring='roc_auc',cv=5).mean()
    return val
model_bo = BayesianOptimization(
                              model_target,
                              {'learning_rate':(0.01,0.01),
                               'n_estimators': (100, 1000),
                               'max_depth': (2, 4),
                               'min_child_weight': (0,1),
                               'subsample': (0.6, 1),
                               'colsample_bytree':(0.6,1),
                               'reg_alpha': (0.001, 10),
                               'gamma':(0.0,0.0)})
model_bo.maximize()

贝叶斯进阶优化

#预测结果
from sklearn.model_selection import cross_val_score
from bayes_opt import BayesianOptimization
#定义贝叶斯优化的f
def model_target(learning_rate,n_estimators,max_depth,min_child_weight,subsample,colsample_bytree,reg_alpha,gamma):
    val = cross_val_score(
                     XGBClassifier(
                     learning_rate =learning_rate,#学习率
                     n_estimators=int(n_estimators),#最多的树的数量
                     max_depth=int(max_depth),#每棵树的最大深度
                     min_child_weight=min_child_weight,#叶子节点最小的样本权重和
                     subsample=subsample,#行抽样
                     colsample_bytree=colsample_bytree,#列抽样
                     objective= 'binary:logistic',
                     reg_alpha=reg_alpha,#正则化
                     gamma=gamma,#当损失函数减少时才会分裂
                     scale_pos_weight=1,#数值大于0，在样本的类非常不均衡时使用有助于快速收敛
                     seed=27),x_train,y_train,scoring='roc_auc',cv=5).mean()
    return val
model_bo = BayesianOptimization(
                              model_target,
                              {'learning_rate':(0.01,0.01),
                               'n_estimators': (100, 1000),
                               'max_depth': (2, 4),
                               'min_child_weight': (0,1),
                               'subsample': (0.6, 1),
                               'colsample_bytree':(0.6,1),
                               'reg_alpha': (0.001, 10),
                               'gamma':(0.0,0.0)})
model_bo.maximize()

网格搜索调参（一般调参顺序）

寻找最优的树深度与最优的样本权重和
寻找最优gamma值
寻找subsample和colsample_bytree值
reg_alpha正则化
降低学习率获取，增加更多的树

XGB参数详解

参数	默认值及输入类型	介绍
booster	默认值：gbtree 输入：gbtree、gblinear	在每次迭代中选择模型的类型,有2个选项:gbtree:基于树的模型gblinear:基于回归的模型
silent	默认值：0 输入：0、1	激活Silent mode就设置为1，即正在运行的消息不会被打印。默认为0，好处就是帮助我们理解模型运行状况
nthread	默认值：使用所有的核	这个参数用于并行处理，系统中的核的数量如果想运行所有的核，就不用再输入nthread的值，因为默认情况就是使用所有核。还有另外两个参数是由XGBoost自动设置的，下面继续探索Booster参数
eta	默认值：0.3	与GBM中的eta类似。在每一步中收缩权重使得模型更加稳健。通常设置值为：0.01−0.2
min_child_weight	默认值：1	孩子节点中最小的样本权重和。如果一个叶子节点的样本权重和小于min_child_weight则拆分过程结束。在现行回归模型中，这个参数是指建立每个模型所需要的最小样本数。该成熟越大算法越conservative这与GBM中的min_child_leaf类似，但不完全相同，XGBoost指 min “sum of weights” of observations 而 GBM 为 min “number of observations”。可用于控制过拟合。太高的值可能导致欠拟合，应使用CV进行调参
max_depth	默认值：6	与GBM一样，定义了一棵树的最大深度。用于控制过拟合，因为较高的深度会使模型对一些样本学习到特定关系，而这种关系又不是泛化的。适合用CV进行调整值的大小。通常设置值为：3−10
max_leaf_nodes		树中节点或树叶的最大数量。有时可以代替max_depth。如：二叉树，深度“n”将产生最大2 ^ n个叶。如果这样，GBM可以忽略max_depth
gamma	默认值：0	只有当损失函数以正值减少时，节点才会分割。 Gamma指定了进行分割时所需的最小损失的减少量。使算法比较保守。 Gamma值可以根据损失函数调整大小
max_delta_step	默认值：0	如果max_delta_step设置为0，表示没有约束。可以取正值。这个参数不是必须要设定的。在逻辑回归中，当类别比例非常不平衡时，这个参数很有用
subsample	默认值：1	与GBM取子样本一样，都是对总体进行随机采样出子样本占总体的比例。较低的值使算法比较保守，可以防止过度拟合，但太小的值可能会导致欠拟合。通常设置值为：0.5−1
colsample_bytree	默认值：1	类似于GBM中的max_features。表示随机抽取的列数占总列数的比例。通常设置值为：0.5−1
colsample_bylevel	默认值：1	表示每个层中用于拆分时的列数占比（相当于选出的列数的再比例）。这个参数不常用，因为subsample和 colsample_bytree可以替代这个参数的作用
lambda	默认值：1	L2对权重正则化（Ridge回归也是L2）这用于XGBoost的正则化部分。虽然许多数据科学家一般不用它，但是减少过拟合的时候还是要用一下的
alpha	默认值：0	L1对权重正则化（类似于Lasso回归的L1）维度较高时使用，可以运行得更快
scale_pos_weight	默认值：1	数值大于0，在样本的类非常不均衡时使用有助于快速收敛
seed	默认值：0	种子随机数。使采样的结果与之前相同以及参数调整
objective	默认值：reg:linear	这个参数定义了要最小化的损失函数。有如下选择： objective [default=reg:linear] 这个参数定义了要最小化的损失函数。有如下选择： binary:logistic：用于二分类的逻辑回归，返回值为概率，非类别。 multi:softmax：使用softmax目标的多类分类返回预测类（不是概率）。还需设置一个num_class（number of classes）参数来定义类的数量。 multi:softprob：与softmax相同，但返回的是每个样本属于每个类的预测概率而不是类别。 eval_metric [ default according to objective ] 默认值为rmse用于回归，错误率用于分类。可选值有： 1、rmse – root mean square error 2、mae – mean absolute error 3、logloss– negative log-likelihood 4、error – Binary classification error rate (0.5 threshold) 5、merror – Multiclass classification error rate 6、mlogloss – Multiclass logloss 7、auc: Area under the curve

YOLO目标检测模型优化技术全景解析
YOLO目标检测模型优化技术全景解析作为实时目标检测领域的标杆算法，YOLO系列模型通过持续的技术革新不断提升性能边界。本文将从模型架构设计、数据优化、注意力机制融合、后处理策略及训练方法等维度，系统剖析YOLO优化领域的关键技术与最新进展。一、模型架构优化：突破性能瓶颈的核心路径多尺度检测层增强针对小目标检测难题，主流方案通过增加浅层检测通道优化特征提取。例如在YOLOv5中引入160×160特
Python数据读写与组织全解析（查缺补漏篇） Monkey的自我迭代 python学习的查缺补漏机器学习人工智能 python
1高维数据由键值对类型的数据构成，可以多层嵌套。高维数据相比一维和二维数据能表达更加灵活和复杂的数据关系，可以用字典类型表示。一维数据不用字典类型来表示。2read、readline、redlines和for循环输出读取的区别直接read，读取的结果就是一个字符串，和文件中一模一样f_2=open('cpi.csv','r')print(f_2.read())指标,2015,2016,2017,居
Python文件路径操作全面指南：从基础到高级应用 Monkey的自我迭代 python 开发语言
文件路径操作是Python编程中不可或缺的核心技能，无论是数据科学、Web开发还是自动化办公，都离不开对文件路径的有效管理。本文将系统性地介绍Python中文件路径操作的各类方法，帮助您掌握这一关键技术。一、文件路径基础概念1.1路径类型解析文件路径主要分为两种类型，理解它们的区别是路径操作的基础：绝对路径：从文件系统根目录开始的完整路径，如Windows系统中的C:\Users\Username
分类模型（BERT）训练全流程巴伦是只猫人工智能分类 bert 数据挖掘
使用BERT实现分类模型的完整训练流程BERT(BidirectionalEncoderRepresentationsfromTransformers)是一种强大的预训练语言模型，在各种NLP任务中表现出色。下面我将详细梳理使用BERT实现文本分类模型的完整训练过程。1.准备工作1.1环境配置pipinstalltransformerstorchtensorflowpandassklearn1.2
【加解密与C】Rot系列(四)Rot8000 阿捏利加解密与C c语言 Rot8000
Rot8000简介Rot8000是一种基于Unicode字符集的旋转加密算法，类似于经典的Rot13，但扩展到了更大的字符范围（通常是Unicode的基本多语言平面，即U+0000到U+FFFF）。Rot13仅适用于26个拉丁字母，而Rot8000通过覆盖更多字符（如中文、符号等），增强了加密的灵活性和趣味性。Rot8000加密原理Rot8000的核心思想是将每个Unicode字符的码点值加上0x
python排序算法之基数排序华强笔记 python数据结构和算法 python 算法
#代码如下：'''基数排序：1.把数据分为10个桶，以为数字有0-9这10个2.依次把数据的个位，十位，百位等等各个位数的数据进行分桶排序，放在这10个桶中3.最大的数有k位，则循环k次4.时间复杂度O(kn),空间复杂度O(k+n),其中k=log10(n)+1'''defradixs_sort(li):max_num=max(li)it=0while10**it<=max_num:bucket
python折半查找算法_python二分查找代码试用递归法编写python程序实现折半查找算法...
python二分查找算法函数bi_search(),该函数实现检回忆，很美却很伤；回忆只是回不到过去的记忆。输入格式:第一行为正整数n接下来若干行为待查找的数字，每行输入一个总是女人为了天长地久而烦恼，男人却可以洒脱地出乎意料。defprime(n):ifnend:return-1mid=(start+end)//2ifprimelist[mid]==prime:returnmidelifprim
PyCharm高效入门指南：从零开始掌握Python开发利器软考和人工智能学堂 Python开发经验强化学习 PyCharm
引言PyCharm是JetBrains公司推出的一款强大的Python集成开发环境(IDE)，被全球数百万Python开发者所青睐。无论你是Python初学者还是经验丰富的开发者，掌握PyCharm都能显著提升你的开发效率。本文将带你从零开始，全面了解PyCharm的核心功能和使用技巧。1.PyCharm的安装与配置1.1下载与安装首先访问JetBrains官网下载PyCharm。PyCharm有
【Android】UI布局工具及详解米莱虾 #Android ui android
ViewGroup1.简介ViewGroup是一种View，他是View容器，也就是里边可以包含其他View.分类：（1）layout布局类的ViewGroup（2）ScrollView带滚动条的ViewGroup（3）高级View容器（适配器View）（4）其他ViewGroup2.布局类的ViewGroup布局类的容器主要是用来控制子元素的排布方式和排列位置分类：（1）线性布局（2）相对布局（
python作业陈小铃子 python 开发语言
基础练习练习目标函数01.计算车费题目描述小红打车，起步价8元(3公里),每公里收费2元，她打车行驶了n公里，通过函数封装并计算车费输入描述输入一个公里数输出描述输出应付车费示例输入：5输出：12defcalculate_fare(distance):base_price=8#起步价per_km_cost=2#每公里费用min_distance=3#最小计费距离ifdistance0:sum_nu
【Python】(三）面试题和Py基础题戏精亿点点菜面试职场和发展 python
1.技术面试题（1）解释Linux中的进程、线程和守护进程的概念，以及如何管理它们？答：进程（Process）：进程是操作系统中资源分配的基本单位，是正在运行的程序的实例。每个进程都有自己的内存空间、文件描述符和执行上下文。管理：①查看进程：使用ps、top、htop等命令查看当前运行的进程。②启动进程：通过命令行或脚本启动新进程。③终止进程：使用kill命令发送信号终止进程，例如kill-9PI
python小工具：测内网服务器网速和延迟秃了也弱了。 python大家庭服务器 python java
文章目录一、使用1、代码2、使用3、注意事项一、使用1、代码importargparseimportsocketimporttimeimportsubprocessimportreimportsysdefmeasure_latency(host):#使用ping命令测量延迟try:#根据操作系统选择ping参数ifsys.platform.startswith('win'):output=subp
Python面试题-6 编织幻境的妖 python 服务器开发语言
1.请解释Python中的动态类型。Python中的动态类型Python是一种动态类型语言，这意味着你不需要在编程时声明变量的类型，而是在运行时自动推断类型。在Python中，变量的类型是在程序运行时决定的，这意味着同一个变量可以在不改变其类型的情形下被赋予不同类型的值。动态类型的优点在于它提高了编程的灵活性，因为你不需要预先确定数据的类型，可以更容易地写出简洁的代码。然而，这也可能导致运行时错误
开源模型应用落地-qwen模型小试-Qwen2.5-7B-Instruct-玩转ollama（一）开源技术探险家开源模型-实际应用落地 #深度学习自然语言处理语言模型
一、前言在AI大模型百花齐放的时代，很多人都对新兴技术充满了热情，都想尝试一下。然而，实际上要入门AI技术的门槛非常高。除了需要高端设备，还需要面临复杂的部署和安装过程，这让很多人望而却步。在这样的背景下，Ollama的出现为广大开发者和爱好者提供了一条便捷的道路，极大地降低了应用机器学习的门槛。Ollama的优势在于其极致的简化。通过这个平台，用户可以轻松下载、运行和管理各种机器学习模型，而无需
机器学习之——认识机器学习 -睡到自然醒~ golang 重构开发语言
首先，什么是机器学习？参照百度百科的讲解，“机器学习是一门多领域交叉学科，设计概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习能力，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。”什么意思呢？也就是说，机器学习是一门跨领域的学科，是一种能够让机器模仿人类学习能力的一种学科。在Andrew的课程中，提到了几个机器学习的定义：1，A
大模型微调技术的详细解析及对比老兵发新帖人工智能大数据
以下是四种主流大模型微调技术的详细解析及对比，结合技术原理、适用场景与性能表现进行说明：1.Full-tuning（全量微调）核心原理：加载预训练模型的所有参数，用特定任务数据（通常为指令-回答对）继续训练，更新全部权重。相当于对模型整体知识结构进行重构。操作流程：加载预训练模型；用任务数据集（如分类文本）和优化目标（如最小化误差）训练；所有参数参与梯度更新。优势：模型充分学习任务特征，效果通常最
Epoch 老兵发新帖人工智能
在深度学习和机器学习中，Epoch（轮次或周期）是一个核心训练概念，指模型在整个训练数据集上完成一次完整遍历的过程。以下是关于Epoch的详细解析：一、核心定义基本含义Epoch表示模型将所有训练数据完整学习一次的过程。例如：若训练集有10,000个样本，则1个Epoch即模型用这10,000个样本训练一轮。与相关概念的关系Batch（批次）：数据集被分割成的小组（如每批32个样本）。Iterat
火爆全网的条形竞赛图，Python轻松实现统计学家
image这个动图叫条形竞赛图，非常适合制作随时间变动的数据。我已经用streamlit+bar_chart_race实现了，然后白嫖了heroku的服务器，大家通过下面的网址上传csv格式的表格就可以轻松制作条形竞赛图，生成的视频可以保存本地。https://bar-chart-race-app.herokuapp.com/本文我将实现过程介绍一下，白嫖服务器+部署留在下期再讲。纯matplot
【无标题】Python---day9 模块化编程概念（模块、包、导入）及常见系统模块总结和第三方模块管理 AnAn__kang python java 服务器
系列文章目录前言跟着博主学Python，今天我们来到了第九天的学习，模块化编程的概念。Python作为一门编程语言，本身就是用于对模块以及各种包的使用来达到我们自己想到创作的目的。所以今天博主就给大家盘点一下有关于各种常见的包以及如何进行导入的。一.模块Module，模块1.1基本概念定义：模块是一个Python文件，每个.py.py.py文件就是一个模块。作用：用于组织代码，避免代码重复，提高复
Python --- day 10 Opencv模块的使用 AnAn__kang python opencv 开发语言
系列文章目录前言今天博主带大家进入Opencv的学习，这是一个专门针对处理图像和视频的一个模块，大家以理解为主，增强自己的编程思维，再后续我们训练模型时会大批量的处理图片时会经常用到这个模块。1OpenCV介绍OpenCV（开放源代码计算机视觉库）是一个开源的计算机视觉和机器学习软件库。由一系列C++类和函数构成，用于图像处理、计算机视觉领域的算法实现。1.1OpenCV优势**开源免费：**完全
【无标题】Python --- Day5 函数的位置传参、关键词传参及其可变性和解包操作 AnAn__kang python 前端人工智能
系列文章目录前言今天小伙伴们跟我进入第五天的Python课程学习，主要是关于函数的位置传参，关键传参和可变性和解包传参这其中的具体定义以及它们的使用场景`一、调用传参函数调用时传递参数的方式有多种，包括位置传参、关键词传参、多个参数解包、参数默认值等。1.1位置传参最常见的传参方式，参数按定义的顺序依次传入函数。示例：defgreet(name,age):print(f"Hello,{name}.
时序数据库在数据库领域的行业应用数据库管理艺术数据库时序数据库 ai
时序数据库在数据库领域的行业应用关键词：时序数据库、数据库领域、行业应用、时间序列数据、实时分析摘要：本文深入探讨了时序数据库在数据库领域的行业应用。首先介绍了时序数据库的背景知识，包括其目的、适用读者、文档结构和相关术语。接着阐述了时序数据库的核心概念、架构和工作原理，通过Python代码详细讲解了核心算法。还介绍了相关的数学模型和公式，并举例说明。在项目实战部分，给出了开发环境搭建、源代码实现
macOS 上安装 Kubernetes（k8s）老兵发新帖 macos kubernetes 容器
在macOS上安装Kubernetes（k8s）主要有三种主流方案，以下根据安装复杂度、资源占用和适用场景分类说明，并附详细步骤：⚙️一、推荐方案：Minikube（单节点本地集群）适用场景：学习、开发测试、资源有限（需2-4GB内存）。安装步骤：安装依赖工具安装DockerDesktop（推荐）或VirtualBox：brewinstall--caskdocker或brewinstallvirt
Python --- Day3 推导式及常见语句和内置函数的学习！！！
系列文章目录前言相信各位伙伴们在前俩次的文章和Python的基础学习中大有收获，这次我们将进入推导式，常见语句和内置函数的学习！跟着博主一起成为一名Ai的算法工程师！一、推导式用更简洁的方式创建列表、字典和集合。是Python特有的一种表达式形式。1.1列表推导式a=[1,2,3,4]result=[x*2forxina]#创建一个新列表，元素是原列表每个元素的两倍1.2字典推导式a=['a','
cuda编程python接口_使用Python写CUDA程序的方法 weixin_39822184 cuda编程python接口
使用Python写CUDA程序有两种方式：*Numba*PyCUDAnumbapro现在已经不推荐使用了，功能被拆分并分别被集成到accelerate和Numba了。例子numbaNumba通过及时编译机制(JIT)优化Python代码，Numba可以针对本机的硬件环境进行优化，同时支持CPU和GPU的优化，并且可以和Numpy集成，使Python代码可以在GPU上运行，只需在函数上方加上相关的指
深度学习图像分类数据集—百种病虫害分类 AI街潜水的八角深度学习图像数据集深度学习分类人工智能
该数据集为图像分类数据集，适用于ResNet、VGG等卷积神经网络，SENet、CBAM等注意力机制相关算法，VisionTransformer等Transformer相关算法。数据集信息介绍：百种病虫害识别分类，训练集45095张，验证集7508张，测试集22619张具体类别为以下：insect_classes=["rice_leaf_roller","rice_leaf_caterpillar
基于 Python 的网站信息探测工具设计与实现计算机毕业设计指导 python 网络服务器
基于Python的网站信息探测工具设计与实现摘要在渗透测试与网络安全评估中，信息探测是最基础且关键的一步。通过对目标网站的操作系统、服务器、CMS、端口、目录结构等信息进行自动化探测，可为后续攻击路径识别提供基础数据支撑。传统工具如WhatWeb、FOFA等虽功能强大，但在定制化与扩展性方面受限。本文设计并实现了一款基于Python的轻量级网站信息探测工具，支持URL/IP扫描、开放端口探测、CM
草莓叶片病害识别与分类数据集 qq_38220914 分类数据挖掘人工智能
草莓作为一种重要的经济作物，在全球范围内广泛种植。然而，草莓生产过程中常常受到各种病害的困扰，其中叶片病害尤为严重。为了有效识别、检测和分类草莓叶片病害，构建一个高质量的数据集是至关重要的。本文介绍了一个针对草莓叶片病害识别检测与分类的数据集，该数据集涵盖了多种草莓叶片病害类型，包括白粉病、灰霉病、炭疽病、蛇眼病、叶斑病、黄萎病和根腐病。数据集构建过程中，采用了严格的图像采集、标注和预处理流程，确
机器学习数据预处理阶段为什么需要——归一化处理
参考：https://www.cnblogs.com/bjwu/p/8977141.html通常，在DataScience中，预处理数据有一个很关键的步骤就是数据的标准化。这里主要引用sklearn文档中的一些东西来说明，主要把各个标准化方法的应用场景以及优缺点总结概括，以来充当笔记。提升模型精度在机器学习算法的目标函数(例如SVM的RBF内核或线性模型的l1和l2正则化)，许多学习算法中目标函数
植物病害识别：YOLO甘蔗叶片病害识别分类数据集
YOLO甘蔗叶片病害识别数据集,包含尾孢菌叶斑病，眼斑病，健康，红腐病，锈病，黄叶病6个常见病类别，3300多张图像，yolo标注完整，全部原始图像，应用数据增强。适用于CV项目，毕设，科研，实验等需要此数据集或其他任何数据集请私信
java线程的无限循环和退出 3213213333332132 java
最近想写一个游戏，然后碰到有关线程的问题，网上查了好多资料都没满足。突然想起了前段时间看的有关线程的视频，于是信手拈来写了一个线程的代码片段。希望帮助刚学java线程的童鞋 package thread; import java.text.SimpleDateFormat; import java.util.Calendar; import java.util.Date
tomcat 容器 BlueSkator tomcat Web servlet
Tomcat的组成部分 1、server A Server element represents the entire Catalina servlet container. (Singleton) 2、service service包括多个connector以及一个engine，其职责为处理由connector获得的客户请求。 3、connector 一个connector
php递归,静态变量,匿名函数使用 dcj3sjt126com PHP 递归函数匿名函数静态变量引用传参
<!doctype html> <html lang="en"> <head> <meta charset="utf-8"> <title>Current To-Do List</title> </head> <body>
属性颜色字体变化周华华 JavaScript
function changSize(className){ var diva=byId("fot") diva.className=className; } </script> <style type="text/css"> .max{ background: #900; color:#039;
将properties内容放置到map中 g21121 properties
代码比较简单： private static Map<Object, Object> map; private static Properties p; static { //读取properties文件 InputStream is = XXX.class.getClassLoader().getResourceAsStream("xxx.properti
[简单]拼接字符串 53873039oycg 字符串
工作中遇到需要从Map里面取值拼接字符串的情况，自己写了个，不是很好，欢迎提出更优雅的写法，代码如下： import java.util.HashMap; import java.uti
Struts2学习云端月影
最近开始关注struts2的新特性，从这个版本开始，Struts开始使用convention-plugin代替codebehind-plugin来实现struts的零配置。配置文件精简了，的确是简便了开发过程，但是，我们熟悉的配置突然disappear了，真是一下很不适应。跟着潮流走吧，看看该怎样来搞定convention-plugin。使用Convention插件，你需要将其JAR文件放
Java新手入门的30个基本概念二 aijuans java 新手 java 入门
基本概念:　　1.OOP中唯一关系的是对象的接口是什么,就像计算机的销售商她不管电源内部结构是怎样的,他只关系能否给你提供电就行了,也就是只要知道can or not而不是how and why.所有的程序是由一定的属性和行为对象组成的,不同的对象的访问通过函数调用来完成,对象间所有的交流都是通过方法调用,通过对封装对象数据,很大限度上提高复用率。　　2.OOP中最重要的思想是类,类是模板是蓝图,
jedis 简单使用 antlove java redis cache command jedis
jedis.RedisOperationCollection.java package jedis; import org.apache.log4j.Logger; import redis.clients.jedis.Jedis; import java.util.List; import java.util.Map; import java.util.Set; pub
PL/SQL的函数和包体的基础百合不是茶 PL/SQL编程函数包体显示包的具体数据包
由于明天举要上课,所以刚刚将代码敲了一遍PL/SQL的函数和包体的实现(单例模式过几天好好的总结下再发出来);以便明天能更好的学习PL/SQL的循环,今天太累了,所以早点睡觉,明天继续PL/SQL总有一天我会将你永远的记载在心里,,, 函数; 函数:PL/SQL中的函数相当于java中的方法;函数有返回值定义函数的 --输入姓名找到该姓名的年薪 create or re
Mockito(二)--实例篇 bijian1013 持续集成 mockito 单元测试
学习了基本知识后，就可以实战了，Mockito的实际使用还是比较麻烦的。因为在实际使用中，最常遇到的就是需要模拟第三方类库的行为。比如现在有一个类FTPFileTransfer，实现了向FTP传输文件的功能。这个类中使用了a
精通Oracle10编程SQL(7)编写控制结构 bijian1013 oracle 数据库 plsql
/* *编写控制结构 */ --条件分支语句 --简单条件判断 DECLARE v_sal NUMBER(6,2); BEGIN select sal into v_sal from emp where lower(ename)=lower('&name'); if v_sal<2000 then update emp set
【Log4j二】Log4j属性文件配置详解 bit1129 log4j
如下是一个log4j.properties的配置 log4j.rootCategory=INFO, stdout , R log4j.appender.stdout=org.apache.log4j.ConsoleAppender log4j.appender.stdout.layout=org.apache.log4j.PatternLayout log4j.appe
java集合排序笔记白糖_ java
public class CollectionDemo implements Serializable,Comparable<CollectionDemo>{ private static final long serialVersionUID = -2958090810811192128L; private int id; private String nam
java导致linux负载过高的定位方法 ronin47
定位java进程ID 可以使用top或ps -ef |grep java ![图片描述][1] 根据进程ID找到最消耗资源的java pid 比如第一步找到的进程ID为5431 执行 top -p 5431 -H ![图片描述][2] 打印java栈信息 $ jstack -l 5431 > 5431.log 在栈信息中定位具体问题将消耗资源的Java PID转
给定能随机生成整数1到5的函数，写出能随机生成整数1到7的函数 bylijinnan 函数
import java.util.ArrayList; import java.util.List; import java.util.Random; public class RandNFromRand5 { /** 题目：给定能随机生成整数1到5的函数，写出能随机生成整数1到7的函数。解法1： f(k) = (x0-1)*5^0+(x1-
PL/SQL Developer保存布局 Kai_Ge
近日由于项目需要，数据库从DB2迁移到ORCAL，因此数据库连接客户端选择了PL/SQL Developer。由于软件运用不熟悉，造成了很多麻烦，最主要的就是进入后，左边列表有很多选项，自己删除了一些选项卡，布局很满意了，下次进入后又恢复了以前的布局，很是苦恼。在众多PL/SQL Developer使用技巧中找到如下这段： &n
[未来战士计划]超能查派[剧透,慎入] comsci 计划
非常好看,超能查派,这部电影......为我们这些热爱人工智能的工程技术人员提供一些参考意见和思想........ 虽然电影里面的人物形象不是非常的可爱....但是非常的贴近现实生活.... &nbs
Google Map API V2 dai_lm google map
以后如果要开发包含google map的程序就更麻烦咯 http://www.cnblogs.com/mengdd/archive/2013/01/01/2841390.html 找到篇不错的文章，大家可以参考一下 http://blog.sina.com.cn/s/blog_c2839d410101jahv.html 1. 创建Android工程由于v2的key需要G
java数据计算层的几种解决方法2 datamachine java sql 集算器
2、SQL SQL/SP/JDBC在这里属于一类，这是老牌的数据计算层，性能和灵活性是它的优势。但随着新情况的不断出现，单纯用SQL已经难以满足需求，比如： JAVA开发规模的扩大，数据量的剧增，复杂计算问题的涌现。虽然SQL得高分的指标不多，但都是权重最高的。成熟度：5星。最成熟的。
Linux下Telnet的安装与运行 dcj3sjt126com linux telnet
Linux下Telnet的安装与运行 linux默认是使用SSH服务的而不安装telnet服务如果要使用telnet 就必须先安装相应的软件包即使安装了软件包默认的设置telnet 服务也是不运行的需要手工进行设置如果是redhat9，则在第三张光盘中找到 telnet-server-0.17-25.i386.rpm
PHP中钩子函数的实现与认识 dcj3sjt126com PHP
假如有这么一段程序： function fun(){ fun1(); fun2(); } 首先程序执行完fun1()之后执行fun2()然后fun()结束。但是，假如我们想对函数做一些变化。比如说，fun是一个解析函数，我们希望后期可以提供丰富的解析函数，而究竟用哪个函数解析，我们希望在配置文件中配置。这个时候就可以发挥钩子的力量了。我们可以在fu
EOS中的WorkSpace密码修改蕃薯耀修改WorkSpace密码
EOS中BPS的WorkSpace密码修改 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 201
SpringMVC4零配置--SpringSecurity相关配置【SpringSecurityConfig】 hanqunfeng SpringSecurity
SpringSecurity的配置相对来说有些复杂，如果是完整的bean配置，则需要配置大量的bean，所以xml配置时使用了命名空间来简化配置，同样，spring为我们提供了一个抽象类WebSecurityConfigurerAdapter和一个注解@EnableWebMvcSecurity，达到同样减少bean配置的目的，如下： applicationContex
ie 9 kendo ui中ajax跨域的问题 jackyrong AJAX跨域
这两天遇到个问题，kendo ui的datagrid，根据json去读取数据，然后前端通过kendo ui的datagrid去渲染，但很奇怪的是，在ie 10,ie 11,chrome,firefox等浏览器中，同样的程序，浏览起来是没问题的，但把应用放到公网上的一台服务器，却发现如下情况： 1） ie 9下，不能出现任何数据，但用IE 9浏览器浏览本机的应用，却没任何问题
不要让别人笑你不能成为程序员 lampcy 编程程序员
在经历六个月的编程集训之后，我刚刚完成了我的第一次一对一的编码评估。但是事情并没有如我所想的那般顺利。说实话，我感觉我的脑细胞像被轰炸过一样。手慢慢地离开键盘，心里很压抑。不禁默默祈祷：一切都会进展顺利的，对吧？至少有些地方我的回答应该是没有遗漏的，是不是？难道我选择编程真的是一个巨大的错误吗——我真的永远也成不了程序员吗？我需要一点点安慰。在自我怀疑，不安全感和脆弱等等像龙卷风一
马皇后的贤德 nannan408
马皇后不怕朱元璋的坏脾气，并敢理直气壮地吹耳边风。众所周知，朱元璋不喜欢女人干政，他认为“后妃虽母仪天下，然不可使干政事”，因为“宠之太过，则骄恣犯分，上下失序”，因此还特地命人纂述《女诫》，以示警诫。但马皇后是个例外。　　有一次，马皇后问朱元璋道：“如今天下老百姓安居乐业了吗？”朱元璋不高兴地回答：“这不是你应该问的。”马皇后振振有词地回敬道：“陛下是天下之父，
选择某个属性值最大的那条记录（不仅仅包含指定属性，而是想要什么属性都可以） Rainbow702 sql group by 最大值 max 最大的那条记录
好久好久不写SQL了，技能退化严重啊！！！直入主题：比如我有一张表，file_info，它有两个属性（但实际不只，我这里只是作说明用）： file_code, file_version 同一个code可能对应多个version 现在，我想针对每一个code，取得它相关的记录中，version 值最大的那条记录， SQL如下： select *
VBScript脚本语言 tntxia VBScript
VBScript 是基于VB的脚本语言。主要用于Asp和Excel的编程。 VB家族语言简介 Visual Basic 6.0 源于BASIC语言。由微软公司开发的包含协助开发环境的事
java中枚举类型的使用 xiao1zhao2 java enum 枚举 1.5新特性
枚举类型是j2se在1.5引入的新的类型,通过关键字enum来定义,常用来存储一些常量. 1.定义一个简单的枚举类型 public enum Sex { MAN, WOMAN } 枚举类型本质是类,编译此段代码会生成.class文件.通过Sex.MAN来访问Sex中的成员,其返回值是Sex类型. 2.常用方法静态的values()方