weixin_39586825

xgboost python分类_参数调优XGBoost-商品分类-代码

1.直接调用xgboost内嵌的cv寻找最佳的参数n_estimators(弱分类器数目)

Otto商品分类数据

导入必要模型# python 3.6 python 3.6 python 3.6

from xgboost import XGBClassifier #sklearn中调用XGBoost的接口类，XGBClassifier就是对xgboost的封装，内核是同一个内核

import xgboost as xgb #直接调用XGBoost

import pandas as pd

import numpy as np

from sklearn.model_selection import GridSearchCV

from sklearn.model_selection import StratifiedKFold

from sklearn.metrics import log_loss

from matplotlib import pyplot

import seaborn as sns

%matplotlib inline#读取数据

dpath = './logistic/'

train = pd.read_csv(dpath + "Otto_train_test.csv")

train.head()

Variable Identification

选择该数据集是因为该数据特征单一，我们可以在特征工程方面少做些工作，集中精力放在参数调优上；

Target分布，看看各类样本分布是否均衡sns.countplot(train.target)

pyplot.xlabel('target')

pyplot.ylabel('Number of occurrences')

每类样本分布不是很均匀

特征编码# 将类别字符串变成数字

y_train = train['target'] #形式为Class_x

y_train = y_train.map(lambda s: s[6:])

y_train = y_train.map(lambda s: int(s) - 1)#将类别的形式由Class_x变为0-8之间的整数

train = train.drop(["id" , "target"] , axis = 1)

X_train = np.array(train)#prepare cross validation-----设置交叉验证

# 当各类样本数量不均衡时，交叉验证对分类任务要采用StratifiedKFold，即在每折采样时根据各类样本按比例采样，

# 交叉验证的代码中缺省的就是StratifiedKFold

kfold = StratifiedKFold(n_splits = 5 , shuffle = True , random_state = 3)

默认参数，此时学习率为0.1，比较大，观察弱分类数目的大致范围(采用默认参数配置，看看模型是过拟合还是欠拟合)#直接调用xgboost内嵌的交叉验证(cv)，可对连续的n_estimators参数进行快速交叉验证

#而GridSearchCV因速度太慢，只能对有限个参数进行交叉验证

def modelfit(alg , X_train , y_train , cv_folds = None , early_stopping_rounds = 10):

xgb_param = alg.get_xgb_params()

xgb_param['num_class'] = 9 #该问题为9类分类问题

#直接调用xgboost,而非sklearn的wrapper类

xgtrain = xgb.DMatrix(X_train , label = y_train)

#评价指标mlogloss的值是越小越好

cvresult = xgb.cv(xgb_param , xgtrain , num_boost_round = alg.get_params()['n_estimators'] , folds = cv_folds ,metrics='mlogloss' , early_stopping_rounds = early_stopping_rounds )

cvresult.to_csv('l_nestimators.csv' , index_label = 'n_estimators')

#最佳参数n_estimators

n_estimators = cvresult.shape[0]

print("n_estimators :")

print(n_estimators)

#采用交叉验证得到的最佳参数n_estimators,训练模型

alg.set_params(n_estimators = n_estimators)

alg.fit(X_train , y_train , eval_metric = 'mlogloss')

#Predict training set:

train_predprob = alg.predict_proba(X_train)

logloss = log_loss(y_train , train_predprob)

#Print model report:

print("logloss of train :")

print (logloss)xgb1 = XGBClassifier(

learning_rate = 0.1,

n_estimators = 1000, #已经设置了early_stopping_rounds，弱分类器数目的值大没关系，cv会自动返回合适的n_estimators

max_depth = 5 ,

min_child_weight = 1,

gamma = 0,

subsample = 0.3,

colsample_bytree = 0.8,

colsample_bylevel = 0.7,

objective = 'multi:softprob',#该分类问题为多类分类问题，这里设置为输出概率

seed = 3)

modelfit(xgb1 , X_train , y_train , cv_folds = kfold)[object Object]

注：此处的结果是用交叉验证得到的最佳参数，对训练集进行的预测，该结果不能代表在实际问题中的表现；cvresult = pd.DataFrame.from_csv('l_nestimators.csv')

#plot

test_means = cvresult['test-mlogloss-mean']#测试误差均值

test_stds = cvresult['test-mlogloss-std']#标准差

train_means = cvresult['train-mlogloss-mean']#训练误差均值

train_stds = cvresult['train-mlogloss-std']#标准差

x_axis = range(0 , cvresult.shape[0])

pyplot.errorbar(x_axis , test_means , yerr = test_stds , label = 'Test')

pyplot.errorbar(x_axis , train_means , yerr = train_stds , label = 'Train')

pyplot.title("XGBoost n_estimators vs Log Loss")

pyplot.xlabel('n_estimators')

pyplot.ylabel('Log Loss')

pyplot.legend()

pyplot.savefig('n_estimators4_1.png')

pyplot.show()

注：上图中，纵轴坐标LogLoss2.00-1.75那段表示当前模型处于欠拟合的状态，模型需要变得更复杂，以得到更好的性能；横轴坐标n_estimators从40开始，训练误差和测试误差的距离越来越大，说明模型已经过拟合了，即在测试集的性能没多少改变，而测试集上的性能则变得越来越好，此进模型需要更简单一点；#重新划出20后面的图形

cvresult = pd.DataFrame.from_csv('l_nestimators.csv')

cvresult = cvresult.iloc[20:]

#plot

test_means = cvresult['test-mlogloss-mean']

test_stds = cvresult['test-mlogloss-std']

train_means = cvresult['train-mlogloss-mean']

train_stds = cvresult['train-mlogloss-std']

x_axis = range(20 , cvresult.shape[0] + 20)

fig = pyplot.figure(figsize=(10 , 10) , dpi = 60)

pyplot.errorbar(x_axis , test_means , yerr = test_stds , label = 'Test')

pyplot.errorbar(x_axis , train_means , yerr = train_stds , label = 'Train')

pyplot.title("XGBoost n_estimators vs Log Loss")

pyplot.xlabel('n_estimators')

pyplot.ylabel('Log Loss')

pyplot.legend()

pyplot.savefig('n_estimators4_1.png')

pyplot.show()

注：上图中，曲线上横向的点表示误差均值，纵向的线段表示标准差，标准差线段的两头分别表示，当弱学习器数目为n时，样本误差的上界和下界；

2.调整树的参数：max_depth(树的最大深度) & min_child_weight(叶子节点所需要的最小权利和)

(2.1:粗调，参数的步长为2；2.2：在最佳参数周围，将步长设为1或更小，进行精细调整)#max_depth 建议3-10，min_child_weight=1/sqrt(ratio_rare_event) = 5.5

max_depth = range(3 , 10 , 1)#取值范围为3-10，步长为1

min_child_weight = range(1 , 6 , 2)

param_test2_1 = dict(max_depth = max_depth , min_child_weight = min_child_weight)

param_test2_1

xgb2_1 = XGBClassifier(

learning_rate = 0.1,

n_estimators = 152, #上面已经得到的最优值

max_depth = 5 ,

min_child_weight = 1,

gamma = 0,

subsample = 0.3,

colsample_bytree = 0.8,

colsample_bylevel = 0.7,

objective = 'multi:softprob',#该分类问题为多类分类问题，这里设置为输出概率

seed = 3)

#GridSearchCV参数说明：(学习器，参数范围，评价指标， cpu核心的使用数(-1为并行，使用全部的核) ，交叉验证一共多少折)

gsearch2_1 = GridSearchCV(xgb2_1 , param_grid = param_test2_1 , scoring='neg_log_loss' , n_jobs = -1 , cv = kfold)

gsearch2_1.fit(X_train , y_train)

gsearch2_1.grid_scores_ , gsearch2_1.best_params_ , gsearch2_1.best_score_

gsearch2_1.cv_results_{'mean_fit_time': array([1.45454082, 1.97168965, 1.9824079 , 2.2223093 , 2.07778544,

1.78918533, 2.42190661, 2.36306362, 2.0501524 , 2.49945779,

2.14302115, 1.77447672, 2.92233768, 2.49135246, 1.96860585,

2.6433012 , 2.1420651 , 1.88084736, 3.19571919, 2.14432192,

1.70169439]),

'std_fit_time': array([0.24886047, 0.24884278, 0.0613107 , 0.1016457 , 0.09550288,

0.05508209, 0.02851551, 0.23187988, 0.18956871, 0.06988497,

0.08399057, 0.08938734, 0.13197995, 0.13758643, 0.06937447,

0.06387703, 0.03662388, 0.05743063, 0.13994387, 0.02977088,

0.10212321]),

'mean_score_time': array([0.01265473, 0.01481042, 0.0132092 , 0.02611961, 0.02081451,

0.01380944, 0.01901302, 0.02251544, 0.01881318, 0.02141471,

0.01691146, 0.0155108 , 0.02621841, 0.01551075, 0.0211143 ,

0.01811252, 0.01471033, 0.02031398, 0.03312268, 0.01941338,

0.01303215]),

'std_score_time': array([0.00645511, 0.0031419 , 0.00172168, 0.01261709, 0.00424094,

0.0010775 , 0.00195032, 0.01254631, 0.00741078, 0.00274748,

0.00174502, 0.00216924, 0.00658116, 0.00070793, 0.00833838,

0.00177336, 0.00067866, 0.00797758, 0.00906928, 0.01108613,

0.00142161]),

'param_max_depth': masked_array(data=[3, 3, 3, 4, 4, 4, 5, 5, 5, 6, 6, 6, 7, 7, 7, 8, 8, 8,

9, 9, 9],

mask=[False, False, False, False, False, False, False, False,

False, False, False, False, False, False, False, False,

False, False, False, False, False],

fill_value='?',

dtype=object),

'param_min_child_weight': masked_array(data=[1, 3, 5, 1, 3, 5, 1, 3, 5, 1, 3, 5, 1, 3, 5, 1, 3, 5,

1, 3, 5],

mask=[False, False, False, False, False, False, False, False,

False, False, False, False, False, False, False, False,

False, False, False, False, False],

fill_value='?',

dtype=object),

'params': [{'max_depth': 3, 'min_child_weight': 1},

{'max_depth': 3, 'min_child_weight': 3},

{'max_depth': 3, 'min_child_weight': 5},

{'max_depth': 4, 'min_child_weight': 1},

{'max_depth': 4, 'min_child_weight': 3},

{'max_depth': 4, 'min_child_weight': 5},

{'max_depth': 5, 'min_child_weight': 1},

{'max_depth': 5, 'min_child_weight': 3},

{'max_depth': 5, 'min_child_weight': 5},

{'max_depth': 6, 'min_child_weight': 1},

{'max_depth': 6, 'min_child_weight': 3},

{'max_depth': 6, 'min_child_weight': 5},

{'max_depth': 7, 'min_child_weight': 1},

{'max_depth': 7, 'min_child_weight': 3},

{'max_depth': 7, 'min_child_weight': 5},

{'max_depth': 8, 'min_child_weight': 1},

{'max_depth': 8, 'min_child_weight': 3},

{'max_depth': 8, 'min_child_weight': 5},

{'max_depth': 9, 'min_child_weight': 1},

{'max_depth': 9, 'min_child_weight': 3},

{'max_depth': 9, 'min_child_weight': 5}],

'split0_test_score': array([-1.08718937, -1.09579943, -1.13354104, -1.08336137, -1.12539686,

-1.14638456, -1.09459129, -1.09724201, -1.13811383, -1.08060457,

-1.14676753, -1.17301695, -1.1145029 , -1.09377679, -1.17301695,

-1.0965587 , -1.12111028, -1.17301695, -1.12523253, -1.12111028,

-1.17301695]),

'split1_test_score': array([-0.90847575, -0.93228667, -0.98981291, -0.88871794, -0.9324894 ,

-0.97138889, -0.92866746, -0.93313133, -1.01312489, -0.8821443 ,

-0.92579839, -0.98544821, -0.88852343, -0.92211337, -0.98544821,

-0.92303341, -0.90950118, -0.98544821, -0.89260702, -0.90950118,

-0.98544821]),

'split2_test_score': array([-0.89419077, -0.94683318, -1.01680019, -0.90744574, -0.97871248,

-1.00126056, -0.93873131, -0.96280162, -1.0109172 , -0.86081739,

-0.96997059, -0.99547674, -0.91518516, -0.96057845, -0.99547674,

-0.9371314 , -0.97328839, -0.99547674, -0.93638561, -0.97328839,

-0.99547674]),

'split3_test_score': array([-0.92546119, -0.96272871, -1.00218196, -0.93792652, -0.9368132 ,

-0.99449181, -0.91112218, -0.93719629, -0.98389445, -0.94349375,

-0.96993939, -0.96746802, -0.89214913, -0.92681013, -0.94762662,

-0.8959783 , -0.93057469, -0.94762662, -0.93227858, -0.9367468 ,

-0.94762662]),

'split4_test_score': array([-0.80183262, -0.85884744, -0.96049093, -0.84301533, -0.9113355 ,

-0.97472223, -0.8592988 , -0.89658449, -0.94263649, -0.831899 ,

-0.87642984, -0.94945823, -0.83155818, -0.9191476 , -0.94945823,

-0.83659937, -0.91063024, -0.94945823, -0.85089715, -0.91063024,

-0.94945823]),

'mean_test_score': array([-0.92422275, -0.95993659, -1.02101526, -0.93271723, -0.9774968 ,

-1.01807338, -0.9471281 , -0.96591762, -1.01828851, -0.92044767,

-0.97847828, -1.01477048, -0.92913416, -0.96492305, -1.01080786,

-0.93858077, -0.96953656, -1.01080786, -0.94818459, -0.97076922,

-1.01080786]),

'std_test_score': array([0.09251479, 0.07707461, 0.05963455, 0.0818743 , 0.07766002,

0.06565731, 0.07915205, 0.06944591, 0.06548008, 0.0886047 ,

0.09151114, 0.08128094, 0.09735839, 0.06662051, 0.0839309 ,

0.08668567, 0.07979949, 0.0839309 , 0.09440646, 0.0792338 ,

0.0839309 ]),

'rank_test_score': array([ 2, 8, 21, 4, 13, 19, 6, 10, 20, 1, 14, 18, 3, 9, 15, 5, 11,

15, 7, 12, 15]),

'split0_train_score': array([-0.23506696, -0.42238518, -0.6134396 , -0.18879343, -0.40748233,

-0.62428014, -0.17596322, -0.40007491, -0.61200072, -0.16981949,

-0.4095462 , -0.61907156, -0.16201702, -0.40087629, -0.61907156,

-0.16691824, -0.40227751, -0.61907156, -0.165709 , -0.40227751,

-0.61907156]),

'split1_train_score': array([-0.25821533, -0.43929102, -0.62994285, -0.20182639, -0.42128714,

-0.63887457, -0.18338174, -0.4187483 , -0.64548383, -0.18261545,

-0.42154358, -0.62833961, -0.1719561 , -0.41369627, -0.62833961,

-0.17269233, -0.41680083, -0.62833961, -0.17563985, -0.41680083,

-0.62833961]),

'split2_train_score': array([-0.25948842, -0.44902698, -0.64283288, -0.20920136, -0.43339103,

-0.63528185, -0.18549172, -0.42097063, -0.63765519, -0.17888064,

-0.41736498, -0.64216106, -0.17466933, -0.421817 , -0.64216106,

-0.17045003, -0.42071521, -0.64216106, -0.1753699 , -0.42071521,

-0.64216106]),

'split3_train_score': array([-0.25218286, -0.43842555, -0.64139283, -0.19695715, -0.42982769,

-0.63135471, -0.18244458, -0.40960157, -0.63857148, -0.17498448,

-0.42012243, -0.6361547 , -0.17098162, -0.41027713, -0.63039844,

-0.17674043, -0.41380281, -0.63039844, -0.17157678, -0.41820101,

-0.63039844]),

'split4_train_score': array([-0.26175732, -0.43941897, -0.64548966, -0.20640497, -0.42951335,

-0.64860559, -0.18507553, -0.4265518 , -0.64860942, -0.18137506,

-0.41946124, -0.64231342, -0.17556121, -0.42167697, -0.64231342,

-0.17274134, -0.41864994, -0.64231342, -0.1752531 , -0.41864994,

-0.64231342]),

'mean_train_score': array([-0.25334218, -0.43770954, -0.63461956, -0.20063666, -0.42430031,

-0.63567937, -0.18247136, -0.41518944, -0.63646413, -0.17753502,

-0.41760769, -0.63360807, -0.17103705, -0.41366873, -0.63245682,

-0.17190847, -0.41444926, -0.63245682, -0.17270972, -0.4153289 ,

-0.63245682]),

'std_train_score': array([0.00967126, 0.00858902, 0.01184869, 0.00723663, 0.00929831,

0.00807588, 0.00343772, 0.00932592, 0.01290876, 0.00465622,

0.00424964, 0.00888244, 0.00481394, 0.00781891, 0.00885074,

0.00321513, 0.00649626, 0.00885074, 0.00380591, 0.00664524,

0.00885074])}#用交叉验证得到的最佳max_depth和min_child_weight进行训练及预测

xgb2 = XGBClassifier(

learning_rate = 0.1,

n_estimators = 152, #第一次交叉验证找到的最佳参数

max_depth = 6 , #第二次交叉验证找到的最佳参数

min_child_weight = 1,#第二次交叉验证找到的最佳参数

gamma = 0,

subsample = 0.3,

colsample_bytree = 0.8,

colsample_bylevel = 0.7,

objective = 'multi:softprob',#该分类问题为多类分类问题，这里设置为输出概率

seed = 3)

xgb2.fit(X_train , y_train , eval_metric = 'mlogloss')

#Predict training set:

train_predprob = xgb2.predict_proba(X_train)

logloss = log_loss(y_train , train_predprob)

#Print model report:

print("logloss of train :")

print (logloss)

注：结果比第一次的0.17892266070462243稍微好一点；

4.调整树的参数：subsample(样本采样比例)和colsample_bytree(构造每棵树所用的特征比例)

参数调整的步骤类似第二步，这里粗调参数的步长为0.1；下一步可以将步长降为0.05，进行精细调整subsample = [i/10.0 for i in range(3 , 9)]

colsample_bytree = [i/10.0 for i in range(6 , 10)]

param_test4_1 = dict(subsample = subsample , colsample_bytree = colsample_bytree)

param_test4_1

xgb4_1 = XGBClassifier(

learning_rate = 0.1,

n_estimators = 152, #上面已经得到的最优值

max_depth = 6 ,

min_child_weight = 1,

gamma = 0,

subsample = 0.3,

colsample_bytree = 0.8,

colsample_bylevel = 0.7,

objective = 'multi:softprob',#该分类问题为多类分类问题，这里设置为输出概率

seed = 3)

#GridSearchCV参数说明：(学习器，参数范围，评价指标， cpu核心的使用数(-1为并行，使用全部的核) ，交叉验证一共多少折)

gsearch4_1 = GridSearchCV(xgb4_1 , param_grid = param_test4_1 , scoring='neg_log_loss' , n_jobs = -1 , cv = kfold)

gsearch4_1.fit(X_train , y_train)

gsearch4_1.grid_scores_ , gsearch4_1.best_params_ , gsearch4_1.best_score_

注：上面交叉验证得到的最佳结果已经是现在在用的值，所以这两个值不需要再做调整；

你可能感兴趣的:(xgboost,python分类)

力扣算法Hot100——75. 颜色分类飞奔的马里奥算法 leetcode java
解法1：当然可以冒泡排序，时间复杂度O(n2n^2n2)解法2：单指针循环两次，第一次循环将所有的0交换到前面；第二次循环将所有的1交换到0的后面classSolution{publicvoidsortColorsBySinglePointer(int[]nums){intzeroCnt=0,p=0;for(inti=0;i
Python之pip的安装和使用详细教程叫我技术帝 Python python
我们都知道python有海量的第三方库或者说模块，这些库针对不同的应用，发挥不同的作用。我们在实际的项目中，或多或少的都要使用到第三方库，那么如何将他人的库加入到自己的项目中内呢？打个电话？大哥你好，想用下你那个库，麻烦给邮箱发个源码呗！显然这是个笑话。Python官方的PyPi仓库为我们提供了一个统一的代码托管仓库，所有的第三方库，甚至你自己写的开源模块，都可以发布到这里，让全世界的人分享下载。
python使用pip安装本地包-Python之pip使用详解|附第三方库安装总结 weixin_37988176
首先简单介绍下pip是什么？pip是python的第三方库管理器，可以根据所开发项目的需要，使用pip相关命令安装不同库。Pyhon3.4以后，pip都默认跟Python一块安装，pip在python安装目录中的位置如下：执行方法：运行【win+R】+cmd，执行pip，查看是否安装成功。（找不到命令，则需要手动添加到环境变量）python官方提供了一个pypi库（https://pypi.org
2024年09月中国电子学会青少年软件编程（Python）等级考试试卷（二级）答案 + 解析伶俐角少儿编程 python 少儿编程青少年编程等级考试中国电子学会青少年编程
青少年软件编程（Python）等级考试试卷（二级）分数：100题数：37点击前往在线模拟练习一、单选题(共25题，共50分)1.a=['甲','乙','丙','丁','子','丑']print(a[4])以上代码的输出是ÿ
Python pip download下载安装包到指定路径飘～～～～ python
一、Python第三方安装包下载pipdownload-dsave_pathpackages-d:后面接下载包路径(save_path)packages:安装包名称二、Python第三方安装包安装2.1whl包python-mpipinstallxxx.whl2.2tar.gz包tar-zxvfxxx.tar.gzcdxxxpythonsetup.pybuildpythonsetup.pyinst
【免费】中国电子学会2024年03月份青少年软件编程Python等级考试试卷二级真题(含答案) Lemon Liu 电子学会Python真题前端 javascript microsoft python 青少年编程
2024-03Python二级真题分数：100题数：37测试时长：60min一、单选题(共25题，共50分)1.期末考试结束了，全班的语文成绩都储存在列表score中，班主任老师请小明找到全班最高分，小明准备用Python来完成，以下哪个选项，可以获取最高分呢？（B）（2分）A.min(score)B.max(score)C.score.max()D.score.min()答案解析：max()函数
中国电子学会202309青少年软件编程（Python）等级考试试卷（二级）真题晴朗向上 python 考级编程开发语言 microsoft
青少年软件编程（Python）等级考试试卷（二级）分数：100题数：37一、单选题（共25题，每题2分，共50分）1、yyh = [2023, '杭州亚运会', ['拱宸桥', '玉琮''莲叶']]jxw = yyh[2][0]print(jxw[1] * 2)以上代码运行结果是？（）A.宸宸B.杭杭C.玉玉D.州州2、阿宝在学习Python语言编程，他写了一个程序可以实现输入月份数字就可以输出2
2024年9月中国电子学会青少年软件编程（Python）等级考试试卷（三级）答案 + 解析 Sinsa_SI python windows 开发语言电子学会等级考试
更多真题在线练习系统：历年真题在线练习系统一、单选题1、以下表达式的值为True的是？（）A.all('','1','2','3')B.any([])C.bool('abc')D.divmod(6,0)正确答案：C答案解析：A和B选项，False；D选项，报错；C选项，True。2、下列代码的运行结果是？（）l=list(map(float,(1,2,3,4)))print(l)A.[1,2,3,
2024年9月电子学会青少年软件编程Python等级考试（三级）真题试卷 No0d1es 青少年软件编程（Python）等级考试试卷 python 开发语言青少年编程电子学会三级
2024年9月青少年软件编程Python等级考试（三级）真题试卷选择题第1题单选题以下python表达式的值为True的是？（）A.all('','1','2','3')B.any([])C.bool('abc')D.divmod(6,0)第2题单选题下列python代码的运行结果是？（）l=list(map(float,(1,2,3,4)))print(l)A.[1,2,3,4]B.['1','
【mysql】mysql之主从部署以及介绍向往风的男子 DBA mysql 数据库
本站以分享各种运维经验和运维所需要的技能为主《python零基础入门》：python零基础入门学习《python运维脚本》：python运维脚本实践《shell》：shell学习《terraform》持续更新中：terraform_Aws学习零基础入门到最佳实战《k8》从问题中去学习k8s《docker学习》暂未更新《ceph学习》ceph日常问题解决分享《日志收集》ELK+各种中间件《运维日常》
MySQL5.6主从复制最佳实践 weixin_34252090 数据库操作系统 python
2019独角兽企业重金招聘Python工程师标准>>>MySQL5.6主从复制最佳实践MySQL5.6主从复制的配置环境操作系统：CentOS-6.6-x86_64MySQL版本：mysql-5.6.26.tar.gz主节点IP：192.168.31.57主机名：edu-mysql-01从节点IP：192.168.31.59主机名：edu-mysql-02MySQL主从复制官方文档http://d
vs code配置python_如何在vscode里的python配置好matplotlib？,vscode配置python环境教程 weixin_39564151 vs code配置python
如何在vscode里的python配置好matplotlib？,vscode配置python环境教程vscode配置python环境教程2020-09-2015:14:33人已围观VScode配置Python环境“配置任务运行程序”遇到问题我建议尝试再把bug写出来，不能因为不一样就不继续首先需要VScodePython插件。打开Python任意脚可以直接拖入。点击左下角的扩展按钮，在弹出界面选择
TikTokenizer 开源项目教程邱纳巧Gillian
TikTokenizer开源项目教程tiktokenizerOnlineplaygroundforOpenAPItokenizers项目地址:https://gitcode.com/gh_mirrors/ti/tiktokenizer项目介绍TikTokenizer是一个基于Python的开源项目，旨在提供一个高效、灵活的文本分词工具。该项目利用先进的算法和数据结构，能够快速准确地对文本进行分词处
python类方法和类的实例化 Cachel wood 程序设计杂事 python 开发语言 mysql hive sql 机器学习数据库
文章目录类方法实例方法类方法静态方法特殊方法私有方法Python类的实例化1.调用`__new__`方法2.调用`__init__`方法3.返回实例对象总结类方法在Python里，类的自定义方法是类中用户自行定义的函数，这些方法能够实现特定的功能，并且可以访问和操作类的属性。下面详细介绍Python类中常见的自定义方法。实例方法定义：实例方法是类中最常见的方法，它的第一个参数通常是self，代表类
python 输入一行字符串删除其中所有大写字母后输出_Python练习题3.17删除字符 weixin_39624873 python 输入一行字符串删除其中所有大写字母后输出
输入一个字符串str，再输入要删除字符c，大小写不区分，将字符串str中出现的所有字符c删除。输入格式:在第一行中输入一行字符在第二行输入待删除的字符输出格式:在一行中输出删除后的字符串输入样例:在这里给出一组输入。例如：beee输出样例:在这里给出相应的输出。例如：result:b代码如下：#!/usr/bin/python#-*-coding:utf-8-*-s=input().strip()
Telegram bot教程：通过BotFather设置Telegram bot的命令菜单鲲志说 Web3相关业界资讯 telegram bot 经验分享笔记 twitter Telegram Bot
最近在研究Telegrambot嘛，总有些小细节可以记录了，今天就记录一个通过BotFather设置Telegrambot的命令菜单功能➡️【好看的灵魂千篇一律，有趣的鲲志一百六七！】-欢迎认识我～～作者：鲲志说（公众号、B站同名，视频号：鲲志说996）科技博主：极星会星辉大使后端研发：java、go、python、TS，前电商、现web3主理人：COC杭州开发者社区主理人、周周黑客松杭州主理人、
Mysql相关知识：存储引擎、sql执行流程、索引失效 Cachel wood sql语言 sql server +mysql mysql sql android ab测试算法人工智能前端框架
文章目录MySQL存储引擎一、MySQL存储引擎概述二、常见存储引擎对比三、核心引擎详解1.InnoDB2.MyISAM四、如何选择存储引擎？五、引擎操作命令1.查看表的存储引擎2.修改表的存储引擎3.引擎与性能优化六、示例对比场景：频繁更新的订单表vs只读的产品分类表七、总结索引失效1.索引列使用函数或表达式2.隐式类型转换3.范围查询右侧的索引列失效4.模糊查询以通配符开头5.OR条件导致索引
Python,C++开发餐饮后厨环境远程管理APP Geeker-2025 python c++
开发一款用于**餐饮后厨环境远程管理**的App，结合Python和C++的优势，可以实现高效的后端数据处理、实时的环境监控以及用户友好的前端界面。以下是一个详细的开发方案，涵盖技术选型、功能模块、开发步骤等内容。##技术选型###后端（Python）-**编程语言**：Python-**Web框架**：Django或Flask-**数据库**：PostgreSQL或MySQL-**实时通信**：
清晰易懂的Python安装与配置教程 Tee xm python 开发语言
初学者也能看懂的Python安装与配置教程本教程将手把手教你安装Python，并配置国内镜像源和自定义依赖包缓存位置，即使你是零基础小白，也能轻松完成！一、准备工作操作系统：Windows10/11、macOS或Linux。下载工具：浏览器（推荐Chrome或Edge）。存储空间：至少预留500MB可用空间。二、安装Python1.下载Python访问Python官网下载页面：https://ww
双均线量化策略实战指南：基于 iTick 外汇API、股票API报价源的 Python 实现算法pythonai开发
在量化交易领域，iTick报价API凭借其强大的多市场覆盖能力，已成为专业交易员的首选数据解决方案。其外汇API支持全球主要货币对（如EURUSD、GBPUSD）的毫秒级行情推送，包含Bid/Ask深度报价和实时波动率数据；股票API则覆盖A股、港股及美股市场，提供Level-2逐笔成交和十档盘口信息。通过统一的RESTful接口，开发者可轻松获取标准化的OHLCV数据，实现外汇、股票等多资产策略
1.1PaddleTS_环境配置：一个易用的深度时序建模的Python库 pythonQA python paddlepaddle
PaddleTS是一个易用的深度时序建模的Python库，它基于飞桨深度学习框架PaddlePaddle，专注业界领先的深度模型，旨在为领域专家和行业用户提供可扩展的时序建模能力和便捷易用的用户体验。PaddleTS的主要特性包括：设计统一数据结构，实现对多样化时序数据的表达，支持单目标与多目标变量，支持多类型协变量封装基础模型功能，如数据加载、回调设置、损失函数、训练过程控制等公共方法，帮助开发
Lombok常用注解 AWen_X Java常用框架注解 java 开发语言
Lombok常用注解Lombok是一个Java库，通过注解的方式帮助开发者减少样板代码的编写，提高开发效率。本文将Lombok常用注解分类整理，并提供详细说明和使用示例。目录构造器相关注解字段相关注解方法相关注解代码简化注解异常处理注解日志相关注解实用工具注解高级用法注解配置与扩展构造器相关注解@NoArgsConstructor作用：生成一个无参构造器。示例：@NoArgsConstructor
蓝桥杯pythonB组备赛暴力执码蓝桥杯职场和发展
P1003[NOIP2011提高组]铺地毯题目描述为了准备一个独特的颁奖典礼，组织者在会场的一片矩形区域（可看做是平面直角坐标系的第一象限）铺上一些矩形地毯。一共有n张地毯，编号从1到n。现在将这些地毯按照编号从小到大的顺序平行于坐标轴先后铺设，后铺的地毯覆盖在前面已经铺好的地毯之上。地毯铺设完成后，组织者想知道覆盖地面某个点的最上面的那张地毯的编号。注意：在矩形地毯边界和四个顶点上的点也算被地毯
解决 Python 中 `cv2` 模块部分初始化导致的 `AttributeError` Leuanghing python 开发语言
解决Python中cv2模块部分初始化导致的AttributeError在Python开发中，尤其是使用OpenCV库进行图像处理时，可能会遇到一些令人困惑的错误。今天，我们就来探讨一个常见的错误：AttributeError:partiallyinitializedmodule'cv2'hasnoattribute'gapi_wip_gst_GStreamerPipeline'，并提供一个有效的
Julia语言的饼图尤宸翎包罗万象 golang 开发语言后端
Julia语言的饼图：全面剖析与实战指南引言在数据可视化的领域中，饼图作为一种经典的可视化工具，广泛用于展示各个分类在总体中的占比关系。尽管饼图在一些数据分析师中被视为相对简单和直观的图形，但它在实际运用中依然扮演着重要角色。本文将重点探讨如何使用Julia语言实现饼图的绘制，分析其背后的逻辑，并通过实例帮助读者掌握这一基本技能。Julia语言简介Julia是一种高性能、高级别的编程语言，适用于数
python 正则表达式的语法及使用主打Python 正则表达式 python 基础语法正则表达式 python
python正则表达式的语法及使用概念：按照程序员的指示，字符串里提取你要的数据。应用：爬虫清洗数据，匹配电话，匹配邮箱，匹配账号……最重要的就是（.*?）正则语法（元字符）1、？：前面的内容出现0-1次2、+：前面的内容出现1-多次3、*：前面的内容出现0-多次‘’’正则(Regular)：记住的点：1、(.？)2、re.findall()结果是一个列表3、用(.?)的是后，一定要复制，而不是手
python pandas 读取excel单元门公式值_Python pandas对excel的操作实现示例 weixin_39585761 python pandas 读取excel单元门公式值
最近经常看到各平台里都有Python的广告，都是对excel的操作，这里明哥收集整理了一下pandas对excel的操作方法和使用过程。本篇介绍pandas的DataFrame对列(Column)的处理方法。示例数据请通过明哥的gitee进行下载。增加计算列pandas的DataFrame，每一行或每一列都是一个序列(Series)。比如：importpandasaspddf1=pd.read_e
pandas整表写入excel指定位置_pandas操作Excel的常用场景及问题那个吴小明
很多场景下使用pandas就能够胜任手上的excel处理任务，之前写的用python操作具体到excel单元格的方法参考：贺霆：python操作Excel实现自动化报表zhuanlan.zhihu.com现在主要介绍使用pandas读取excel的几种常用场景：一、常规读取importpandasaspdfrompandasimportDataFrame,Seriesimportosos.chdi
如何用Python批量将CSV文件编码转换为UTF-8并转为Excel格式？字节王德发 python python excel 开发语言
在处理数据时，CSV文件格式常常用作数据的交换格式。不过，很多情况下我们会遇到编码问题，特别是当文件不是UTF-8编码时。为了更好地处理这些文件，可能需要将它们转换为UTF-8编码，并且将其转换为Excel格式，这样可以方便后续的数据分析和使用。今天就来聊聊如何用Python实现这一过程。准备工作：安装必要的库我们需要确保安装了所需的Python库。主要用到的库有pandas和openpyxl。p
知识库中的知识如何进行分类和标签管理？自不量力的A同学人工智能
知识库中的知识如何进行分类和标签管理？基于主题分类明确主题层级：首先确定主要的知识主题领域，如在一个企业知识库中，可以分为“人力资源”“市场营销”“技术研发”等大主题。然后在每个大主题下细分小主题，例如在“人力资源”主题下可以有“招聘”“培训”“绩效考核”等子主题。这样的层级分类有助于用户快速定位到自己需要的知识领域。参考行业标准和最佳实践：按照行业内公认的分类标准来划分知识。以医学知识库为例，可
rust的指针作为函数返回值是直接传递，还是先销毁后创建？ wudixiaotie 返回值
这是我自己想到的问题，结果去知呼提问，还没等别人回答，我自己就想到方法实验了。。 fn main() { let mut a = 34; println!("a's addr:{:p}", &a); let p = &mut a; println!("p's addr:{:p}", &a
java编程思想 -- 数据的初始化百合不是茶 java 数据的初始化
1.使用构造器确保数据初始化 /* *在ReckInitDemo类中创建Reck的对象 */ public class ReckInitDemo { public static void main(String[] args) { //创建Reck对象 new Reck(); } }
[航天与宇宙]为什么发射和回收航天器有档期 comsci
地球的大气层中有一个时空屏蔽层,这个层次会不定时的出现,如果该时空屏蔽层出现,那么将导致外层空间进入的任何物体被摧毁,而从地面发射到太空的飞船也将被摧毁... 所以,航天发射和飞船回收都需要等待这个时空屏蔽层消失之后,再进行 &
linux下批量替换文件内容商人shang linux 替换
1、网络上现成的资料　　格式: sed -i "s/查找字段/替换字段/g" `grep 查找字段 -rl 路径` 　　linux sed 批量替换多个文件中的字符串　　sed -i "s/oldstring/newstring/g" `grep oldstring -rl yourdir` 　　例如：替换/home下所有文件中的www.admi
网页在线天气预报 oloz 天气预报
网页在线调用天气预报 <%@ page language="java" contentType="text/html; charset=utf-8" pageEncoding="utf-8"%> <!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transit
SpringMVC和Struts2比较杨白白 springMVC
1. 入口 spring mvc的入口是servlet，而struts2是filter（这里要指出，filter和servlet是不同的。以前认为filter是servlet的一种特殊），这样就导致了二者的机制不同，这里就牵涉到servlet和filter的区别了。参见：http://blog.csdn.net/zs15932616453/article/details/8832343 2
refuse copy, lazy girl! 小桔子 copy
妹妹坐船头啊啊啊啊！都打算一点点琢磨呢。文字编辑也写了基本功能了。。今天查资料，结果查到了人家写得完完整整的。我清楚的认识到： 1.那是我自己觉得写不出的高度 2.如果直接拿来用，很快就能解决问题 3.然后就是抄咩~~ 4.肿么可以这样子，都不想写了今儿个，留着作参考吧！拒绝大抄特抄，慢慢一点点写！
apache与php整合 aichenglong php apache web
一 apache web服务器 1 apeche web服务器的安装 1)下载Apache web服务器 2)配置域名(如果需要使用要在DNS上注册) 3)测试安装访问http://localhost/验证是否安装成功 2 apache管理 1)service.msc进行图形化管理 2)命令管理，配
Maven常用内置变量 AILIKES maven
Built-in properties ${basedir} represents the directory containing pom.xml ${version} equivalent to ${project.version} (deprecated: ${pom.version}) Pom/Project properties Al
java的类和对象百合不是茶 JAVA面向对象类对象
java中的类： java是面向对象的语言，解决问题的核心就是将问题看成是一个类，使用类来解决 java使用 class 类名来创建类，在Java中类名要求和构造方法，Java的文件名是一样的创建一个A类： class A{ } java中的类：将某两个事物有联系的属性包装在一个类中，再通
JS控制页面输入框为只读 bijian1013 JavaScript
在WEB应用开发当中，增、删除、改、查功能必不可少，为了减少以后维护的工作量，我们一般都只做一份页面，通过传入的参数控制其是新增、修改或者查看。而修改时需将待修改的信息从后台取到并显示出来，实际上就是查看的过程，唯一的区别是修改时，页面上所有的信息能修改，而查看页面上的信息不能修改。因此完全可以将其合并，但通过前端JS将查看页面的所有信息控制为只读，在信息量非常大时，就比较麻烦。
AngularJS与服务器交互 bijian1013 JavaScript AngularJS $http
对于AJAX应用（使用XMLHttpRequests）来说，向服务器发起请求的传统方式是：获取一个XMLHttpRequest对象的引用、发起请求、读取响应、检查状态码，最后处理服务端的响应。整个过程示例如下： var xmlhttp = new XMLHttpRequest(); xmlhttp.onreadystatechange
[Maven学习笔记八]Maven常用插件应用 bit1129 maven
常用插件及其用法位于：http://maven.apache.org/plugins/ 1. Jetty server plugin 2. Dependency copy plugin 3. Surefire Test plugin 4. Uber jar plugin 1. Jetty Pl
【Hive六】Hive用户自定义函数(UDF) bit1129 自定义函数
1. 什么是Hive UDF Hive是基于Hadoop中的MapReduce，提供HQL查询的数据仓库。Hive是一个很开放的系统，很多内容都支持用户定制，包括：文件格式：Text File，Sequence File 内存中的数据格式： Java Integer/String, Hadoop IntWritable/Text 用户提供的 map/reduce 脚本：不管什么
杀掉nginx进程后丢失nginx.pid，如何重新启动nginx ronin47 nginx 重启 pid丢失
nginx进程被意外关闭，使用nginx -s reload重启时报如下错误：nginx: [error] open() “/var/run/nginx.pid” failed (2: No such file or directory)这是因为nginx进程被杀死后pid丢失了，下一次再开启nginx -s reload时无法启动解决办法：nginx -s reload 只是用来告诉运行中的ng
UI设计中我们为什么需要设计动效 brotherlamp UI ui教程 ui视频 ui资料 ui自学
随着国际大品牌苹果和谷歌的引领，最近越来越多的国内公司开始关注动效设计了，越来越多的团队已经意识到动效在产品用户体验中的重要性了，更多的UI设计师们也开始投身动效设计领域。但是说到底，我们到底为什么需要动效设计？或者说我们到底需要什么样的动效？做动效设计也有段时间了，于是尝试用一些案例，从产品本身出发来说说我所思考的动效设计。一、加强体验舒适度嗯，就是让用户更加爽更加爽的用你的产品。
Spring中JdbcDaoSupport的DataSource注入问题 bylijinnan java spring
参考以下两篇文章： http://www.mkyong.com/spring/spring-jdbctemplate-jdbcdaosupport-examples/ http://stackoverflow.com/questions/4762229/spring-ldap-invoking-setter-methods-in-beans-configuration Sprin
数据库连接池的工作原理 chicony 数据库连接池
随着信息技术的高速发展与广泛应用，数据库技术在信息技术领域中的位置越来越重要，尤其是网络应用和电子商务的迅速发展，都需要数据库技术支持动态Web站点的运行，而传统的开发模式是：首先在主程序（如Servlet、Beans）中建立数据库连接；然后进行SQL操作，对数据库中的对象进行查询、修改和删除等操作；最后断开数据库连接。使用这种开发模式，对
java 关键字 CrazyMizzz java
关键字是事先定义的，有特别意义的标识符，有时又叫保留字。对于保留字，用户只能按照系统规定的方式使用，不能自行定义。 Java中的关键字按功能主要可以分为以下几类：（1）访问修饰符 public,private,protected p
Hive中的排序语法 daizj 排序 hive order by DISTRIBUTE BY sort by
Hive中的排序语法 2014.06.22 ORDER BY hive中的ORDER BY语句和关系数据库中的sql语法相似。他会对查询结果做全局排序，这意味着所有的数据会传送到一个Reduce任务上，这样会导致在大数量的情况下，花费大量时间。与数据库中 ORDER BY 的区别在于在hive.mapred.mode = strict模式下，必须指定 limit 否则执行会报错。
单态设计模式 dcj3sjt126com 设计模式
单例模式（Singleton）用于为一个类生成一个唯一的对象。最常用的地方是数据库连接。使用单例模式生成一个对象后，该对象可以被其它众多对象所使用。 <?phpclass Example{ // 保存类实例在此属性中 private static&
svn locked dcj3sjt126com Lock
post-commit hook failed (exit code 1) with output: svn: E155004: Working copy 'D:\xx\xxx' locked svn: E200031: sqlite: attempt to write a readonly database svn: E200031: sqlite: attempt to write a
ARM寄存器学习 e200702084 数据结构 C++c C#F#
无论是学习哪一种处理器，首先需要明确的就是这种处理器的寄存器以及工作模式。 ARM有37个寄存器，其中31个通用寄存器，6个状态寄存器。 1、不分组寄存器（R0-R7）不分组也就是说说，在所有的处理器模式下指的都时同一物理寄存器。在异常中断造成处理器模式切换时，由于不同的处理器模式使用一个名字相同的物理寄存器，就是
常用编码资料 gengzg 编码
List<UserInfo> list=GetUserS.GetUserList(11); String json=JSON.toJSONString(list); HashMap<Object,Object> hs=new HashMap<Object, Object>(); for(int i=0;i<10;i++) {
进程 vs. 线程 hongtoushizi 线程 linux 进程
我们介绍了多进程和多线程，这是实现多任务最常用的两种方式。现在，我们来讨论一下这两种方式的优缺点。首先，要实现多任务，通常我们会设计Master-Worker模式，Master负责分配任务，Worker负责执行任务，因此，多任务环境下，通常是一个Master，多个Worker。如果用多进程实现Master-Worker，主进程就是Master，其他进程就是Worker。如果用多线程实现
Linux定时Job：crontab -e 与 /etc/crontab 的区别 Josh_Persistence linux crontab
一、linux中的crotab中的指定的时间只有5个部分：* * * * * 分别表示：分钟，小时，日，月，星期，具体说来：第一段代表分钟 0—59 第二段代表小时 0—23 第三段代表日期 1—31 第四段代表月份 1—12 第五段代表星期几，0代表星期日 0—6 如： */1 * * * * 每分钟执行一次。 *
KMP算法详解 hm4123660 数据结构 C++算法字符串 KMP
字符串模式匹配我们相信大家都有遇过，然而我们也习惯用简单匹配法（即Brute-Force算法)，其基本思路就是一个个逐一对比下去，这也是我们大家熟知的方法，然而这种算法的效率并不高，但利于理解。假设主串s="ababcabcacbab",模式串为t="
枚举类型的单例模式 zhb8015 单例模式
E.编写一个包含单个元素的枚举类型[极推荐]。代码如下： public enum MaYun {himself; //定义一个枚举的元素，就代表MaYun的一个实例private String anotherField;MaYun() {//MaYun诞生要做的事情//这个方法也可以去掉。将构造时候需要做的事情放在instance赋值的时候：/** himself = MaYun() {*
Kafka+Storm+HDFS ssydxa219 storm
cd /myhome/usr/stormbin/storm nimbus &bin/storm supervisor &bin/storm ui &Kafka+Storm+HDFS整合实践kafka_2.9.2-0.8.1.1.tgzapache-storm-0.9.2-incubating.tar.gzKafka安装配置我们使用3台机器搭建Kafk
Java获取本地服务器的IP 中华好儿孙 java Web 获取服务器ip地址
System.out.println("getRequestURL:"+request.getRequestURL()); System.out.println("getLocalAddr:"+request.getLocalAddr()); System.out.println("getLocalPort:&quo