好好学习的星熊

【机器学习】如何使用Bayes_opt、HyperOpt、Optuna优化网格搜索？如何使用贝叶斯搜索调参？

本章内容：

如何使用Bayes_opt实现参数优化，及案例？

如何使用HyperOpt实现参数优化，及案例？

如何使用Optuna实现参数优化，及案例？

HPO库	优劣评价	推荐指数
bayes_opt	✅实现基于高斯过程的贝叶斯优化 ✅当参数空间由大量连续型参数构成时⛔包含大量离散型参数时避免使用⛔算力/时间稀缺时避免使用	⭐⭐
hyperopt	✅实现基于TPE的贝叶斯优化✅支持各类提效工具✅进度条清晰，展示美观，较少怪异警告或报错✅可推广/拓展至深度学习领域⛔不支持基于高斯过程的贝叶斯优化⛔代码限制多、较为复杂，灵活性较差	⭐⭐⭐⭐
optuna	✅（可能需结合其他库）实现基于各类算法的贝叶斯优化✅代码最简洁，同时具备一定的灵活性✅可推广/拓展至深度学习领域⛔非关键性功能维护不佳，有怪异警告与报错	⭐⭐⭐⭐

以上三个库都不支持基于Python环境的并行或加速，大多数优化算法库只能够支持基于数据库（如MangoDB，mySQL）的并行或加速，但以上库都可以被部署在分布式计算平台。

关于贝叶斯参数优化实现方式，需要了解的几点：

贝叶斯优化需要自定义目标函数、参数空间、优化器，通常不直接调库；

不同的贝叶斯方式下，定义目标函数、参数空间、优化器的规则不同，各有自己的规则

基于以上两点，下面介绍三种HPO库时，主要内容为①介绍自定义的规则，②案例的整个流程；

另外以下案例中，弱评估器均采用随机森林。

1 基于Bayes_opt实现GP优化

使用Bayes_opt时，通常为以下情况：

当且仅当必须要实现基于高斯过程的贝叶斯优化时；
算法的参数空间中有大量连续型参数；

因为bayes_opt对参数空间的处理方法较原始，缺乏相应的提升/监控供销，对算力的要求较高，往往不是调参的第一选择。

bayes_opt特点

运行时间（越小越好）：bayes_opt<随机网格搜索<网格搜索
模型效果（越大越好）：bayes_opt>随机网格搜索>网格搜索
优化过程无法复现，但优化结果可以复现
效率不足。
实际上在迭代到170次时，贝叶斯优化就已经找到了最小损失，但由于没有提前停止机制，模型还持续地迭代了130次才停下，如果bayes_opt支持提前停止机制，贝叶斯优化所需的实际迭代时间可能会更少。
同时，由于Bayes_opt只能够在参数空间提取浮点数，bayes_opt在随机森林上的搜索效率是较低的，即便在10次不同的迭代中分别取到了[88.89, 88.23……]等值，在取整后只能获得一个备选值88，但bayes_opt无法辨别这种区别，因此可能取出了众多无效的观测点。如果使用其他贝叶斯优化器，贝叶斯优化的效率将会更高。
支持灵活修改采集函数与高斯过程中的种种参数，详细介绍可参考：https://github.com/fmfn/BayesianOptimization/blob/master/examples/advanced-tour.ipynb

1.1 bayes_opt对目标函数的规则

目标函数的输入必须是具体的超参数，而不能是整个超参数空间，更不能是数据、算法等超参数以外的元素。因此在定义目标函数时，我们需要让超参数作为目标函数的输入。

示例：括号内必须是弱评估器的超参数
```
def bayesopt_objective(n_estimators,max_depth):
```
超参数的输入值只能是浮点数，不支持整数与字符串。因此当算法的实际参数需要输入字符串时，该参数不能使用bayes_opt进行调整，当算法的实际参数需要输入整数时，则需要在目标函数中规定参数的类型。

示例：括号里的超参数只能是浮点数：比如随机森林的参数criterion输入内容为‘gini’，这就是字符串，所以criterion这个参数不能放到里面。
```
def bayesopt_objective(n_estimators,max_depth):
```
示例：整数参数需要在设定时改为浮点数格式，如红色部分所示：树的棵数只能是整数，所以需要在设定时使用int()改为浮点数。
```
def bayesopt_objective(n_estimators):
        	model=RFR(n_estimators=int(n_estimators)
```
bayes_opt只支持寻找()的最大值，不支持寻找最小值。因此当定义的目标函数是某种损失时，目标函数的输出需要取负（即，如果使用RMSE，则应该让目标函数输出负RMSE，这样最大化负RMSE后，才是最小化真正的RMSE。）当定义的目标函数是准确率，或者auc等指标，则可以让目标函数的输出保持原样。

1.2 bayes_opt对参数空间的规则

必须使用字典方式来定义参数空间，其中键为参数名称，值为参数的取值范围；
只支持填写参数空间的上界与下界，不支持填写步长等参数，且为双向闭区间；
会将所有参数都当作连续型超参进行处理，因此bayes_opt会直接取出闭区间中任意浮点数作为备选参数（这也是设定目标函数时，为什么要int()的原因）。

由于以上规则，输入bayes_opt的参数空间天生会比其他贝叶斯优化库更大/更密，因此需要的迭代次数也更多。

1.3 bayes_opt的随机性注意事项

随机性无法控制。即使填写随机数种子，优化算法每次运行一定都会不一样，即优化算法无法被复现。
最佳超参数的结果可以被复现。
取出最佳参数组合以及最佳分数，该最佳参数组合被输入到交叉验证中后，是一定可以复现其最佳分数的。
如果没能复现最佳分数，则是交叉验证过程的随机数种子设置存在问题，或者优化算法的迭代流程存在问题。

1.4 案例：bayes_opt参数优化_房价数据集_python

# pip install bayesian-optimization
from bayes_opt import BayesianOptimization
from sklearn.ensemble import RandomForestRegressor as RFR
from sklearn.model_selection import KFold,cross_validate

自定义随机森林模型和交叉验证模型，返回测试集的根均方误差

# 自定义随机森林模型和交叉验证模型，返回测试集的根均方误差

def bayesopt_objective(n_estimators,max_depth,max_features,min_impurity_decrease):
    model=RFR(n_estimators=int(n_estimators)
            ,max_depth=int(max_depth)
            ,max_features=int(max_features)
            ,min_impurity_decrease=min_impurity_decrease
            ,random_state=7
            ,n_jobs=-1
           )
    cv=KFold(n_splits=5,shuffle=True,random_state=7)
    validation_loss=cross_validate(model
                                   ,X,y
                                   ,scoring='neg_root_mean_squared_error'
                                   ,cv=cv
                                   ,n_jobs=-1
                                   ,error_score='raise' # 出错时报错，但不停止，如果设置为nan，将停止迭代
                                  )
    return np.mean(validation_loss['test_score'])

自定义优化器

# 自定义优化器
def param_bayes_opt(init_points,n_iter):
    opt=BayesianOptimization(bayesopt_objective
                             ,param_grid_simple
                             ,random_state=7)
    
    # 使用优化器
    opt.maximize(init_points=init_points # 抽取多少个初始观测值
                 ,n_iter=n_iter # 总共观测/迭代次数
                )
    
    # 返回优化结果
    params_best=opt.max['params'] # 返回最佳参数
    score_best=opt.max['target'] # 返回最佳分数
    
    # 打印结果
    print("\n","best params: ", params_best,
          "\n","best cvscore: ", score_best)
    
    return params_best,score_best

自定义最优参数验证

# 自定义验证函数，返回bayes_opt最优参数的RMSE

def bayes_opt_validation(params_best):
    model=RFR(n_estimators=int(params_best['n_estimators'])
            ,max_depth=int(params_best['max_depth'])
            ,max_features=int(params_best['max_features'])
            ,min_impurity_decrease=int(params_best['min_impurity_decrease'])
            ,random_state=7
            ,n_jobs=-1
           )
    cv=KFold(n_splits=5,shuffle=True,random_state=7)
    validation_loss=cross_validate(model
                                   ,X,y
                                   ,scoring='neg_root_mean_squared_error'
                                   ,cv=cv
                                   ,n_jobs=-1
                                  )
    return np.mean(validation_loss['test_score'])

运行

data=pd.read_csv(r'C:\Users\EDZ\test\ML-2 courseware\Lesson 9.随机森林模型\datasets\House Price\train_encode.csv',index_col=0)
X=data.iloc[:,:-1]
y=data.iloc[:,-1]

param_grid_simple={'n_estimators':(80,100)
                  ,'max_depth':(15,25)
                  ,'max_features':(10,20)
                  ,'min_impurity_decrease':(20,24)
                  }

params_best,score_best=param_bayes_opt(20,280)

params_best # 打印最优参数组合
score_best # 打印最优参数评分
validation_score=bayes_opt_validation(params_best) # 参数组合验证
validation_score # day

2 基于HyperOpt实现TPE优化

HyperOpt特点

最通用优化器；
运行时间（越小越好）：HyperOpt
模型效果（越大越好）：HyperOpt>bayes_opt>随机网格搜索>网格搜索；
代码精密度要求较高、灵活性较差，略微的改动就可能让代码疯狂报错难以跑通。
相比基于高斯过程的贝叶斯优化，基于高斯混合模型的TPE在大多数情况下以更高效率获得更优结果；
HyperOpt所支持的优化算法也不够多。如果专注地使用TPE方法，则掌握HyperOpt即可，更深入可接触Optuna库。

2.1 HyperOpt对目标函数的规则

目标函数的参数空间输入必须是符合hyperopt规定的字典
Hyperopt只支持寻找()的最小值，不支持寻找最大值

2.2 HyperOpt对参数空间的规则

HyperOpt定义参数空间，有如下几种字典形式

hp.quniform(“参数名称”, 下界, 上界, 步长) - 适用于均匀分布的浮点数
hp.uniform(“参数名称”,下界, 上界) - 适用于随机分布的浮点数
hp.randint(“参数名称”,上界) - 适用于[0,上界)的整数，区间为前闭后开
hp.choice(“参数名称”,[“字符串1”,“字符串2”,…]) - 适用于字符串类型，最优参数由索引表示
hp.choice(“参数名称”,[*range(下界，上界，步长)]) - 适用于整数型，最优参数由索引表示
hp.choice(“参数名称”,[整数1,整数2,整数3,…]) - 适用于整数型，最优参数由索引表示
hp.choice(“参数名称”,[“字符串1”,整数1,…]) - 适用于字符与整数混合，最优参数由索引表示

如无特殊说明，hp中的参数空间定义方法应当都为前闭后开区间。

HyperOpt定义参数空间，选择字典形式的思路：

对于需要取整数的参数值，采用quniform方式构筑参数空间。
- quniform能获得均匀分布的浮点数来替代整数；
- 需要在目标函数中使用int函数限定输入类型。例如，在范围[0,5]中取值时，可以取出[0.0, 1.0, 2.0, 3.0,…]这种均匀浮点数，在输入目标函数时，则必须确保参数值前存在int函数。如果使用hp.choice则不会存在该问题。
hp.choice最终会返回最优参数的索引，容易与数值型参数的具体值混淆，用于字符串；
hp.randint只能够支持从0开始进行计数。

2.3 HyperOpt的优化器介绍

HyperOpt优化目标函数时，涉及的功能/库

fmin：用于优化的基础功能
- 在fmin中，我们可以自定义使用的代理模型（参数algo），一般来说我们有tpe.suggest以及rand.suggest两种选项，前者指代TPE方法，后者指代随机网格搜索方法。
partial：修改算法涉及到的具体参数
- 包括模型具体使用了多少个初始观测值（参数n_start_jobs），以及在计算采集函数值时究竟考虑多少个样本（参数n_EI_candidates）。
trials：记录整个迭代过程
- 一般输入从hyperopt库中导入的方法Trials()
- 当优化完成之后，可以从保存好的trials中查看损失、参数等各种中间信息；
early_stop_fn：提前停止
- 一般输入从hyperopt库导入的方法no_progress_loss()
- 这个方法中可以输入具体的数字n，表示当损失连续n次没有下降时，让算法提前停止。
- 由于贝叶斯方法的随机性较高，当样本量不足时需要多次迭代才能够找到最优解，因此一般no_progress_loss()中的数值不会设置得太高。在我们的课程中，由于数据量较少，我设置了一个较高的值来避免迭代停止太早。

2.4 案例：HyperOpt参数优化_房价数据集_python

# pip install hyperopt
# pip install optuna

import optuna
print(optuna.__version__)

import hyperopt
print(hyperopt.__version__)

from sklearn.ensemble import RandomForestRegressor as RFR
from sklearn.model_selection import KFold,cross_validate
from bayes_opt import BayesianOptimization
from hyperopt import hp,fmin,tpe,Trials,partial
from hyperopt.early_stop import no_progress_loss

设定参数空间

	# 设定参数空间
param_grid_simple={'n_estimators':hp.quniform('n_estimators',80,100,1)
                   ,'max_depth':hp.quniform('max_depth',10,25,1)
                   ,'max_features':hp.quniform('max_features',10,20,1)
                   ,'min_impurity_decrease':hp.quniform('min_impurity_decrease',20,25,1)
                  }

# 计算参数空间的大小
len([*range(80,100,1)])*len([*range(10,25,1)])*\
len([*range(10,20,1)])*len([range(20,25,1)])

设定目标函数

# 设定目标函数_基评估器选择随机森林

def hyperopt_objective(params):
    model=RFR(n_estimators=int(params['n_estimators'])
              ,max_depth=int(params['max_depth'])
              ,max_features=int(params['max_features'])
              ,min_impurity_decrease=params['min_impurity_decrease']
              ,random_state=7
              ,n_jobs=4)
    
    cv=KFold(n_splits=5,shuffle=True,random_state=7)
    validate_loss=cross_validate(model,X,y
                                   ,cv=cv
                                   ,scoring='neg_root_mean_squared_error'
                                   ,n_jobs=-1
                                   ,error_score='raise')
    
    return np.mean(abs(validate_loss['test_score']))

设定优化过程

# 设定优化过程

def param_hyperopt(max_evals=100):
    # 记录迭代过程
    trials=Trials()
    
    # 提前停止
    early_stop_fn=no_progress_loss(100) # 当损失函数的连续迭代100次都没有下降时，则停止；正常10-50即可
    
    # 定义代理模型
    # algo=partial(tpe.suggest # 设置代理模型的算法
		#	,n_sratup_jobs=20 # 设置初始样本量
		#	,n_EI_candidates=50) # 设置使用多少样本点来计算采集函数
    params_best=fmin(hyperopt_objective # 设定目标函数
                     ,space=param_grid_simple # 设定参数空间
                     ,algo=tpe.suggest # 设定代理模型，如果需要自定义代理模型，使用前面algo=……的代码
                     ,max_evals=max_evals # 设定迭代次数
                     ,trials=trials 
                     ,early_stop_fn=early_stop_fn # 控制提前停止
                    )
    
    print('best parmas:',params_best)
    return params_best,trials

设定验证函数

# 设定验证函数(和设定目标函数的代码一致)
def hyperopt_validation(params):
    model=RFR(n_estimators=int(params['n_estimators'])
              ,max_depth=int(params['max_depth'])
              ,max_features=int(params['max_features'])
              ,min_impurity_decrease=params['min_impurity_decrease']
              ,random_state=7
              ,n_jobs=4)
        
    cv=KFold(n_splits=5,shuffle=True,random_state=7)
    validate_loss=cross_validate(model,X,y
                                   ,cv=cv
                                   ,scoring='neg_root_mean_squared_error'
                                   ,n_jobs=-1
                                  )
    
    return np.mean(abs(validate_loss['test_score']))

执行实际优化流程

# 执行实际优化流程

# 1. 计算1%空间时的优化过程，返回最佳参数组合和迭代过程
params_best,trials=param_hyperopt(30) 

#2. 计算3%空间时的优化过程，返回最佳参数组合和迭代过程
params_best, trials = param_hyperopt(100)

#3. 计算10%空间时的优化过程，返回最佳参数组合和迭代过程
params_best, trials = param_hyperopt(300)

# 根据最佳参数组合验证模型，返回RMSE
hyperopt_validation(params_best)

#打印所有搜索相关的记录
trials.trials[0]

#打印全部搜索的目标函数值
trials.losses()[:10]

3 基于Optuna实现多种贝叶斯优化

Optuna的特点

Optuna的优势在于，可以无缝衔接到PyTorch、Tensorflow等深度学习框架上，也可以与sklearn的优化库scikit-optimize结合使用，因此Optuna可以被用于各种各样的优化场景。
基于高斯过程的贝叶斯优化比基于TPE的贝叶斯优化运行更加缓慢。
不支持提前停止；
Optuna可能存在抽样BUG，即持续抽到曾经被抽到过的参数组合，并显示警告，这时的迭代可能无效。可以考虑增大参数空间的范围或密度以消除该问题。

3.1 Optuna对目标函数、参数空间的规则

不需要将参数或参数空间输入目标函数，而是需要直接在目标函数中定义参数空间
Optuna优化器会生成一个指代备选参数的变量trial，该变量无法被用户获取或打开，但该变量在优化器中生存，并被输入目标函数。在目标函数中，我们可以通过变量trail所携带的方法来构造参数空间。
既可以输出 $f (x)$ 的最大值，也可以输出最小值

3.2 Optuna的优化器介绍

调整参数algo来自定义用于执行贝叶斯优化的具体算法；
设置样本抽样的算法为TPE，比GP（高斯）迭代速度更快。

3.3 案例：Optuna参数优化_房价数据集_python

# 准备数据及库

# pip install optuna
# pip install scikit-optimize

import optuna
optuna.__version__

data=pd.read_csv(r'E:\jupyter_notebook\机器学习二期课程课件\Lesson 9.随机森林模型\datasets\House Price\train_encode.csv',index_col=0)
X=data.iloc[:,:-1]
y=data.iloc[:,-1]
X.head()

from sklearn.ensemble import RandomForestRegressor as RFR
from sklearn.model_selection import KFold,cross_validate

# 定义目标函数

def optuna_objective(trial):
    n_estimators=trial.suggest_int('n_estimators',80,100,1) # 整数型：suggest_int('参数名称',下界，上界，步长) 
    max_depth=trial.suggest_int('max_depth',10,25,1)
    max_features=trial.suggest_int('max_features',10,20,1)
#     max_features=trial.suggest_categorical('max_features',['log2','sqrt','auto']) # 字符型
    min_impurity_decrease=trial.suggest_int('min_impurity_decrease',20,25,1)
#     min_impurity_decrease=trial.suggest_float('min_impurity_decrease',20,25,log=False) # 浮点型

    model=RFR(n_estimators=n_estimators
              ,max_depth=max_depth
              ,max_features=max_features
              ,min_impurity_decrease=min_impurity_decrease
              ,random_state=7
              ,n_jobs=12
             )
    
    cv=KFold(n_splits=5,shuffle=True,random_state=7)
    validate_loss=cross_validate(model,X,y
                                 ,cv=cv
                                 ,scoring='neg_root_mean_squared_error'
                                 ,n_jobs=12
                                 ,error_score='raise'
                                )
    
    return np.mean(abs(validate_loss['test_score']))

# 定义优化过程

def optimizer_optuna(n_trials,algo):
    if algo=='TPE':
        algo=optuna.samplers.TPESampler(n_strarup_trials=10,n_ei_candidates=24)
    elif algo=='GP':
        from optuna.integration import SkoptSampler
        import skopt
        algo=SkoptSampler(skopt_kwargs={'base_estimator':'GP'
                                        ,'n_initial_points':10
                                        ,'acq_func':'EI'
                                       }
                         )
        
    study=optuna.create_study(sampler=algo # 定义样本抽样的算法
                              ,direction='minimize' # 定义目标函数优化方向是最大值，还是最小值
                             )
    
    study.optimize(optuna_objective # 目标函数
                   ,n_trials=n_trials # 设定最大迭代次数（包括最初观测值）
                   ,show_progress_bar=True # 要不要展示进度条
                  )
    print('best parmas:',study.best_trial.params,
         '\n','best score:',study.best_trial.values)
    
    return study.best_trial.params,study.best_trial.values

# 执行流程
import warnings
warnings.filterwarnings('ignore',message='The objective has been evaluated at this point before.')

best_params,best_score=optimizer_optuna(10,'GP') # 小迭代次数代码测试

optuna.logging.set_verbosity(optuna.logging.ERROR) # 关闭打印迭代过程
best_params,best_score=optimizer_optuna(300,'GP')

【Python 语法】Python 神经网络项目常用语法一杯水果茶！人生苦短我用 Python python
基础1.导入模块和包2.修改系统路径(sys.path.append)3.命令行参数解析(argparse模块)4.assert确保正确性5.main()脚本入口点6.辅助函数生成器函数`cycle(dl)`一、常用函数1.`.cuda()`/`.cpu()`和`torch.device`2.`torch.zeros`、`torch.randn`、`torch.arrange`、`torch.po
python中的字典类型_Python中字典数据类型石墨稀 python中的字典类型
一.创建字典方法①:>>>dict1={}>>>dict2={'name':'earth','port':80}>>>dict1,dict2({},{'port':80,'name':'earth'})方法②:从Python2.2版本起>>>fdict=dict((['x',1],['y',2]))>>>fdict{'y':2,'x':1}方法③:从Python2.3版本起,可以用一个很方便的内建
Python 中的列表（List）和元组（Tuple） shangjg3 Python python 开发语言
1.定义与语法差异1.列表的定义列表使用方括号`[]`定义，元素之间用逗号分隔。列表的元素可以是不同数据类型，甚至嵌套其他列表或元组。my_list=[1,"hello",True,[2,3]]2.元组的定义元组使用圆括号`()`定义，同样支持混合数据类型。需要注意的是，定义单元素元组时必须在元素后加逗号，以区别于数学表达式中的括号。my_tuple=(1,"world",False,(4,5))
Python 列表
列表是由一系列按特定顺序排列的元素组成。在python中用方括号（[]）来表示列表并用逗号来分隔其中的元素。例如：bicycles=['trek','cannondale','redline']。访问列表元素时，只需将该元素的索引值或位置告诉Python即可。（索引值由0开始）>>>names=['zhao','qian','sun','li']>>>print(names[0])zhao创建的大
列表简单数据类型天池小晨 python
整型浮点型布尔型容器数据类型列表元组字典集合字符串1.列表的定义列表是有序集合，没有固定大小，能够保存任意数量任意类型的Python对象，语法为[元素1,元素2,...,元素n]。关键点是「中括号[]」和「逗号,」中括号把所有元素绑在一起逗号将每个元素一一分开2.列表的创建创建一个普通列表【例子】1x=['Monday','Tuesday','Wednesday','Thursday','Frid
Python-难点-获取项目根目录
1需求2接口3示例4参考资料在Python中，“设置根目录”通常指指定项目的基准路径，以便统一管理文件路径。以下是几种常见方法，结合不同场景和兼容性需求：一、基于路径拼接（最常用）通过手动拼接路径来定义根目录，适用于结构固定的项目。importos#方法1：根据当前文件位置向上递归定义（推荐）defset_project_root():current_file=os.path.abspath(__
JSON和JSONL、python操作 weixin_668 json python
JSONJSON（JavaScriptObjectNotation）是一种轻量级的数据交换格式，基于文本、易于读写，并支持多种数据结构。以下是常见的JSON格式及示例：1.简单对象（键值对）{"name":"Alice","age":25,"isStudent":true}2.嵌套对象{"person":{"name":"Bob","address":{"city":"NewYork","zipc
python 抓取小红书小五咔咔咔 python 开发语言
python相关学习资料：https://edu.51cto.com/video/3832.htmlhttps://edu.51cto.com/video/4102.htmlhttps://edu.51cto.com/video/1158.htmlPython抓取小红书数据的科普文章小红书是一个流行的社交电商平台，用户可以分享购物心得、生活点滴等。本文将介绍如何使用Python语言抓取小红书的数据
利用 Python 爬取小红书热门笔记并进行标签关键词分析程序员威哥最新爬虫实战项目 python 笔记开发语言
一、背景与目标小红书（RED）作为中国最活跃的内容社区之一，拥有大量关于美妆、穿搭、美食、旅游等领域的用户生成内容（UGC）。对于产品、品牌方或研究人员来说，提取热门笔记的标签关键词，可以有效捕捉用户关注点、消费趋势及内容热词。本项目目标：使用Python爬取小红书某个话题下的热门笔记；分析每篇笔记中的标题、正文、标签等字段；利用NLP技术提取高频关键词；对关键词进行可视化与聚类分析。二、技术难点
python JSON Lines (JSONL)的保存和读取；jsonl的数据保存和读取，大模型prompt文件保存常用格式医学小达人常用算法 NLP prompt JSON Lines JSONL jsonl jsonl文件保存读取
1.JSONLines(JSONL)文件保存将一个包含多个字典的列表保存为JSONLines(JSONL)格式的文件，每个字典对应一个JSONL文件中的一行。以下是如何实现这一操作的Python代码importjson#定义包含字典的列表data=[{"id":1,"name":"Alice","age":30,"email":"[email protected]"},{"id":2,"name"
四十行Python代码，带你爬取热门音乐评论，制作评论词云图！
请求页面数据driver.get(‘https://music.163.com/#/song?id=569213220’)#selenium无法直接获取到嵌套页面里面的数据switch_to.frame()切换到嵌套网页driver.switch_to.frame(0)让浏览器加载的时候,等待渲染页面driver.implicitly_wait(10)driver.page_source获取请求页
Python 处理图像并生成 JSONL 元数据文件 - 固定text版本
Python处理图像并生成JSONL元数据文件-固定text版本flyfishJSONL（JSONLines）简介JSONL（JSONLines，也称为newline-delimitedJSON）是一种轻量级的数据序列化格式，由一系列独立的JSON对象组成，每行一个有效的JSON对象，行与行之间通过换行符（\n）分隔。JSONL是传统JSON的“轻量化”变体，通过“每行一个JSON对象”的设计，解
jxORM--编程指南 jxandrew jxWebUI 数据库 python jxWebUI jxORM ORM
jxORM是jxWebUI配套的数据库操作库，可以简化python程序员操作数据库。声明数据类定义数据类之前，先导入ORM修饰符：fromjxORMimportORM,DBDataType,ColType然后就可以用ORM修饰符来修饰一个类，从而定义一个数据类：@ORMclassUser:ID:DBDataType.Long=ColType.PrimaryKeyCreateTime:DBDataT
深度学习系列-----＞环境搭建（Ubuntu）二师兄用飘柔深度学习历程深度学习 ubuntu 人工智能 pytorch python
1、前言电脑基础系统硬件情况：系统：ubuntu18.04、显卡：GTX1050Ti；后续的环境搭建都在此基础上进行。此次学习选择Pytorch作为深度学习的框架，选择的原因主要由于PyTorch在研究领域特别受欢迎，较多的论文框架也是基于其开发。2、anaconda+python3安装测试在学习深度学习的过程中会涉及到使用不同版本python包的问题，而anaconda可以便捷获取包且对包能够进
Python中的enumerate()函数冉成未来 Service python 开发语言
文章目录基本用法参数说明特点实际应用与zip()的比较注意事项enumerate()是Python内置的一个非常有用的函数，它用于在遍历可迭代对象（如列表、元组、字符串等）时，同时获取元素的索引和值。基本用法fruits=['apple','banana','cherry']forindex,fruitinenumerate(fruits):print(index,fruit)输出：0apple1
空间曲线正交投影及其距离计算的理论与实践老歌老听老掉牙 python 正交投影
引言：正交投影的几何本质在三维空间中，正交投影是一种基础而重要的几何变换，它将空间中的点沿特定方向映射到一个平面上。当我们考虑将空间曲线投影到由给定法向量n\mathbf{n}n定义的平面时，这一问题在计算机图形学、CAD/CAM系统和科学计算中具有广泛应用。本文将从数学原理、Python实现到距离计算的等价性问题，全面探讨这一几何操作的深层内涵。设空间曲线由参数方程r(t)=(x(t),y(t)
pip是如何卸载你安装的第三方库的酷python python python
使用pipuninstall命令可以卸载掉你所安装的第三方库，所有与其相关的文件都将被pip整理出来展示并询问是否真的要删除，类似下面的提示pipuninstallnoxFoundexistinginstallation:nox2020.8.22Uninstallingnox-2020.8.22:Wouldremove:d:\python\lib\site-packages\nox-2020.8.
深度学习-常用环境配置瑶山 AI linux 人工智能 windows CUDA PyTorch
目录Miniconda安装安装NVIDIA显卡驱动安装CUDA和cnDNNCUDAcuDNNPyTorch安装手动下载测试Miniconda安装最新版Miniconda搭建Python环境_miniconda创建python虚拟环境-CSDN博客安装NVIDIA显卡驱动直接进NVIDIA官网：NVIDIAGeForce驱动程序-N卡驱动|NVIDIA在这里有GeForce驱动程序，立即下载，这是下
机器学习初学者理论初解 Mikhail_G 机器学习人工智能
大家好!为什么手机相册能自动识别人脸？为什么购物网站总能推荐你喜欢的商品？这些“智能”背后，都藏着一位隐形高手——机器学习（MachineLearning）。一、什么是机器学习？简单说，机器学习是教计算机从数据中自己找规律的技术。就像教孩子认猫：不是直接告诉他“猫有尖耳朵和胡须”，而是给他看100张猫狗照片，让他自己总结出猫的特征。传统程序vs机器学习传统程序：输入规则+数据→输出结果（例：按“温
Nginx IP授权页面实现步骤
目标：一、创建白名单文件sudomkdir-p/usr/local/nginx/conf/whitelistsudotouch/usr/local/nginx/conf/whitelist/temporary.conf二、创建Python认证服务文件路径：/opt/script/auth_server.pyimportosimporttimefromflaskimportFlask,request
高阶知识库搭建实战五、（向量数据库Milvus安装）伯牙碎琴大模型数据库 milvus 大模型 AI
以下是关于在Windows环境下直接搭建Milvus向量数据库的教程：本教程分两部分，第一部分是基于docker安装，在Windows环境下直接安装Milvus向量数据库，目前官方推荐的方式是通过Docker进行部署，因为Milvus的运行环境依赖于Linux系统。如果你希望在Windows上直接运行Milvus，可以考虑使用MilvusLite版本，这是一个轻量级的Python库，适用于快速原型
Embedding与向量数据库玖月初玖大模型应用开发基础人工智能 embedding 数据库
1.Embedding是什么EmbeddingModel是一种机器学习模型，它的核心任务是将离散的、高维的符号（如单词、句子、图片、用户、商品等）转换成连续的、低维的向量（称为“嵌入”或“向量表示”），并且这个向量能有效地捕捉原始符号的语义、关系或特征。1.1通俗理解EmbeddingModel是让计算机“理解”世界的核心工具，把“文字、图片、音频”等信息变成一串有意义的数字我们称之为“向量”。类
python分布式事务_分布式事务系列（2.1）分布式事务的概念
#1系列目录#2X/OpenDTPDTP全称是DistributedTransactionProcess，即分布式事务模型。之前我们接触的事务都是针对单个数据库的操作，如果涉及多个数据库的操作，还想保证原子性，这就需要使用分布式事务了。而X/OpenDTP就是一种分布式事务处理模型。##2.1X/OpenDTP模型X/Open是一个组织，维基百科上这样说明：X/Open是1984年由多个公司联合创
LLM初识
从零到一：用Python和LLM构建你的专属本地知识库问答机器人摘要：随着大型语言模型（LLM）的兴起，构建智能问答系统变得前所未有的简单。本文将详细介绍如何使用Python，结合开源的LLM和向量数据库技术，一步步搭建一个基于你本地文档的知识库问答机器人。你将学习到从环境准备、文档加载、文本切分、向量化、索引构建到最终实现问答交互的完整流程。本文包含详细的流程图描述、代码片段思路和关键注意事项，
CCF-GESP 等级考试 2025年6月认证Python四级真题解析
1单选题（每题2分，共30分）第1题2025年4月19日在北京举行了一场颇为瞩目的人形机器人半程马拉松赛。比赛期间，跑动着的机器人会利用身上安装的多个传感器所反馈的数据来调整姿态、保持平衡等，那么这类传感器类似于计算机的()。A.处理器B.存储器C.输入设备D.输出设备解析：答案：C。所有传感器都用于采集数据，属于输入设备，故选C。第2题小杨购置的计算机使用一年后觉得内存不够用了，想购置一个容量更
推荐开源项目：Milvus Lite —— 轻量级向量数据库，助力AI应用快速起飞穆希静
推荐开源项目：MilvusLite——轻量级向量数据库，助力AI应用快速起飞项目介绍MilvusLite是知名开源向量数据库Milvus的轻量级版本，专为需要在小型环境中进行向量嵌入和相似性搜索的AI应用设计。通过将MilvusLite导入您的Python应用，您可以直接使用Milvus的核心向量搜索功能。MilvusLite已集成在PythonSDKofMilvus中，只需通过pipinstal
【华为419机考真题】服务器能耗统计，JAVA 题解梦想橡皮擦华为服务器 java 华为OD机试华为OD
最近更新的博客华为od2023|什么是华为od，od薪资待遇，od机试题清单华为OD机试真题大全，用Python解华为机试题|机试宝典【华为OD机试】全流程解析+经验分享,题型分享,防作弊指南华为od机试，独家整理已参加机试人员的实战技巧本篇题解：服务器耗能题目描述服务器有三种运行状态：空载，单任务，多任务，每个时间片的能耗的分别为111、333、444，每个任务由起始时间片和结束时间片定义运行时
python2.x里面的input（）和raw_input（）函数以及3.x中的input（）函数的区别 scuter_yu python python input函数 raw_input函数 3.x中的input函数
在python3.0及以上的版本中，raw_input（）函数已经和我们说再见了，但是呢，input（）函数则很好地替代了消失了的raw_input（）函数。而且现在的input（）函数所返回的值都是字符串，所以对于要有int，float等类型的数值必须进行强制的类型转换。下面让我对3.0的input（）函数做个小总结：>>>str=input("abc:")abc:15>>>str'15'(虽然
代码相关（python）一个月只能修改一次次代码 python
python程序崩溃提示符用python的时候的各个tips矩阵python判断某个矩阵是否满足要求python生成二维随机数文件/档python检查某个文件存不存在python添加有特定字段的文件到列表python矩阵保存为txt文档python按行读文档python写文档python文档操作字符串python用split来拆分字符串python搜索字符串某个字符的位置给字符串前/后添加字符画图
2023年第10期(NeuroImage)：DomainATM：多中心医学图像数据标准化工具箱影浮科技ImageFlow
基本信息1.标题：DomainATM:Domainadaptationtoolboxformedicaldataanalysis.2.期刊：NeuroImage3.IF/JCR/分区：7.4/Q1/中科院一区4.DOI：10.1016/j.neuroimage.2023.119863目录1、导读2、背景动机3、研究目的4、工具箱介绍5、测试试验6、局限不足1导读域适应（DA）是基于机器学习的现代医
安装数据库首次应用 Array_06 java oracle sql
可是为什么再一次失败之后就变成直接跳过那个要求 enter full pathname of java.exe的界面这个java.exe是你的Oracle 11g安装目录中例如：【F:\app\chen\product\11.2.0\dbhome_1\jdk\jre\bin】下的java.exe 。不是你的电脑安装的java jdk下的java.exe！注意第一次，使用SQL D
Weblogic Server Console密码修改和遗忘解决方法 bijian1013 Welogic
在工作中一同事将Weblogic的console的密码忘记了，通过网上查询资料解决，实践整理了一下。一.修改Console密码打开weblogic控制台，安全领域 --> myrealm -->&n
IllegalStateException: Cannot forward a response that is already committed Cwind java Servlets
对于初学者来说，一个常见的误解是：当调用 forward() 或者 sendRedirect() 时控制流将会自动跳出原函数。标题所示错误通常是基于此误解而引起的。示例代码： protected void doPost() { if (someCondition) { sendRedirect(); } forward(); // Thi
基于流的装饰设计模式木zi_鸣设计模式
当想要对已有类的对象进行功能增强时，可以定义一个类，将已有对象传入，基于已有的功能，并提供加强功能。自定义的类成为装饰类模仿BufferedReader，对Reader进行包装，体现装饰设计模式装饰类通常会通过构造方法接受被装饰的对象，并基于被装饰的对象功能，提供更强的功能。装饰模式比继承灵活，避免继承臃肿，降低了类与类之间的关系装饰类因为增强已有对象，具备的功能该
Linux中的uniq命令被触发 linux
Linux命令uniq的作用是过滤重复部分显示文件内容，这个命令读取输入文件，并比较相邻的行。在正常情况下，第二个及以后更多个重复行将被删去，行比较是根据所用字符集的排序序列进行的。该命令加工后的结果写到输出文件中。输入文件和输出文件必须不同。如果输入文件用“- ”表示，则从标准输入读取。 AD： uniq [选项] 文件说明：这个命令读取输入文件，并比较相邻的行。在正常情况下，第二个
正则表达式Pattern 肆无忌惮_ Pattern
正则表达式是符合一定规则的表达式，用来专门操作字符串，对字符创进行匹配，切割，替换，获取。例如，我们需要对QQ号码格式进行检验规则是长度6~12位不能0开头只能是数字，我们可以一位一位进行比较，利用parseLong进行判断，或者是用正则表达式来匹配[1-9][0-9]{4,14} 或者 [1-9]\d{4,14} &nbs
Oracle高级查询之OVER (PARTITION BY ..) 知了ing oracle sql
一、rank()/dense_rank() over(partition by ...order by ...) 现在客户有这样一个需求，查询每个部门工资最高的雇员的信息，相信有一定oracle应用知识的同学都能写出下面的SQL语句： select e.ename, e.job, e.sal, e.deptno from scott.emp e, (se
Python调试矮蛋蛋 python pdb
原文地址： http://blog.csdn.net/xuyuefei1988/article/details/19399137 1、下面网上收罗的资料初学者应该够用了，但对比IBM的Python 代码调试技巧： IBM：包括 pdb 模块、利用 PyDev 和 Eclipse 集成进行调试、PyCharm 以及 Debug 日志进行调试： http://www.ibm.com/d
webservice传递自定义对象时函数为空，以及boolean不对应的问题 alleni123 webservice
今天在客户端调用方法 NodeStatus status=iservice.getNodeStatus(). 结果NodeStatus的属性都是null。进行debug之后，发现服务器端返回的确实是有值的对象。后来发现原来是因为在客户端，NodeStatus的setter全部被我删除了。本来是因为逻辑上不需要在客户端使用setter，结果改了之后竟然不能获取带属性值的
java如何干掉指针，又如何巧妙的通过引用来操作指针————>说的就是java指针百合不是茶
C语言的强大在于可以直接操作指针的地址，通过改变指针的地址指向来达到更改地址的目的,又是由于c语言的指针过于强大，初学者很难掌握， java的出现解决了c，c++中指针的问题 java将指针封装在底层，开发人员是不能够去操作指针的地址，但是可以通过引用来间接的操作：定义一个指针p来指向a的地址（&是地址符号）：
Eclipse打不开，提示“An error has occurred.See the log file ***/.log” bijian1013 eclipse
打开eclipse工作目录的\.metadata\.log文件，发现如下错误： !ENTRY org.eclipse.osgi 4 0 2012-09-10 09:28:57.139 !MESSAGE Application error !STACK 1 java.lang.NoClassDefFoundError: org/eclipse/core/resources/IContai
spring aop实例annotation方法实现 bijian1013 java spring AOP annotation
在spring aop实例中我们通过配置xml文件来实现AOP，这里学习使用annotation来实现，使用annotation其实就是指明具体的aspect,pointcut和advice。1.申明一个切面(用一个类来实现)在这个切面里,包括了advice和pointcut AdviceMethods.jav
[Velocity一]Velocity语法基础入门 bit1129 velocity
用户和开发人员参考文档 http://velocity.apache.org/engine/releases/velocity-1.7/developer-guide.html 注释 1.行级注释## 2.多行注释#* *# 变量定义使用$开头的字符串是变量定义，例如$var1, $var2, 赋值使用#set为变量赋值，例
【Kafka十一】关于Kafka的副本管理 bit1129 kafka
1. 关于request.required.acks request.required.acks控制者Producer写请求的什么时候可以确认写成功，默认是0， 0表示即不进行确认即返回。 1表示Leader写成功即返回，此时还没有进行写数据同步到其它Follower Partition中 -1表示根据指定的最少Partition确认后才返回，这个在 Th
lua统计nginx内部变量数据 ronin47 lua nginx　统计
server { listen 80; server_name photo.domain.com; location /{set $str $uri; content_by_lua ' local url = ngx.var.uri local res = ngx.location.capture(
java-11.二叉树中节点的最大距离 bylijinnan java
import java.util.ArrayList; import java.util.List; public class MaxLenInBinTree { /* a. 1 / \ 2 3 / \ / \ 4 5 6 7 max=4 pass "root"
Netty源码学习-ReadTimeoutHandler bylijinnan java netty
ReadTimeoutHandler的实现思路：开启一个定时任务，如果在指定时间内没有接收到消息，则抛出ReadTimeoutException 这个异常的捕获，在开发中，交给跟在ReadTimeoutHandler后面的ChannelHandler，例如 private final ChannelHandler timeoutHandler = new ReadTim
jquery验证上传文件样式及大小(好用) cngolon 文件上传 jquery验证
<!DOCTYPE html> <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=utf-8" /> <script src="jquery1.8/jquery-1.8.0.
浏览器兼容【转】 cuishikuan css 浏览器 IE
浏览器兼容问题一：不同浏览器的标签默认的外补丁和内补丁不同问题症状：随便写几个标签，不加样式控制的情况下，各自的margin 和padding差异较大。碰到频率:100% 解决方案：CSS里 *{margin:0;padding:0;} 备注：这个是最常见的也是最易解决的一个浏览器兼容性问题，几乎所有的CSS文件开头都会用通配符*来设
Shell特殊变量：Shell $0, $#, $*, $@, $?, $$和命令行参数 daizj shell $#$?特殊变量
前面已经讲到，变量名只能包含数字、字母和下划线，因为某些包含其他字符的变量有特殊含义，这样的变量被称为特殊变量。例如，$ 表示当前Shell进程的ID，即pid，看下面的代码： $echo $$ 运行结果 29949 特殊变量列表变量含义 $0 当前脚本的文件名 $n 传递给脚本或函数的参数。n 是一个数字，表示第几个参数。例如，第一个
程序设计KISS 原则-------KEEP IT SIMPLE, STUPID! dcj3sjt126com unix
翻到一本书，讲到编程一般原则是kiss：Keep It Simple, Stupid.对这个原则深有体会，其实不仅编程如此，而且系统架构也是如此。 KEEP IT SIMPLE, STUPID! 编写只做一件事情，并且要做好的程序；编写可以在一起工作的程序，编写处理文本流的程序，因为这是通用的接口。这就是UNIX哲学.所有的哲学真正的浓缩为一个铁一样的定律，高明的工程师的神圣的“KISS 原
android Activity间List传值 dcj3sjt126com Activity
第一个Activity： import java.util.ArrayList;import java.util.HashMap;import java.util.List;import java.util.Map;import android.app.Activity;import android.content.Intent;import android.os.Bundle;import a
tomcat 设置java虚拟机内存 eksliang tomcat 内存设置
转载请出自出处：http://eksliang.iteye.com/blog/2117772 http://eksliang.iteye.com/ 常见的内存溢出有以下两种: java.lang.OutOfMemoryError: PermGen space java.lang.OutOfMemoryError: Java heap space ------------
Android 数据库事务处理 gqdy365 android
使用SQLiteDatabase的beginTransaction()方法可以开启一个事务，程序执行到endTransaction() 方法时会检查事务的标志是否为成功，如果程序执行到endTransaction()之前调用了setTransactionSuccessful() 方法设置事务的标志为成功则提交事务，如果没有调用setTransactionSuccessful() 方法则回滚事务。事
Java 打开浏览器 hw1287789687 打开网址 open浏览器 open browser 打开url 打开浏览器
使用java 语言如何打开浏览器呢? 我们先研究下在cmd窗口中,如何打开网址使用IE 打开 D:\software\bin>cmd /c start iexplore http://hw1287789687.iteye.com/blog/2153709 使用火狐打开 D:\software\bin>cmd /c start firefox http://hw1287789
ReplaceGoogleCDN：将 Google CDN 替换为国内的 Chrome 插件 justjavac chrome Google google api chrome插件
Chrome Web Store 安装地址： https://chrome.google.com/webstore/detail/replace-google-cdn/kpampjmfiopfpkkepbllemkibefkiice 由于众所周知的原因，只需替换一个域名就可以继续使用Google提供的前端公共库了。同样，通过script标记引用这些资源，让网站访问速度瞬间提速吧
进程VS.线程 m635674608 线程
资料来源： http://www.liaoxuefeng.com/wiki/001374738125095c955c1e6d8bb493182103fac9270762a000/001397567993007df355a3394da48f0bf14960f0c78753f000 1、Apache最早就是采用多进程模式 2、IIS服务器默认采用多线程模式 3、多进程优缺点优点：多进程模式最大
Linux下安装MemCached 字符串 memcached
前提准备：1. MemCached目前最新版本为：1.4.22，可以从官网下载到。2. MemCached依赖libevent，因此在安装MemCached之前需要先安装libevent。2.1 运行下面命令，查看系统是否已安装libevent。[root@SecurityCheck ~]# rpm -qa|grep libevent libevent-headers-1.4.13-4.el6.n
java设计模式之--jdk动态代理（实现aop编程） Supanccy2013 java DAO 设计模式 AOP
与静态代理类对照的是动态代理类，动态代理类的字节码在程序运行时由Java反射机制动态生成，无需程序员手工编写它的源代码。动态代理类不仅简化了编程工作，而且提高了软件系统的可扩展性，因为Java 反射机制可以生成任意类型的动态代理类。java.lang.reflect 包中的Proxy类和InvocationHandler 接口提供了生成动态代理类的能力。 &
Spring 4.2新特性-对java8默认方法(default method)定义Bean的支持 wiselyman spring 4
2.1 默认方法(default method) java8引入了一个default medthod; 用来扩展已有的接口,在对已有接口的使用不产生任何影响的情况下,添加扩展使用default关键字 Spring 4.2支持加载在默认方法里声明的bean 2.2 将要被声明成bean的类 public class DemoService {