六之

机器学习入门 --- 基于随机森林的气温预测（二）数据与特征对随机森林的影响

在机器学习入门 — 基于随机森林的气温预测（一）使用随机森林算法完成基本建模任务中，只用了2016年一个年份的数据来进行实验，本文将增加数据量，把 2011 - 2016 年的数据都拿进来，与原结果进行一个对比

数据展示

# 导入工具包
import pandas as pd
# 读取数据
features = pd.read_csv('data/temps_extended.csv')
features.head()

本数据表中：

year,moth,day,wek分别表示的具体的时间
ws_1：昨天的风速
prcp_1: 昨天的降水
snwd_1：昨天的积雪深度
temp_ 2:前天的最高温度值
temp_ 1:昨天的最高温度值
average: 在历史中，每年这一天的平均最高温度值
actual: 这就是我们的标签值了，当天的真实最高温度
friend: 朋友的评价

在此可以到，新的数据集中，数据规模发生了变化，数据量扩充到2191条并且加入了新的天气指标：ws_1、prcp_1、snwd_1

画图看一下新特征

# 设置整体布局
fig, ((ax1, ax2), (ax3, ax4)) = plt.subplots(nrows=2, ncols=2, figsize = (15,10))
fig.autofmt_xdate(rotation = 45)
# 平均最高气温
ax1.plot(dates, features['average'])
ax1.set_xlabel('')
ax1.set_ylabel('Temperature (F)')
ax1.set_title('Historical Avg Max Temp')
# 风速
ax2.plot(dates, features['ws_1'], 'r-')
ax2.set_xlabel('')
ax2.set_ylabel('Wind Speed (mph)')
ax2.set_title('Prior Wind Speed')
# 降水
ax3.plot(dates, features['prcp_1'], 'r-')
ax3.set_xlabel('Date')
ax3.set_ylabel('Precipitation (in)')
ax3.set_title('Prior Precipitation')
# 积雪
ax4.plot(dates, features['snwd_1'], 'ro')
ax4.set_xlabel('Date')
ax4.set_ylabel('Snow Depth (in)')
ax4.set_title('Prior Snow Depth')

plt.tight_layout(pad=2)

上面这个图表中，我们能知道了特征数据的走势

下面我们再按季节做分布，看看昨天的最高温度值与昨天的降水这两个特征的用途

# 创建季节变量
seasons = []
# 设定好春夏秋冬
for month in features['month']:
    if month in [1, 2, 12]:
        seasons.append('winter')
    elif month in [3, 4, 5]:
        seasons.append('spring')
    elif month in [6, 7, 8]:
        seasons.append('summer')
    elif month in [9, 10, 11]:
        seasons.append('fall')
# 整合数据
reduced_features = features[['temp_1', 'prcp_1', 'average', 'actual']]
reduced_features['season'] = seasons
reduced_features.head()

下面使用 Seaborn 画相关矩阵图，来查看多个变量之间的联系

Seaborn其实是在matplotlib的基础上进行了更高级的API封装，从而使得作图更加容易，而且它能高度兼容numpy与pandas数据结构以及scipy与statsmodels等统计模式。

# 导入 seaborn 工具包
import seaborn as sns
sns.set(style="ticks", color_codes=True);
# 定义颜色
palette = sns.xkcd_palette(['dark blue', 'dark green', 'gold', 'orange'])
# 绘制 pairplot
sns.pairplot(reduced_features, hue = 'season', diag_kind = 'kde', palette= palette, plot_kws=dict(alpha = 0.7),
                   diag_kws=dict(shade=True));

通过此矩阵图我们可以看出，temp_1 与 actual 有很强的正比关系

数据预处理

数据的预处理和以前一样

# 导入工具包
import numpy as np
from sklearn.model_selection import train_test_split
# 独热编码处理数据
features = pd.get_dummies(features)
# 设定 features and labels
labels = features['actual']
features = features.drop('actual', axis = 1)
# 将特征转换为列表格式
feature_list = list(features.columns)

features = np.array(features)
labels = np.array(labels)
# 划分数据集
train_features, test_features, train_labels, test_labels = train_test_split(features, labels, 
                                                                            test_size = 0.25, random_state = 42)

这里训练效果做一个对比

旧数据集
先看一下旧数据集做出来的结果

# 导入工具包
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestRegressor
# 读取数据集
original_features = pd.read_csv('data/temps.csv')
# 独热编码处理数据
original_features = pd.get_dummies(original_features)
# 指定标签
original_labels = np.array(original_features['actual'])
# 指定特征集
original_features= original_features.drop('actual', axis = 1)
# 保存特征名称，转化为list格式
original_feature_list = list(original_features.columns)
# 转化为 np.array
original_features = np.array(original_features)
# 划分数据集
original_train_features, original_test_features, original_train_labels, original_test_labels = train_test_split(original_features,
                                                                                                                original_labels,
                                                                                                                test_size = 0.25,
                                                                                                                random_state = 42)
# 建模
rf = RandomForestRegressor(n_estimators= 1000, random_state=42)
# 训练模型
rf.fit(original_train_features, original_train_labels);
# 预测
predictions = rf.predict(original_test_features)
# 算平均绝对误差
errors = abs(predictions - original_test_labels)
# 算平均绝对百分比误差
mape = 100 * (errors / original_test_labels)
accuracy = 100 - np.mean(mape)
# 输出结果
print('Average absolute error:', round(np.mean(errors), 2))
print('Accuracy:', round(accuracy, 2), '%')

Average absolute error: 3.83
Accuracy: 93.99 %

旧数据集扩量
接下来是使用新的数据集，但是只增加数据量，不添加新的特征进来

from sklearn.ensemble import RandomForestRegressor
# 查找原始特征索引
original_feature_indices = [feature_list.index(feature) for feature in
                                      feature_list if feature not in
                                      ['ws_1', 'prcp_1', 'snwd_1']]
# 使用旧数据索引值在新数据中得到训练数据
original_train_features = train_features[:,original_feature_indices]
# 使用旧数据索引值在新数据中得到测试数据
original_test_features = test_features[:, original_feature_indices]
# 建模
rf = RandomForestRegressor(n_estimators= 100, random_state=42)
# 训练
rf.fit(original_train_features, train_labels);
# 预测结果
baseline_predictions = rf.predict(original_test_features)
# 算平均绝对误差
baseline_errors = abs(baseline_predictions - test_labels)
# 算平均绝对百分比误差
baseline_mape = 100 * np.mean((baseline_errors / test_labels))
baseline_accuracy = 100 - baseline_mape
# 打印
print('Average absolute error:', round(np.mean(baseline_errors), 2))
print('Accuracy:', round(baseline_accuracy, 2), '%')

Average absolute error: 3.76
Accuracy: 93.7 %

根据这两个输出结果的对比，说明了数据量增大对结果起到了一定的促进作用

新数据集

# 导入工具包
from sklearn.ensemble import RandomForestRegressor
# 建模
rf_exp = RandomForestRegressor(n_estimators= 100, random_state=42)
# 训练
rf_exp.fit(train_features, train_labels)
# 预测结果
predictions = rf_exp.predict(test_features)
# 算平均绝对误差
errors = abs(predictions - test_labels)
# 算平均绝对百分比误差
mape = np.mean(100 * (errors / test_labels))
accuracy = 100 - mape
# 算平均绝对百分比误差的新旧数据集差值
improvement_baseline = 100 * abs(mape - baseline_mape) / baseline_mape

#打印
print('Improvement over baseline:', round(improvement_baseline, 2), '%')
print('Average absolute error:', round(np.mean(errors), 4))
print('Accuracy:', round(accuracy, 2), '%')

Improvement over baseline: 0.52 %
Average absolute error: 3.7161
Accuracy: 93.73 %

特征重要性

因为在新的数据集中，我们增加了新的特征进来

# 特征名称
importances = list(rf_exp.feature_importances_)
# 拿到特征数据
feature_importances = [(feature, round(importance, 2)) for feature, importance in zip(feature_list, importances)]
# 排序
feature_importances = sorted(feature_importances, key = lambda x: x[1], reverse = True)
# 打印
[print('特征: {:20} 重要性: {}'.format(*pair)) for pair in feature_importances]

特征: temp_1               重要性: 0.83
特征: average              重要性: 0.06
特征: ws_1                 重要性: 0.02
特征: temp_2               重要性: 0.02
特征: friend               重要性: 0.02
特征: year                 重要性: 0.01
特征: month                重要性: 0.01
特征: day                  重要性: 0.01
特征: prcp_1               重要性: 0.01
特征: snwd_1               重要性: 0.0
特征: weekday_Fri          重要性: 0.0
特征: weekday_Mon          重要性: 0.0
特征: weekday_Sat          重要性: 0.0
特征: weekday_Sun          重要性: 0.0
特征: weekday_Thurs        重要性: 0.0
特征: weekday_Tues         重要性: 0.0
特征: weekday_Wed          重要性: 0.0

对特征重要性进行可视化

# 设定绘图风格
plt.style.use('fivethirtyeight')
# 指定位置
x_values = list(range(len(importances)))
# 绘图
plt.bar(x_values, importances, orientation = 'vertical', color = 'r', edgecolor = 'k', linewidth = 1.2)
# 指定名称
plt.xticks(x_values, feature_list, rotation='vertical')
# 绘图
plt.ylabel('Importance')
plt.xlabel('Variable')
plt.title('Variable Importances')

这里我们看到，temp_1 特征最重要，还有一些特征完全不起作用，所以关于在训练中特征，其特征重要性累加后在95%就可以，就是说有多少个特征的特征多样性累加达到95%，使用这些特征就够了

# 对特征重要性排序
sorted_importances = [importance[1] for importance in feature_importances]
sorted_features = [importance[0] for importance in feature_importances]
# 计算累加值，累计重要性
cumulative_importances = np.cumsum(sorted_importances)
# 绘制折线图
plt.plot(x_values, cumulative_importances, 'g-')
# 画一条红虚线 0.95的界限
plt.hlines(y = 0.95, xmin=0, xmax=len(sorted_importances), color = 'r', linestyles = 'dashed')
# X周名称
plt.xticks(x_values, sorted_features, rotation = 'vertical')
# 绘图
plt.xlabel('Variable')
plt.ylabel('Cumulative Importance')
plt.title('Cumulative Importances')

通过这张图表也可以看出，我们前6项特征的和达到了95%

接下来，我们使用这6项特征再次进行训练

# 选择这6项特征
important_feature_names = [feature[0] for feature in feature_importances[0:6]]
# 找到他们的索引
important_indices = [feature_list.index(feature) for feature in important_feature_names]
# 拿到训练集与测试集
important_train_features = train_features[:, important_indices]
important_test_features = test_features[:, important_indices]
# 建模
rf_exp = RandomForestRegressor(n_estimators= 100, random_state=42)
# 训练
rf_exp.fit(important_train_features, train_labels)
# 预测
predictions = rf_exp.predict(important_test_features)
# 算平均绝对误差
errors = abs(predictions - test_labels)
# 算平均绝对百分比误差
mape = 100 * (errors / test_labels)
accuracy = 100 - np.mean(mape)
# 打印
print('Average absolute error:', round(np.mean(errors), 4))
print('Accuracy:', round(accuracy, 2), '%')

Average absolute error: 3.829
Accuracy: 93.56 %

结果来看，效果反而下降了，其实随机森林的算法本身就会考虑特征的问题，会优先选择有价值的，我们认为的去掉一些，相当于可供候选的就少了，也就会出现这样的现象

计算 Trade-Offs

Run-Time

虽然说模型没有提升，反而精度还有一点点的下降，那我们再看看他们在时间效率层面上有没有进步

计算放入所有特征时建模与测试消耗的时间

# 导入包
import time
# 建立空list
all_features_time = []
# 一次不太准，所以算10次取平均
for _ in range(10):
    start_time = time.time()
    rf_exp.fit(train_features, train_labels)
    all_features_predictions = rf_exp.predict(test_features)
    end_time = time.time()
    all_features_time.append(end_time - start_time)
all_features_time = np.mean(all_features_time)
print('使用所有特征时建模与测试的平均消耗时间:', round(all_features_time, 2), '秒')

使用所有特征时建模与测试的平均消耗时间: 0.72 秒

计算放入所有特征时建模与测试消耗的时间

# 导入包
import time
# 建立空list
reduced_features_time = []
# 一次不太准，所以算10次取平均
for _ in range(10):
    start_time = time.time()
    rf_exp.fit(important_train_features, train_labels)
    reduced_features_predictions = rf_exp.predict(important_test_features)
    end_time = time.time()
    reduced_features_time.append(end_time - start_time)
reduced_features_time = np.mean(reduced_features_time)
print('使用所有特征时 建模与测试的平均消耗时间:', round(reduced_features_time, 2), '秒')

使用所有特征时 建模与测试的平均消耗时间: 0.5 秒

我们看到，虽然精度降低了，但是建模与测试消耗的时间减少了0.22秒

Accuracy vs Run-Time

#用预测值来计算评估结果
all_accuracy =  100 * (1- np.mean(abs(all_features_predictions - test_labels) / test_labels))
reduced_accuracy = 100 * (1- np.mean(abs(reduced_features_predictions - test_labels) / test_labels))
# 创建df来存结果
comparison = pd.DataFrame({'features': ['all (17)', 'reduced (5)'], 
                           'run_time': [round(all_features_time, 2), round(reduced_features_time, 2)],
                           'accuracy': [round(all_accuracy, 2), round(reduced_accuracy, 2)]})
comparison[['features', 'accuracy', 'run_time']]

relative_accuracy_decrease = 100 * (all_accuracy - reduced_accuracy) / all_accuracy
print('相对准确率下降:', round(relative_accuracy_decrease, 3), '%')
relative_runtime_decrease = 100 * (all_features_time - reduced_features_time) / all_features_time
print('相对时间效率下降:', round(relative_runtime_decrease, 3), '%')

相对准确率下降: 0.187 %
相对时间效率下降: 30.792 %

这两种结果展示，可以看到准确率并没有太大的差别，下降了0.187 %，但是运行时间差别还是比较大的，下降了30.792 %，所以实际中我们也得综合来考虑下性能问题

总结

对只有一年的数据量的数据集、完整的新数据集、按照95%阈值选择的部分重要特征的数据集进行比较

# 导入包
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
# 读入旧数据
original_features = pd.read_csv('data/temps.csv')
# 独热编码处理数据
original_features = pd.get_dummies(original_features)
# 指定标签
original_labels = np.array(original_features['actual'])
# 特征集
original_features= original_features.drop('actual', axis = 1)
# 获取特征列表
original_feature_list = list(original_features.columns)
# 转换成np.array形式
original_features = np.array(original_features)
# 数据集划分
original_train_features, original_test_features, original_train_labels, original_test_labels = train_test_split(original_features,
                                                                                                                original_labels,
                                                                                                                test_size = 0.25,
                                                                                                                random_state = 42)
# 拿到旧数据集的特征索引
original_feature_indices = [feature_list.index(feature) for feature in
                                      feature_list if feature not in
                                      ['ws_1', 'prcp_1', 'snwd_1']]
# 创建旧数据集的特征的测试集
original_test_features = test_features[:, original_feature_indices]
# 设定空list
original_features_time = []
# 训练和测试 循环10次
for _ in range(10):
    start_time = time.time()
    rf.fit(original_train_features, original_train_labels)
    original_features_predictions = rf.predict(original_test_features)
    end_time = time.time()
    original_features_time.append(end_time - start_time)
# 计算平均时间
original_features_time = np.mean(original_features_time)
# 计算MAE
original_mae = np.mean(abs(original_features_predictions - test_labels))
exp_all_mae = np.mean(abs(all_features_predictions - test_labels))
exp_reduced_mae = np.mean(abs(reduced_features_predictions - test_labels))
# 计算旧数据的accuracy
original_accuracy = 100 * (1 - np.mean(abs(original_features_predictions - test_labels) / test_labels))
# 创建df来存结果
model_comparison = pd.DataFrame({'model': ['original', 'exp_all', 'exp_reduced'], 
                                 'error (degrees)':  [original_mae, exp_all_mae, exp_reduced_mae],
                                 'accuracy': [original_accuracy, all_accuracy, reduced_accuracy],
                                 'run_time (s)': [original_features_time, all_features_time, reduced_features_time]})
model_comparison = model_comparison[['model', 'error (degrees)', 'accuracy', 'run_time (s)']]

# 最后做绘图总结
# 设置总体布局
fig, (ax1, ax2, ax3) = plt.subplots(nrows=3, ncols=1, figsize = (8,16), sharex = True)
# X轴名称定义
x_values = [0, 1, 2]
labels = list(model_comparison['model'])
plt.xticks(x_values, labels)
# 定义字体大小
fontdict = {'fontsize': 18}
fontdict_yaxis = {'fontsize': 14}
# 比较 Error
ax1.bar(x_values, model_comparison['error (degrees)'], color = ['b', 'r', 'g'], edgecolor = 'k', linewidth = 1.5)
ax1.set_ylim(bottom = 3.5, top = 4.5)
ax1.set_ylabel('Error (degrees) (F)', fontdict = fontdict_yaxis)
ax1.set_title('Model Error Comparison', fontdict= fontdict)
# 比较 Accuracy
ax2.bar(x_values, model_comparison['accuracy'], color = ['b', 'r', 'g'], edgecolor = 'k', linewidth = 1.5)
ax2.set_ylim(bottom = 92, top = 94)
ax2.set_ylabel('Accuracy (%)', fontdict = fontdict_yaxis)
ax2.set_title('Model Accuracy Comparison', fontdict= fontdict)
# 比较 Run Time
ax3.bar(x_values, model_comparison['run_time (s)'], color = ['b', 'r', 'g'], edgecolor = 'k', linewidth = 1.5)
ax3.set_ylim(bottom = 0, top = 1)
ax3.set_ylabel('Run Time (sec)', fontdict = fontdict_yaxis)
ax3.set_title('Model Run-Time Comparison', fontdict= fontdict)

original 代表旧数据，就是只有一年的数据量的数据集
exp_all 代表完整的新数据集
exp_reduced 代表按照95%阈值选择的部分重要特征的数据集

结果比较明显，数据量和特征越多，效果也会越好，但是时间效率也会降低

深度讨论Python for循环观智能 python 开发语言
作者的其他文章推荐：强化学习再受关注！for循环使用于遍历可迭代对象的Python语句，工作原理如下：#for循环foriteminiterable:print(item)#等价于iterator=iter(iterable)#获取迭代器whileTrue:try:item=next(iterator)#获取下一个元素print(item)exceptStopIteration:break#迭代结
Python第六章08：元组操作练习题苹果.Python.八宝粥 python 开发语言
#元组定义操作练习题"""定义一个元组，内容是：('周杰伦',11,['football','music'])，记录一个学生的信息（姓名、年龄、爱好）请通元组（tuple）的功能，对其进行如下操作：1.查询其年龄所在的下标位置2.查询学生的姓名3.删除学生爱好中的football4.增加爱好：coding"""my_tuple=('周杰伦',11,['football','music'])#1.查
Python第六章07：元组的定义和操作苹果.Python.八宝粥 python 前端开发语言
#tuple元组的定义和操作#tuple元组定义用小括号：(1,2,3,4,5),可以是不同类型元素#给变量定义元组时，写括号不写tuple：a=(1,2,3,4,5)#变量=（）变量=tuple（）空元组变量#tuple元组定义完成后，不可以修改，但是，如果元组中嵌套了一个列表时，元组中列表的内容可以修改#封装数据后，不希望被篡改数据，就使用元组tuple#1.定义一个元组t1=("halibo
利用Python爬虫获取Shopee（虾皮）商品详情：实战指南小爬虫程序猿 python 爬虫开发语言
在跨境电商领域，Shopee（虾皮）作为东南亚及台湾地区领先的电商平台，拥有海量的商品信息。无论是进行市场调研、数据分析，还是寻找热门商品，获取Shopee商品详情都是一项极具价值的任务。然而，手动浏览和整理这些信息显然是低效且容易出错的。幸运的是，通过编写Python爬虫程序，我们可以高效地完成这一任务。本文将详细介绍如何利用Python爬虫获取Shopee商品详情，并提供完整的代码示例。一、为
在Mac M1/M2芯片上完美安装DeepCTR库：避坑指南与实战验证 ku_code_ku 机器学习 macos 推荐算法推荐系统
让推荐算法在AppleSilicon上全速运行概述作为推荐系统领域的最经常用的明星库，DeepCTR集成了CTR预估、多任务学习等前沿模型实现。但在AppleSilicon架构的Mac设备上，安装过程常因ARM架构适配、依赖库版本冲突等问题受阻。本文通过20+次环境搭建实测，总结出最稳定的安装方案。关键版本说明（2024年验证）组件推荐版本注意事项Python3.10.x向下兼容至3.7，但3.1
数据库数值函数详解 web安全工具库数据库 oracle jvm
各类资料学习下载合集https://pan.quark.cn/s/8c91ccb5a474数值函数是数据库中用于处理数值数据的函数，可以用于执行各种数学运算、统计计算等。数值函数在数据分析及处理时非常重要，能够帮助我们进行数据的聚合、计算和转换。在本篇博客中，我们将详细介绍常用的数据库数值函数，并通过Python和SQLite进行示例，帮助您理解和应用这些函数。1.数值函数的基本概念数值函数是用于
Python中Requests的Cookies的简单使用北条苒茗殇 python 开发语言 Requests
概述Python的Requests库中有一个cookies，是用于管理HTTPCookie的工具，可以像字典一样操作Cookie，支持自动处理作用域（域名、路径）和持久化，cookies是一个RequestsCookieJar的类型。一、概念1.作用自动存储服务器返回的Cookie根据请求域名和路径进行自动发送匹配的Cookie支持手动添加、修改、删除Cookie2.RequestsCookieJ
Pytest基础使用北条苒茗殇 pytest
概述Pytest是Python里的一个强大的测试框架，灵活易用，可以进行功能，自动化测试使用，可以与Requests，Selenium等进行结合使用，同时可以生成Html的报告。一、Pytest的基本使用在未指定Pytest的配置文件时，会对以下文件进行执行：test_*.py，如：test_1.py*_test.py，如：1_test.py会对以下的类和函数进行执行：类：以Test_开头的类，如
Visual Studio Code官网下载地址及使用技巧（含常用的拓展插件推荐） ITCTCSDN vscode ide 编辑器
VisualStudioCode（简称“VSCode”）是Microsoft于2015年4月发布的可运行于MacOS、Windows和Linux之上的跨平台源代码编辑器，它具有对JavaScript，TypeScript和Node.js的内置支持，并具有丰富的其他语言（例如C++，C＃，Java，Python，PHP，Go）和运行时（例如.NET和Unity）扩展的生态系统。VisualStudi
MySQL中基于机器学习的自适应缓存热点识别优化策略——开启数据库性能新纪元墨夶数据库学习资料1 数据库 mysql 机器学习
在数据驱动的世界里，数据库的性能直接影响到整个应用系统的响应速度和用户体验。随着业务量的增长和技术的发展，传统的缓存机制逐渐暴露出局限性。如何更智能地识别并利用热点数据进行缓存优化，成为提升数据库性能的关键所在。今天，我们将深入探讨一种创新的方法——基于机器学习的自适应缓存热点识别优化策略，并分享其在MySQL中的具体实现方案。为什么选择机器学习？‍传统上，开发者们依赖于手动配置或预设规则来决定哪
python中rmdir和rmtree的用法 Gin387 python
shutil.rmtree()是Python中shutil模块提供的一个函数，用于递归删除整个目录树（包括子目录和所有文件）。os.rmdir()（只能删除空目录）不同，shutil.rmtree()可以强制删除非空目录importshutil#删除指定目录及其所有内容shutil.rmtree('path/to/directory')
构建 Python 插件架构：打造灵活可扩展的模块化应用全栈探索者chen python python 架构开发语言学习机器学习程序人生插件
构建Python插件架构：打造灵活可扩展的模块化应用前言在现代软件开发中，单一的代码库往往难以满足不断变化的业务需求和多样化的扩展场景。如何设计一个应用，使其既能保持核心功能的稳定，又能轻松集成第三方功能、模块或定制化扩展？答案就是——插件架构。通过插件架构，你可以让应用具备极高的灵活性，支持动态加载、无缝扩展以及解耦维护。本文将深入探讨如何在Python中设计和构建一个插件架构。从核心概念、模块
31天Python入门——第11天:挑战一口气把闭包·装饰器讲明白安然无虞 Python手把手教程 python 开发语言后端 pyqt
你好，我是安然无虞。文章目录1.闭包扩展知识:闭包的自由变量是如何存储的2.装饰器装饰器的应用场景3.补充练习1.闭包闭包是指在一个函数内部定义的函数，并且这个内部函数可以访问外部函数的变量、参数.换句话说，闭包是一个包含了函数及其相关引用环境的组合体.在Python中，当一个函数返回了内部函数的引用时，这个内部函数可以访问并操作外部函数的局部变量，它就创建了一个闭包,即使外部函数已经执行完毕，它
opencv python rgb转yuv_OpenCV之色彩空间与色彩空间转换 xiao fei opencv python rgb转yuv
python代码：importcv2ascvsrc=cv.imread("test.jpg")cv.namedWindow("rgb",cv.WINDOW_AUTOSIZE)cv.imshow("rgb",src)#RGBtoHSVhsv=cv.cvtColor(src,cv.COLOR_BGR2HSV)cv.imshow("hsv",hsv)#RGBtoYUVyuv=cv.cvtColor(sr
【AI大模型】搭建本地大模型GPT-NeoX：详细步骤及常见问题处理 qzw1210 gpt 人工智能深度学习
搭建本地大模型GPT-NeoX：详细步骤及常见问题处理GPT-NeoX是一个开源的大型语言模型框架，由EleutherAI开发，可用于训练和部署类似GPT-3的大型语言模型。本指南将详细介绍如何在本地环境中搭建GPT-NeoX，并解决过程中可能遇到的常见问题。1.系统要求1.1硬件要求1.2软件要求操作系统:Linux(推荐Ubuntu20.04或更高版本)CUDA:11.2或更高版本Python
python 列表倒序输出小琳爱分享 python python
python列表倒序输出#使用reverseli1=[1,6,4,3,7,9]li2=['a','m','s','g']li1.reverse()li2.reverse()print(li1,li2)#利用list切片li1=[1,6,4,3,7,9]li2=['a','m','s','g']print(li1[::-1])print(li2[::-1])#利用算法进行转换，这里需要用到深层cop
python怎么输出倒序 hakesashou python基础知识 python java 服务器
python怎么输出倒序？下面给大家介绍四种方法：创建测试列表>>> lst = [1,2,3,4,5,6]方法1：>>> lst.reverse() #reverse()反转>>> lst[6, 5, 4, 3, 2, 1]方法2：>>> lst1 = [i for i in reversed(lst)] #reversed只适用于与序列(列表、元组、字符串)>>> lst1[6, 5, 4,
chatgpt赋能python：Python怎么倒序列表 aijinglingchat ChatGpt python chatgpt 人工智能计算机
Python怎么倒序列表列表是Python中最常用的数据结构之一，但在实际使用时，有时需要将列表进行倒序排列。Python提供了多种方法来实现这个需求，本文将简要介绍这些方法以及它们的使用场景。方法1：使用reverse()函数使用列表的reverse()方法是Python中最简单直接的方法来倒序列表。该方法会将原列表倒置。lst=[1,2,3,4,5]lst.reverse()print(lst
“统计视角看世界”专栏阅读引导赛卡统计视角看世界信息可视化数据分析
根据文章主题和逻辑关系，我为您设计以下阅读引导方案：1.六西格玛基础2.帕累托图3.直方图4.散点图基础5.散点图高阶6.多变量可视化7.密度图进阶8.回归分析配套文字说明：入门基石（必读）《1.六西格玛遇上Python》→方法论总纲，建议优先精读基础三剑客（可并行）├─《2.帕累托图》→重点数据排序与决策├─《3.直方图》→数据分布核心工具└─《4.散点图》→数据探索第一视角高阶应用链（递进学习
自定义mavlink 生成wireshark wlua插件错误（已解决） JasonComing 问题收集 wireshark wlua mavlink
进入正题python3-mpymavlink.tools.mavgen--lang=WLua--wire-protocol=2.0--output=output/developmessage_definitions/v1.0/development.xml编译WLUA的时候遇到一些问题1.ERROR:SCHEMASV:SCHEMAV_CVC_ENUMERATION_VALID3765:0:ERRO
吐血整理 python最全习题100道（含答案）持续更新题目，建议收藏！ Bejpse 面试学习路线阿里巴巴 python 开发语言 pycharm redis java-ee
最近为了提升python水平，在网上找到了python习题，然后根据自己对于python的掌握，整理出来了答案，如果小伙伴们有更好的实现方式，可以下面留言大家一起讨论哦~已知一个字符串为“hello_world_yoyo”,如何得到一个队列[“hello”,”world”,”yoyo”]test=‘hello_world_yoyo’使用split函数，分割字符串，并且将数据转换成列表类型print
2024年第五届MathorCup数学应用挑战赛--大数据竞赛思路、代码更新中..... 宇哥预测优化代码学习 1024程序员节
欢迎来到本博客❤️❤️博主优势：博客内容尽量做到思维缜密，逻辑清晰，为了方便读者。⛳️座右铭：行百里者，半于九十。本文目录如下：目录⛳️研赛及概况一、竞赛背景与目的二、组织机构与参赛对象三、竞赛时间与流程四、竞赛要求与规则五、奖项设置与奖励六、研究文档撰写建议七、参考资料与资源1找程序网站推荐2公式编辑器、流程图、论文排版324年研赛资源下载4思路、Python、Matlab代码分享......⛳
2024MathorCup数学建模之——MathorCup奖杯”获得者经验思路分享美赛数学建模数学建模
一、经验分享1.工具选择：顺手即可。Matlab和Python都是比较主流的选择，二者的应用场合各有不同。Python在数据分析、深度学习方面的优势愈发明显，而Matlab更适合进行物理仿真和数值计算。不过随着Python社区不断发展，其功能也愈发全面与强大，因此我们比较推荐学有余力的情况下可以更早接触Python。2.模型算法：多多益善。不一定要精通所有的算法，但是手上至少要准备一些常用的算法（
Python 用户账户(创建用户账户) 钢铁男儿 Python 从入门到精通 python sqlite 数据库
Web应用程序的核心是让任何用户都能够注册账户并能够使用它，不管用户身处何方。在本章中，你将创建一些表单，让用户能够添加主题和条目，以及编辑既有的条目。你还将学习Django如何防范对基于表单的网页发起的常见攻击，这让你无需花太多时间考虑确保应用程序安全的问题。然后，我们将实现一个用户身份验证系统。你将创建一个注册页面，供用户创建账户，并让有些页面只能供已登录的用户访问。接下来，我们将修改一些视图
AI人工智能软件开发方案：开启智能时代的创新钥匙广州硅基技术官方人工智能
一、引言：AI浪潮下的软件开发新机遇近年来，人工智能（AI）技术的迅猛发展如同一股汹涌澎湃的浪潮，席卷了全球各个领域。从最初的概念提出到如今的广泛应用，AI历经了漫长的发展历程，终于迎来了属于它的黄金时代。回首过去，AI的发展并非一帆风顺，早期由于计算能力和算法的限制，经历了多次起伏。但随着大数据、云计算、机器学习、深度学习等技术的不断突破，AI迎来了爆发式增长。如今，AI已经深入到人们生活和工作
使用欧拉法数值求解微分方程的 Python 实现神经网络15044 python 深度学习算法 python 开发语言
编写函数y=Eular(x,h)，使用欧拉法数值求解微分方程初值为函数Eular(x,h)中Cx为计算结束时微分方程x的值，h为计算步长再编写脚本，通过调用函数分别以不同步长(例如h=1.0，h=0.5，h=0.25)计算y(3)，并分析步长和误差之间的关系。以下是使用欧拉法数值求解微分方程的Python实现。假设我们要求解的微分方程是dydx=f(x,y)\frac{dy}{dx}=f(x,y)
使用AirtableLoader轻松加载数据到Python bavDHAUO python 开发语言
在现代软件开发中，数据的管理与使用非常关键。Airtable作为一种灵活的数据库应用，提供了简便且强大的数据处理方式。而通过使用AirtableLoader这种工具，可以轻松地将Airtable中的数据加载到Python项目中进行处理。技术背景介绍Airtable是一款集电子表格和数据库功能于一体的工具，它以其简单易用、强大的扩展性而受到众多开发者的喜爱。AirtableLoader是一个文档加载
【Python工具】Jupyter Notebook常用快捷键清平乐的技术博客 Python高级应用由浅入深学Python jupyter ide python
1.JupyterNotebook的启动与停止环境为Windows10系统首先win+R进入命令提示符cmd，用cd命令切换到工作目录，键入命令jupyternotebook2.JupyterNotebook常用快捷键2.1模式切换当前cell侧边为蓝色时，表示此时为命令模式，按Enter切换为编辑模式当前cell侧边为绿色时，表示此时为编辑模式，按Esc切换为命令模式2.2命令模式快捷键H：显示
Pytorch深度学习教程_9_nn模块构建神经网络 tRNA做科研深度学习保姆教程深度学习 pytorch 神经网络
欢迎来到《深度学习保姆教程》系列的第九篇！在前面的几篇中，我们已经介绍了Python、numpy及pytorch的基本使用，进行了梯度及神经网络的实践并学习了激活函数和激活函数，在上一个教程中我们学习了优化算法。今天，我们将开始使用pytorch构建我们自己的神经网络。欢迎订阅专栏进行系统学习：深度学习保姆教程_tRNA做科研的博客-CSDN博客目录1.理解nn模块：(1)使用nn.Sequent
【机器学习】算法分类 CH3_CH2_CHO 什么？！是机器学习！！机器学习算法有监督学习无监督学习半监督学习强化学习
1、有监督学习1.1定义使用带标签的数据训练模型。有监督学习是机器学习中最常见的一种类型，它利用已知的输入特征和对应的输出标签来训练模型，使模型能够学习到特征与标签之间的映射关系。在训练过程中，模型会不断地调整自身的参数，以最小化预测值与真实标签之间的误差，从而提高预测的准确性。1.2回归问题1.2.1目标预测连续值。回归问题的目标是预测一个连续的数值结果，模型的输出是一个实数值。1.2.2解释回
java线程的无限循环和退出 3213213333332132 java
最近想写一个游戏，然后碰到有关线程的问题，网上查了好多资料都没满足。突然想起了前段时间看的有关线程的视频，于是信手拈来写了一个线程的代码片段。希望帮助刚学java线程的童鞋 package thread; import java.text.SimpleDateFormat; import java.util.Calendar; import java.util.Date
tomcat 容器 BlueSkator tomcat Web servlet
Tomcat的组成部分 1、server A Server element represents the entire Catalina servlet container. (Singleton) 2、service service包括多个connector以及一个engine，其职责为处理由connector获得的客户请求。 3、connector 一个connector
php递归,静态变量,匿名函数使用 dcj3sjt126com PHP 递归函数匿名函数静态变量引用传参
<!doctype html> <html lang="en"> <head> <meta charset="utf-8"> <title>Current To-Do List</title> </head> <body>
属性颜色字体变化周华华 JavaScript
function changSize(className){ var diva=byId("fot") diva.className=className; } </script> <style type="text/css"> .max{ background: #900; color:#039;
将properties内容放置到map中 g21121 properties
代码比较简单： private static Map<Object, Object> map; private static Properties p; static { //读取properties文件 InputStream is = XXX.class.getClassLoader().getResourceAsStream("xxx.properti
[简单]拼接字符串 53873039oycg 字符串
工作中遇到需要从Map里面取值拼接字符串的情况，自己写了个，不是很好，欢迎提出更优雅的写法，代码如下： import java.util.HashMap; import java.uti
Struts2学习云端月影
最近开始关注struts2的新特性，从这个版本开始，Struts开始使用convention-plugin代替codebehind-plugin来实现struts的零配置。配置文件精简了，的确是简便了开发过程，但是，我们熟悉的配置突然disappear了，真是一下很不适应。跟着潮流走吧，看看该怎样来搞定convention-plugin。使用Convention插件，你需要将其JAR文件放
Java新手入门的30个基本概念二 aijuans java 新手 java 入门
基本概念:　　1.OOP中唯一关系的是对象的接口是什么,就像计算机的销售商她不管电源内部结构是怎样的,他只关系能否给你提供电就行了,也就是只要知道can or not而不是how and why.所有的程序是由一定的属性和行为对象组成的,不同的对象的访问通过函数调用来完成,对象间所有的交流都是通过方法调用,通过对封装对象数据,很大限度上提高复用率。　　2.OOP中最重要的思想是类,类是模板是蓝图,
jedis 简单使用 antlove java redis cache command jedis
jedis.RedisOperationCollection.java package jedis; import org.apache.log4j.Logger; import redis.clients.jedis.Jedis; import java.util.List; import java.util.Map; import java.util.Set; pub
PL/SQL的函数和包体的基础百合不是茶 PL/SQL编程函数包体显示包的具体数据包
由于明天举要上课,所以刚刚将代码敲了一遍PL/SQL的函数和包体的实现(单例模式过几天好好的总结下再发出来);以便明天能更好的学习PL/SQL的循环,今天太累了,所以早点睡觉,明天继续PL/SQL总有一天我会将你永远的记载在心里,,, 函数; 函数:PL/SQL中的函数相当于java中的方法;函数有返回值定义函数的 --输入姓名找到该姓名的年薪 create or re
Mockito(二)--实例篇 bijian1013 持续集成 mockito 单元测试
学习了基本知识后，就可以实战了，Mockito的实际使用还是比较麻烦的。因为在实际使用中，最常遇到的就是需要模拟第三方类库的行为。比如现在有一个类FTPFileTransfer，实现了向FTP传输文件的功能。这个类中使用了a
精通Oracle10编程SQL(7)编写控制结构 bijian1013 oracle 数据库 plsql
/* *编写控制结构 */ --条件分支语句 --简单条件判断 DECLARE v_sal NUMBER(6,2); BEGIN select sal into v_sal from emp where lower(ename)=lower('&name'); if v_sal<2000 then update emp set
【Log4j二】Log4j属性文件配置详解 bit1129 log4j
如下是一个log4j.properties的配置 log4j.rootCategory=INFO, stdout , R log4j.appender.stdout=org.apache.log4j.ConsoleAppender log4j.appender.stdout.layout=org.apache.log4j.PatternLayout log4j.appe
java集合排序笔记白糖_ java
public class CollectionDemo implements Serializable,Comparable<CollectionDemo>{ private static final long serialVersionUID = -2958090810811192128L; private int id; private String nam
java导致linux负载过高的定位方法 ronin47
定位java进程ID 可以使用top或ps -ef |grep java ![图片描述][1] 根据进程ID找到最消耗资源的java pid 比如第一步找到的进程ID为5431 执行 top -p 5431 -H ![图片描述][2] 打印java栈信息 $ jstack -l 5431 > 5431.log 在栈信息中定位具体问题将消耗资源的Java PID转
给定能随机生成整数1到5的函数，写出能随机生成整数1到7的函数 bylijinnan 函数
import java.util.ArrayList; import java.util.List; import java.util.Random; public class RandNFromRand5 { /** 题目：给定能随机生成整数1到5的函数，写出能随机生成整数1到7的函数。解法1： f(k) = (x0-1)*5^0+(x1-
PL/SQL Developer保存布局 Kai_Ge
近日由于项目需要，数据库从DB2迁移到ORCAL，因此数据库连接客户端选择了PL/SQL Developer。由于软件运用不熟悉，造成了很多麻烦，最主要的就是进入后，左边列表有很多选项，自己删除了一些选项卡，布局很满意了，下次进入后又恢复了以前的布局，很是苦恼。在众多PL/SQL Developer使用技巧中找到如下这段： &n
[未来战士计划]超能查派[剧透,慎入] comsci 计划
非常好看,超能查派,这部电影......为我们这些热爱人工智能的工程技术人员提供一些参考意见和思想........ 虽然电影里面的人物形象不是非常的可爱....但是非常的贴近现实生活.... &nbs
Google Map API V2 dai_lm google map
以后如果要开发包含google map的程序就更麻烦咯 http://www.cnblogs.com/mengdd/archive/2013/01/01/2841390.html 找到篇不错的文章，大家可以参考一下 http://blog.sina.com.cn/s/blog_c2839d410101jahv.html 1. 创建Android工程由于v2的key需要G
java数据计算层的几种解决方法2 datamachine java sql 集算器
2、SQL SQL/SP/JDBC在这里属于一类，这是老牌的数据计算层，性能和灵活性是它的优势。但随着新情况的不断出现，单纯用SQL已经难以满足需求，比如： JAVA开发规模的扩大，数据量的剧增，复杂计算问题的涌现。虽然SQL得高分的指标不多，但都是权重最高的。成熟度：5星。最成熟的。
Linux下Telnet的安装与运行 dcj3sjt126com linux telnet
Linux下Telnet的安装与运行 linux默认是使用SSH服务的而不安装telnet服务如果要使用telnet 就必须先安装相应的软件包即使安装了软件包默认的设置telnet 服务也是不运行的需要手工进行设置如果是redhat9，则在第三张光盘中找到 telnet-server-0.17-25.i386.rpm
PHP中钩子函数的实现与认识 dcj3sjt126com PHP
假如有这么一段程序： function fun(){ fun1(); fun2(); } 首先程序执行完fun1()之后执行fun2()然后fun()结束。但是，假如我们想对函数做一些变化。比如说，fun是一个解析函数，我们希望后期可以提供丰富的解析函数，而究竟用哪个函数解析，我们希望在配置文件中配置。这个时候就可以发挥钩子的力量了。我们可以在fu
EOS中的WorkSpace密码修改蕃薯耀修改WorkSpace密码
EOS中BPS的WorkSpace密码修改 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 201
SpringMVC4零配置--SpringSecurity相关配置【SpringSecurityConfig】 hanqunfeng SpringSecurity
SpringSecurity的配置相对来说有些复杂，如果是完整的bean配置，则需要配置大量的bean，所以xml配置时使用了命名空间来简化配置，同样，spring为我们提供了一个抽象类WebSecurityConfigurerAdapter和一个注解@EnableWebMvcSecurity，达到同样减少bean配置的目的，如下： applicationContex
ie 9 kendo ui中ajax跨域的问题 jackyrong AJAX跨域
这两天遇到个问题，kendo ui的datagrid，根据json去读取数据，然后前端通过kendo ui的datagrid去渲染，但很奇怪的是，在ie 10,ie 11,chrome,firefox等浏览器中，同样的程序，浏览起来是没问题的，但把应用放到公网上的一台服务器，却发现如下情况： 1） ie 9下，不能出现任何数据，但用IE 9浏览器浏览本机的应用，却没任何问题
不要让别人笑你不能成为程序员 lampcy 编程程序员
在经历六个月的编程集训之后，我刚刚完成了我的第一次一对一的编码评估。但是事情并没有如我所想的那般顺利。说实话，我感觉我的脑细胞像被轰炸过一样。手慢慢地离开键盘，心里很压抑。不禁默默祈祷：一切都会进展顺利的，对吧？至少有些地方我的回答应该是没有遗漏的，是不是？难道我选择编程真的是一个巨大的错误吗——我真的永远也成不了程序员吗？我需要一点点安慰。在自我怀疑，不安全感和脆弱等等像龙卷风一
马皇后的贤德 nannan408
马皇后不怕朱元璋的坏脾气，并敢理直气壮地吹耳边风。众所周知，朱元璋不喜欢女人干政，他认为“后妃虽母仪天下，然不可使干政事”，因为“宠之太过，则骄恣犯分，上下失序”，因此还特地命人纂述《女诫》，以示警诫。但马皇后是个例外。　　有一次，马皇后问朱元璋道：“如今天下老百姓安居乐业了吗？”朱元璋不高兴地回答：“这不是你应该问的。”马皇后振振有词地回敬道：“陛下是天下之父，
选择某个属性值最大的那条记录（不仅仅包含指定属性，而是想要什么属性都可以） Rainbow702 sql group by 最大值 max 最大的那条记录
好久好久不写SQL了，技能退化严重啊！！！直入主题：比如我有一张表，file_info，它有两个属性（但实际不只，我这里只是作说明用）： file_code, file_version 同一个code可能对应多个version 现在，我想针对每一个code，取得它相关的记录中，version 值最大的那条记录， SQL如下： select *
VBScript脚本语言 tntxia VBScript
VBScript 是基于VB的脚本语言。主要用于Asp和Excel的编程。 VB家族语言简介 Visual Basic 6.0 源于BASIC语言。由微软公司开发的包含协助开发环境的事
java中枚举类型的使用 xiao1zhao2 java enum 枚举 1.5新特性
枚举类型是j2se在1.5引入的新的类型,通过关键字enum来定义,常用来存储一些常量. 1.定义一个简单的枚举类型 public enum Sex { MAN, WOMAN } 枚举类型本质是类,编译此段代码会生成.class文件.通过Sex.MAN来访问Sex中的成员,其返回值是Sex类型. 2.常用方法静态的values()方