weixin_39747334

python数据项目分析实战技法_《Python数据分析与机器学习实战-唐宇迪》读书笔记第9章--随机森林项目实战——气温预测(1/2)...

第9章--随机森林项目实战——气温预测（1/2）

第8章已经讲解过随机森林的基本原理，本章将从实战的角度出发，借助Python工具包完成气温预测任务，其中涉及多个模块，主要包含随机森林建模、特征选择、效率对比、参数调优等。这个例子实在太长了，分为三篇介绍。这是第一篇。

随机森林建模：气温预测的任务目标就是使用一份天气相关数据来预测某一天的最高温度，属于回归任务，首先观察一下数据集：

输出结果中表头的含义如下。

year,moth,day,week：分别表示的具体的时间。

temp_2：前天的最高温度值。

temp_1：昨天的最高温度值。

average：在历史中，每年这一天的平均最高温度值。

actual：就是标签值，当天的真实最高温度。

friend：这一列可能是凑热闹的，你的朋友猜测的可能值，不管它就好。

该项目实战主要完成以下3项任务。

1.使用随机森林算法完成基本建模任务：包括数据预处理、特征展示、完成建模并进行可视化展示分析。

2.分析数据样本量与特征个数对结果的影响：在保证算法一致的前提下，增加数据样本个数，观察结果变化。重新考虑特征工程，引入新特征后，观察结果走势。

3.对随机森林算法进行调参，找到最合适的参数：掌握机器学习中两种经典调参方法，对当前模型选择最合适的参数。

9.1.1特征可视化与预处理

拿到数据之后，一般都会看看数据的规模，做到心中有数：

print('数据维度:', features.shape)#数据维度: (348, 9)

输出结果显示该数据一共有348条记录，每个样本有9个特征。如果想进一步观察各个指标的统计特性，可以用.describe()展示：

输出结果展示了各个列的数量，如果有数据缺失，数量就会有所减少。由于各列的统计数量值都是348，所以表明数据集中并不存在缺失值，并且均值、标准差、最大值、最小值等指标都在这里显示。

对于时间数据，也可以进行格式转换，原因在于有些工具包在绘图或者计算的过程中，用标准时间格式更方便：

1 #处理时间数据

2 importdatetime3

4 #分别得到年，月，日

5 years = features['year']6 months = features['month']7 days = features['day']8

9 #datetime格式

10 dates = [str(int(year)) + '-' + str(int(month)) + '-' + str(int(day)) for year, month, day inzip(years, months, days)]11 dates = [datetime.datetime.strptime(date, '%Y-%m-%d') for date in dates]

为了更直观地观察数据，最简单有效的办法就是画图展示，首先导入Matplotlib工具包，再选择一个合适的风格（其实风格差异并不是很大）：

1 #准备画图

2 importmatplotlib.pyplot as plt3

4 %matplotlib inline5

6 #指定默认风格

7 plt.style.use('fivethirtyeight')

开始布局，需要展示4项指标，分别为最高气温的标签值、前天、昨天、朋友预测的气温最高值。既然是4个图，不妨采用2×2的规模，这样会更清晰，对每个图指定好其图题和坐标轴即可：

1 #设置布局

2 fig, ((ax1, ax2), (ax3, ax4)) = plt.subplots(nrows=2, ncols=2, figsize = (10,10))3 fig.autofmt_xdate(rotation = 45)4

5 #标签值

6 ax1.plot(dates, features['actual'])7 ax1.set_xlabel(''); ax1.set_ylabel('Temperature'); ax1.set_title('Max Temp')8

9 #昨天

10 ax2.plot(dates, features['temp_1'])11 ax2.set_xlabel(''); ax2.set_ylabel('Temperature'); ax2.set_title('Previous Max Temp')12

13 #前天

14 ax3.plot(dates, features['temp_2'])15 ax3.set_xlabel('Date'); ax3.set_ylabel('Temperature'); ax3.set_title('Two Days Prior Max Temp')16

17 #我的逗逼朋友

18 ax4.plot(dates, features['friend'])19 ax4.set_xlabel('Date'); ax4.set_ylabel('Temperature'); ax4.set_title('Friend Estimate')20

21 plt.tight_layout(pad=2)

上述代码可以生成图9-1的输出。

图9-1 各项特征指标

由图可见，各项指标看起来还算正常（由于是国外的天气数据，在统计标准上有些区别）。接下来，考虑数据预处理的问题，原始数据中的week列并不是一些数值特征，而是表示星期几的字符串，计算机并不认识这些数据，需要转换一下。

图9-2是常用的转换方式，称作one-hot encoding或者独热编码，目的就是将属性值转换成数值。对应的特征中有几个可选属性值，就构造几列新的特征，并将其中符合的位置标记为1，其他位置标记为0。

图9-2 特征编码

既可以用Sklearn工具包中现成的方法完成转换，也可以用Pandas中的函数，综合对比后觉得用Pandas中的.get_dummies()函数最容易：

1 #独热编码

2 features =pd.get_dummies(features)3 features.head(5)

完成数据集中属性值的预处理工作后，默认会把所有属性值都转换成独热编码的格式，并且自动添加后缀，这样看起来更清晰。

其实也可以按照自己的方式设置编码特征的名字，在使用时，如果遇到一个不太熟悉的函数，想看一下其中的细节，一个更直接的方法，就是在Notebook中直接调用help工具来看一下它的API文档，下面返回的就是get_dummies的细节介绍，也可以查阅在线文档：

help(pd.get_dummies)

Help on function get_dummiesinmodule pandas.core.reshape.reshape:

get_dummies(data, prefix=None, prefix_sep='_', dummy_na=False, columns=None, sparse=False, drop_first=False, dtype=None) -> 'DataFrame'Convert categorical variable into dummy/indicator variables.

Parameters----------data : array-like, Series, orDataFrame

Data of which to get dummy indicators.

prefix : str, list of str,ordict of str, default None

String to append DataFrame column names.

Pass a list with length equal to the number of columns

when calling get_dummies on a DataFrame. Alternatively, `prefix`

can be a dictionary mapping column names to prefixes.

prefix_sep : str, default'_'If appending prefix, separator/delimiter to use. Or passa

listordictionary as with `prefix`.

dummy_na : bool, default False

Add a column to indicate NaNs,ifFalse NaNs are ignored.

columns : list-like, default None

Column namesinthe DataFrame to be encoded.

If `columns`isNone then all the columns with

`object`or`category` dtype will be converted.

sparse : bool, default False

Whether the dummy-encoded columns should be backed by

a :class:`SparseArray` (True) ora regular NumPy array (False).

drop_first : bool, default False

Whether to get k-1dummies out of k categorical levels by removing the

first level.

dtype : dtype, default np.uint8

Data typefor new columns. Only a single dtype isallowed.

.. versionadded::0.23.0

Returns-------DataFrame

Dummy-coded data.

See Also--------Series.str.get_dummies : Convert Series to dummy codes.

Examples--------

>>> s = pd.Series(list('abca'))>>>pd.get_dummies(s)

a b c

010 01 0 102 0 0 1

3 10 0>>> s1 = ['a', 'b', np.nan]>>>pd.get_dummies(s1)

a b

0101 0 1

20 0>>> pd.get_dummies(s1, dummy_na=True)

a b NaN

010 01 0 102 0 0 1

>>> df = pd.DataFrame({'A': ['a', 'b', 'a'], 'B': ['b', 'a', 'c'],

...'C': [1, 2, 3]})>>> pd.get_dummies(df, prefix=['col1', 'col2'])

C col1_a col1_b col2_a col2_b col2_c

01 1 0 0 101 2 0 1 10 02 3 1 0 0 0 1

>>> pd.get_dummies(pd.Series(list('abcaa')))

a b c

010 01 0 102 0 0 1

3 10 04 10 0>>> pd.get_dummies(pd.Series(list('abcaa')), drop_first=True)

b c

0 0 01 102 0 1

30 040 0>>> pd.get_dummies(pd.Series(list('abc')), dtype=float)

a b c

01.0 0.0 0.0

1 0.0 1.0 0.0

2 0.0 0.0 1.0

View Code

特征预处理完成之后，还要把数据重新组合一下，特征是特征，标签是标签，分别在原始数据集中提取一下：

print('Shape of features after one-hot encoding:', features.shape)#Shape of features after one-hot encoding: (348, 15)

1 #数据与标签

2 importnumpy as np3

4 #标签

5 labels = np.array(features['actual'])6

7 #在特征中去掉标签

8 features= features.drop('actual', axis = 1)9

10 #名字单独保存一下，以备后患

11 feature_list =list(features.columns)12

13 #转换成合适的格式

14 features = np.array(features)

在训练模型之前，需要先对数据集进行切分：

1 #数据集切分

2 from sklearn.model_selection importtrain_test_split3

4 train_features, test_features, train_labels, test_labels = train_test_split(features, labels, test_size = 0.25,5 random_state = 42)6 print('训练集特征:', train_features.shape)7 print('训练集标签:', train_labels.shape)8 print('测试集特征:', test_features.shape)9 print('测试集标签:', test_labels.shape)

训练集特征: (261, 14)

训练集标签: (261,)

测试集特征: (87, 14)

测试集标签: (87,)

9.1.2随机森林回归模型

万事俱备，开始建立随机森林模型，首先导入工具包，先建立1000棵树模型试试，其他参数暂用默认值，然后深入调参任务：

1 #导入算法

2 from sklearn.ensemble importRandomForestRegressor3

4 #建模

5 rf = RandomForestRegressor(n_estimators= 1000, random_state=42)6

7 #训练

8 rf.fit(train_features, train_labels)

RandomForestRegressor(bootstrap=True, ccp_alpha=0.0, criterion='mse',

max_depth=None, max_features='auto', max_leaf_nodes=None,

max_samples=None, min_impurity_decrease=0.0,

min_impurity_split=None, min_samples_leaf=1,

min_samples_split=2, min_weight_fraction_leaf=0.0,

n_estimators=1000, n_jobs=None, oob_score=False,

random_state=42, verbose=0, warm_start=False)

由于数据样本量非常小，所以很快可以得到结果，这里选择先用MAPE指标进行评估，也就是平均绝对百分误差。

1 #预测结果

2 predictions =rf.predict(test_features)3

4 #计算误差

5 errors = abs(predictions -test_labels)6

7 #mean absolute percentage error (MAPE)

8 mape = 100 * (errors /test_labels)9

10 print ('MAPE:',np.mean(mape))

MAPE: 6.011244187972058

其实对于回归任务，评估方法还是比较多的，下面列出几种，都很容易实现，也可以选择其他指标进行评估。

9.1.3树模型可视化方法

得到随机森林模型后，现在介绍怎么利用工具包对树模型进行可视化展示，首先需要安装Graphviz工具，其配置过程如下。

第① 步：下载安装。

下载graphviz-2.38.msi，完成后双击这个msi文件，然后一直单击next按钮，即可安装Graphviz软件（注意：一定要记住安装路径，因为后面配置环境变量会用到路径信息，系统默认的安装路径是C:\Program Files (x86)\Graphviz2.38）。

第②步：配置环境变量。

将Graphviz安装目录下的bin文件夹添加到Path环境变量中。

本例中：

D:\tools\GraphViz\bin

第③步：验证安装。

进入Windows命令行界面，输入“dot–version”命令，然后按住Enter键，如果显示Graphviz的相关版本信息，则说明安装配置成功，

dot -version

dot- graphviz version 2.38.0 (20140413.2041)

libdir= "D:\tools\GraphViz\bin"Activated plugin library: gvplugin_dot_layout.dll

Using layout: dot:dot_layout

Activated plugin library: gvplugin_core.dll

Using render: dot:core

Using device: dot:dot:core

The plugin configuration file:

D:\tools\GraphViz\bin\config6

was successfully loaded.

render : cairo dot fig gd gdiplus map pic pov ps svg tk vml vrml xdot

layout : circo dot fdp neato nop nop1 nop2 osage patchwork sfdp twopi

textlayout : textlayout

device : bmp canon cmap cmapx cmapx_np dot emf emfplus eps fig gd gd2 gif gv imap imap_np ismap jpe jpeg jpg

metafile pdf pic plain plain-ext png pov ps ps2 svg svgz tif tiff tk vml vmlz vrml wbmp xdot xdot1.2 xdot1.4loadimage : (lib) bmp eps gd gd2 gif jpe jpeg jpg png ps svg

最后还需安装graphviz、pydot和pydotplus插件，在命令行中输入相关命令即可，代码如下：

1 pip3 install graphviz2 pip3 install pydot23 pip3 install pydotplus4 pip3 install pydot

上述工具包安装完成之后，就可以绘制决策树模型：

1 #导入所需工具包

2 from sklearn.tree importexport_graphviz3 import pydot #pip install pydot

5 #拿到其中的一棵树

6 tree = rf.estimators_[5]7

8 #导出成dot文件

9 export_graphviz(tree, out_file = 'tree.dot', feature_names = feature_list, rounded = True, precision = 1)10

11 #绘图

12 (graph, ) = pydot.graph_from_dot_file('tree.dot')13

14 #展示

15 graph.write_png('tree.png');

执行完上述代码，会在指定的目录下（如果只指定其名字，会在代码所在路径下）生成一个tree.png文件，这就是绘制好的一棵树的模型，如图9-8所示。树模型看起来有点太大，观察起来不太方便，可以使用参数限制决策树的规模，还记得剪枝策略吗？预剪枝方案在这里可以派上用场。

1 print('The depth of this tree is:', tree.tree_.max_depth)2 #The depth of this tree is: 15

图9-9对生成的树模型中各项指标的含义进行了标识，看起来还是比较好理解，其中非叶子节点中包括4项指标：所选特征与切分点、评估结果、此节点样本数量、节点预测结果（回归中就是平均）。

图9-9 树模型可视化中各项指标含义

9.1.4特征重要性

讲解随机森林算法的时候，曾提到使用集成算法很容易得到其特征重要性，在sklearn工具包中也有现成的函数，调用起来非常容易：

1 #得到特征重要性

2 importances =list(rf.feature_importances_)3

4 #转换格式

5 feature_importances = [(feature, round(importance, 2)) for feature, importance inzip(feature_list, importances)]6

7 #排序

8 feature_importances = sorted(feature_importances, key = lambda x: x[1], reverse =True)9

10 #对应进行打印

11 [print('Variable: {:20} Importance: {}'.format(*pair)) for pair in feature_importances]

Variable: temp_1 Importance: 0.7Variable: average Importance:0.19Variable: day Importance:0.03Variable: temp_2 Importance:0.02Variable: friend Importance:0.02Variable: month Importance:0.01Variable: year Importance:0.0Variable: week_Fri Importance:0.0Variable: week_Mon Importance:0.0Variable: week_Sat Importance:0.0Variable: week_Sun Importance:0.0Variable: week_Thurs Importance:0.0Variable: week_Tues Importance:0.0Variable: week_Wed Importance:0.0

上述输出结果分别打印了当前特征及其所对应的特征重要性，绘制成图表分析起来更容易：

1 #转换成list格式

2 x_values =list(range(len(importances)))3

4 #绘图

5 plt.bar(x_values, importances, orientation = 'vertical')6

7 #x轴名字

8 plt.xticks(x_values, feature_list, rotation='vertical')9

10 #图名

11 plt.ylabel('Importance'); plt.xlabel('Variable'); plt.title('Variable Importances');

上述代码可以生成图9-10的输出，可以明显发现，temp_1和average这两个特征的重要性占据总体的绝大部分，其他特征的重要性看起来微乎其微。那么，只用最厉害的特征来建模，其效果会不会更好呢？其实并不能保证效果一定更好，但是速度肯定更快，先来看一下结果：

图9-10 随机森林特征重要性

1 #选择最重要的那两个特征来试一试

2 rf_most_important = RandomForestRegressor(n_estimators= 1000, random_state=42)3

4 #拿到这俩特征

5 important_indices = [feature_list.index('temp_1'), feature_list.index('average')]6 train_important =train_features[:, important_indices]7 test_important =test_features[:, important_indices]8

9 #重新训练模型

10 rf_most_important.fit(train_important, train_labels)11

12 #预测结果

13 predictions =rf_most_important.predict(test_important)14

15 errors = abs(predictions -test_labels)16

17 #评估结果

19 mape = np.mean(100 * (errors /test_labels))20

21 print('mape:', mape)

mape: 6.229055723613811

从损失值上观察，并没有下降，反而上升了，说明其他特征还是有价值的，不能只凭特征重要性就否定部分特征数据，一切还要通过实验进行判断。

但是，当考虑时间效率的时候，就要好好斟酌一下是否应该剔除掉那些用处不大的特征以加快构建模型的速度。到目前为止，已经得到基本的随机森林模型，并可以进行预测，下面来看看模型的预测值与真实值之间的差异：

1 #日期数据

2 months = features[:, feature_list.index('month')]3 days = features[:, feature_list.index('day')]4 years = features[:, feature_list.index('year')]5

6 #转换日期格式

7 dates = [str(int(year)) + '-' + str(int(month)) + '-' + str(int(day)) for year, month, day inzip(years, months, days)]8 dates = [datetime.datetime.strptime(date, '%Y-%m-%d') for date indates]9

10 #创建一个表格来存日期和其对应的标签数值

11 true_data = pd.DataFrame(data = {'date': dates, 'actual': labels})12

13 #同理，再创建一个来存日期和其对应的模型预测值

14 months = test_features[:, feature_list.index('month')]15 days = test_features[:, feature_list.index('day')]16 years = test_features[:, feature_list.index('year')]17

18 test_dates = [str(int(year)) + '-' + str(int(month)) + '-' + str(int(day)) for year, month, day inzip(years, months, days)]19

20 test_dates = [datetime.datetime.strptime(date, '%Y-%m-%d') for date intest_dates]21

22 predictions_data = pd.DataFrame(data = {'date': test_dates, 'prediction': predictions})23

24 #真实值

25 plt.plot(true_data['date'], true_data['actual'], 'b-', label = 'actual')26

27 #预测值

28 plt.plot(predictions_data['date'], predictions_data['prediction'], 'ro', label = 'prediction')29 plt.xticks(rotation = '60');30 plt.legend()31

32 #图名

33 plt.xlabel('Date'); plt.ylabel('Maximum Temperature (F)'); plt.title('Actual and Predicted Values');

通过上述输出结果的走势可以看出，模型已经基本能够掌握天气变化情况，接下来还需要深入数据，考虑以下几个问题。

1.如果可利用的数据量增大，会对结果产生什么影响呢？

2.加入新的特征会改进模型效果吗？此时的时间效率又会怎样？

未完待续。

你可能感兴趣的:(python数据项目分析实战技法_《Python数据分析与机器学习实战-唐宇迪》读书笔记第9章--随机森林项目实战——气温预测(1/2)...)

探索天气预警API：精准预测，守护安全 api
引言在当今这个快速变化的世界中，天气的波动直接影响着人们的日常生活、农业生产、交通出行乃至公共安全。为了有效应对各种极端天气事件，天气预警API应运而生，成为连接气象数据与公众服务的重要桥梁。本文将深入探讨天气预警API的工作原理、应用场景以及其对社会的积极影响。天气预警API的工作原理天气预警API基于先进的气象监测技术和大数据分析，通过收集全球范围内的气象卫星、雷达、地面观测站等数据源，进行实
【登月计划】 DAY2 上期：产品研发与设计验证（1-3）-《煮饭煮到天花板炸穿！你家厨房可能藏着一颗定时炸弹》泛泛不谈 0-2岁智能制造工程师启蒙制造需求分析经验分享
目录一、血腥开场：电饭煲变“炸弹”？实验室里的致命疏忽！二、死亡案例：电热水壶漏电杀人！一个螺丝毁掉一个家庭三、段位表：从“菜鸟”到“大神”的6个等级四、产线实战：电热水壶的“保命测试”流程一、血腥开场：电饭煲变“炸弹”？实验室里的致命疏忽！某电饭煲厂商推出“超快煮”功能，本想赢得市场，却引发危机。实验室测试时一切正常，可产品到用户手中却频频炸锅。用户遭遇：李阿姨煮粥时，电饭煲突然炸开，粥喷到天花
CSS 滚动条样式修改（详细） mr_cmx css css3 html
1、滚动条整体部分使用::-webkit-scrollbar示例：.container::-webkit-scrollbar{width:20px;//修改滚动条宽度}2、滚动条中的滑块使用::-webkit-scrollbar-thumb示例：.container::-webkit-scrollbar-thumb{border-radius:8px;box-shadow:inset005pxrg
容器docker k8s相关的问题汇总及排错 weixin_43806846 docker kubernetes 容器
1.明确问题2.排查方向2.1、docker方面dockerlogs-f容器IDdocker的网络配置问题。2.2、k8s方面node组件问题pod的问题（方式kubectldescribepopod的名称-n命名空间&&kubectllogs-fpod的名称-n命名空间）调度的问题（污点、节点选择器与标签不匹配、存储卷的问题）service问题（访问不了，ingress的问题、service标签
网页实现打字机效果充气大锤前端组件 javascript 算法开发语言 vue.js
在DS中，AI与用户的对话呈现的是一个打字机效果，那么我们在网页中如何实现对话框的打字机效果呢思路：进行字符串拼接，将要拼接的字符串逐字拼接到目标字符串上代码/***实现打字机效果*@param{String}str要打印的字符串*@param{Array}arr聊天数据中的数组*@param{Number}id需要push字符串的下标*@param{String}msg_name数组中的对象名*
RUST练习生如何在生产环境构建万亿流量|得物技术后端rust
一、引言在《得物新一代可观测性架构：海量数据下的存算分离设计与实践》一文中，我们探讨了存算分离架构如何通过解耦计算与存储资源，显著降低存储成本并提升系统扩展性。然而，仅优化存储成本不足以支撑高效可观测性系统的全局目标。在生产环境中，计算层作为可观测性体系的核心模块，需在处理日益复杂和动态的大流量数据时，保持高性能、强稳定性与优异的资源利用效率。在得物的可观测性计算层中，Java凭借其成熟的生态系统
HarmonyOS应用开发最佳实践 harmonyos
课程简介本课程是【HarmonyOSTechTalk】的第9课。本次交流紧紧围绕HarmonyOS应用开发。重点探讨常见的功耗问题及其最佳实践方案。省电模式是降低能耗的关键策略，通过优化系统资源分配等方式减少电量消耗。深色模式不仅能提升视觉舒适度，还对节能有积极作用。LTPO可变帧率技术则在保障应用流畅性的同时进一步优化功耗。而后台任务的合理开发与管理，决定着应用在后台运行时的资源占用与续航表现。
洞察客户喜好，精准培育客户程序员机器学习
在当今竞争激烈的市场环境中，客户关系管理（CRM）系统已成为企业获取竞争优势的关键工具之一。通过深入洞察客户喜好，企业能够更精准地培育客户关系，从而提高客户满意度和忠诚度。以下是CRM系统在洞察客户喜好和精准培育客户关系方面的几个关键作用：收集和整合客户数据CRM系统能够从多个渠道收集客户的详细信息，包括客户的基本资料、购买历史、互动记录、反馈意见等。这些数据为企业提供了全面的客户画像，使企业能够
chatgpt pro是什么？和chatgpt plus有什么区别？如何升级chatgpt pro? chatgpt
chatgptpro是什么？chatGPTPro是openAI推出的目前最高级别的付费订阅服务，一个月200美元.这对于一般用户来说是一个比较昂贵的费用。chatgptpro和chatgptplus有什么区别？chatGPTPlus官网原文：EverythinginFreeExtendedlimitsonmessaging,fileuploads,advanceddataanalysis,andi
经销商管理系统架构设计方案（附 Java版本和Python版本源代码详解） AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 AI大模型企业级应用开发实战 AI大模型应用入门实战与进阶计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
经销商管理系统架构设计方案（Java实现源代码详解）关键词：经销商管理系统，Java，SpringBoot，MyBatis，MySQL，架构设计，源代码1.背景介绍随着市场竞争的日益激烈，企业对经销商的管理越来越重视。传统的经销商管理方式效率低下，信息滞后，难以适应现代企业的发展需求。为了提高经销商管理效率，降低运营成本，越来越多的企业开始采用信息化的手段来管理经销商，而经销商管理系统应运而生。经
LLM的分布式部署：AI的云端革命 AI天才研究院 AI大模型企业级应用开发实战 Python实战 DeepSeek R1 &大数据AI人工智能大模型 java python javascript kotlin golang 架构人工智能大厂程序员硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM 系统架构设计软件哲学 Agent 程序员实现财富自由
《LLM的分布式部署：AI的云端革命》关键词分布式部署语言模型云端计算资源管理性能优化安全性摘要本文将深入探讨大型语言模型（LLM）的分布式部署，分析其技术背景、架构设计、资源管理、性能优化以及安全性等方面。通过对LLM分布式部署的关键技术进行详细介绍，我们旨在为读者提供一个全面、系统的理解，以及展望未来LLM分布式部署的发展趋势。目录大纲第一部分：分布式部署概述第1章：分布式系统基础第2章：LL
Maven 与 Docker 集成：构建 Docker 镜像并与容器化应用集成 drebander docker maven docker
在现代软件开发中，容器化已成为一种流行的部署和运行应用程序的方式。通过将应用程序及其所有依赖打包成Docker镜像，开发者可以确保应用能够在不同的环境中一致地运行。而Maven是广泛使用的构建工具，能够帮助管理项目的构建、依赖和发布。本文将介绍如何使用Maven构建Docker镜像，并将其与容器化应用集成，以便于自动化部署和管理。1.Maven与Docker集成概述Maven可以通过插件来构建Do
Maven学习总结（15）——Maven 项目中pom.xml详解一杯甜酒 Maven
<ver
macOS Monterey（MacOS 12）系统升级cocoapods cocoapods
老款MacBook系统Monterey(MacOS12)由于brew停止了从上游下载cocoapods提示不支持os12系统，无法安装最新版cocoapods，本文讲述了另一种方法来更新cocoapods原文链接：http://www.kovli.com/2024/12/18/old-macos-install-cocoapods/作者:Kovli重要通知：红宝书第5版2024年12月1日出炉了，
chatgpt4.0账号购买指南：畅享体验更加丝滑的GPT 4.0/4o chatgpt
解锁4.0的宇宙，开启无限可能！快来体验4.0的超能力，感受未来科技的魅力！✨以下是五大理由，让你立刻爱上它：1️⃣语言理解力MAX！ChatGPT4.0不仅仅是升级，更是进化！相比之前的版本，它拥有更强大的语言理解和生成能力，能够像一位真正的专家一样理解你的复杂问题，并提供更相关、更深入、更令人信服的答案。告别答非所问的尴尬，迎接精准高效的沟通！2️⃣多模态支持，玩转图文交互！️ChatGPT4
solidjs中实现vue中的keep-alive功能的总结 chrome-devtools
在Solid.js中，虽然没有像Vue中keep-alive这样的直接API，但你可以使用类似的方式来保持组件的状态或避免组件的重复挂载。Solid.js中的组件本质上是基于反应式系统的，每个组件都在被销毁时自动清除其反应式状态。所以，如果你想模拟keep-alive的效果，可以使用以下几种方式：1.使用createEffect或createMemo保存状态你可以通过使用createEffect或
solidjs中实现vue中的keep-alive功能的方法 angular
在Solid.js中，虽然没有像Vue中keep-alive这样的直接API，但你可以使用类似的方式来保持组件的状态或避免组件的重复挂载。Solid.js中的组件本质上是基于反应式系统的，每个组件都在被销毁时自动清除其反应式状态。所以，如果你想模拟keep-alive的效果，可以使用以下几种方式：1.使用createEffect或createMemo保存状态你可以通过使用createEffect或
行业专家推荐2024年CRM系统Top 5
商业环境瞬息万变，客户关系管理（CRM）系统帮助企业更好地连接客户、理解客户、服务客户，已成为企业不可或缺的战略资产。企业在选择CRM系统时，应做好充分的市场调查。为了帮助企业更好地把握市场机遇，提升客户体验，本文根据搜索结果和行业专家的评价，推荐2024年各方面排名靠前的5个CRM系统，并介绍它们的主要功能、擅长领域、适用企业、总体评价、评分以及官网链接。纷享销客重点功能：纷享销客定位于连接型C
DeepSeek和ChatGPT的全面对比陈皮话梅糖@ AI编程
一、模型基础架构对比（2023技术版本）维度DeepSeekChatGPT模型家族LLAMA架构改进GPT-4优化版本参数量级开放7B/35B/120B闭源175B+位置编码RoPE+NTK扩展ALiBiAttention机制FlashAttention-3FlashAttention-2激活函数SwiGLUProGeGLU训练框架DeepSpeed+Megatron定制内部框架上下文窗口32k（
百度交重构一年成绩单 10%的百度搜索流量由文心一言的模型生成百度
“大模型我们走在最前面，我们需要去勇闯无人区，需要去冒前人没有冒过的风险。”近日，在百度一场内部颁奖活动中，百度创始人、董事长兼首席执行官李彦宏指出，百度一直坚信技术可以改变世界，会一直沿着这条路走下去。当天，李彦宏在颁奖时，向现场的获奖团队和个人表示祝贺并强调，“你们才代表百度，你们才代表最真实的百度，你们是百度最真实的代表。”他在讲话中指出，创新并不容易，“十个创新，可能九个最后都是以失败告终
2024 百度万象大会举办：大模型全面重构百度移动生态，让智能体人人可用百度
「智能体就是生产力，这是每一个人放大杠杆、撬动红利，成为超级个体的时代机遇。」5月30日，在苏州举办的2024百度移动生态万象大会上，百度集团资深副总裁、百度移动生态事业群组总经理何俊杰发表《让智能体人人可用》的主题演讲。他认为，百度有责任也有能力做好新技术的普惠者，让所有人因此受益。在本次大会上，百度搜索、文心一言APP、百度文库、百度电商、文心智能体平台、百度APP等百度移动生态业务都发布了基
发送http请求 rust
发起GET请求usereqwest::Client;usetokio;#[tokio::main]asyncfnmain()->Result>{//创建reqwest客户端letclient=Client::new();//发起GET请求letresponse=client.get("https://jsonplaceholder.typicode.com/posts/1").send().awa
Python:数据从Excel表格链接到Word文档更新Excel即可自动更新Word 一个花生米生花 python excel word
要使用Python来创建或更新一个Word文档，并将数据从Excel表格链接到Word文档中，你可以使用python-docx库来操作Word文档和openpyxl或pandas库来读取Excel文件。不过，需要注意的是，python-docx库并不支持将外部文件链接到Word文档的功能。你可以在Word文档中插入Excel数据的快照，但它们不会自动更新。如果你想要在Word文档中插入Excel数
炫“库”行动—人大金仓有奖征文—金仓读写分离集群优势阳光下的微笑7 数据库运维 big data 数据库架构数据仓库
炫“库”行动—人大金仓有奖征文—金仓读写分离集群优势金仓读写分离集群实现了真正的高可用。为了保障数据的安全性，金仓数据库集群由多个数据库节点通过集群软件组织起来，客户通过访问集群的VIP来访问数据。并且只要有一个数据库节点正常，就不会中断业务。同时金仓读写分离集群可以保证用户能够7×24小时不间断的对数据进行访问，使得客户业务能够顺利进行。金仓读写分离集群同样具有高可用、灾备、负载均衡等特性，更保
auto-gptq安装以及不适配软硬件环境可能出现的问题及解决方式 IT修炼家大模型部署大模型 auto-gptq cuda
目录1、auto-gptq是什么？2、auto-gptq安装3、auto-gptq不正确安装可能会出现的问题（1）爆出：`CUDAextensionnotinstalled.`（2）没有报错但是推理速度超级慢1、auto-gptq是什么？Auto-GPTQ是一种专注于量化深度学习模型的工具库。它的主要目标是通过量化技术（Quantization）将大型语言模型（LLM）等深度学习模型的大小和计算复
一张图搞定(2020版)IDEA中集成Maven插件【图文】详细一个长不胖的程序YUAN Maven工具 Maven IDEA集成插件
1、首先你得先确保一下你的电脑上是有成功配置好的Maven工具。配置成功之后的演示:黑窗口中输入mvn-v，出现以上情况就是配置成功的，要是你没有配置好，请查看这篇Maven配置文章。建议配置阿里云镜像，以此让下载依赖更快，配置阿里云镜像。2、最好先在本地创建一个jar包本地仓库，以便之后直接配置时好指定你本地仓库的路径。为了让这篇文章只是出现IDEA集成Maven插件，我就把创建本地仓库的做法放
Windows 环境下配置多个不同版本的 Maven 阿绵后端 windows maven java
在实际开发中，不同的项目可能需要使用不同版本的Maven。例如，老项目可能依赖于Maven3.3，而新项目可能需要Maven3.8+才能正常运行。因此，在Windows下配置多个Maven版本并能方便地切换是非常必要的1.下载并安装多个Maven版本1.1下载Maven访问ApacheMaven官网，根据需要下载不同版本的Maven。例如：ApacheMaven3.3.9ApacheMaven3.
使用Odoo Shell卸载模块 odoo中国 odoo odoo 开源软件 erp
使用OdooShell卸载模块我们在Odoo使用过程中，因为模块安装错误或者前端错误等导致odoo无法通过界面登录，这时候你可以使用OdooShell来卸载模块。OdooShell是一个交互式Pythonshell，允许你直接与Odoo数据库和模型进行交互。以下是使用OdooShell卸载模块的详细步骤：步骤1：启动OdooShell要启动OdooShell，你需要在终端中运行以下命令。确保你已经
《数组》学习——移除元素小翔很开心学习
移除元素题目：给你一个数组nums和一个值val，你需要原地移除所有数值等于val的元素，并返回移除后数组的新长度。不要使用额外的数组空间，你必须仅使用O(1)额外空间并原地修改输入数组。元素的顺序可以改变。你不需要考虑数组中超出新长度后面的元素。测试用例：示例1:给定nums=[3,2,2,3],val=3,函数应该返回新的长度2,并且nums中的前两个元素均为2。你不需要考虑数组中超出新长度后
【系统架构设计师】系统性能之性能指标王佑辉系统架构设计师系统架构
目录1.说明2.计算机的性能指标3.路由器的性能指标4.交换机的性能指标5.网络的性能指标6.操作系统的性能指标7.数据库管理系统的性能指标8.Web服务器的性能指标9.例题9.1例题11.说明1.性能指标是软、硬件的性能指标的集成。2.在硬件中，包括计算机、各种通信交换设备、各类网络设备等；在软件中，包括操作系统、数据库、网络协议以及应用程序等。2.计算机的性能指标1.评价计算机的主要性能指标有
安装数据库首次应用 Array_06 java oracle sql
可是为什么再一次失败之后就变成直接跳过那个要求 enter full pathname of java.exe的界面这个java.exe是你的Oracle 11g安装目录中例如：【F:\app\chen\product\11.2.0\dbhome_1\jdk\jre\bin】下的java.exe 。不是你的电脑安装的java jdk下的java.exe！注意第一次，使用SQL D
Weblogic Server Console密码修改和遗忘解决方法 bijian1013 Welogic
在工作中一同事将Weblogic的console的密码忘记了，通过网上查询资料解决，实践整理了一下。一.修改Console密码打开weblogic控制台，安全领域 --> myrealm -->&n
IllegalStateException: Cannot forward a response that is already committed Cwind java Servlets
对于初学者来说，一个常见的误解是：当调用 forward() 或者 sendRedirect() 时控制流将会自动跳出原函数。标题所示错误通常是基于此误解而引起的。示例代码： protected void doPost() { if (someCondition) { sendRedirect(); } forward(); // Thi
基于流的装饰设计模式木zi_鸣设计模式
当想要对已有类的对象进行功能增强时，可以定义一个类，将已有对象传入，基于已有的功能，并提供加强功能。自定义的类成为装饰类模仿BufferedReader，对Reader进行包装，体现装饰设计模式装饰类通常会通过构造方法接受被装饰的对象，并基于被装饰的对象功能，提供更强的功能。装饰模式比继承灵活，避免继承臃肿，降低了类与类之间的关系装饰类因为增强已有对象，具备的功能该
Linux中的uniq命令被触发 linux
Linux命令uniq的作用是过滤重复部分显示文件内容，这个命令读取输入文件，并比较相邻的行。在正常情况下，第二个及以后更多个重复行将被删去，行比较是根据所用字符集的排序序列进行的。该命令加工后的结果写到输出文件中。输入文件和输出文件必须不同。如果输入文件用“- ”表示，则从标准输入读取。 AD： uniq [选项] 文件说明：这个命令读取输入文件，并比较相邻的行。在正常情况下，第二个
正则表达式Pattern 肆无忌惮_ Pattern
正则表达式是符合一定规则的表达式，用来专门操作字符串，对字符创进行匹配，切割，替换，获取。例如，我们需要对QQ号码格式进行检验规则是长度6~12位不能0开头只能是数字，我们可以一位一位进行比较，利用parseLong进行判断，或者是用正则表达式来匹配[1-9][0-9]{4,14} 或者 [1-9]\d{4,14} &nbs
Oracle高级查询之OVER (PARTITION BY ..) 知了ing oracle sql
一、rank()/dense_rank() over(partition by ...order by ...) 现在客户有这样一个需求，查询每个部门工资最高的雇员的信息，相信有一定oracle应用知识的同学都能写出下面的SQL语句： select e.ename, e.job, e.sal, e.deptno from scott.emp e, (se
Python调试矮蛋蛋 python pdb
原文地址： http://blog.csdn.net/xuyuefei1988/article/details/19399137 1、下面网上收罗的资料初学者应该够用了，但对比IBM的Python 代码调试技巧： IBM：包括 pdb 模块、利用 PyDev 和 Eclipse 集成进行调试、PyCharm 以及 Debug 日志进行调试： http://www.ibm.com/d
webservice传递自定义对象时函数为空，以及boolean不对应的问题 alleni123 webservice
今天在客户端调用方法 NodeStatus status=iservice.getNodeStatus(). 结果NodeStatus的属性都是null。进行debug之后，发现服务器端返回的确实是有值的对象。后来发现原来是因为在客户端，NodeStatus的setter全部被我删除了。本来是因为逻辑上不需要在客户端使用setter，结果改了之后竟然不能获取带属性值的
java如何干掉指针，又如何巧妙的通过引用来操作指针————>说的就是java指针百合不是茶
C语言的强大在于可以直接操作指针的地址，通过改变指针的地址指向来达到更改地址的目的,又是由于c语言的指针过于强大，初学者很难掌握， java的出现解决了c，c++中指针的问题 java将指针封装在底层，开发人员是不能够去操作指针的地址，但是可以通过引用来间接的操作：定义一个指针p来指向a的地址（&是地址符号）：
Eclipse打不开，提示“An error has occurred.See the log file ***/.log” bijian1013 eclipse
打开eclipse工作目录的\.metadata\.log文件，发现如下错误： !ENTRY org.eclipse.osgi 4 0 2012-09-10 09:28:57.139 !MESSAGE Application error !STACK 1 java.lang.NoClassDefFoundError: org/eclipse/core/resources/IContai
spring aop实例annotation方法实现 bijian1013 java spring AOP annotation
在spring aop实例中我们通过配置xml文件来实现AOP，这里学习使用annotation来实现，使用annotation其实就是指明具体的aspect,pointcut和advice。1.申明一个切面(用一个类来实现)在这个切面里,包括了advice和pointcut AdviceMethods.jav
[Velocity一]Velocity语法基础入门 bit1129 velocity
用户和开发人员参考文档 http://velocity.apache.org/engine/releases/velocity-1.7/developer-guide.html 注释 1.行级注释## 2.多行注释#* *# 变量定义使用$开头的字符串是变量定义，例如$var1, $var2, 赋值使用#set为变量赋值，例
【Kafka十一】关于Kafka的副本管理 bit1129 kafka
1. 关于request.required.acks request.required.acks控制者Producer写请求的什么时候可以确认写成功，默认是0， 0表示即不进行确认即返回。 1表示Leader写成功即返回，此时还没有进行写数据同步到其它Follower Partition中 -1表示根据指定的最少Partition确认后才返回，这个在 Th
lua统计nginx内部变量数据 ronin47 lua nginx　统计
server { listen 80; server_name photo.domain.com; location /{set $str $uri; content_by_lua ' local url = ngx.var.uri local res = ngx.location.capture(
java-11.二叉树中节点的最大距离 bylijinnan java
import java.util.ArrayList; import java.util.List; public class MaxLenInBinTree { /* a. 1 / \ 2 3 / \ / \ 4 5 6 7 max=4 pass "root"
Netty源码学习-ReadTimeoutHandler bylijinnan java netty
ReadTimeoutHandler的实现思路：开启一个定时任务，如果在指定时间内没有接收到消息，则抛出ReadTimeoutException 这个异常的捕获，在开发中，交给跟在ReadTimeoutHandler后面的ChannelHandler，例如 private final ChannelHandler timeoutHandler = new ReadTim
jquery验证上传文件样式及大小(好用) cngolon 文件上传 jquery验证
<!DOCTYPE html> <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=utf-8" /> <script src="jquery1.8/jquery-1.8.0.
浏览器兼容【转】 cuishikuan css 浏览器 IE
浏览器兼容问题一：不同浏览器的标签默认的外补丁和内补丁不同问题症状：随便写几个标签，不加样式控制的情况下，各自的margin 和padding差异较大。碰到频率:100% 解决方案：CSS里 *{margin:0;padding:0;} 备注：这个是最常见的也是最易解决的一个浏览器兼容性问题，几乎所有的CSS文件开头都会用通配符*来设
Shell特殊变量：Shell $0, $#, $*, $@, $?, $$和命令行参数 daizj shell $#$?特殊变量
前面已经讲到，变量名只能包含数字、字母和下划线，因为某些包含其他字符的变量有特殊含义，这样的变量被称为特殊变量。例如，$ 表示当前Shell进程的ID，即pid，看下面的代码： $echo $$ 运行结果 29949 特殊变量列表变量含义 $0 当前脚本的文件名 $n 传递给脚本或函数的参数。n 是一个数字，表示第几个参数。例如，第一个
程序设计KISS 原则-------KEEP IT SIMPLE, STUPID! dcj3sjt126com unix
翻到一本书，讲到编程一般原则是kiss：Keep It Simple, Stupid.对这个原则深有体会，其实不仅编程如此，而且系统架构也是如此。 KEEP IT SIMPLE, STUPID! 编写只做一件事情，并且要做好的程序；编写可以在一起工作的程序，编写处理文本流的程序，因为这是通用的接口。这就是UNIX哲学.所有的哲学真正的浓缩为一个铁一样的定律，高明的工程师的神圣的“KISS 原
android Activity间List传值 dcj3sjt126com Activity
第一个Activity： import java.util.ArrayList;import java.util.HashMap;import java.util.List;import java.util.Map;import android.app.Activity;import android.content.Intent;import android.os.Bundle;import a
tomcat 设置java虚拟机内存 eksliang tomcat 内存设置
转载请出自出处：http://eksliang.iteye.com/blog/2117772 http://eksliang.iteye.com/ 常见的内存溢出有以下两种: java.lang.OutOfMemoryError: PermGen space java.lang.OutOfMemoryError: Java heap space ------------
Android 数据库事务处理 gqdy365 android
使用SQLiteDatabase的beginTransaction()方法可以开启一个事务，程序执行到endTransaction() 方法时会检查事务的标志是否为成功，如果程序执行到endTransaction()之前调用了setTransactionSuccessful() 方法设置事务的标志为成功则提交事务，如果没有调用setTransactionSuccessful() 方法则回滚事务。事
Java 打开浏览器 hw1287789687 打开网址 open浏览器 open browser 打开url 打开浏览器
使用java 语言如何打开浏览器呢? 我们先研究下在cmd窗口中,如何打开网址使用IE 打开 D:\software\bin>cmd /c start iexplore http://hw1287789687.iteye.com/blog/2153709 使用火狐打开 D:\software\bin>cmd /c start firefox http://hw1287789
ReplaceGoogleCDN：将 Google CDN 替换为国内的 Chrome 插件 justjavac chrome Google google api chrome插件
Chrome Web Store 安装地址： https://chrome.google.com/webstore/detail/replace-google-cdn/kpampjmfiopfpkkepbllemkibefkiice 由于众所周知的原因，只需替换一个域名就可以继续使用Google提供的前端公共库了。同样，通过script标记引用这些资源，让网站访问速度瞬间提速吧
进程VS.线程 m635674608 线程
资料来源： http://www.liaoxuefeng.com/wiki/001374738125095c955c1e6d8bb493182103fac9270762a000/001397567993007df355a3394da48f0bf14960f0c78753f000 1、Apache最早就是采用多进程模式 2、IIS服务器默认采用多线程模式 3、多进程优缺点优点：多进程模式最大
Linux下安装MemCached 字符串 memcached
前提准备：1. MemCached目前最新版本为：1.4.22，可以从官网下载到。2. MemCached依赖libevent，因此在安装MemCached之前需要先安装libevent。2.1 运行下面命令，查看系统是否已安装libevent。[root@SecurityCheck ~]# rpm -qa|grep libevent libevent-headers-1.4.13-4.el6.n
java设计模式之--jdk动态代理（实现aop编程） Supanccy2013 java DAO 设计模式 AOP
与静态代理类对照的是动态代理类，动态代理类的字节码在程序运行时由Java反射机制动态生成，无需程序员手工编写它的源代码。动态代理类不仅简化了编程工作，而且提高了软件系统的可扩展性，因为Java 反射机制可以生成任意类型的动态代理类。java.lang.reflect 包中的Proxy类和InvocationHandler 接口提供了生成动态代理类的能力。 &
Spring 4.2新特性-对java8默认方法(default method)定义Bean的支持 wiselyman spring 4
2.1 默认方法(default method) java8引入了一个default medthod; 用来扩展已有的接口,在对已有接口的使用不产生任何影响的情况下,添加扩展使用default关键字 Spring 4.2支持加载在默认方法里声明的bean 2.2 将要被声明成bean的类 public class DemoService {