风度78

【机器学习】九种顶流回归算法及实例总结

线性回归通常是人们为机器学习和数据科学学习的第一个算法。它简单易懂，但是由于其功能有限，在实际业务中并不是最佳选择。大多数情况下，线性回归被用作基线模型来评估和比较研究中的新方法。

在处理实际问题时，我们应该了解并尝试过许多其他回归算法。在本文中，将通过使用Scikit-learn和 XGBoost 的动手练习来学习 9 种流行的回归算法。本文的结构如下：

写在前面

本次数据使用的是一个藏在Python第三方vega_datasets模块中的著名的数据科学公开数据集。

vega_datasets里的数据集内容挺多，有统计数据也有地理数据，还有不同数据量的版本，例如flights数据集包含了2k、5k、200k、3m等多个版本。调用是写：df = data('iris')或者df = data.iris()，数据存在在Anaconda3/Lib/site-packages/vega_datasets目录下，存本地的在local_datasets.json里有描述。本地存的有csv格式的也有json格式的。当然你可以在公众号『机器学习研习院』后台回复 vega_datasets 自助获取。

导入和使用数据集

df = data.cars()
df.head()

df.info()


RangeIndex: 406 entries, 0 to 405
Data columns (total 9 columns):
 #   Column            Non-Null Count  Dtype         
---  ------            --------------  -----         
 0   Name              406 non-null    object        
 1   Miles_per_Gallon  398 non-null    float64       
 2   Cylinders         406 non-null    int64         
 3   Displacement      406 non-null    float64       
 4   Horsepower        400 non-null    float64       
 5   Weight_in_lbs     406 non-null    int64         
 6   Acceleration      406 non-null    float64       
 7   Year              406 non-null    datetime64[ns]
 8   Origin            406 non-null    object        
dtypes: datetime64[ns](1 "ns"), float64(4), int64(2), object(2)
memory usage: 28.7+ KB

数据处理

# 过滤特定列中的NaN行
df.dropna(subset=['Horsepower', 'Miles_per_Gallon'], inplace=True)
df.sort_values(by='Horsepower', inplace=True)
# 数据转换
X = df['Horsepower'].to_numpy().reshape(-1, 1)
y = df['Miles_per_Gallon'].to_numpy().reshape(-1, 1)
plt.scatter(X, y, color='teal', edgecolors='black', label='Horsepower vs. Miles_per_Gallon')
plt.legend()
plt.show()

01 线性回归

线性回归通常学习机器学习与数据科学的第一个算法。线性回归是一种线性模型，它假设输入变量 ( X) 和单个输出变量 ( y)之间存在线性关系。一般来说，有两种情况：

单变量线性回归：它表示单个输入变量和单个的输出变量模型之间的关系。
多变量线性回归（也称为多元线性回归）：它对多个输入变量和单个输出变量之间的关系进行建模。

这个算法很常见，Scikit-learn^[2]内置简单线性回归LinearRegression()算法。接下来就和小猴子一起创建一个LinearRegression对象，并使用训练数据进行训练。

from sklearn.linear_model import LinearRegression # 创建和训练模型
linear_regressor = LinearRegression()
linear_regressor.fit(X, y)

训练完成后，可以使用LinearRegression的coef_属性中查看模型系数参数：

linear_regressor.coef_

array([[-0.15784473]])

现在使用训练好的模型并为训练数据拟合一条线

# 为训练数据绘制点和拟合线
plt.scatter(X, y, color='RoyalBlue', edgecolors='black', label='Horsepower vs. Miles_per_Gallon')
plt.plot(X, linear_regressor.predict(X), color='orange', label='Linear regressor')
plt.title('Linear Regression')
plt.legend()
plt.show()

小结

关于线性回归的几个关键点：

快速且易于建模
当要建模的关系不是非常复杂并且没有大量数据时，线性回归特别有用。
非常直观的理解和解释。
它对异常值非常敏感。

02 多项式回归

当想要为非线性可分数据创建模型时，多项式回归是最受欢迎的选择之一。它类似于线性回归，但使用变量X和y之间的关系并为数据点找到绘制适合曲线的最佳方法。

对于多项式回归，一些自变量的幂大于 1。例如，可能提出如下的二次模型：

β_0, β_1, 和β_2是系数

x 是一个变量/特征

ε 是残差

Scikit-learn内置多项式回归PolynomialFeatures。首先，我们需要生成一个由所有具有指定次数的多项式特征组成的特征矩阵：

from sklearn.preprocessing import PolynomialFeatures
# 为二次模型生成矩阵
# 这里只是简单地生成X^0 X^1和X^2的矩阵
poly_reg = PolynomialFeatures(degree = 2 ) 
X_poly = poly_reg.fit_transform(X)

接下来，让我们创建一个LinearRegression对象并将其拟合到X_poly我们刚刚生成的特征矩阵中。

# 多项式回归模型
poly_reg_model = LinearRegression()
poly_reg_model.fit(X_poly, y)

现在采用该模型并为训练数据拟合一条线，X_plot如下所示：

# 为训练数据绘制点和拟合线
plt.scatter(X, y, color='DarkTurquoise', edgecolors='black', 
            label='Horsepower vs. Miles_per_Gallon')
plt.plot(X, poly_reg_model.predict(X_poly), color='orange', 
         label='Polynmial regressor')
plt.title('Polynomial Regression')
plt.legend()
plt.show()

小结

关于多项式回归的几个关键点：

能够对非线性可分数据进行建模；而线性回归不能做到这一点。它总体上更加灵活，可以对一些相当复杂的关系进行建模。
完全控制特征变量的建模（可指定设置指数）。
需要精心设计，需要一些数据知识才能选择最佳指数。
如果指数选择不当，则容易过度拟合。

03 支持向量回归

众所周知的支持向量机在处理分类问题时非常有效。其实，SVM 也经常用在回归问题中，被称为支持向量回归(SVR)。同样，Scikit-learn内置了这种方法SVR()。

在拟合 SVR 模型之前，通常较好的做法是对数据进行数据标准化操作，及对特征进行缩放。数据标准化的目的是为了确保每个特征都具有相似的重要性。我们通过StandardScaler()方法对训练数据操作。

from sklearn.svm import SVR
from sklearn.preprocessing import StandardScaler # 执行特征缩放
scaled_X = StandardScaler()
scaled_y = StandardScaler()

scaled_X = scaled_X.fit_transform(X)
scaled_y = scaled_y.fit_transform(y)

接下来，我们创建了一个SVR与对象的内核设置为'rbf'和伽玛设置为'auto'。之后，我们调用fit()使其适合缩放的训练数据：

svr_regressor = SVR(kernel='rbf', gamma='auto')
svr_regressor.fit(scaled_X, scaled_y.ravel())

现在采用该模型并为训练数据拟合一条线，scaled_X如下所示：

plt.scatter(scaled_X, scaled_y, color='DarkTurquoise', 
            edgecolors='black', label='Train')
plt.plot(scaled_X, svr_regressor.predict(scaled_X), 
         color='orange', label='SVR')
plt.title('Simple Vector Regression')
plt.legend()
plt.show()

小结

支持向量回归的几个关键点

它对异常值具有鲁棒性并且在高维空间中有效
它具有出色的泛化能力（能够正确适应新的、以前看不见的数据）
如果特征数量远大于样本数量，则容易过拟合

04 决策树回归

决策树 (DT) 是一种用于分类和回归的非参数监督学习方法。目标是创建一个树模型，通过学习从数据特征推断出的简单决策规则来预测目标变量的值。一棵树可以看作是分段常数近似。

决策树回归也很常见，以至于Scikit-learn内置了DecisionTreeRegressor. 甲DecisionTreeRegressor对象可以在没有特征缩放如下创建：

from sklearn.tree import DecisionTreeRegressor

# 不需要进行特性缩放，因为它将自己处理。
tree_regressor = DecisionTreeRegressor(random_state = 0)
tree_regressor.fit(X, y)

下面使用训练好的模型，绘制一条拟合曲线。

X_grid = np.arange(min(X), max(X), 0.01)
X_grid = X_grid.reshape(len(X_grid), 1)

plt.scatter(X, y, color='DarkTurquoise', 
            edgecolors='black', label='Train')
plt.plot(X_grid, tree_regressor.predict(X_grid), 
         color='orange', label='Tree regressor')
plt.title('Tree Regression')
plt.legend()
plt.show()

小结

关于决策树的几个关键点：

易于理解和解释，并且决策树可以被可视化显示。
适用于离散值和连续值。
使用 DT预测数据的成本是训练树的训练数据对数量的对数。
决策树的预测既不平滑也不连续（显示为分段常数近似值，如上图所示）。

05 随机森林回归

一般地，随机森林回归与决策树回归非常相似，它是一个元估计器，在数据集的各种子样本集上拟合许多决策树，并使用平均方法来提高预测准确性和控制过拟合。

随机森林回归器在回归中的性能可能比决策树好，也可能不比决策树好（虽然它通常在分类中表现更好），因为树构造算法本质上存在微妙的过度拟合-欠拟合权衡。

随机森林回归很常见，以至于Scikit-learn内置了RandomForestRegressor. 首先，我们需要创建一个RandomForestRegressor具有指定数量估计器的对象，如下所示：

from sklearn.ensemble import RandomForestRegressor

forest_regressor = RandomForestRegressor(
    n_estimators = 300, 
    random_state = 0
)
forest_regressor.fit(X, y.ravel())

下面使用训练好的模型，绘制一条拟合曲线。

X_grid = np.arange(min(X), max(X), 0.01)
X_grid = X_grid.reshape(len(X_grid), 1)

plt.scatter(X, y, color='DarkTurquoise', 
            edgecolors='black', label='Train')
plt.plot(X_grid, forest_regressor.predict(X_grid), 
         color='orange', label='Random Forest regressor')
plt.title('Random Forest Regression')
plt.legend()
plt.show()

小结

关于随机森林回归的几个关键点：

需要注意减少决策树中的过拟合并提高准确性
它也适用于离散值和连续值
需要大量的计算能力和资源，因为它适合许多决策树来组合它们的输出

06 LASSO 回归

LASSO 回归是使用收缩的线性回归的变体。收缩是数据值向中心点收缩作为均值的过程。这种类型的回归非常适合显示重度多重共线性（特征彼此之间的重度相关性）的模型。

Scikit-learn内置了LassoCV.

from sklearn.linear_model import LassoCV
lasso = LassoCV()
lasso.fit(X, y.ravel())

下面使用训练好的模型，绘制一条拟合曲线。

plt.scatter(X, y, color='teal', edgecolors='black', 
            label='Actual observation points')
plt.plot(X, lasso.predict(X), color='orange',
         label='LASSO regressor')
plt.title('LASSO Regression')
plt.legend()
plt.show()

小结

关于套索回归的几点：

它最常用于消除自动化变量和选择特征。
它非常适合显示严重多重共线性（特征彼此高度相关）的模型。
LASSO 回归利用 L1 正则化
LASSO 回归被认为比 Ridge 更好，因为它只选择一些特征并将其他特征的系数降低到零。

07 岭回归

岭回归与 LASSO 回归非常相似，因为这两种技术都使用收缩。Ridge 回归和 LASSO 回归都非常适合显示重度多重共线性（特征彼此之间的高度相关性）的模型。它们之间的主要区别在于 Ridge 使用 L2 正则化，这意味着没有一个系数像在 LASSO 回归中那样变为零（而是接近零）。

Scikit-learn内置了RidgeCV.

from sklearn.linear_model import RidgeCV
ridge = RidgeCV()
ridge.fit(X, y)

下面使用训练好的模型，绘制一条拟合曲线。

plt.scatter(X, y, color='teal', edgecolors='black', 
            label='Train')
plt.plot(X, ridge.predict(X), color='orange', 
         label='Ridge regressor')
plt.title('Ridge Regression')
plt.legend()
plt.show()

小结

关于岭回归的几个关键点：

它非常适合显示严重多重共线性（特征彼此高度相关）的模型。
岭回归使用 L2 正则化，贡献较小的特征将具有接近零的系数。
由于 L2 正则化的性质，岭回归被认为比 LASSO 差

08 ElasticNet 回归

ElasticNet 是另一个使用 L1 和 L2 正则化训练的线性回归模型。它是 LASSO 和岭回归技术的混合体，因此它也非常适合显示严重多重共线性（特征彼此高度相关）的模型。

Lasso 和 Ridge 之间权衡的一个实际优势是它允许 Elastic-Net 在旋转时继承一些 Ridge 的稳定性。

Scikit-learn内置了ElasticNetCV模型.

from sklearn.linear_model import ElasticNetCV
elasticNet = ElasticNetCV()
elasticNet.fit(X, y.ravel())

下面使用训练好的模型，绘制一条拟合曲线。

plt.scatter(X, y, color='DarkTurquoise', edgecolors='black', label='Train')
plt.plot(X, elasticNet.predict(X), color='orange',label='ElasticNet regressor')
plt.title('ElasticNet Regression')
plt.legend()
plt.show()

小结

ElasticNet 回归的几个关键点：

ElasticNet 总是优于 LASSO 和 Ridge，因为它解决了两种算法的缺点
ElasticNet 带来了额外的开销，用于确定最佳解决方案的两个 lambda 值。

09 XGBoost 回归

极限梯度提升( XGBoost ) 是梯度提升算法的高效实现。梯度提升是指一类可用于分类或回归问题的集成机器学习算法。

XGBoost是由最初开发的开放源码库tianqi-chen^[3]在他的题为“2016论文XGBoost：可扩展树增压系统^[4]”。该算法被设计为具有计算效率和高效性。

第一步是安装 XGBoost 库（如果尚未安装）。

pip install xgboost

可以通过创建以下实例来定义 XGBoost 模型XGBRegressor：

from xgboost import XGBRegressor
# create an xgboost regression model
model = XGBRegressor(
    n_estimators=1000, 
    max_depth=7, 
    eta=0.1, 
    subsample=0.7, 
    colsample_bytree=0.8,
)

n_estimators：整体中的树木数量，通常会增加，直到看不到进一步的改进。
max_depth：每棵树的最大深度，通常值在 1 到 10 之间。
eta：用于对每个模型进行加权的学习率，通常设置为较小的值，例如 0.3、0.1、0.01 或更小。
subsample：每棵树使用的样本数，设置为0到1之间的值，通常为1.0以使用所有样本。
colsample_bytree：每棵树中使用的特征（列）数，设置为 0 到 1 之间的值，通常为 1.0 以使用所有特征。

下面使用训练好的模型，绘制一条拟合曲线。

plt.scatter(X, y, color='DarkTurquoise', edgecolors='black', label='Train')
plt.plot(X, model.predict(X), color='orange',label='XGBoost regressor')
plt.title('XGBoost Regression')
plt.legend()
plt.show()

小结

关于 XGBoost 的几个关键点：

XGBoost 在稀疏和非结构化数据上表现不佳。
该算法旨在计算高效且高效，但对于大型数据集而言，训练时间仍然相当长
对异常值很敏感

写在最后

到这里本文就结束啦，本文我们通过使用Scikit-learn和 XGBoost 的动手实践介绍了九种流行的回归算法。在解决实际问题时，可以尝试不同的算法并找到解决实际问题的最佳回归模型。

参考资料

[1]

参考原文: https://towardsdatascience.com/a-practical-introduction-to-9-regression-algorithms-389057f86eb9

[2]

Scikit-learn: https://scikit-learn.org/stable/

[3]

tianqi-chen: https://www.linkedin.com/in/tianqi-chen-679a9856/

[4]

可扩展树增压系统: https://arxiv.org/abs/1603.02754

往期精彩回顾




适合初学者入门人工智能的路线及资料下载(图文+视频)机器学习入门系列下载中国大学慕课《机器学习》（黄海广主讲）机器学习及深度学习笔记等资料打印《统计学习方法》的代码复现专辑
AI基础下载机器学习交流qq群955171419，加入微信群请扫码：

你可能感兴趣的:(算法,决策树,人工智能,python,机器学习)

Postman + Newman + Jenkins 接口自动化测试 Thomas Kant 自动化测试 postman newman jenkins allure
亲爱的技术爱好者们，热烈欢迎来到Kant2048的博客！我是ThomasKant，很开心能在CSDN上与你们相遇～本博客的精华专栏：【自动化测试】【测试经验】【人工智能】【Python】Postman
五大编程竞赛平台终极对比 2401_86601498 c++
LeetCodeLeetCode是一个流行的在线编程平台，提供大量算法和数据结构题目。题目分为简单、中等和困难三个难度级别。LeetCode的题目涵盖各种主题，包括数组、字符串、树、动态规划等。LeetCode支持多种编程语言，包括C++，并提供在线代码编辑器和即时反馈。LeetCode还提供竞赛和面试模拟功能，适合准备技术面试的用户。CodeforcesCodeforces是一个以竞赛为主的在线
Python 装饰器使用详解
文章目录0.引言1.什么是装饰器？2.装饰器的基本语法3.装饰器的工作原理4.常见装饰器应用场景4.1.日志记录4.2.权限校验4.3.缓存5.多重装饰器的执行顺序6.装饰器的高级用法6.1.带参数的装饰器6.2.使用`functools.wraps`6.3.类装饰器7.图示说明7.1.单一装饰器的执行流程2.多重装饰器的执行流程3.带参数装饰器的执行流程总结8参考资料0.引言Python装饰器(
豆包教你如何用Python向女生表白 51reboot
一年一度的考试大会又拉开了帷幕其中的一个重头戏就是python了不知道正处于手机前的你为python又掉了多少头发呢but！！！python绝不只是你脱发的工具善于使用你将收获多多比如你知道如何利用python向女生表白吗如果不知道少年，你可要当心啦考试很危险的呢后记：某年月日，某许愿池推文：震惊！某旦python考试题新鲜出炉，考题震惊十几亿中国人！原因竟是。。。待豆包点开推文：一看考试题，嘿哈
无人值守人工智能智慧系统数据分析：深度洞察与未来展望呆码科技人工智能数据分析数据挖掘
无人值守人工智能智慧系统数据分析：深度洞察与未来展望随着科技的飞速发展，人工智能（AI）技术已逐渐渗透到社会经济的各个领域，其中无人值守人工智能智慧系统作为AI技术应用的前沿阵地，正引领着一场深刻的行业变革。这类系统通过集成高级算法、大数据分析、物联网（IoT）及云计算等先进技术，实现了对复杂环境的自主监控、智能决策与高效管理，极大地提升了运营效率，降低了人力成本，并开启了数据驱动决策的新纪元。本
python ffmpeg pipe_如何使用python从ffmpeg输出管道？ weixin_39611725 python ffmpeg pipe
我正在尝试将FFmpeg的输出用管道输送到Python中。我正在从一个视频采集卡读取图像，我成功地使用dshow从命令行将其读入输出文件。我正在尝试从卡抓取图像到我的OpenCv代码，以便能够进一步处理数据。不幸的是，当我通过管道输出图像时，我只得到视频的显示，如链接所示：link:s000.tinyupload.com/?file_id=15940665795196022618.我使用的代码如下
python ffmpeg pipe,管道的ffmpeg的输入和输出在python 呼呼啦啦就瘸了 python ffmpeg pipe
I'musingffmpegtocreateavideo,fromalistofbase64encodedimagesthatIpipeintoffmpeg.Outputtingtoafile(usingtheattachedcodebelow)worksperfectly,butwhatIwouldliketoachieveistogettheoutputtoaPythonvariableins
Linux+Python实战课堂：笔记、练习与应用
本文还有配套的精品资源，点击获取简介：本压缩包提供全面的Linux学习资源和Python编程练习，旨在帮助初学者和IT从业者深入理解Linux系统及其技能，并通过Python编程练习巩固相关技能。涵盖Linux基础概念、文件系统、命令行操作、文本编辑器使用、用户和组管理、软件管理、进程监控、网络配置以及系统性能监控等多个方面。同时，包含Python基础语法、函数与模块、面向对象编程、文件操作、异常
Lecture 5：Training versus Testing 薛家掌柜的
回顾一下前四个Lecture，Lecture1讲的是找一个使得（也就是），Lecture2讲的是使得，Lecture3讲的是机器学习的分类，Lecture4讲的是让。那么，我们就有两个核心问题需要解决了。我们如何保证尽可能地靠近？我们如何使得足够小？而在这两个问题里面，假设集大小又扮演着什么样的角色？应该多大呢？如果是一个很小的，能够满足，但是可选的假设又太少了。如果是一个很大的，可选的假设很多，
Python脚本批量修复文件时间戳，根据文件名或拍摄日期 3D_DLW 储存服务器 python 图片整理修改时间批处理脚本拍摄时间
实现以下功能更正文件的修改时间批量修改指定文件夹中的特定后缀的文件根据文件名中的日期修改（优先）根据jpg文件属性中的拍摄日期修改根据mp4文件属性中的创建媒体日期修改模拟运行（DryRun）模式依赖若需要基于jpg文件属性中的拍摄日期修改，需要python的piexif包pipinstallpiexif若需要基于mp4文件属性中的创建媒体日期修改，需要ffmpegsudoaptinstallff
MySQL Online DDL详解:从历史演进到原理及使用 SHENKEM mysql
本文介绍了MySQLOnlineDDL的发展历史，包括各个版本的改进，重点讲解了Copy和Inplace算法，以及OnlineDDL过程中的锁策略。还分析了DDL操作的需求、MySQL5.7和8.0的功能特点，以及使用限制和注意事项。摘要生成于C知道，由DeepSeek-R1满血版支持，前往体验>❃博主首页：「码到三十五」，同名公众号:「码到三十五」，wx号:「liwu0213」☠博主专栏：♝博主
论“人工智能生命体”站在那个高度？（之二）中國龍在廣州人工智能-智能体-具身智能人工智能
第一部分：人工智能生命体人工智能生命体，提及的是《人工智能生命体新启点》一书，原文附后，本文中以本书代表。《人工智能生命体新启点》一书，是在现今科学技术发展，从人工智能、智能体、具身智能等大环境下，形成的一种全新理念的理论指导，以此发展出具有自我意识的人工智能生命体，拥有现代科技并以生命体的形式出现，具备类人类般的思想活动，更好的体现与融入人类的社会环境；具有自我意识的智能生命体就如人类的拥有大脑
医疗AI与融合数据库的整合：挑战、架构与未来展望（上） Allen_Lyb 数智化教程（第二期）人工智能数据库架构
引言随着人工智能（AI）在医疗健康领域的广泛应用，数据已成为医疗AI发展的核心驱动力。然而，医疗数据具有极度的异构性（包括结构化电子病历、医学影像向量、基因组JSON/图结构、传感器时序等），传统数据架构难以高效整合。因数据孤岛、复杂ETL流程以及昂贵维护成本，医疗AI平台通常难以充分发挥价值。融合数据库（ConvergedDatabase/多模态一体化数据库）通过支持SQL、JSON、图、向量、
深入Python闭包内存泄漏：从原理到实战修复指南清水白石008 Python题库 python python 开发语言
深入Python闭包内存泄漏：从原理到实战修复指南引言：闭包与内存管理的双重挑战在Python编程中，闭包（Closure）作为函数式编程的重要特性，被广泛应用于装饰器、回调函数等场景。然而，当闭包与类实例结合使用时，若处理不当极易引发内存泄漏问题。本文将通过一个典型案例，深入剖析闭包导致内存泄漏的机理，并演示从检测到修复的完整流程，最终提炼出防御性编程的最佳实践。一、内存泄漏闭包案例实录1.1典
一文看懂：马斯克旗下人工智能公司 xAI 正式推出的Grok 4，Grok 4 如何开启 “多智能体内生化” 的 AI 新范式，重塑多模态大模型与 AI Agent 未来陈敬雷-充电了么-CEO兼CTO 《GPT多模态大模型与AI Agent智能体》新书内容人工智能 gpt agi chatgpt 大模型 deep learning 神经网络
注：此文章内容均节选自充电了么创始人，CEO兼CTO陈敬雷老师的新书《GPT多模态大模型与AIAgent智能体》（跟我一起学人工智能）【陈敬雷编著】【清华大学出版社】GPT多模态大模型与AIAgent智能体书籍本章配套视频课程【陈敬雷】文章目录GPT多模态大模型与AIAgent智能体系列二十六一文看懂：马斯克旗下人工智能公司xAI正式推出的Grok4，Grok4如何开启“多智能体内生化”的AI新范
大模型开源王炸！Kimi K2凭万亿参数撕开大模型天花板：代码、Agent、推理全碾压，32家企业疯抢接入陈敬雷-充电了么-CEO兼CTO 《GPT多模态大模型与AI Agent智能体》新书内容 transformer chatgpt 深度学习 lstm kimi Agent AIGC
注：此文章内容均节选自充电了么创始人，CEO兼CTO陈敬雷老师的新书《GPT多模态大模型与AIAgent智能体》（跟我一起学人工智能）【陈敬雷编著】【清华大学出版社】GPT多模态大模型与AIAgent智能体书籍本章配套视频课程【陈敬雷】文章目录GPT多模态大模型与AIAgent智能体系列二十七开源王炸！KimiK2凭万亿参数撕开大模型天花板：代码、Agent、推理全碾压，32家企业疯抢接入一、架构
Python装饰器与闭包：实战应用与深入理解
背景简介本章深入探讨了Python装饰器与闭包的核心概念，展示了它们在实际编程中的灵活应用和强大功能。装饰器的魔力：保持元数据与链式应用在Python中，装饰器是一种修改或增强函数行为的强大工具，它能够让我们在不改变原始函数代码的情况下，为其添加新功能。保持函数的元数据是装饰器的一个重要特性，它确保了装饰后的函数保持其身份和文档字符串信息。这对于代码的可读性和维护性至关重要。当需要将多个装饰器应用
python闭包的应用场景_简单谈谈Python中的闭包 weixin_39587113 python闭包的应用场景
Python中的闭包前几天又有人留言，关于其中一个闭包和re.sub的使用不太清楚。我在脚本之家搜索了下，发现没有写过闭包相关的东西，所以决定总结一下，完善Python的内容。1.闭包的概念首先还得从基本概念说起，什么是闭包呢？来看下维基上的解释:在计算机科学中，闭包(Closure)是词法闭包(LexicalClosure)的简称，是引用了自由变量的函数。这个被引用的自由变量将和这个函数一同存在
网络爬虫——python爬取豆瓣评论 SSeaflower 爬虫 python 开发语言
网络爬虫——python爬取豆瓣评论一、网络爬虫概述1.1网络爬虫定义网络爬虫，又被称为网络蜘蛛（WebSpider）、网络机器人等。它根据网页地址（URL）爬取网页内容，网页地址（URL）就是我们在浏览器中输入的网站链接。例如：https://www.baidu.com；https://movie.douban.com/。网络爬虫不仅能够复制网页信息和下载音视频，还可以做到网站的模拟登录和行为链
Python 中的深拷贝、浅拷贝与等号赋值：理解对象复制的本质小羊苏八 python 开发语言
目录1.等号赋值（=）2.浅拷贝（copy.copy()）3.深拷贝（copy.deepcopy()）4.不可变对象与可变对象5.性能对比6.实际应用场景7.总结前言在Python中，对象的复制是一个常见的操作，但很多人对深拷贝、浅拷贝和等号赋值之间的区别感到困惑。本文将通过详细的示例和解释，帮助你深入理解这三种操作的本质和应用场景。1.等号赋值（=）在Python中，等号赋值是最基本的对象操作之
Python中的分支结构小羊苏八 #python python 开发语言
文章目录前言一、Python分支结构概述二、if语句详解三、if-else语句详解四、if-elif-else语句详解五、嵌套分支结构六、分支结构的注意事项七、实际应用场景八、总结前言在Python编程的世界里，分支结构如同现实中的道路岔口，根据不同的条件引导程序流向不同的执行路径。它是构建复杂逻辑、实现智能决策的关键所在。本文将带你全面了解Python的分支结构，从基础语法到实际应用，让你轻松掌
标题 “Python 网络爬虫 —— selenium库驱动浏览器 WeiJingYu. python 爬虫 selenium
一、Selenium库核心认知Selenium库是Web应用程序测试与自动化操作的利器，能驱动浏览器（如Edge、Firefox等）执行点击、输入、打开、验证等操作。与Requests库差异显著：Requests库仅能获取网页原始代码，而Selenium基于浏览器驱动程序工作，浏览器可渲染网页源代码，借此能轻松拿到渲染后的数据信息（如JS动态加载内容），完美解决Requests库无法处理的动态页面
Python网络爬虫实现selenium对百度识图二次开发以及批量保存Excel WeiJingYu. python 爬虫 selenium
一.百度识图自动上传图片fromseleniumimportwebdriverfromselenium.webdriver.edge.optionsimportOptionsfromselenium.webdriver.common.byimportByedge_options=Options()edge_options.binary_location=r"C:\ProgramFiles(x86)
Python关于操作文件夹的讲解——Python 操作文件和文件夹 WeiJingYu. python 开发语言
借助os库，可完成文件大小查询、文件/文件夹删除、重命名等操作，满足多样化文件管理需求。（一）查询文件大小os库path模块的getsize(path)方法，能获取指定路径文件占用内存大小，单位为字节。字节是计算机存储基本单位，常见存储单位换算关系如下：单位换算关系说明字节（Byte）1字节=8位（bit）存储基本单元千字节（KB）1KB=1024Byte日常文件大小常用表述兆字节（MB）1MB=
Python 网络爬虫 —— 代理服务器 WeiJingYu. 爬虫服务器前端
一、会话（Session）（一）核心逻辑HTTP本身无记忆，每次请求独立。会话（Session）就是为解决这问题，让客户端（浏览器）和服务器“记住”交互状态（比如登录态），常用Cookie实现：服务器发Cookie给客户端存着，下次请求带着，服务器就知道“是同一用户”。（二）创建会话（requests实现）用requests库的Session类，自动维持会话、管理Cookie，代码形式：impor
Python 中的闭包：原理、应用与实践小羊苏八 python 开发语言
目录前言1.什么是闭包？2.闭包的基本结构3.闭包的应用场景4.闭包的高级特性5.闭包的性能与内存管理6.闭包的实践案例7.总结前言在Python编程中，闭包是一个非常强大且灵活的特性。闭包允许嵌套函数访问外部函数的变量，即使外部函数已经返回。这种特性使得闭包在函数式编程、装饰器、回调函数等场景中非常有用。本文将通过详细的示例和解释，深入探讨Python中的闭包。1.什么是闭包？闭包（Closur
python-第五课-绘线段、正方形布口袋_天晴了
1.绘制第一个海龟图形A.课程内容：通过绘制线段和正方形来学习导入海归模块、创建画笔、移动和旋转画笔。通过绘制图形来学习python编程的基本方法。B.知识点(1)导入海龟绘图模块(2)创建画笔(3)向前移动(4)画笔旋转C.用到的基本指令(1)import(2)turtle.Pen()(3)forward()(4)right()海龟绘图(turle)是python内置的一个比较有趣味的模块。使用
python爬虫技术——基础知识、实战南瓜AI python 爬虫 scrapy
参考文献：Python爬虫入门(一)（适合初学者）-CSDN博客一、常用爬虫工具包Scrapy语言:Python特点:高效、灵活的爬虫框架，适合大型爬虫项目。BeautifulSoup语言:Python特点:用于解析HTML和XML，简单易用。Selenium语言:Python/Java/C#特点:支持浏览器自动化，适合处理JavaScript渲染的网页。Requests语言:Python特点:简
【课程毕业设计】基于数字PID的电加热炉温度控制系统设计拉布拉斯也头大毕业课程设计 stm32 单片机 proteus 嵌入式硬件 pcb工艺
前言电加热炉控制系统属于一阶纯滞后环节，具有大惯性、纯滞后、非线性等特点，导致传统控制方法超调大。调节时间长、控制精度低。本设计采用PID算法进行温度控制，使整个闭环系统所期望的传递函数相当于一个延迟环节和一个惯性环节串联来实现对温度的较为精确的控制。第1章课程设计方案1.1系统组成中体结构电加热炉温度控制系统原理图如下，主要由温度检测电路、A/D转换电路、驱动执行电路、显示电路及按键电路等组成。
分享两个爬虫练习网站高质量海王哦爬虫爬虫 python
Python爬虫案例|ScrapeCenterSpiderbuf|Python爬虫练习靶场
如何用ruby来写hadoop的mapreduce并生成jar包 wudixiaotie mapreduce
ruby来写hadoop的mapreduce，我用的方法是rubydoop。怎么配置环境呢： 1.安装rvm：不说了网上有 2.安装ruby：由于我以前是做ruby的，所以习惯性的先安装了ruby，起码调试起来比jruby快多了。 3.安装jruby： rvm install jruby然后等待安
java编程思想 -- 访问控制权限百合不是茶 java 访问控制权限单例模式
访问权限是java中一个比较中要的知识点,它规定者什么方法可以访问,什么不可以访问一:包访问权限; 自定义包: package com.wj.control; //包 public class Demo { //定义一个无参的方法 public void DemoPackage(){ System.out.println("调用
[生物与医学]请审慎食用小龙虾 comsci 生物
现在的餐馆里面出售的小龙虾,有一些是在野外捕捉的,这些小龙虾身体里面可能带有某些病毒和细菌,人食用以后可能会导致一些疾病,严重的甚至会死亡..... 所以,参加聚餐的时候,最好不要点小龙虾...就吃养殖的猪肉,牛肉,羊肉和鱼,等动物蛋白质
org.apache.jasper.JasperException: Unable to compile class for JSP: 商人shang maven 2.2 jdk1.8
环境： jdk1.8 maven tomcat7-maven-plugin 2.0 原因： tomcat7-maven-plugin 2.0 不知吃 jdk 1.8，换成 tomcat7-maven-plugin 2.2就行，即 <plugin>
你的垃圾你处理掉了吗?GC oloz GC
前序:本人菜鸟，此文研究学习来自网络，各位牛牛多指教　 1.垃圾收集算法的核心思想　　Java语言建立了垃圾收集机制，用以跟踪正在使用的对象和发现并回收不再使用(引用)的对象。该机制可以有效防范动态内存分配中可能发生的两个危险：因内存垃圾过多而引发的内存耗尽，以及不恰当的内存释放所造成的内存非法引用。　　垃圾收集算法的核心思想是：对虚拟机可用内存空间，即堆空间中的对象进行识别
shiro 和 SESSSION 杨白白 shiro
shiro 在web项目里默认使用的是web容器提供的session，也就是说shiro使用的session是web容器产生的，并不是自己产生的，在用于非web环境时可用其他来源代替。在web工程启动的时候它就和容器绑定在了一起，这是通过web.xml里面的shiroFilter实现的。通过session.getSession()方法会在浏览器cokkice产生JESSIONID，当关闭浏览器，此
移动互联网终端淘宝客如何实现盈利小桔子移動客戶端淘客淘寶App
2012年淘宝联盟平台为站长和淘宝客带来的分成收入突破30亿元，同比增长100%。而来自移动端的分成达1亿元，其中美丽说、蘑菇街、果库、口袋购物等App运营商分成近5000万元。可以看出，虽然目前阶段PC端对于淘客而言仍旧是盈利的大头，但移动端已经呈现出爆发之势。而且这个势头将随着智能终端(手机，平板)的加速普及而更加迅猛
wordpress小工具制作 aichenglong wordpress 小工具
wordpress 使用侧边栏的小工具，很方便调整页面结构小工具的制作过程 1 在自己的主题文件中新建一个文件夹(如widget)，在文件夹中创建一个php(AWP_posts-category.php) 小工具是一个类,想侧边栏一样，还得使用代码注册，他才可以再后台使用，基本的代码一层不变 <?php class AWP_Post_Category extends WP_Wi
JS微信分享 AILIKES js
// 所有功能必须包含在 WeixinApi.ready 中进行 WeixinApi.ready(function(Api) { // 微信分享的数据 var wxData = { &nb
封装探讨百合不是茶 JAVA面向对象封装
//封装属性方法将某些东西包装在一起，通过创建对象或使用静态的方法来调用，称为封装；封装其实就是有选择性地公开或隐藏某些信息，它解决了数据的安全性问题，增加代码的可读性和可维护性在 Aname类中申明三个属性，将其封装在一个类中：通过对象来调用例如 1： //属性将其设为私有姓名 name 可以公开
jquery radio/checkbox change事件不能触发的问题 bijian1013 JavaScript jquery
我想让radio来控制当前我选择的是机动车还是特种车，如下所示： <html> <head> <script src="http://ajax.googleapis.com/ajax/libs/jquery/1.7.1/jquery.min.js" type="text/javascript"><
AngularJS中安全性措施 bijian1013 JavaScript AngularJS 安全性 XSRF JSON漏洞
在使用web应用中，安全性是应该首要考虑的一个问题。AngularJS提供了一些辅助机制，用来防护来自两个常见攻击方向的网络攻击。一.JSON漏洞当使用一个GET请求获取JSON数组信息的时候（尤其是当这一信息非常敏感，
[Maven学习笔记九]Maven发布web项目 bit1129 maven
基于Maven的web项目的标准项目结构 user-project user-core user-service user-web src
【Hive七】Hive用户自定义聚合函数(UDAF) bit1129 hive
用户自定义聚合函数，用户提供的多个入参通过聚合计算(求和、求最大值、求最小值)得到一个聚合计算结果的函数。问题：UDF也可以提供输入多个参数然后输出一个结果的运算，比如加法运算add(3，5)，add这个UDF需要实现UDF的evaluate方法,那么UDF和UDAF的实质分别究竟是什么？ Double evaluate(Double a, Double b)
通过 nginx-lua 给 Nginx 增加 OAuth 支持 ronin47
前言：我们使用Nginx的Lua中间件建立了OAuth2认证和授权层。如果你也有此打算，阅读下面的文档，实现自动化并获得收益。SeatGeek 在过去几年中取得了发展，我们已经积累了不少针对各种任务的不同管理接口。我们通常为新的展示需求创建新模块，比如我们自己的博客、图表等。我们还定期开发内部工具来处理诸如部署、可视化操作及事件处理等事务。在处理这些事务中，我们使用了几个不同的接口来认证： &n
利用tomcat-redis-session-manager做session同步时自定义类对象属性保存不上的解决方法 bsr1983 session
在利用tomcat-redis-session-manager做session同步时，遇到了在session保存一个自定义对象时，修改该对象中的某个属性，session未进行序列化，属性没有被存储到redis中。在 tomcat-redis-session-manager的github上有如下说明： Session Change Tracking As noted in the &qu
《代码大全》表驱动法-Table Driven Approach-1 bylijinnan java 算法
关于Table Driven Approach的一篇非常好的文章： http://www.codeproject.com/Articles/42732/Table-driven-Approach package com.ljn.base; import java.util.Random; public class TableDriven { public
Sybase封锁原理 chicony Sybase
昨天在操作Sybase IQ12.7时意外操作造成了数据库表锁定，不能删除被锁定表数据也不能往其中写入数据。由于着急往该表抽入数据，因此立马着手解决该表的解锁问题。无奈此前没有接触过Sybase IQ12.7这套数据库产品，加之当时已属于下班时间无法求助于支持人员支持，因此只有借助搜索引擎强大的
java异常处理机制 CrazyMizzz java
java异常关键字有以下几个，分别为 try catch final throw throws 他们的定义分别为 try： Opening exception-handling statement. catch： Captures the exception. finally： Runs its code before terminating
hive 数据插入DML语法汇总 daizj hive DML 数据插入
Hive的数据插入DML语法汇总1、Loading files into tables语法：1) LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename [PARTITION (partcol1=val1, partcol2=val2 ...)]解释：1)、上面命令执行环境为hive客户端环境下： hive>l
工厂设计模式 dcj3sjt126com 设计模式
使用设计模式是促进最佳实践和良好设计的好办法。设计模式可以提供针对常见的编程问题的灵活的解决方案。工厂模式工厂模式（Factory）允许你在代码执行时实例化对象。它之所以被称为工厂模式是因为它负责“生产”对象。工厂方法的参数是你要生成的对象对应的类名称。 Example #1 调用工厂方法（带参数） <?phpclass Example{
mysql字符串查找函数 dcj3sjt126com mysql
FIND_IN_SET(str,strlist) 假如字符串str 在由N 子链组成的字符串列表strlist 中，则返回值的范围在1到 N 之间。一个字符串列表就是一个由一些被‘,’符号分开的自链组成的字符串。如果第一个参数是一个常数字符串，而第二个是type SET列，则 FIND_IN_SET() 函数被优化，使用比特计算。如果str不在strlist 或st
jvm内存管理 easterfly jvm
一、JVM堆内存的划分分为年轻代和年老代。年轻代又分为三部分：一个eden,两个survivor。工作过程是这样的：e区空间满了后，执行minor gc，存活下来的对象放入s0, 对s0仍会进行minor gc，存活下来的的对象放入s1中，对s1同样执行minor gc，依旧存活的对象就放入年老代中；年老代满了之后会执行major gc，这个是stop the word模式，执行
CentOS-6.3安装配置JDK-8 gengzg centos
JAVA_HOME=/usr/java/jdk1.8.0_45 JRE_HOME=/usr/java/jdk1.8.0_45/jre PATH=$PATH:$JAVA_HOME/bin:$JRE_HOME/bin CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar:$JRE_HOME/lib export JAVA_HOME
【转】关于web路径的获取方法 huangyc1210 Web 路径
假定你的web application 名称为news,你在浏览器中输入请求路径： http://localhost:8080/news/main/list.jsp 则执行下面向行代码后打印出如下结果： 1、 System.out.println(request.getContextPath()); //可返回站点的根路径。也就是项
php里获取第一个中文首字母并排序远去的渡口数据结构 PHP
很久没来更新博客了，还是觉得工作需要多总结的好。今天来更新一个自己认为比较有成就的问题吧。最近在做储值结算，需求里结算首页需要按门店的首字母A-Z排序。我的数据结构原本是这样的： Array ( [0] => Array ( [sid] => 2885842 [recetcstoredpay] =&g
java内部类 hm4123660 java 内部类匿名内部类成员内部类方法内部类
　在Java中，可以将一个类定义在另一个类里面或者一个方法里面，这样的类称为内部类。内部类仍然是一个独立的类，在编译之后内部类会被编译成独立的.class文件，但是前面冠以外部类的类名和$符号。内部类可以间接解决多继承问题,可以使用内部类继承一个类，外部类继承一个类，实现多继承。 &nb
Caused by: java.lang.IncompatibleClassChangeError: class org.hibernate.cfg.Exten zhb8015
maven pom.xml关于hibernate的配置和异常信息如下，查了好多资料，问题还是没有解决。只知道是包冲突，就是不知道是哪个包....遇到这个问题的分享下是怎么解决的。。 maven pom: <dependency> <groupId>org.hibernate</groupId> <ar
Spark 性能相关参数配置详解－任务调度篇 Stark_Summer spark cache cpu 任务调度 yarn
随着Spark的逐渐成熟完善, 越来越多的可配置参数被添加到Spark中来, 本文试图通过阐述这其中部分参数的工作原理和配置思路, 和大家一起探讨一下如何根据实际场合对Spark进行配置优化。由于篇幅较长，所以在这里分篇组织，如果要看最新完整的网页版内容，可以戳这里：http://spark-config.readthedocs.org/，主要是便
css3滤镜 wangkeheng html css
经常看到一些网站的底部有一些灰色的图标，鼠标移入的时候会变亮，开始以为是js操作src或者bg呢，搜索了一下，发现了一个更好的方法：通过css3的滤镜方法。 html代码： <a href='' class='icon'><img src='utv.jpg' /></a> css代码： .icon{-webkit-filter: graysc