Eastmount

[Python从零到壹] 十二.机器学习之回归分析万字总结全网首发（线性回归、多项式回归、逻辑回归）

欢迎大家来到“Python从零到壹”，在这里我将分享约200篇Python系列文章，带大家一起去学习和玩耍，看看Python这个有趣的世界。所有文章都将结合案例、代码和作者的经验讲解，真心想把自己近十年的编程经验分享给大家，希望对您有所帮助，文章中不足之处也请海涵。Python系列整体框架包括基础语法10篇、网络爬虫30篇、可视化分析10篇、机器学习20篇、大数据分析20篇、图像识别30篇、人工智能40篇、Python安全20篇、其他技巧10篇。您的关注、点赞和转发就是对秀璋最大的支持，知识无价人有情，希望我们都能在人生路上开心快乐、共同成长。

前一篇文章讲述了数据分析部分，主要普及网络数据分析的基本概念，讲述数据分析流程和相关技术，同时详细讲解Python提供的若干第三方数据分析库，包括Numpy、Pandas、Matplotlib、Sklearn等。本文介绍回归模型的原理知识，包括线性回归、多项式回归和逻辑回归，并详细介绍Python Sklearn机器学习库的LinearRegression和LogisticRegression算法及回归分析实例。进入基础文章，希望对您有所帮助。

文章目录

一.回归
- 1.什么是回归
- 2.线性回归
二.线性回归分析
- 1.LinearRegression
- 2.线性回归预测糖尿病
三.多项式回归分析
- 1.基础概念
- 2.PolynomialFeatures
- 3.多项式回归预测成本和利润
四.逻辑回归
- 1.基础原理
- 2.LogisticRegression
- 3.鸢尾花数据集回归分析实例
五.本章小结

下载地址：

https://github.com/eastmountyxz/Python-zero2one

前文赏析：

第一部分基础语法

[Python从零到壹] 一.为什么我们要学Python及基础语法详解
[Python从零到壹] 二.语法基础之条件语句、循环语句和函数
[Python从零到壹] 三.语法基础之文件操作、CSV文件读写及面向对象

第二部分网络爬虫

[Python从零到壹] 四.网络爬虫之入门基础及正则表达式抓取博客案例
[Python从零到壹] 五.网络爬虫之BeautifulSoup基础语法万字详解
[Python从零到壹] 六.网络爬虫之BeautifulSoup爬取豆瓣TOP250电影详解
[Python从零到壹] 七.网络爬虫之Requests爬取豆瓣电影TOP250及CSV存储
[Python从零到壹] 八.数据库之MySQL基础知识及操作万字详解
[Python从零到壹] 九.网络爬虫之Selenium基础技术万字详解（定位元素、常用方法、键盘鼠标操作）
[Python从零到壹] 十.网络爬虫之Selenium爬取在线百科知识万字详解（NLP语料构造必备技能）

第三部分数据分析和机器学习

[Python从零到壹] 十一.数据分析之Numpy、Pandas、Matplotlib和Sklearn入门知识万字详解(1)
[Python从零到壹] 十二.机器学习之回归分析万字总结全网首发（线性回归、多项式回归、逻辑回归）

作者新开的“娜璋AI安全之家”将专注于Python和安全技术，主要分享Web渗透、系统安全、人工智能、大数据分析、图像识别、恶意代码检测、CVE复现、威胁情报分析等文章。虽然作者是一名技术小白，但会保证每一篇文章都会很用心地撰写，希望这些基础性文章对你有所帮助，在Python和安全路上与大家一起进步。

监督学习（Supervised Learning）包括分类算法(Classification)和回归算法（Regression）两种，它们是根据类别标签分布的类型来定义的。回归算法用于连续型的数据预测，分类算法用于离散型的分布预测。回归算法作为统计学中最重要的工具之一，它通过建立一个回归方程用来预测目标值，并求解这个回归方程的回归系数。

一.回归

1.什么是回归

回归（Regression）最早是英国生物统计学家高尔顿和他的学生皮尔逊在研究父母和子女的身高遗传特性时提出的。1855年，他们在《遗传的身高向平均数方向的回归》中这样描述“子女的身高趋向于高于父母的身高的平均值，但一般不会超过父母的身高”，首次提出来回归的概念。现在的回归分析已经和这种趋势效应没有任何瓜葛了，它只是指源于高尔顿工作，用一个或多个自变量来预测因变量的数学方法。

图1是一个简单的回归模型，X坐标是质量，Y坐标是用户满意度，从图中可知，产品的质量越高其用户评价越好，这可以拟合一条直线来预测新产品的用户满意度。

在回归模型中，我们需要预测的变量叫做因变量，比如产品质量；选取用来解释因变量变化的变量叫做自变量，比如用户满意度。回归的目的就是建立一个回归方程来预测目标值，整个回归的求解过程就是求这个回归方程的回归系数。

简言之，回归最简单的定义就是：

给出一个点集，构造一个函数来拟合这个点集，并且尽可能的让该点集与拟合函数间的误差最小，如果这个函数曲线是一条直线，那就被称为线性回归，如果曲线是一条三次曲线，就被称为三次多项回归。

2.线性回归

首先，作者引用类似于斯坦福大学机器学习公开课线性回归的例子，给大家讲解线性回归的基础知识和应用，方便大家的理解。同时，作者强烈推荐大家学习原版Andrew Ng教授的斯坦福机器学习公开课，会让您非常受益。

假设存在表1的数据集，它是某企业的成本和利润数据集。数据集中2002年到2016年的数据集称为训练集，整个训练集共15个样本数据。重点是成本和利润两个变量，成本是输入变量或一个特征，利润是输出变量或目标变量，整个回归模型如图2所示。

现建立模型，x表示企业成本，y表示企业利润，h（Hypothesis）表示将输入变量映射到输出变量y的函数，对应一个因变量的线性回归（单变量线性回归）公式如下：

那么，现在要解决的问题是如何求解的两个参数和。我们的构想是选取的参数和使得函数尽可能接近y值，这里提出了求训练集(x,y)的平方误差函数（Squared Error Function）或最小二乘法。

在回归方程里，最小化误差平方和方法是求特征对应回归系数的最佳方法。误差是指预测y值和真实y值之间的差值，使用误差的简单累加将使得正差值和负差值相互抵消，所采用的平方误差（最小二乘法）如下：

在数学上，求解过程就转化为求一组值使上式取到最小值，最常见的求解方法是梯度下降法（Gradient Descent）。根据平方误差，定义该线性回归模型的损耗函数（Cost Function）为，公式如下：

选择适当的参数让其最小化min，即可实现拟合求解过程。通过上面的这个示例，我们就可以对线性回归模型进行如下定义：根据样本x和y的坐标，去预估函数h，寻求变量之间近似的函数关系。公式如下：

其中，n表示特征数目，表示每个训练样本的第i个特种值，当只有一个因变量x时，称为一元线性回归，类似于；而当多个因变量时，成为多元线性回归。我们的目的是使最小化，从而最好的将样本数据集进行拟合，更好地预测新的数据。

多项式回归或逻辑回归相关知识将在后面介绍。

二.线性回归分析

线性回归是数据挖掘中基础的算法之一，其核心思想是求解一组因变量和自变量之间的方程，得到回归函数，同时误差项通常使用最小二乘法进行计算。在本书常用的Sklaern机器学习包中将调用Linear_model子类的LinearRegression类进行线性回归模型计算。

1.LinearRegression

LinearRegression回归模型在Sklearn.linear_model子类下，主要是调用fit(x,y)函数来训练模型，其中x为数据的属性，y为所属类型。sklearn中引用回归模型的代码如下：

from sklearn import linear_model          #导入线性模型  
regr = linear_model.LinearRegression()    #使用线性回归  
print(regr)

输出函数的构造方法如下：

LinearRegression(copy_X=True,   
		fit_intercept=True,   
        n_jobs=1,   
        normalize=False)

其中参数说明如下：

copy_X：布尔型，默认为True。是否对X复制，如果选择False，则直接对原始数据进行覆盖，即经过中心化、标准化后，把新数据覆盖到原数据上。
fit_intercept：布尔型，默认为True。是否对训练数据进行中心化，如果是True表示对输入的训练数据进行中心化处理，如果是False则输入数据已经中心化处理，后面的过程不再进行中心化处理。
n_jobs：整型，默认为1。计算时设置的任务个数，如果设置为-1表示使用所有的CPU。该参数对于目标个数大于1且规模足够大的问题有加速作用。
normalize：布尔型，默认为False。是否对数据进行标准化处理。

LinearRegression类主要包括如下方法：

fit(X,y[,n_jobs])
对训练集X，y进行训练，分析模型参数，填充数据集。其中X为特征，y为标记或类属性。
predict(X)
使用训练得到的估计器或模型对输入的X数据集进行预测，返回结果为预测值。数据集X通常划分为训练集和测试集。
decision_function(X)
使用训练得到的估计器或模型对数据集X进行预测。它与predict(X)区别在于该方法包含了对输入数据的类型检查和当前对象是否存在coef_属性的检查，更安全。
score(X, y[,]samples_weight)
返回对于以X为samples、y为target的预测效果评分。
get_params([deep])
获取该估计器（Estimator）的参数。
**set_params(params)
设置该估计器（Estimator）的参数。
coef_
存放LinearRegression模型的回归系数。
intercept_
存放LinearRegression模型的回归截距。

现在对前面的企业成本和利润数据集进行线性回归实验。完整代码如下：

# -*- coding: utf-8 -*-
# By:Eastmount CSDN 2021-07-03
from sklearn import linear_model     #导入线性模型
import matplotlib.pyplot as plt       
import numpy as np

#X表示企业成本 Y表示企业利润
X = [[400], [450], [486], [500], [510], [525], [540], [549], [558], [590], [610], [640], [680], [750], [900]]
Y = [[80], [89], [92], [102], [121], [160], [180], [189], [199], [203], [247], [250], [259], [289], [356]]
print('数据集X: ', X)
print('数据集Y: ', Y)

#回归训练
clf = linear_model.LinearRegression() 
clf.fit(X, Y)

#预测结果
X2 = [[400], [750], [950]]
Y2 = clf.predict(X2)
print(Y2)
res = clf.predict(np.array([1200]).reshape(-1, 1))[0]   
print('预测成本1200元的利润：$%.1f' % res) 

#绘制线性回归图形
plt.plot(X, Y, 'ks')                 #绘制训练数据集散点图
plt.plot(X2, Y2, 'g-')               #绘制预测数据集直线
plt.show()

调用sklearn包中的LinearRegression()回归函数，fit(X,Y)载入数据集进行训练，然后通过predict(X2)预测数据集X2的利润，并将预测结果绘制成直线，(X,Y)数据集绘制成散点图，如图3所示。

同时调用代码预测2017年企业成本为1200元的利润为575.1元。注意，线性模型的回归系数会保存在coef_变量中，截距保存在intercept_变量中。clf.score(X, Y) 是一个评分函数，返回一个小于1的得分。评分过程的代码如下：

print('系数', clf.coef_)
print('截距', clf.intercept_)
print('评分函数', clf.score(X, Y))

'''
系数 [[ 0.62402912]]
截距 [-173.70433885]
评分函数 0.911831188777
'''

该直线对应的回归函数为：y = 0.62402912 * x - 173.70433885，则X2[1]=400这个点预测的利润值为75.9，而X1中成本为400元对应的真实利润是80元，预测是基本准确的。

2.线性回归预测糖尿病

(1).糖尿病数据集
Sklearn机器学习包提供了糖尿病数据集（Diabetes Dataset），该数据集主要包括442行数据，10个特征值，分别是：年龄（Age）、性别（Sex）、体质指数（Body mass index）、平均血压（Average Blood Pressure）、S1~S6一年后疾病级数指标。预测指标为Target，它表示一年后患疾病的定量指标。原网址的描述如图4所示：

下面代码进行简单的调用及数据规模的测试。

# -*- coding: utf-8 -*-
# By:Eastmount CSDN 2021-07-03
from sklearn import datasets
diabetes = datasets.load_diabetes()                           #载入数据  
print(diabetes.data)                                          #数据  
print(diabetes.target)                                        #类标  
print('总行数: ', len(diabetes.data), len(diabetes.target))         
print('特征数: ', len(diabetes.data[0]))                      #每行数据集维数  
print('数据类型: ', diabetes.data.shape)                     
print(type(diabetes.data), type(diabetes.target))

调用load_diabetes()函数载入糖尿病数据集，然后输出其数据data和类标target。输出总行数442行，特征数共10个，类型为（442L, 10L）。其输出如下所示：

[[ 0.03807591  0.05068012  0.06169621 ..., -0.00259226  0.01990842 
  -0.01764613] 
 [-0.00188202 -0.04464164 -0.05147406 ..., -0.03949338 -0.06832974 
  -0.09220405] 
  ... 
 [-0.04547248 -0.04464164 -0.0730303  ..., -0.03949338 -0.00421986 
   0.00306441]] 
[ 151.   75.  141.  206.  135.   97.  138.   63.  110.  310.  101. 
  ... 
64.   48.  178.  104.  132.  220.   57.] 
总行数:  442 442 
特征数:  10 
数据类型:  (442L, 10L) 
<type 'numpy.ndarray'> <type 'numpy.ndarray'>

(2).代码实现
现在我们将糖尿病数据集划分为训练集和测试集，整个数据集共442行，我们取前422行数据用来线性回归模型训练，后20行数据用来预测。其中取预测数据的代码为diabetes_x_temp[-20:]，表示从后20行开始取值，直到数组结束，共取值20个数。

整个数据集共10个特征值，为了方便可视化画图我们只获取其中一个特征进行实验，这也可以绘制图形，而真实分析中，通常经过降维处理再绘制图形。这里获取第3个特征，对应代码为：diabetes_x_temp = diabetes.data[:, np.newaxis, 2]。完整代码如下：

# -*- coding: utf-8 -*-
# By:Eastmount CSDN 2021-07-03
from sklearn import datasets  
import matplotlib.pyplot as plt  
from sklearn import linear_model
import numpy as np  

#数据集划分
diabetes = datasets.load_diabetes()                #载入数据  
diabetes_x_temp = diabetes.data[:, np.newaxis, 2]  #获取其中一个特征  
diabetes_x_train = diabetes_x_temp[:-20]           #训练样本  
diabetes_x_test = diabetes_x_temp[-20:]            #测试样本 后20行  
diabetes_y_train = diabetes.target[:-20]           #训练标记  
diabetes_y_test = diabetes.target[-20:]            #预测对比标记

#回归训练及预测  
clf = linear_model.LinearRegression()  
clf.fit(diabetes_x_train, diabetes_y_train)        #训练数据集  
pre = clf.predict(diabetes_x_test)

#绘图  
plt.title(u'LinearRegression Diabetes')            #标题  
plt.xlabel(u'Attributes')                          #x轴坐标  
plt.ylabel(u'Measure of disease')                  #y轴坐标    
plt.scatter(diabetes_x_test, diabetes_y_test, color = 'black')  #散点图   
plt.plot(diabetes_x_test, pre, color='blue', linewidth = 2)     #预测直线
plt.show()

输出结果如图5所示，每个点表示真实的值，而直线表示预测的结果。

(3).代码优化
下面代码增加了几个优化措施，包括增加了斜率、截距的计算，可视化绘图增加了散点到线性方程的距离线，增加了保存图片设置像素代码等。这些优化都更好地帮助我们分析真实的数据集。

# -*- coding: utf-8 -*-
# By:Eastmount CSDN 2021-07-03
from sklearn import datasets
import numpy as np
from sklearn import linear_model
import matplotlib.pyplot as plt

#第一步 数据集划分
d = datasets.load_diabetes()  #数据 10*442
x = d.data
x_one = x[:,np.newaxis, 2]    #获取一个特征 第3列数据
y = d.target                  #获取的正确结果
x_train = x_one[:-42]         #训练集X [  0:400]
x_test = x_one[-42:]          #预测集X [401:442]
y_train = y[:-42]             #训练集Y [  0:400]
y_test = y[-42:]              #预测集Y [401:442]

#第二步 线性回归实现
clf = linear_model.LinearRegression()
print(clf)
clf.fit(x_train, y_train)
pre = clf.predict(x_test)
print('预测结果', pre)
print('真实结果', y_test)
   
#第三步 评价结果
cost = np.mean(y_test-pre)**2   #2次方
print('平方和计算:', cost)
print('系数', clf.coef_) 
print('截距', clf.intercept_)  
print('方差', clf.score(x_test, y_test))

#第四步 绘图
plt.plot(x_test, y_test, 'k.')      #散点图
plt.plot(x_test, pre, 'g-')        #预测回归直线
#绘制点到直线距离
for idx, m in enumerate(x_test):
    plt.plot([m, m],[y_test[idx], pre[idx]], 'r-')

plt.savefig('blog12-01.png', dpi=300) #保存图片
plt.show()

绘制的图形如图6所示。

输出结果如下：

LinearRegression(copy_X=True, fit_intercept=True, n_jobs=1, normalize=False)
预测结果 [ 196.51241167  109.98667708  121.31742804  245.95568858  204.75295782
  270.67732703   75.99442421  241.8354155   104.83633574  141.91879342
  126.46776938  208.8732309   234.62493762  152.21947611  159.42995399
  161.49009053  229.47459628  221.23405012  129.55797419  100.71606266
  118.22722323  168.70056841  227.41445974  115.13701842  163.55022706
  114.10695016  120.28735977  158.39988572  237.71514243  121.31742804
   98.65592612  123.37756458  205.78302609   95.56572131  154.27961264
  130.58804246   82.17483382  171.79077322  137.79852034  137.79852034
  190.33200206   83.20490209]
真实结果 [ 175.   93.  168.  275.  293.  281.   72.  140.  189.  181.  209.  136.
  261.  113.  131.  174.  257.   55.   84.   42.  146.  212.  233.   91.
  111.  152.  120.   67.  310.   94.  183.   66.  173.   72.   49.   64.
   48.  178.  104.  132.  220.   57.]

平方和计算: 83.192340827
系数 [ 955.70303385]
截距 153.000183957
方差 0.427204267067

其中cost = np.mean(y_test-pre)**2表示计算预测结果和真实结果之间的平方和，为83.192340827，根据系数和截距得出其方程为：y = 955.70303385 * x + 153.000183957。

三.多项式回归分析

1.基础概念

线性回归研究的是一个目标变量和一个自变量之间的回归问题，但有时候在很多实际问题中，影响目标变量的自变量往往不止一个，而是多个，比如绵羊的产毛量这一变量同时受到绵羊体重、胸围、体长等多个变量的影响，因此需要设计一个目标变量与多个自变量间的回归分析，即多元回归分析。由于线性回归并不适用于所有的数据，我们需要建立曲线来适应我们的数据，现实世界中的曲线关系很多都是增加多项式实现的，比如一个二次函数模型：

再或者一个三次函数模型：

这两个模型我们绘制的图形如下所示：

多项式回归（Polynomial Regression）是研究一个因变量与一个或多个自变量间多项式的回归分析方法。如果自变量只有一个时，称为一元多项式回归；如果自变量有多个时，称为多元多项式回归。在一元回归分析中，如果依变量y与自变量x的关系为非线性的，但是又找不到适当的函数曲线来拟合，则可以采用一元多项式回归。17.3小节主要讲解一元多次的多项式回归分析，一元m次多项式方程如下：

其方程的求解过程希望读者下来自行学习，接下来作者主要讲解Python如何代码实现多项式回归分析的。

2.PolynomialFeatures

Python的多项式回归需要导入sklearn.preprocessing子类中PolynomialFeatures类实现。PolynomialFeatures对应的函数原型如下：

class sklearn.preprocessing.PolynomialFeatures(degree=2, 
		interaction_only=False, 
		include_bias=True)

PolynomialFeatures类在Sklearn官网给出的解释是：专门产生多项式的模型或类，并且多项式包含的是相互影响的特征集。共有三个参数，degree表示多项式阶数，一般默认值是2；interaction_only如果值是true（默认是False），则会产生相互影响的特征集；include_bias表示是否包含偏差列。

PolynomialFeatures类通过实例化一个多项式，建立等差数列矩阵，然后进行训练和预测，最后绘制相关图形，接下来与前面的一元线性回归分析进行对比试验。

3.多项式回归预测成本和利润

本小节主要讲解多项式回归分析实例，分析的数据集是表17.1提供的企业成本和利润数据集。下面直接给出线性回归和多项式回归分析对比的完整代码和详细注释。

# -*- coding: utf-8 -*-
# By:Eastmount CSDN 2021-07-03
from sklearn.linear_model import LinearRegression     
from sklearn.preprocessing import PolynomialFeatures
import matplotlib.pyplot as plt       
import numpy as np

#X表示企业成本 Y表示企业利润
X = [[400], [450], [486], [500], [510], [525], [540], [549], [558], [590], [610], [640], [680], [750], [900]]
Y = [[80], [89], [92], [102], [121], [160], [180], [189], [199], [203], [247], [250], [259], [289], [356]]
print('数据集X: ', X)
print('数据集Y: ', Y)

#第一步 线性回归分析
clf = LinearRegression() 
clf.fit(X, Y)                     
X2 = [[400], [750], [950]]
Y2 = clf.predict(X2)
print(Y2)
res = clf.predict(np.array([1200]).reshape(-1, 1))[0]   
print('预测成本1200元的利润：$%.1f' % res) 
plt.plot(X, Y, 'ks')    #绘制训练数据集散点图
plt.plot(X2, Y2, 'g-')  #绘制预测数据集直线

#第二步 多项式回归分析
xx = np.linspace(350,950,100) #350到950等差数列
quadratic_featurizer = PolynomialFeatures(degree = 2) #实例化一个二次多项式
x_train_quadratic = quadratic_featurizer.fit_transform(X) #用二次多项式x做变换
X_test_quadratic = quadratic_featurizer.transform(X2)
regressor_quadratic = LinearRegression()
regressor_quadratic.fit(x_train_quadratic, Y)

#把训练好X值的多项式特征实例应用到一系列点上,形成矩阵
xx_quadratic = quadratic_featurizer.transform(xx.reshape(xx.shape[0], 1))
plt.plot(xx, regressor_quadratic.predict(xx_quadratic), "r--",
         label="$y = ax^2 + bx + c$",linewidth=2)
plt.legend()
plt.show()

输出图形如下图所示，其中黑色散点图表示真实的企业成本和利润的关系，绿色直线为一元线性回归方程，红色虚曲线为二次多项式方程。它更接近真实的散点图。

这里我们使用R方（R-Squared）来评估多项式回归预测的效果，R方也叫确定系数（Coefficient of Determination），它表示模型对现实数据拟合的程度。计算R方的方法有几种，一元线性回归中R方等于皮尔逊积矩相关系数（Pearson Product Moment Correlation Coefficient）的平方，该方法计算的R方是一定介于0～1之间的正数。另一种是Sklearn库提供的方法来计算R方。R方计算代码如下：

print('1 r-squared', clf.score(X, Y))
print('2 r-squared', regressor_quadratic.score(x_train_quadratic, Y))

输出如下所示：

('1 r-squared', 0.9118311887769025)
('2 r-squared', 0.94073599498559335)

一元线性回归的R方值为0.9118，多项式回归的R方值为0.9407，说明数据集中超过94%的价格都可以通过模型解释。最后补充5次项的拟合过程，下面只给出核心代码。

# -*- coding: utf-8 -*-
# By:Eastmount CSDN 2021-07-03
from sklearn.linear_model import LinearRegression     
from sklearn.preprocessing import PolynomialFeatures
import matplotlib.pyplot as plt       
import numpy as np

#X表示企业成本 Y表示企业利润
X = [[400], [450], [486], [500], [510], [525], [540], [549], [558], [590], [610], [640], [680], [750], [900]]
Y = [[80], [89], [92], [102], [121], [160], [180], [189], [199], [203], [247], [250], [259], [289], [356]]
print('数据集X: ', X)
print('数据集Y: ', Y)

#第一步 线性回归分析
clf = LinearRegression() 
clf.fit(X, Y)                     
X2 = [[400], [750], [950]]
Y2 = clf.predict(X2)
print(Y2)
res = clf.predict(np.array([1200]).reshape(-1, 1))[0]   
print('预测成本1200元的利润：$%.1f' % res) 
plt.plot(X, Y, 'ks')    #绘制训练数据集散点图
plt.plot(X2, Y2, 'g-')  #绘制预测数据集直线

#第二步 多项式回归分析
xx = np.linspace(350,950,100) 
quadratic_featurizer = PolynomialFeatures(degree = 5) 
x_train_quadratic = quadratic_featurizer.fit_transform(X) 
X_test_quadratic = quadratic_featurizer.transform(X2)
regressor_quadratic = LinearRegression()
regressor_quadratic.fit(x_train_quadratic, Y)
#把训练好X值的多项式特征实例应用到一系列点上,形成矩阵
xx_quadratic = quadratic_featurizer.transform(xx.reshape(xx.shape[0], 1))
plt.plot(xx, regressor_quadratic.predict(xx_quadratic), "r--",
         label="$y = ax^2 + bx + c$",linewidth=2)
plt.legend()
plt.show()
print('1 r-squared', clf.score(X, Y))
print('5 r-squared', regressor_quadratic.score(x_train_quadratic, Y))

# ('1 r-squared', 0.9118311887769025)
# ('5 r-squared', 0.98087802460869788)

输出如下所示，其中红色虚线为五次多项式曲线，它更加接近真实数据集的分布情况，而绿色直线为一元线性回归方程，显然相较于五次多项式曲线，线性方程拟合的结果更差。同时，五次多项式曲线的R方值为98.08%，非常准确的预测了数据趋势。

最后补充一点，建议多项式回归的阶数不要太高，否则会出现过拟合现象。

四.逻辑回归

1.基础原理

在前面讲述的回归模型中，处理的因变量都是数值型区间变量，建立的模型描述是因变量的期望与自变量之间的线性关系或多项式曲线关系。比如常见的线性回归模型：

而在采用回归模型分析实际问题中，所研究的变量往往不全是区间变量而是顺序变量或属性变量，比如二项分布问题。通过分析年龄、性别、体质指数、平均血压、疾病指数等指标，判断一个人是否换糖尿病，Y=0表示未患病，Y=1表示患病，这里的响应变量是一个两点（0或1）分布变量，它就不能用h函数连续的值来预测因变量Y（Y只能取0或1）。

总之，线性回归或多项式回归模型通常是处理因变量为连续变量的问题，如果因变量是定性变量，线性回归模型就不再适用了，此时需采用逻辑回归模型解决。

逻辑回归（Logistic Regression）是用于处理因变量为分类变量的回归问题，常见的是二分类或二项分布问题，也可以处理多分类问题，它实际上是属于一种分类方法。

二分类问题的概率与自变量之间的关系图形往往是一个S型曲线，如图17.10所示，采用的Sigmoid函数实现。这里我们将该函数定义如下：

函数的定义域为全体实数，值域在[0,1]之间，x轴在0点对应的结果为0.5。当x取值足够大的时候，可以看成0或1两类问题，大于0.5可以认为是1类问题，反之是0类问题，而刚好是0.5，则可以划分至0类或1类。对于0-1型变量，y=1的概率分布公式定义如下：

y=0的概率分布公式定义如下：

其离散型随机变量期望值公式如下：

采用线性模型进行分析，其公式变换如下：

而实际应用中，概率p与因变量往往是非线性的，为了解决该类问题，我们引入了logit变换，使得logit§与自变量之间存在线性相关的关系，逻辑回归模型定义如下：

通过推导，概率p变换如下，这与Sigmoid函数相符，也体现了概率p与因变量之间的非线性关系。以0.5为界限，预测p大于0.5时，我们判断此时y更可能为1，否则y为0。

得到所需的Sigmoid函数后，接下来只需要和前面的线性回归一样，拟合出该式中n个参数θ即可。下列为绘制Sigmoid曲线，输出如图10所示。

# -*- coding: utf-8 -*-
# By:Eastmount CSDN 2021-07-03
import matplotlib.pyplot as plt
import numpy as np

def Sigmoid(x):
    return 1.0 / (1.0 + np.exp(-x))

x= np.arange(-10, 10, 0.1)
h = Sigmoid(x)                #Sigmoid函数
plt.plot(x, h)
plt.axvline(0.0, color='k')   #坐标轴上加一条竖直的线（0位置）
plt.axhspan(0.0, 1.0, facecolor='1.0', alpha=1.0, ls='dotted')  
plt.axhline(y=0.5, ls='dotted', color='k') 
plt.yticks([0.0, 0.5, 1.0])  #y轴标度
plt.ylim(-0.1, 1.1)          #y轴范围
plt.show()

由于篇幅有限，逻辑回归构造损失函数J函数，求解最小J函数及回归参数θ的方法就不在叙述，原理和前面介绍的一样，请读者下去深入研究。

2.LogisticRegression

LogisticRegression回归模型在Sklearn.linear_model子类下，调用sklearn逻辑回归算法步骤比较简单，即：

导入模型。调用逻辑回归LogisticRegression()函数。
fit()训练。调用fit(x,y)的方法来训练模型，其中x为数据的属性，y为所属类型。
predict()预测。利用训练得到的模型对数据集进行预测，返回预测结果。

代码如下：

# -*- coding: utf-8 -*-
# By:Eastmount CSDN 2021-07-03
from sklearn.linear_model import LogisticRegression  #导入逻辑回归模型 
clf = LogisticRegression()
print(clf)
clf.fit(train_feature,label)
predict['label'] = clf.predict(predict_feature)

输出函数的构造方法如下：

LogisticRegression(C=1.0, class_weight=None, dual=False, fit_intercept=True,
          intercept_scaling=1, max_iter=100, multi_class='ovr', n_jobs=1,
          penalty='l2', random_state=None, solver='liblinear', tol=0.0001,
          verbose=0, warm_start=False)

这里仅介绍两个参数：参数penalty表示惩罚项，包括两个可选值L1和L2。L1表示向量中各元素绝对值的和，常用于特征选择；L2表示向量中各个元素平方之和再开根号，当需要选择较多的特征时，使用L2参数，使他们都趋近于0。C值的目标函数约束条件为：s.t.||w||1

3.鸢尾花数据集回归分析实例

下面将结合Scikit-learn官网的逻辑回归模型分析鸢尾花数据集。由于该数据分类标签划分为3类（0类、1类、2类），属于三分类问题，所以能利用逻辑回归模型对其进行分析。

(1).鸢尾花数据集
在Sklearn机器学习包中，集成了各种各样的数据集，包括前面的糖尿病数据集，这里引入的是鸢尾花卉（Iris）数据集，它也是一个很常用的数据集。该数据集一共包含4个特征变量，1个类别变量，共有150个样本。其中四个特征分别是萼片的长度和宽度、花瓣的长度和宽度，一个类别变量是标记鸢尾花所属的分类情况，该值包含三种情况，即山鸢尾（Iris-setosa）、变色鸢尾（Iris-versicolor）和维吉尼亚鸢尾（Iris-virginica）。鸢尾花数据集详细介绍如表2所示：

Class 类别变量。0表示山鸢尾，1表示变色鸢尾，2表示维吉尼亚鸢尾。 int
iris里有两个属性iris.data，iris.target。data是一个矩阵，每一列代表了萼片或花瓣的长宽，一共4列，每一行代表一个被测量的鸢尾植物，一共采样了150条记录，即150朵鸢尾花样本。

from sklearn.datasets import load_iris   #导入数据集iris
iris = load_iris()  #载入数据集
print(iris.data)

输出如下所示：

[[ 5.1  3.5  1.4  0.2]
 [ 4.9  3.   1.4  0.2]
 [ 4.7  3.2  1.3  0.2]
 [ 4.6  3.1  1.5  0.2]
 ....
 [ 6.7  3.   5.2  2.3]
 [ 6.3  2.5  5.   1.9]
 [ 6.5  3.   5.2  2. ]
 [ 6.2  3.4  5.4  2.3]
 [ 5.9  3.   5.1  1.8]]

target是一个数组，存储了每行数据对应的样本属于哪一类鸢尾植物，要么是山鸢尾（值为0），要么是变色鸢尾（值为1），要么是维吉尼亚鸢尾（值为2），数组的长度是150。

print(iris.target)           #输出真实标签
print(len(iris.target))      #150个样本 每个样本4个特征
print(iris.data.shape)  

[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2]
150
(150L, 4L)

从输出结果可以看到，类标共分为三类，前面50个类标位0，中间50个类标位1，后面为2。下面给详细介绍使用逻辑回归对这个数据集进行分析的代码。

(2).散点图绘制
在载入了鸢尾花数据集（数据data和标签target）之后，我们需要获取其中两列数据或两个特征，再调用scatter()函数绘制散点图。其中获取一个特征的核心代码为：X = [x[0] for x in DD]，将获取的值赋值给X变量。完整代码如下：

# -*- coding: utf-8 -*-
# By:Eastmount CSDN 2021-07-03
import matplotlib.pyplot as plt
import numpy as np
from sklearn.datasets import load_iris    #导入数据集iris
  
#载入数据集  
iris = load_iris()  
print(iris.data)           #输出数据集  
print(iris.target)         #输出真实标签

#获取花卉两列数据集  
DD = iris.data  
X = [x[0] for x in DD]  
print(X)  
Y = [x[1] for x in DD]  
print(Y)  
  
#plt.scatter(X, Y, c=iris.target, marker='x')
plt.scatter(X[:50], Y[:50], color='red', marker='o', label='setosa') #前50个样本
plt.scatter(X[50:100], Y[50:100], color='blue', marker='x', label='versicolor') #中间50个
plt.scatter(X[100:], Y[100:],color='green', marker='+', label='Virginica') #后50个样本
plt.legend(loc=2) #左上角
plt.show()

输出如图11所示：

(3).线性回归分析
下述代码先获取鸢尾花数据集的前两列数据，再调用Sklearn库中线性回归模型进行分析，完整代码如文件所示。

# -*- coding: utf-8 -*-
# By:Eastmount CSDN 2021-07-03

#第一步 导入数据集
from sklearn.datasets import load_iris
hua = load_iris()

#获取花瓣的长和宽
x = [n[0] for n in hua.data]
y = [n[1] for n in hua.data]
import numpy as np #转换成数组
x = np.array(x).reshape(len(x),1)
y = np.array(y).reshape(len(y),1)

#第二步 线性回归分析
from sklearn.linear_model import LinearRegression
clf = LinearRegression()
clf.fit(x,y)
pre = clf.predict(x)
print(pre)

#第三步 画图
import matplotlib.pyplot as plt
plt.scatter(x,y,s=100)
plt.plot(x,pre,"r-",linewidth=4)
for idx, m in enumerate(x):
    plt.plot([m,m],[y[idx],pre[idx]], 'g-')
plt.show()

输出图形如图12所示，并且可以看到所有散点到拟合的一元一次方程的距离。

(4).逻辑回归分析鸢尾花
讲解完线性回归分析之后，那如果用逻辑回归分析的结果究竟如何呢？下面开始讲述。从散点图（图11）中可以看出，数据集是线性可分的，划分为3类，分别对应三种类型的鸢尾花，下面采用逻辑回归对其进行分析预测。

前面使用X=[x[0] for x in DD]获取第一列数据，Y=[x[1] for x in DD]获取第二列数据，这里采用另一种方法，iris.data[:, :2]获取其中两列数据或两个特征，完整代码如下：

# -*- coding: utf-8 -*-
# By:Eastmount CSDN 2021-07-03
import matplotlib.pyplot as plt
import numpy as np
from sklearn.datasets import load_iris   
from sklearn.linear_model import LogisticRegression 

#载入数据集
iris = load_iris()         
X = X = iris.data[:, :2]   #获取花卉两列数据集
Y = iris.target           

#逻辑回归模型
lr = LogisticRegression(C=1e5)  
lr.fit(X,Y)

#meshgrid函数生成两个网格矩阵
h = .02
x_min, x_max = X[:, 0].min() - .5, X[:, 0].max() + .5
y_min, y_max = X[:, 1].min() - .5, X[:, 1].max() + .5
xx, yy = np.meshgrid(np.arange(x_min, x_max, h), np.arange(y_min, y_max, h))

#pcolormesh函数将xx,yy两个网格矩阵和对应的预测结果Z绘制在图片上
Z = lr.predict(np.c_[xx.ravel(), yy.ravel()])
Z = Z.reshape(xx.shape)
plt.figure(1, figsize=(8,6))
plt.pcolormesh(xx, yy, Z, cmap=plt.cm.Paired)

#绘制散点图
plt.scatter(X[:50,0], X[:50,1], color='red',marker='o', label='setosa')
plt.scatter(X[50:100,0], X[50:100,1], color='blue', marker='x', label='versicolor')
plt.scatter(X[100:,0], X[100:,1], color='green', marker='s', label='Virginica') 

plt.xlabel('Sepal length')
plt.ylabel('Sepal width')
plt.xlim(xx.min(), xx.max())
plt.ylim(yy.min(), yy.max())
plt.xticks(())
plt.yticks(())
plt.legend(loc=2) 
plt.show()

输出如图13所示。经过逻辑回归后划分为三个区域，左上角部分为红色的圆点，对应setosa鸢尾花；右上角部分为绿色方块，对应virginica鸢尾花；中间下部分为蓝色星形，对应versicolor鸢尾花。散点图为各数据点真实的花类型，划分的三个区域为数据点预测的花类型，预测的分类结果与训练数据的真实结果结果基本一致，部分鸢尾花出现交叉。

下面作者对导入数据集后的代码进行详细讲解。

lr = LogisticRegression(C=1e5)
初始化逻辑回归模型，C=1e5表示目标函数。
lr.fit(X,Y)
调用逻辑回归模型进行训练，参数X为数据特征，参数Y为数据类标。
x_min, x_max = X[:, 0].min() - .5, X[:, 0].max() + .5
y_min, y_max = X[:, 1].min() - .5, X[:, 1].max() + .5
xx, yy = np.meshgrid(np.arange(x_min, x_max, h), np.arange(y_min, y_max, h))
获取鸢尾花数据集的两列数据，对应为花萼长度和花萼宽度，每个点的坐标就是(x,y)。先取X二维数组的第一列（长度）的最小值、最大值和步长h（设置为0.02）生成数组，再取X二维数组的第二列（宽度）的最小值、最大值和步长h生成数组，最后用meshgrid函数生成两个网格矩阵xx和yy，如下所示：

[[ 3.8   3.82  3.84 ...,  8.36  8.38  8.4 ]
 [ 3.8   3.82  3.84 ...,  8.36  8.38  8.4 ]
 ..., 
 [ 3.8   3.82  3.84 ...,  8.36  8.38  8.4 ]
 [ 3.8   3.82  3.84 ...,  8.36  8.38  8.4 ]]
[[ 1.5   1.5   1.5  ...,  1.5   1.5   1.5 ]
 [ 1.52  1.52  1.52 ...,  1.52  1.52  1.52]
 ..., 
 [ 4.88  4.88  4.88 ...,  4.88  4.88  4.88]
 [ 4.9   4.9   4.9  ...,  4.9   4.9   4.9 ]]

Z = lr.predict(np.c_[xx.ravel(), yy.ravel()])
调用ravel()函数将xx和yy的两个矩阵转变成一维数组，由于两个矩阵大小相等，因此两个一维数组大小也相等。np.c_[xx.ravel(), yy.ravel()]是获取并合并成矩阵，即：

xx.ravel() 
[ 3.8   3.82  3.84 ...,  8.36  8.38  8.4 ]
yy.ravel() 
[ 1.5  1.5  1.5 ...,  4.9  4.9  4.9]
np.c_[xx.ravel(), yy.ravel()]
[[ 3.8   1.5 ]
 [ 3.82  1.5 ]
 [ 3.84  1.5 ]
 ..., 
 [ 8.36  4.9 ]
 [ 8.38  4.9 ]
 [ 8.4   4.9 ]]

总之，上述操作是把第一列花萼长度数据按h取等分作为行，并复制多行得到xx网格矩阵；再把第二列花萼宽度数据按h取等分作为列，并复制多列得到yy网格矩阵；最后将xx和yy矩阵都变成两个一维数组，再调用np.c_[]函数将其组合成一个二维数组进行预测。

Z = logreg.predict(np.c_[xx.ravel(), yy.ravel()])
调用predict()函数进行预测，预测结果赋值给Z。即：

Z = logreg.predict(np.c_[xx.ravel(), yy.ravel()])
[1 1 1 ..., 2 2 2]
size: 39501

Z = Z.reshape(xx.shape)
调用reshape()函数修改形状，将Z变量转换为两个特征（长度和宽度），则39501个数据转换为171*231的矩阵。Z = Z.reshape(xx.shape)输出如下：

[[1 1 1 ..., 2 2 2]
 [1 1 1 ..., 2 2 2]
 [0 1 1 ..., 2 2 2]
 ..., 
 [0 0 0 ..., 2 2 2]
 [0 0 0 ..., 2 2 2]
 [0 0 0 ..., 2 2 2]]

plt.pcolormesh(xx, yy, Z, cmap=plt.cm.Paired)
调用pcolormesh()函数将xx、yy两个网格矩阵和对应的预测结果Z绘制在图片上，可以发现输出为三个颜色区块，分布表示分类的三类区域。cmap=plt.cm.Paired表示绘图样式选择Paired主题，输出区域如下图所示：

plt.scatter(X[:50,0], X[:50,1], color=‘red’,marker=‘o’, label=‘setosa’)
调用scatter()绘制散点图，第一个参数为第一列数据（长度），第二个参数为第二列数据（宽度），第三、四个参数为设置点的颜色为红色，款式为圆圈，最后标记为setosa。

五.本章小结

回归分析是通过建立一个回归方程用来预测目标值，并求解这个回归方程的回归系数的方法。它是统计学中最重要的工具之一，包括线性回归、多项式回归、逻辑回归、非线性回归等。常用来确定变量之间是否存在相关关系，并找出数学表达式，也可以通过控制几个变量的值来预测另一个变量的值，比如房价预测、增长趋势、是否患病等问题。

在Python中，我们通过调用Sklearn机器学习库的LinearRegression模型实现线性回归分析，调用PolynomialFeatures模型实现多项式回归分析，调用LogisticRegression模型实现逻辑回归分析。希望读者实现本章节中的每一部分代码，从而更好的用于自己的研究领域、解决自己遇到的问题。

该系列所有代码下载地址：

https://github.com/eastmountyxz/Python-zero2one

感谢在求学路上的同行者，不负遇见，勿忘初心。这周的留言感慨～

(By:娜璋之家 Eastmount 2021-07-03 夜于武汉 https://blog.csdn.net/Eastmount )

参考文献：

[1] 杨秀璋. 专栏：知识图谱、web数据挖掘及NLP - CSDN博客[EB/OL]. （2016-09-19）[2017-11-07]. http://blog.csdn.net/column/details/eastmount-kgdmnlp.html.
[2] 张良均，王路，谭立云，苏剑林. Python数据分析与挖掘实战[M]. 北京：机械工业出版社，2016.
[3] （美）Wes McKinney著. 唐学韬等译. 利用Python进行数据分析[M]. 北京：机械工业出版社，2013.
[4] Jiawei Han，Micheline Kamber著. 范明，孟小峰译. 数据挖掘概念与技术. 北京：机械工业出版社，2007.
[5] 杨秀璋. [Python数据挖掘课] 五.线性回归知识及预测糖尿病实例[EB/OL].（2016-10-28）[2017-11-07]. http://blog.csdn.net/eastmount/article/details/52929765.
[6] 杨秀璋. [Python数据挖掘课程] 九.回归模型LinearRegression简单分析氧化物数据[EB/OL]. （2017-03-05）[2017-11-07].http://blog.csdn.net/eastmount/article/
details/60468818.
[7] scikit-learn. sklearn.linear_model.LogisticRegression[EB/OL]. （2017）[2017-11-17]. http://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html.
[8] scikit-learn. Logistic Regression 3-class Classifier[EB/OL]. （2017）[2017-11-17]. http://scikit-learn.org/stable/auto_examples/linear_model/plot_iris_logistic.html#sphx-glr-auto-examples-linear-model-plot-iris-logistic-py.
[9] 吴恩达. Coursera公开课: 斯坦福大学机器学习"[EB/OL]. （2011-2017）[2017-11-15]. http://open.163.com/special/opencourse/machinelearning.html.
[10] scikit-learn. Sklearn Datasets[EB/OL]. （2017）[2017-11-15]. http://scikit-learn.org/
stable/datasets/.
[11] lsldd. 用Python开始机器学习（7：逻辑回归分类）[EB/OL]. （2014-11-27）[2017-11-15]. http://blog.csdn.net/lsldd/article/details/41551797.
[12] 杨秀璋. [python数据挖掘课程] 十六.逻辑回归LogisticRegression分析鸢尾花数据[EB/OL]. （2017-09-10）[2017-11-15]. http://blog.csdn.net/eastmount/article/details/77920470.
[13] 杨秀璋. [python数据挖掘课程] 十八.线性回归及多项式回归分析四个案例分享[EB/OL]. （2017-11-26）[2017-11-26]. http://blog.csdn.net/eastmount/article/details/78635096.

你可能感兴趣的:(Python从零到壹,Python学习系列,Python人工智能,机器学习,Python从零到壹,数据分析,回归分析,线性回归)

python抓取汇率_09 使用Python爬取中国银行网站选择汇率最坑的一天
爬取2018年8月27日~9月2日的欧元汇率。先说结论：如果是现汇卖出价，可以选择2018-08-3109:19:26，现钞卖出价805.28。我刚问了报销过的人她说任选都行，可以不是中行折算价。最近出差，学校可以以人民币的形式报销路费、住宿费，汇率，可以任选出差期间的任何一天任何时候的中国银行的汇率，中国银行网站上的汇率长这样：如果想要合理利用规则，多回一点本，不妨选择汇率最坑的一天(默默给财务
模型融合与人机协同：构建人机共生的智能未来 AI天才研究院 Agentic AI 实战计算 AI人工智能与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍在科技日新月异的今天，人工智能（AI）已经成为了我们生活中不可或缺的一部分。从智能手机，到自动驾驶汽车，再到医疗诊断，AI的应用已经渗透到了我们生活的方方面面。然而，尽管AI的发展已经取得了显著的成就，但是我们仍然面临着一个重大的挑战：如何让AI系统更好地理解和适应人类的需求，以实现人机共生的智能未来。为了解决这个问题，越来越多的研究者开始探索模型融合和人机协同的方法。2.核心概念与联
穿越SaaS迷雾：从工具到智能体，国内垂直SaaS的“阵痛”与“新生”
——在增长与亏损的悖论中，一场由AI驱动的“大洗牌”正悄然上演引言：每个SaaS创始人的“冰与火之歌”每个投身国内SaaS（软件即服务）创业的创始人，心中或许都吟唱着一首“冰与火之歌”。“火”的一面，是资本的热捧、数字化转型的时代浪潮，以及那条陡峭诱人的ARR（年度经常性收入）增长曲线。根据相关调研报告，2023年中国企业级SaaS市场规模已达888亿元，其中垂直行业SaaS的占比正从35%攀升至
使用FinancialDatasets工具包进行财务数据分析 Zbb159 数据分析数据挖掘
##技术背景介绍在现代金融分析中，获取准确且及时的财务数据是至关重要的。FinancialDatasets提供了一个强大的API，可以获取超过16,000个股票的财务数据，时间跨度超过30年。通过与OpenAI的集成，我们能够创建智能化的财务分析助手，为投资者提供深度的市场洞察。##核心原理解析FinancialDatasets工具包通过RESTAPI接口访问财务数据，为每个公开交易的公司提供详细
【DeepSeek实战】24、LangGraph完全指南：从入门到实战，构建复杂AI工作流无心水人工智能 LangGraph教程多Agent协作框架 LangGraph实战案例复杂AI逻辑实现 DeepSeek实战 AI工作流开发
引言：为什么LangGraph是AI工作流的“下一代引擎”？当你需要构建一个能处理循环逻辑的AI客服系统——比如“用户投诉未解决时自动转人工，解决后发送满意度调查”——传统的链式框架（如LangChain基础链）会显得力不从心：它们难以实现分支跳转、状态保存和循环执行。而LangGraph的出现，正是为了解决这一痛点。LangGraph是LangChain团队推出的AI工作流引擎，专为复杂业务逻辑
爬虫小结 Crescent_P python小项目 python 数据分析
python爬虫小组作业上周布置了python的小组作业,每一组要求爬取老师指定的信息,本组抽到的题目如下:从中国银行网址：http://www.boc.cn/sourcedb/whpj/获取主要外汇（美元、欧元、英镑、加拿大元、澳大利亚元、日元、韩元、新台币、澳门元和港币）的牌价信息，计算出它们的每天平均价。要求把今年5月份每天平均价格保存到Excel文件中，每种外汇的数据保存在一个工作表中，并
标题：2025传统制造业护网实战指南：从合规防御到智能免疫的体系化进阶上海云盾商务经理杨杨网络
引言2025年，随着《工业互联网企业网络安全》三项国家标准全面实施，护网行动已从“合规检查”升级为“能力对抗”。传统制造业在数字化转型浪潮中，面临设备老旧、人才短缺、供应链风险激增等挑战，41.5%的企业计划年内增加安全预算。本文将结合新规要求与行业最佳实践，深度解析传统制造业如何构建“技术-管理-运营”三位一体的护网防御体系。一、传统制造业的护网困境：三大核心矛盾1.设备老旧化vs安全新标准历史
Python 爬虫实战：抓取华尔街日报付费文章摘要的全方位指南 Python爬虫项目 python 爬虫开发语言信息可视化数据分析
引言在全球化的信息时代，获取高质量的新闻内容对于研究、投资和决策具有重要意义。《华尔街日报》（TheWallStreetJournal，简称WSJ）作为国际知名的财经媒体，其文章内容备受关注。然而，WSJ的大部分内容属于付费订阅，普通用户无法直接访问。本文将深入探讨如何使用Python爬虫技术，结合最新的工具和方法，抓取WSJ的付费文章摘要。一、了解目标网站结构1.1WSJ网站结构分析WSJ的官方
Python爬虫实战：使用最新技术爬取头条新闻数据 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言 scrapy 音视频
一、前言：Python爬虫在现代数据获取中的重要性在当今信息爆炸的时代，数据已经成为最宝贵的资源之一。作为数据获取的重要手段，网络爬虫技术在各个领域发挥着越来越重要的作用。Python凭借其简洁的语法、丰富的库生态系统和强大的社区支持，已经成为网络爬虫开发的首选语言。本文将详细介绍如何使用Python及其最新的爬虫技术来爬取头条新闻数据。我们将从基础概念讲起，逐步深入到高级技巧，最后给出完整的爬虫
Python爬虫实战：爬取ETF基金持仓变化 Python爬虫项目 python 爬虫开发语言信息可视化数据分析
1.项目背景ETF（Exchange-TradedFund，交易型开放式指数基金）作为一种在交易所上市交易的基金，其持仓信息对于投资者具有重要参考价值。了解ETF的持仓变化，可以帮助投资者判断市场趋势和资金流向。本文将通过Python爬虫技术，自动化地获取ETF基金的持仓变化数据，进行存储和分析。2.技术选型与环境准备2.1技术选型编程语言：Python3.8+爬虫框架：Scrapy数据解析：Be
【Python】（一）面试题和Py基础题戏精亿点点菜 python 开发语言
1.技术面试题（1）TCP与UDP的区别是什么？答：TCP（TransmissionControlProtocol，传输控制协议）提供的是面向连接，可靠的字节流服务。即客户和服务器交换数据前，必须现在双方之间建立一个TCP连接，之后才能传输数据。并且提供超时重发，丢弃重复数据，检验数据，流量控制等功能，保证数据能从一端传到另一端。UDP（UserDataProtocol，用户数据报协议）是一个简单
Python 爬虫实战：实时采集外汇汇率数据的全方位指南 Python爬虫项目 python 爬虫开发语言信息可视化数据分析
引言在全球化的金融市场中，外汇汇率的实时数据对于投资者、企业和研究人员来说至关重要。通过自动化的方式获取这些数据，不仅可以提高效率，还能为决策提供及时的支持。本文将深入探讨如何使用Python爬虫技术，结合最新的工具和方法，实时采集外汇汇率数据。一、外汇汇率数据的获取途径1.1使用官方API接口许多金融机构和数据提供商提供了官方的API接口，供开发者获取外汇汇率数据。例如：AlphaVantage
C语言指针进阶完全指南：从多级指针到函数指针的深度探索给老吕螺丝 #C语言 c语言开发语言
掌握指针基础后，你将开启C语言真正的力量之门。本文通过实战代码示例和内存布局图解，带你系统攻克指针进阶技术。一、指针核心回顾与进阶重点核心概念：指针本质：存储内存地址的变量间接访问：通过地址操作数据指针大小：64位系统固定8字节（与类型无关）进阶重点：多级指针：处理复杂间接关系动态内存管理：精准控制内存生命周期函数指针：实现代码抽象与回调复杂结构：构建链表等动态数据结构二、多级指针：指针的指针内存
从零构建智能ai语音助手：ESP32s3+Python+大语言模型实战指南
从零构建智能ai语音助手：ESP32s3+Python+大语言模型实战指南一、项目概述大家好！今天给大家带来一个干货满满的实战项目——基于ESP32S3硬件和Python后端的智能语音助手系统。这个项目将物联网技术与AI技术完美结合，打造一个可以实时对话、意图识别的智能语音交互系统。相比传统的离线语音系统只能识别固定命令词，我们这套系统可以：实现自然语言理解，支持多种表达方式无需预设固定命令词，更
卷积神经网络架构的演进：从AlexNet到EfficientNet t0_54manong 大数据与人工智能 cnn 架构人工智能个人开发
在过去的8.5年里，深度学习取得了飞速的进步。回溯到2012年，AlexNet在ImageNet上的Top-1准确率仅为63.3%，而如今，借助EfficientNet架构和师生训练法，我们已经能达到超过90%的准确率。本文将聚焦于卷积神经网络（CNN）架构的演变，深入探究其背后的基本原理。一些关键术语在深入了解各种架构之前，我们需要明确几个关键术语。更宽的网络意味着卷积层中有更多的特征图（滤波器
mac 安装docker,完美解决 Ai君臣 docker docker macos 运维
1、下载安装最可靠brewinstall不建议用，如果用brewinstall正常，那就不用看后面的2、现象docker.errors.DockerException:ErrorwhilefetchingserverAPIversion:(‘Connectionaborted.‘,File原因：就是docker没安装好macos版本：macosCatalina10.15到这个网站DockerDes
第二十八：Fiddler抓包-抓取Android7.0以上的Https包(三)-夜神模拟器+Xposed+JustTrustMe 卢卡平头哥 Fiddler fiddler https android
一.简介1.二次加密：有的APP，在涉及到关键数据通信时，会将正文二次加密后才通过HTTPS发送1.1.抓包抓到的是一堆二进制base642.自带HTTPClient：像支付宝那样的变态，自己带一个基于so的HTTPClient库2.1.对于关键数据，都不走URLConnection和OkHttp，而是走自己的HTTPClient库2.2.甚至一些
Docker容器技术：从入门到实践 CarlowZJ AI应用开发落地 docker 容器运维
目录摘要一、引言二、Docker的基本概念（一）容器与虚拟机（二）Docker的三大核心概念（三）Docker的优势三、Docker的安装与配置（一）安装Docker（二）配置Docker四、Docker镜像管理（一）拉取镜像（二）构建镜像（三）推送镜像五、Docker容器操作（一）启动容器（二）进入容器（三）停止和删除容器六、Docker网络配置（一）默认网络模式（二）自定义网络（三）主机模式（
Mac安装Docker YIXiu-xiaowu Docker
1.可以通过左上角的小图片查看系统版本，并可以通过”软件更新“来检查和更新MacOS系统。通过官网双击完Docker.dmg文件后，双击下载的.dmg文件，然后将Docker鲸鱼图标拖拽到Application文件夹即完成安装。（切记一定是Apple芯片）我们打开Docker应用程序后，会有一些选择配置，我们按照如下配置即可。这里我们选择Accept--》选择默认配置就行，Docker会自动设置
心理健康语音分析AI模型：开启心理评估新时代 AI大模型应用实战人工智能语音识别 ai
心理健康语音分析AI模型：开启心理评估新时代关键词：心理健康评估、语音信号处理、情感计算、AI模型、多模态融合摘要：传统心理评估依赖量表问卷和人工观察，存在主观性强、效率低、难以实时监测等局限。本文将带您走进“心理健康语音分析AI模型”的世界，从基础概念到核心技术，从算法原理到实战案例，揭秘AI如何通过“听声音”读懂心理状态，开启心理评估的智能化新时代。背景介绍目的和范围心理健康问题已成为全球公共
MacOS系统安装Docker（非常详细）从零基础入门到精通，看完这一篇就够了_mac安装docker 2501_90249219 docker eureka 容器
选择默认配置就行，Docker会自动设置一些大多数开发人员必要的配置。这里我们跳过就好。运行Docker在应用程序中找到Docker程序图标，点击以启动Docker，启动之后我们会发现右上角工具栏中多了一个小鲸鱼的图片，这个就是Docker啦~真的好可爱~Docker桌面应用程序打开后，就是首页的学习中心界面。通过小鲸鱼中的AboutDockerDesktop可以查看Docker的版本可以看到版本
Python 领域 pytest 的测试用例的可维护性设计
Python领域pytest的测试用例的可维护性设计关键词：pytest、测试用例、可维护性、测试框架、自动化测试、测试设计模式、重构摘要：本文深入探讨了如何在Python测试框架pytest中设计可维护的测试用例。我们将从测试用例可维护性的核心原则出发，分析pytest的特性和最佳实践，介绍多种提高测试代码可维护性的设计模式和技巧。文章包含实际代码示例、项目实战案例以及可维护性评估指标，帮助开发
毫秒级断电+AI预警：广州曼顿智能空开如何重新定义电气安全？ mdkk678 人工智能安全
在智慧城市、工业4.0与“双碳”目标的推动下，电力系统正经历从传统被动响应向主动智能防控的深刻变革。广州曼顿科技推出的智能空气开关，凭借毫秒级断电技术与AI预警系统的深度融合，不仅填补了传统断路器在响应速度、故障预判和能效管理上的技术空白，更以“零时差守护”理念重塑了电气安全的新范式。一、技术突破：毫秒级断电的“物理屏障”传统断路器依赖机械结构实现过载保护，其响应时间通常在数十毫秒以上，难以应对瞬
Python爬虫小白入门指南，成为大牛必须经历的三个阶段
学习任何一门技术，都应该带着目标去学习，目标就像一座灯塔，指引你前进，很多人学着学着就学放弃了，很大部分原因是没有明确目标，所以，一定要明确学习目的，在你准备学爬虫前，先问问自己为什么要学习爬虫。有些人是为了一份工作，有些人是为了好玩，也有些人是为了实现某个黑科技功能。不过可以肯定的是，学会了爬虫能给你的工作提供很多便利。小白入门必读作为零基础小白，大体上可分为三个阶段去实现。第一阶段是入门，掌握
一文详解：使用HTTPS有哪些优势？ JoySSL303 https 网络协议 http ssl 网络
互联网发展到今天，HTTP协议的明文传输会让用户存在非常大的安全隐患。试想一下，假如你在一个HTTP协议的网站上面购物，你需要在页面上输入你的银行卡号和密码，然后你把数据提交到服务器实现购买。假如这个环节稍有不慎，你的传输数据被第三者给截获了，由于HTTP明文数据传输的原因，你的银行卡号和密码，将会被这个截获人所得到。现在你还敢在一个HTTP的网站上面购物吗？你还会在一个HTTP的网站上面留下你的
语言模型 RLHF 实践指南（一）：策略网络、价值网络与 PPO 损失函数
在使用ProximalPolicyOptimization（PPO）对语言模型进行强化学习微调（如RLHF）时，大家经常会问：策略网络的动作概率是怎么来的？价值网络的得分是如何计算的？奖励从哪里来？损失函数怎么构建？微调后的旧轨迹还能用吗？这篇文章将以语言模型强化学习微调为例，结合实际实现和数学公式，深入解析PPO的关键计算流程。1️⃣策略网络：如何计算动作概率？策略网络πθ(a∣s)\pi_\t
AI+区块链：代购系统如何破解碳足迹追踪“数据黑箱”？
绿色电商趋势：代购系统如何实现碳足迹追踪与可持续物流？在全球气候危机与可持续发展目标的双重驱动下，绿色电商正从概念走向实践。作为跨境电商的核心环节，代购系统如何通过技术创新实现碳足迹追踪与可持续物流，成为行业突破增长瓶颈、构建差异化竞争力的关键。本文结合技术架构、行业实践与未来趋势，解析代购系统在绿色转型中的路径选择。一、碳足迹追踪：从数据孤岛到全链路透明1.技术架构：区块链+IoT构建可信数据链
python 包管理工具uv
uv--versionuvpythonfinduvpythonlistexportUV_DEFAULT_INDEX="https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple"#换成私有的repoexportUV_HTTP_TIMEOUT=120uvpythoninstall3.12uvvenvmyenv--python3.12--seeduvhtt
[晕事]今天做了件晕事83: pen test mzhan017 英语学习笔记晕事英语学习
这个缩写，就不能顾名思义了，而且pen是一个独立的单词，从读音上来说还容易和pain混淆，所以导致初接触者有些困扰。所以这个pentest的缩写，有些失败。全写是penetrationtest：渗透测试。https://en.wikipedia.org/wiki/Penetration_test修改建议是改成penetest，至少可以和pen在书写上区分，在读音是也可以区分，就读“排你test”。
Python通关秘籍之基础教程(一） Smile丶Life丶 Python 通关指南：从零基础到高手之路 python 开发语言后端
引言在编程的世界里，Python就像一位温和而强大的导师，它以简洁优雅的语法和强大的功能吸引着无数初学者和专业人士。无论你是想开发网站、分析数据、构建人工智能，还是仅仅想学习编程思维，Python都是你的理想选择。Python的魅力在于它的易读性和广泛的应用场景。它的代码就像英语句子一样自然，即使是完全没有编程经验的人也能快速上手。同时，Python拥有庞大的生态系统，从Web开发（Django、
mysql主从数据同步林鹤霄 mysql主从数据同步
配置mysql5.5主从服务器(转) 教程开始：一、安装MySQL 说明：在两台MySQL服务器192.168.21.169和192.168.21.168上分别进行如下操作，安装MySQL 5.5.22 二、配置MySQL主服务器（192.168.21.169）mysql -uroot -p &nb
oracle学习笔记 caoyong oracle
1、ORACLE的安装 a>、ORACLE的版本 8i,9i : i是internet 10g,11g : grid (网格) 12c : cloud (云计算) b>、10g不支持win7 &
数据库，SQL零基础入门天子之骄 sql 数据库入门基本术语
数据库，SQL零基础入门做网站肯定离不开数据库，本人之前没怎么具体接触SQL，这几天起早贪黑得各种入门，恶补脑洞。一些具体的知识点，可以让小白不再迷茫的术语，拿来与大家分享。数据库，永久数据的一个或多个大型结构化集合，通常与更新和查询数据的软件相关
pom.xml 一炮送你回车库 pom.xml
1、一级元素dependencies是可以被子项目继承的 2、一级元素dependencyManagement是定义该项目群里jar包版本号的，通常和一级元素properties一起使用，既然有继承，也肯定有一级元素modules来定义子元素 3、父项目里的一级元素<modules> <module>lcas-admin-war</module> <
sql查地区省市县 3213213333332132 sql mysql
-- db_yhm_city SELECT * FROM db_yhm_city WHERE class_parent_id = 1 -- 海南 class_id = 9 港、奥、台 class_id = 33、34、35 SELECT * FROM db_yhm_city WHERE class_parent_id =169 SELECT d1.cla
关于监听器那些让人头疼的事宝剑锋梅花香画图板监听器鼠标监听器
本人初学JAVA，对于界面开发我只能说有点蛋疼，用JAVA来做界面的话确实需要一定的耐心（不使用插件，就算使用插件的话也没好多少）既然Java提供了界面开发，老师又要求做，只能硬着头皮上啦。但是监听器还真是个难懂的地方，我是上了几次课才略微搞懂了些。
JAVA的遍历MAP darkranger map
Java Map遍历方式的选择 1. 阐述　　对于Java中Map的遍历方式，很多文章都推荐使用entrySet，认为其比keySet的效率高很多。理由是：entrySet方法一次拿到所有key和value的集合；而keySet拿到的只是key的集合，针对每个key，都要去Map中额外查找一次value，从而降低了总体效率。那么实际情况如何呢？　　为了解遍历性能的真实差距，包括在遍历ke
POJ 2312 Battle City 优先多列+bfs aijuans 搜索
来源：http://poj.org/problem?id=2312 题意：题目背景就是小时候玩的坦克大战，求从起点到终点最少需要多少步。已知S和R是不能走得，E是空的，可以走，B是砖，只有打掉后才可以通过。思路：很容易看出来这是一道广搜的题目，但是因为走E和走B所需要的时间不一样，因此不能用普通的队列存点。因为对于走B来说，要先打掉砖才能通过，所以我们可以理解为走B需要两步，而走E是指需要1
Hibernate与Jpa的关系，终于弄懂 avords java Hibernate 数据库 jpa
我知道Jpa是一种规范，而Hibernate是它的一种实现。除了Hibernate，还有EclipseLink(曾经的toplink)，OpenJPA等可供选择，所以使用Jpa的一个好处是，可以更换实现而不必改动太多代码。在play中定义Model时，使用的是jpa的annotations，比如javax.persistence.Entity, Table, Column, OneToMany
酸爽的console.log bee1314 console
在前端的开发中，console.log那是开发必备啊，简直直观。通过写小函数，组合大功能。更容易测试。但是在打版本时，就要删除console.log，打完版本进入开发状态又要添加，真不够爽。重复劳动太多。所以可以做些简单地封装，方便开发和上线。 /** * log.js hufeng * The safe wrapper for `console.xxx` functions *
哈佛教授：穷人和过于忙碌的人有一个共同思维特质 bijian1013 时间管理励志人生穷人过于忙碌
一个跨学科团队今年完成了一项对资源稀缺状况下人的思维方式的研究，结论是：穷人和过于忙碌的人有一个共同思维特质，即注意力被稀缺资源过分占据，引起认知和判断力的全面下降。这项研究是心理学、行为经济学和政策研究学者协作的典范。　　这个研究源于穆来纳森对自己拖延症的憎恨。他7岁从印度移民美国，很快就如鱼得水，哈佛毕业
other operate 征客丶 OS osx
一、Mac Finder 设置排序方式，预览栏在显示－》查看显示选项中二、有时预览显示时，卡死在那，有可能是一些临时文件夹被删除了，如：/private/tmp[有待验证] -------------------------------------------------------------------- 若有其他凝问或文中有错误，请及时向我指出，我好及时改正，同时也让我们一
【Scala五】分析Spark源代码总结的Scala语法三 bit1129 scala
1. If语句作为表达式 val properties = if (jobIdToActiveJob.contains(jobId)) { jobIdToActiveJob(stage.jobId).properties } else { // this stage will be assigned to "default" po
ZooKeeper 入门 BlueSkator 中间件 zk
ZooKeeper是一个高可用的分布式数据管理与系统协调框架。基于对Paxos算法的实现，使该框架保证了分布式环境中数据的强一致性，也正是基于这样的特性，使得ZooKeeper解决很多分布式问题。网上对ZK的应用场景也有不少介绍，本文将结合作者身边的项目例子，系统地对ZK的应用场景进行一个分门归类的介绍。值得注意的是，ZK并非天生就是为这些应用场景设计的，都是后来众多开发者根据其框架的特性，利
MySQL取得当前时间的函数是什么格式化日期的函数是什么 BreakingBad mysql Date
取得当前时间用 now() 就行。在数据库中格式化时间用DATE_FORMA T(date, format) . 根据格式串format 格式化日期或日期和时间值date，返回结果串。可用DATE_FORMAT( ) 来格式化DATE 或DATETIME 值，以便得到所希望的格式。根据format字符串格式化date值: %S, %s 两位数字形式的秒（ 00,01,
读《研磨设计模式》-代码笔记-组合模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; abstract class Component { public abstract void printStruct(Str
4_JAVA+Oracle面试题(有答案) chenke oracle
基础测试题卷面上不能出现任何的涂写文字，所有的答案要求写在答题纸上，考卷不得带走。选择题 1、 What will happen when you attempt to compile and run the following code? （3） public class Static { static { int x = 5; // 在static内有效 } st
新一代工作流系统设计目标 comsci 工作算法脚本
用户只需要给工作流系统制定若干个需求，流程系统根据需求，并结合事先输入的组织机构和权限结构，调用若干算法，在流程展示版面上面显示出系统自动生成的流程图，然后由用户根据实际情况对该流程图进行微调，直到满意为止，流程在运行过程中，系统和用户可以根据情况对流程进行实时的调整，包括拓扑结构的调整，权限的调整，内置脚本的调整。。。。。在这个设计中，最难的地方是系统根据什么来生成流
oracle 行链接与行迁移 daizj oracle 行迁移
表里的一行对于一个数据块太大的情况有二种(一行在一个数据块里放不下) 第一种情况: INSERT的时候，INSERT时候行的大小就超一个块的大小。Oracle把这行的数据存储在一连串的数据块里(Oracle Stores the data for the row in a chain of data blocks)，这种情况称为行链接(Row Chain)，一般不可避免(除非使用更大的数据
[JShop]开源电子商务系统jshop的系统缓存实现 dinguangx jshop 电子商务
前言 jeeshop中通过SystemManager管理了大量的缓存数据，来提升系统的性能，但这些缓存数据全部都是存放于内存中的，无法满足特定场景的数据更新（如集群环境）。JShop对jeeshop的缓存机制进行了扩展，提供CacheProvider来辅助SystemManager管理这些缓存数据，通过CacheProvider,可以把缓存存放在内存,ehcache,redis，memcache
初三全学年难记忆单词 dcj3sjt126com english word
several 儿子；若干 shelf 架子 knowledge 知识；学问 librarian 图书管理员 abroad 到国外，在国外 surf 冲浪 wave 浪；波浪 twice 两次；两倍 describe 描写；叙述 especially 特别；尤其 attract 吸引 prize 奖品；奖赏 competition 比赛；竞争 event 大事；事件 O
sphinx实践 dcj3sjt126com sphinx
安装参考地址:http://briansnelson.com/How_to_install_Sphinx_on_Centos_Server yum install sphinx 如果失败的话使用下面的方式安装 wget http://sphinxsearch.com/files/sphinx-2.2.9-1.rhel6.x86_64.rpm yum loca
JPA之JPQL（三） frank1234 orm jpa JPQL
1 什么是JPQL JPQL是Java Persistence Query Language的简称，可以看成是JPA中的HQL， JPQL支持各种复杂查询。 2 检索单个对象 @Test public void querySingleObject1() { Query query = em.createQuery("sele
Remove Duplicates from Sorted Array II hcx2013 remove
Follow up for "Remove Duplicates":What if duplicates are allowed at most twice? For example,Given sorted array nums = [1,1,1,2,2,3], Your function should return length
Spring4新特性——Groovy Bean定义DSL jinnianshilongnian spring 4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装Mysql5.5 liuxingguome centos
CentOS下以RPM方式安装MySQL5.5 首先卸载系统自带Mysql： yum remove mysql mysql-server mysql-libs compat-mysql51 rm -rf /var/lib/mysql rm /etc/my.cnf 查看是否还有mysql软件： rpm -qa|grep mysql 去http://dev.mysql.c
第14章工具函数（下） onestopweb 函数
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
POJ 1050 SaraWon 二维数组子矩阵最大和
POJ ACM第1050题的详细描述，请参照 http://acm.pku.edu.cn/JudgeOnline/problem?id=1050 题目意思：给定包含有正负整型的二维数组，找出所有子矩阵的和的最大值。如二维数组 0 -2 -7 0 9 2 -6 2 -4 1 -4 1 -1 8 0 -2 中和最大的子矩阵是 9 2 -4 1 -1 8 且最大和是15
Java8全新打造，英语学习supertool yangshangchuan java superword 闭包 java8 函数式编程
superword是一个Java实现的英文单词分析软件，主要研究英语单词音近形似转化规律、前缀后缀规律、词之间的相似性规律等等。Clean code、Fluent style、Java8 feature: Lambdas, Streams and Functional-style Programming。升学考试、工作求职、充电提高，都少不了英语的身影，英语对我们来说实在太重要