帅帅de三叔

支持向量机算法模型

前言

从这一期开始，我们准备介绍一系列经典机器学习算法模型，主要包括逻辑回归，支持向量机，决策树，因子分析，主成分分析，K-Means聚类，多元线性回归，时间序列，关联规则，朴素贝叶斯，隐式马尔可夫，协同过滤，随机森林，XGBoost，LightGBM等，一般会涵盖算法模型的引入背景，算法模型依赖的数学原理，算法模型的应用范围，算法模型的优缺点及改进建议，工程实践案例等。既适合刚入门机器学习的新手，也适合有一定基础想要进一步掌握算法模型核心要义的读者，其中不免会涵盖许多数学符号，公式以及推导过程，如果你觉得晦涩难懂，可以来"三行科创"微信交流群和大家一起讨论交流。

从数据的线性可分到间隔最大化

支持向量机(support vector machine)是一种经典的二分类算法模型，因其严谨的数学理论和稳健的性能表现，在工程实践中一直备受青睐。这一期我们就来讨论一下支持向量机的算法模型。先从数据的线性可分开始，假设一个既包含正性样本又包含负性样本的数据集

$\{(X_1, y_1),(X_2, y_2),\cdots,(X_m, y_m)\}$

其中, $X_i$ 表示第i个样本的特征向量， $y_i$ 表示第i个样本的类别标签， $y_i=+1$ 时表示 $X_i, y_i)$ 为正性样本， $y_i=-1$ 表示 $X_i, y_i)$ 为负性样本，如果能够找到一个超平面

$w\cdot X+b = 0$

使得这个数据集的正性样本和负性样本完全分离开来，其中， $w$ 为超平面的法向量，b为超平面的截距，即对所有的 $y_i=+1$ 的样本有 $w\cdot X_i+b > 0$ , 对所有的 $y_i=-1$ 的样本有 $w\cdot X_i+b < 0$ , 那么就称这个数据集是线性可分的，反之，则称为线性不可分，如不特别申明，本文讨论的数据集均指线性可分的。

图1 线性可分

从线性可分的定义可以看到，线性可分数据肯定能够找到一个分离超平面将其一分为二，而且这样的分离超平面不止一个，有无穷多个，支持向量机算法模型的任务就是去找一个最适合的分离超平面，使其满足

能够将正性样本和负性样本分离开来；
正性样本与负性样本的间隔最大；

满足这样条件的超平面也称为最大间隔分离超平面，其中，第一点比较好理解，就是这个超平面能够把正性样本和负性样本完全分离开来，使得正性样本落在超平面的一边，负性样本落在超平面的另一边，以保证分离的正确性；第二点，这个间隔可以这么去想，因为分离超平面有无穷多个，那么给定一个方向(法向量)就会形成一个分离超平面簇，有些簇厚，而有些簇薄，可以把间隔大小等同于簇的厚薄，簇越厚间隔越大，簇越薄间隔越小，以下图为例进行举例说明

图2 间隔厚薄

超平面A所在的分离超平面簇很厚（A所在的阴影部分），其间隔就大，超平面B所在的分离超平面簇很薄（B所在的阴影部分），其间隔就小，用一个最厚的超平面簇来分离正性样本和负性样本，那么分错的可能性就小，具有很好的可信度。同时，可以看到分离超平面簇只与某些靠的近的样本点有关，而与其他样本点无关，这些与分离超平面簇靠得最近的样本点称为支持向量，好比用这些点来支撑起分离超平面簇，这也是为什么支持向量机要叫支持向量机，取最厚分离超平面簇中的正中间位置的一个超平面作为代表分离超平面，可以证明这个代表超平面具有间隔最大性，可以使得正性样本与负性样本的间隔达到最大。

这是在分离超平面簇确定的前提下来进行的，实现中，我们只有样本点，需要从样本点出发来找到这个间隔最大的分离超平面，为此，我们需要找一些度量，先从二维平面的距离开始。高中数学告诉我们点 $x_0,y_0)$ 到直线 $a x + b y + c = 0$ 的距离公式

$\frac{|ax_0+by_0+c |}{\sqrt {a^2+b^2}}$
一般的，在n维欧式空间里，点 $X_0$ 到超平面 $w\cdot X+b = 0$ 的距离公式

$\frac{|w\cdot X_0+b |}{\|w\|}$

其中， $|w\cdot X_0+b |$ 是取绝对值， $\|w\|$ 为 $w$ 的 $L_2$ 范数，有了距离公式后，我们就可以计算出所有样本点到分离超平面的距离，具体的，样本点 $X_i, y_i)$ 到分离超平面 $w\cdot X+b = 0$ 的距离

$d_i = \frac{|w\cdot X_i+b |}{\|w\|}$

为了去掉绝对值运算，我们可以分情况讨论，当样本点在超平面法向量正方向时候
$d_i = \frac{(w\cdot X_i+b )}{\|w\|}$

当样本点在超平面法向量反方向时候

$d_i = \frac{-(w\cdot X_i+b )}{\|w\|}$

为此，引入 $y_i$ 当作符号标识，上面两种情况可以统一起来

$d_i = \frac{y_i(w\cdot X_i+b )}{\|w\|}$

现对所有样本点 $2,\cdots, m$ , 取最小值

$\mathop {min} \limits_{i = 1, 2,\cdots, m} d_i = \mathop {min} \limits_{i = 1, 2,\cdots, m} \frac{y_i(w\cdot X_i+b )}{\|w\|}$

上式称为数据集关于超平面的几何间隔，从下图可以很直观的看到几何间隔就是支持向量到分离超平面的距离。

图3 引垂线段

现在让 $w$ 和 $b$ 同时扩大 $\lambda$ 倍数，计算此时的几何间隔

$\mathop {min} \limits_{i = 1, 2,\cdots, m} d_i = \mathop {min} \limits_{i = 1, 2,\cdots, m} \frac{y_i(\lambda w\cdot X_i+\lambda b )}{\|\lambda w\|} = \mathop {min} \limits_{i = 1, 2,\cdots, m} \frac{y_i(w\cdot X_i+b )}{\|w\|}$
这说明了几何间隔对超平面的参数扩倍不影响，于是，我们可以去调整超平面得法向量和截距来最大化这个几何间隔

$\mathop {max}\limits_{w, b} d = \mathop {max}\limits_{w, b} \mathop {min} \limits_{i = 1, 2,\cdots, m} d_i$

把问题改写成如下带约束的最优化形式

$\begin{aligned} & \mathop{max}\limits_{w, b} \quad d &\\ \\ & {s.t.} \quad \frac{y_i(w\cdot X_i+b )}{\|w\|}>= d, \qquad i = 1, 2,\cdots, m \end{aligned}$

其中，约束条件表示每一个样本点到超平面的距离都不小于这个几何间隔，将上面约束条件稍微改写一下
$\begin{aligned} &\mathop{max}\limits_{w, b} \quad d &\\ \\ & {s.t.} \quad y_i(w\cdot X_i+b )>= d\|w\|, \qquad i = 1, 2,\cdots, m \end{aligned}$

由前面的计算知道，超平面参数扩倍并不会影响几何间隔，可以保持样本点的不变性，不妨令 $d\|w\| = 1$ , 则 $\frac{1}{\|w\|}$ ，上面最优化问题可以改写成
$\begin{aligned} & \max\limits_{w, b} \quad \frac{1}{\|w\|} &\\ \\ & {s.t.} \quad y_i(w\cdot X_i+b )>= 1, \qquad i = 1, 2,\cdots, m \end{aligned} \tag{0}$

其中，约束条件称为样本点 $X_i，y_i)$ 的函数距离大于等于 1，上式可以等价改写成如下条件极值，这是一种凸二次规划问题
$\begin{aligned} & \min \limits_{w, b} \quad \frac{1}{2}\|w\|^2 &\\ \\ & {s.t.} \quad y_i(w\cdot X_i+b ) - 1>= 0, \qquad i = 1, 2,\cdots, m \end{aligned} \tag{1}$

这就有了支持向量机的最大间隔的表现形式，也称为硬间隔最大化。

对偶算法

高等数学告诉我们解决诸如这种多元函数极值问题直接求解在代换的时候会变得异常复杂，有时候甚至没法直接求解，这时候可以采用拉格朗日乘数法，转向求解与之对应的对偶问题，通过解对偶问题而得到原始问题（1）的解，为此引入拉格朗日乘子 $\lambda_1, \lambda_2, \cdots , \lambda_m$ ， $(\lambda_i \ge 0)$ ，定义拉格朗日函数

$\mathcal L(w, b, \lambda) = \frac{1}{2}\|w\|^2 -\sum\limits_{i=1}^m \lambda_i [y_i(w\cdot X_i+b )-1]$

令

$\theta_{\lambda}(w,b) = \mathop{max}\limits_{\lambda} \mathcal L(w,b,\lambda)$
等式右边是求 $\mathcal L(w, b, \lambda)$ 关于 $\lambda$ 的极大，得到一个关于 $w, b$ 的函数，记作 $\theta_{\lambda}(w,b)$ 。现在来考虑一下 $\theta_{\lambda}(w,b)$ 取值的可能性，如果原条件不成立，即存在某个 $i$ 使得 $y_i(w\cdot X_i+b ) - 1< 0$ ，此时，取 $\lambda_i$ 为 $+\infty$ , 其余 $\lambda_i=0$ ，那么就有

$\theta_{\lambda}(w,b) = \mathop{max}\limits_{\lambda} \{\frac{1}{2}\|w\| -\sum\limits_{i=1}^m \lambda_i [y_i(w\cdot X_i+b )-1]\} = +\infty$

如果原条件成立，即对所有的 $i$ 都有 $y_i(w\cdot X_i+b ) - 1>= 0$ ，那么就有

$\theta_{\lambda}(w,b) = \mathop{max}\limits_{\lambda} \{\frac{1}{2}\|w\| -\sum\limits_{i=1}^m \lambda_i [y_i(w\cdot X_i+b )-1]\} = \frac{1}{2}\|w\|$

因此

$\theta_{\lambda}(w,b) = \begin{cases} \frac{1}{2}\|w\|, \qquad 原始问题条件满足\\ \\ +\infty，\qquad 原始问题的条件不满足 \end{cases}$

原始问题（1）的目标函数可以改成

$\mathop{min} \limits_{w, b} \frac{1}{2}\|w\|^2 = \mathop{min} \limits_{w, b} \theta_{\lambda}(w,b) = \mathop{min} \limits_{w, b} \mathop{max}\limits_{\lambda} \mathcal{L}(w,b,\lambda) \tag{2}$

现在我们写出其对偶形式
$\mathop{max} \limits_{\lambda} \mathop{min}\limits_{w, b} \mathcal{L}(w,b,\lambda) \tag{3}$
在满足KKT的条件下，下面等式成立

$d^* = \mathop{max} \limits_{\lambda} \mathop{min}\limits_{w, b} \mathcal{L}(w,b,\lambda) = \mathop{min} \limits_{w, b} \mathop{max}\limits_{\lambda} \mathcal{L}(w,b,\lambda) = p^*$

其中， $d^*$ 是对偶问题的解， $p^*$ 是原始问题的解，现在我们来看对偶问题

$\mathop{max} \limits_{\lambda} \mathop{min}\limits_{w, b} \mathcal{L}(w,b,\lambda)$

这是一个极小极大问题，可以看成先求拉格朗日函数 $\mathcal{L}(w,b,\lambda)$ 关于 $w, b$ 的极小，再求结果 $\mathop{min}\limits_{w, b} \mathcal{L}(w,b,\lambda)$ 关于 $\lambda$ 的极大，具体的

首先，求 $\mathop{min}\limits_{w, b} \mathcal{L}(w,b,\lambda)$

分别求其关于 $w, b$ 的偏导数，并令偏导数等于0，

$\begin{cases} \frac{\partial \mathcal{L}(w, b, \lambda) }{\partial w} &= w -\sum\limits_{i=1}^m \lambda_i y_i X_i = 0 \\ \frac{\partial \mathcal{L}(w, b, \lambda) }{\partial b} &= - \sum\limits_{i=1}^m \lambda_iy_i = 0 \end{cases}$
由上式首先解得 $\sum\limits_{i=1}^m \lambda_i y_iX_i$ ，将其代入原拉格朗日函数，此时关于 $\lambda$ 的函数

$\begin{aligned} \mathcal L(w, b, \lambda) &= \frac{1}{2}\|w\| -\sum\limits_{i=1}^m \lambda_i [y_i(w\cdot X_i+b )-1]\\ & = \frac{1}{2}(\sum\limits_{i=1}^m \lambda_i y_iX_i)(\sum\limits_{j=1}^m \lambda_j y_jX_j) +\sum\limits_{i=1}^m \lambda_i \\ &= \frac{1}{2}\sum\limits_{i=1}^m \sum\limits_{j=1}^m\lambda_i \lambda_jy_iy_jX_iX_j +\sum\limits_{i=1}^m \lambda_i \end{aligned}$

即 $\mathop{min}\limits_{w, b} \mathcal{L}(w,b,\lambda) = \frac{1}{2}\sum\limits_{i=1}^m \sum\limits_{j=1}^m\lambda_i \lambda_jy_iy_jX_iX_j +\sum\limits_{i=1}^m \lambda_i$ ，

其次，求 $\mathop{min}\limits_{w, b} \mathcal{L}(w,b,\lambda)$ 关于 $\lambda$ 的极大值，即得对偶问题

$\begin{aligned} & \mathop{max }\limits_{\lambda} \quad \frac{1}{2}\sum\limits_{i=1}^m \sum\limits_{j=1}^m\lambda_i \lambda_jy_iy_jX_iX_j +\sum\limits_{i=1}^m \lambda_i&\\ \\ & {s.t.} \quad \sum\limits_{i=1}^m \lambda_iy_i = 0 \\ \\ & \qquad \lambda_i \geq 0 , \qquad i = 1, 2, \cdots, m \end{aligned} \tag{4}$

将上式求极大转换成求极小，得到与之等价的对偶问题

$\begin{aligned} & \mathop{min }\limits_{\lambda} \quad -\frac{1}{2}\sum\limits_{i=1}^m \sum\limits_{j=1}^m\lambda_i \lambda_jy_iy_jX_iX_j -\sum\limits_{i=1}^m \lambda_i&\\ \\ & {s.t.} \quad \sum\limits_{i=1}^m \lambda_iy_i = 0 \\ \\ & \qquad \lambda_i \geq 0 , \qquad i = 1, 2, \cdots, m \end{aligned} \tag{5}$

假设 $\lambda^*=(\lambda_1^*, \lambda_2^*, \cdots , \lambda_m^*)$ 是对偶问题（5）的解，现在利用KKT条件列出下面方程组

$\begin{cases} \frac{\partial \mathcal{L}(w, b, \lambda) }{\partial w} = w -\sum\limits_{i=1}^m \lambda_i^* y_i X_i = 0 \\ \frac{\partial \mathcal{L}(w, b, \lambda) }{\partial b} = -\sum\limits_{i=1}^m \lambda_i^*y_i = 0\\ \lambda_i^*(y_i(wX_i+b ) - 1) = 0，\\ y_i(wX_i+b ) - 1\ge 0，\\ \lambda_i^* \ge 0， \end{cases}$
解得
$w^* = \sum\limits_{i=1}^m \lambda_i^* y_i X_i \tag{6}$

再取某个 $\lambda_j^*>0$ 和 $w^*$ 代入第四个等式中

$\begin{aligned} &y_j(w^*X_j+b ) - 1) \\ &=y_j( \sum\limits_{i=1}^m \lambda_i^* y_i X_iX_j+b)-1\\ &= \sum\limits_{i=1}^m\lambda_i^*y_iy_jX_iX_j +y_jb - 1\\ &=0 \end{aligned}$

解得
$\begin{aligned} b^* = 1/y_j - \sum\limits_{i=1}^m\lambda_i^*y_iX_iX_j = y_j - \sum\limits_{i=1}^m\lambda_i^*y_iX_iX_j \end{aligned} \tag{7}$

此时，分离超平面就可以由下面式子给出

$w^*X + b^* = 0$

从(6)和（7）可以看到分离超平面的参数 $w^*, b^*$ 只与拉格朗日乘子，样本特征和标签有关，而与其他变量无关，同样，决策函数可由下式给出

$f(X) = sign(w^*X + b^*)$

这是一个符号函数，当 $w^*X + b^* < 0$ 时， $f (X) = - 1$ ，当 $w^*X + b^* > 0$ 时， $f (X) = 1$ 。

这样，线性可分数据的支持向量机算法模型就出来了，称为线性可分支持向量机，而现实中很少有数据集是线性可分的，大多是线性不可分的或者近似线性可分的，下面来分别介绍线性支持向量机算法模型和非线性支持向量机算法模型。

线性支持向量机与非线性支持向量机

假设数据集不是线性可分的，而是近似线性可分的，有一些特异点，将这些特异点去除之后，剩下的样本点就是线性可分的。

如上图所示，将4个红色样本点去掉后就变成线性可分，而红色样本点不能满足约束条件
$y_i(wX_i+b) \ge 1$

为此，给每一个样本点引入一个松弛变量 $\xi_i\ge 0$ ，使得样本点 $x_i, y_i)$ 的函数距离加上不同的松弛变量之后大于等于 1

$y_i(wX_i+b) +\xi_i \ge 1$
其中，已经满足约束条件的松弛变量 $\xi_i= 0$ ，而特异点的松弛变量 $\xi_i\ge 0$ ，从而使得所有的样本点满足约束条件，但是引入松弛变量需要使得构造结构变得复杂一些，于是，目标函数追加结构成本，这样，目标函数就变成了

$\frac{1}{2}\|w\|^2+C\sum\limits_{i= 1}^m \xi_i$

其中， $C\sum\limits_{i= 1}^m \xi_i$ 称为结构成本函数， $C > 0$ 称为惩罚系数，表示对误分类的惩罚， $C$ 越大对误分类惩罚越严重， $C$ 越小对误分类惩罚越轻，于是，线性支持向量机问题就可以写成如下形式

$\begin{aligned} & \mathop{min }\limits_{w, b,\xi} \quad \frac{1}{2}\|w\|^2+C\sum\limits_{i= 1}^m \xi_i&\\ \\ & {s.t.} \quad y_i(w\cdot X_i+b ) >= 1- \xi_i, \qquad i = 1, 2,\cdots, m\\ \\ &\qquad \xi_i \ge 0, \qquad i = 1, 2,\cdots, m \end{aligned} \tag{1}$

线性支持向量机也有其对偶学习算法，这里不表。有时候分类问题不是简单线性的，这时候就需要用到非线性支持向量机

其核心要义是先用非线性变换将非线性问题变换成高维空间的线性问题，再在高维空间中解线性支持向量机问题，其中，核技巧为常用的方法，也有其对偶算法，这里不做深入研究。

实践案例

本文以吴恩达机器学习系列课程中的一个作业作为案例，实践操作一下支持向量机。首先，看一下数据长什么样子

原数据是一份只有51个样本点的数据集，每个样本点有2个特征和一个标签，前两列表示特征，第三列是类别标签，其中，类别标签1表示该样本点正性的，类别标签 0 表示该样本点是负性样本，将原数据可视化效果如下

从原数据分布图可以看到正性样本主要居于左下角，负性样本主要居于右上角，左上角有一个比较离群的负性样本点，除此之外，正性样本和负性样本分离的比较明显，中间有一条不宽不窄的空隙，具备线性可分性，接下来利用支持向量机算法模型将其分类

代码如下

# -*- encoding: utf-8 -*-
'''
@Project :   svm
@Desc    :   支持向量机
@Time    :   2022/06/18 17:01:34
@Author  :   帅帅de三叔,[email protected]
'''
import numpy as np  #导入数值分析模块
import scipy.io as scio #用来读取matlat数据文件
import matplotlib.pyplot as plt #导入绘图模块
import scipy.optimize #最优化
from sklearn import svm #导入支持向量机

data = scio.loadmat("D:\项目\机器学习\吴恩达机器学习课件\CourseraML\ex6\data\ex6data1.mat") #读取数据
X, y = data["X"], data["y"]
pos =  np.array([X[i] for i in range(len(X)) if y[i]==0]) #正性样本
neg = np.array([X[i] for i in range(len(X)) if y[i]==1]) #负性样本

plt.figure(figsize=(6,4)) #新建画布
plt.scatter(pos[:,0], pos[:,1], color ='green', marker='+', label = 'positive') #正性样本
plt.scatter(neg[:,0], neg[:,1], color = 'brown', marker='*', label ='negative') #负性样本
plt.legend(loc ='lower left') #图例

model = svm.SVC(C=1, kernel='linear') #支持向量机分类模型初始化
model.fit(X, y.ravel()) #模型训练

xvals = np.linspace(np.min(X[:,0])-0.1, np.max(X[:,0]+0.1), 100) #
yvals = np.linspace(np.min(X[:,1])-0.1, np.max(X[:,1]+0.1), 100) #
u, v  = np.meshgrid(xvals , yvals) #网格矩阵
X_dummy = np.c_[u.ravel(), v.ravel()] #u，v拉直并按列拼接
zvals = model.predict(X_dummy).reshape(u.shape) #生成z变量100*100
plt.contour(u, v, zvals)#等值线可视化决策边界
plt.show()

执行代码便会得到如下分类效果图

由效果图可以看到正性样本和负性样本分离的还是很干净，仅左上角的那个离群样本点被错误划分了，但是从原数据的分布图我们大体可以看到是可以找到一条直线将所有样本点完全正确分离开来，为此，将这个划分错误的点视为特异点，现在我们尝试增大惩罚系数C，让其由最初的1变成100

model = svm.SVC(C=100, kernel='linear') #支持向量机分类模型初始化

增大惩罚系数后的效果图如下

对比之前的分类效果图，验证之前的猜测，的确可以找到一条直线将正性样本与负性样本完全分离开来，可以明显的看到左上角那个离群样本点也被正确划分了，这说明增大惩罚系数，加大了对数据集分对的可能性，这时训练集的分类准确率很高，但是泛化能力很弱，反之，惩罚系数小，对错误分类的惩罚就小，允许存在错误分类，将他们当成噪声点，泛化能力就强。同时，我们还可以调整kernel核函数，之前的是 “linear”，现在换成"rbf"

model = svm.SVC(C=1, kernel='rbf') #支持向量机分类模型初始化

改变核函数后的预览效果图

同时还可以提升惩罚系数，分类效果看起来会更加匀称

model = svm.SVC(C=100, kernel='rbf') #支持向量机分类模型初始化

这个实例由最初的简单的线性划分，再到增大惩罚系数完全划分，再到改变核函数这种层层递进的方式试验完毕，支持向量机我们也告一段落，下一次，我们讨论一下决策树。

上一期：逻辑回归

参考文献
1，https://zhuanlan.zhihu.com/p/77750026
2，拉格朗日乘数
3，https://blog.csdn.net/the_lastest/article/details/78461566
4，https://zhuanlan.zhihu.com/p/33229011
5，非线性支持向量机
6，https://zhuanlan.zhihu.com/p/370857645
7，支持向量机参数

PyQt和PySide的区别和比较 PgosOcaml pyqt mfc c++
PyQt和PySide的区别和比较PyQt和PySide是两个用于创建图形用户界面(GUI)的Python库。它们都是基于Qt框架，Qt是一个跨平台的应用程序和UI开发框架。本文将介绍PyQt和PySide之间的区别和比较，并提供相应的源代码示例。开发者许可证：PyQt的开发者许可证是商业许可证，因此如果您想在商业项目中业项目中使用PyQt，您需要购买相应的许可证。而Py业项目中使用PyQt，您需
Python 错误处理赔罪 Python 系统学习 python 开发语言
目录try调用栈记录错误抛出错误练习小结在程序运行的过程中，如果发生了错误，可以事先约定返回一个错误代码，这样，就可以知道是否有错，以及出错的原因。在操作系统提供的调用中，返回错误码非常常见。比如打开文件的函数open()，成功时返回文件描述符（就是一个整数），出错时返回-1。用错误码来表示是否出错十分不便，因为函数本身应该返回的正常结果和错误码混在一起，造成调用者必须用大量的代码来判断是否出错：
【Python Qt 基本概念】深入探讨 PySide6 与 PyQt6：选择、共存与最佳实践泡沫o0 Qt应用开发 -探索Qt的魅力与实践 Python 基础教程 mfc c++qt 开发语言 python 嵌入式 linux
目录标题第一章:Python绑定的Qt库——PySide6与PyQt6的比较1.1PySide6与PyQt6的基本介绍1.1.1PySide6：Qt官方推荐的Python绑定1.1.2PyQt6：成熟的第三方Python绑定1.1.3主要差异：许可证1.2两者的相似性与差异性1.2.1功能和性能差异1.2.2API差异与兼容性1.3总结：选择的自由与责任第二章:在VSCode中使用PySide6与
《AI大模型趣味实战》第8集：多端适配个人新闻头条基于大模型和RSS聚合打造个人新闻电台(Flask WEB版) 2 带娃的IT创业者 AI大模型趣味实战人工智能 flask 前端
《AI大模型趣味实战》第8集：多端适配个人新闻头条基于大模型和RSS聚合打造个人新闻电台(FlaskWEB版)2摘要本文末尾介绍了如何实现新闻智能体的方法。在信息爆炸的时代，如何高效获取和筛选感兴趣的新闻内容成为一个现实问题。本文将带领读者通过Python和Flask框架，结合大模型的强大能力，构建一个个性化的新闻聚合平台，不仅能够自动收集整理各类RSS源的新闻，还能以语音播报的形式提供"新闻电台
机器学习knnlearn1 XW-ABAP 机器学习机器学习人工智能
importmatplotlib.pyplotaspltimportnumpyasnpimportoperator#定义一个函数用于创建数据集defcreateDataSet():#定义特征矩阵，每个元素是一个二维坐标点，代表不同策略数据点的坐标group=np.array([[20,3],[15,5],[18,1],[5,17],[2,15],[3,20]])#定义每个数据点对应的标签，用于区分
基于 MySQL 和 Spring Boot 的在线论坛管理系统设计与实现城南|阿洋-计算机从小白到大神 mysql spring boot 数据库
markdownCopy✌全网粉丝20W+,csdn特邀作者、博客专家、CSDN[新星计划]导师、java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、pyhton、机器学习技术领域和毕业项目实战✌哈喽兄弟们，好久不见哦～最近整理了一下之前写过的一些小项目/毕业设计。发现还是有很多存货的，想一想既然放在电脑里面也吃灰，那么还不如分享出去，没准还可以帮助到
LeetCode剑指offer题目记录3 t.y.Tang LeetCode记录学语言 c++leetcode 哈希算法
leetcode刷题开始啦,每天记录几道题.目录剑指offer05.替换空格题目描述思路pythonC++剑指offer06.从尾到头打印链表题目描述思路1python思路2pythonC++剑指offer05.替换空格题目描述让我们实现一个函数,把字符串s中的每个空格替换为%20.思路这个题目我只能想到遍历,在空间控制上应该有原地修改的办法会省一些.python如果用python,那直接用spl
Python 中的 Iterable、Iterator 与生成器 CavenWang python python 开发语言
Python中的Iterable、Iterator与生成器Iterable（可迭代对象）Iterator（迭代器）生成器（Generator）Iterable、Iterator与生成器的关系实际应用生成器的高级用法（send()）总结在Python中，Iterable、Iterator和生成器是三个密切相关的概念，它们都与迭代操作有关，但各自扮演不同的角色。本文将深入探讨它们的定义、区别以及实际应
零基础入门机器学习：用Scikit-learn实现鸢尾花分类藍海琴泉机器学习 scikit-learn 分类
适合人群：机器学习新手|数据分析爱好者|需快速展示案例的学生一、引言：为什么要学这个案例？目的：明确机器学习解决什么问题，建立学习信心。机器学习定义：让计算机从数据中自动学习规律（如分类鸢尾花品种）。为什么选鸢尾花数据集：数据量小、特征明确，适合教学演示。Scikit-learn优势：提供现成算法和工具，无需从头写数学公式。二、环境准备：5分钟快速上手目的：搭建可运行的代码环境，避免卡在工具安装环
Python Lambda 函数详解 2201_75491841 python 开发语言 lambda函数
一、引言在Python编程中，我们经常会遇到一些简单的函数，这些函数可能只在某个特定的地方使用一次，而且逻辑非常简单。如果为了这些简单的功能定义一个常规的函数，不仅会增加代码的冗余，还会使代码结构变得不够简洁。这时，lambda函数就派上用场了。lambda函数也被称为匿名函数，它为我们提供了一种简洁的方式来定义小型的、一次性使用的函数。在本文中，我们将深入探讨Python中的lambda函数，包
机器学习--DBSCAN聚类算法详解 2201_75491841 机器学习算法聚类人工智能
目录引言1.什么是DBSCAN聚类？2.DBSCAN聚类算法的原理3.DBSCAN算法的核心概念3.1邻域（Neighborhood）3.2核心点（CorePoint）3.3直接密度可达（DirectlyDensity-Reachable）3.4密度可达（Density-Reachable）3.5密度相连（Density-Connected）4.DBSCAN算法的步骤5.DBSCAN算法的优缺点5
小白学AI量化：DeepSeek+Python构建强大的金融数据挖掘与多维分析机器人老余捞鱼 AI顾投高级策略 AI探讨与学习人工智能 python 金融 deepseek
作者：老余捞鱼原创不易，转载请标明出处及原作者。写在前面的话：在机构主导的量化交易时代，普通投资者如何用一杯奶茶的钱（15元/天）打造专业级智能量化产品？本文将为您揭秘一个革命性的解决方案——基于国产大模型DeepSeek和Python构建的智能数据挖掘分析机器人。它不仅适用于通用网页数据抓取，更能深度应用于金融领域，精准捕捉市场信号。本文“干货”很多，请务必耐心读完。一、颠覆认知的性价比革命1.
【机器学习】机器学习工程实战-第3章数据收集和准备腊肉芥末果机器学习工程实战机器学习人工智能
上一章：第2章项目开始前文章目录3.1关于数据的问题3.1.1数据是否可获得3.1.2数据是否相当大3.1.3数据是否可用3.1.4数据是否可理解3.1.5数据是否可靠3.2数据的常见问题3.2.1高成本3.2.2质量差3.2.3噪声（noise）3.2.4偏差（bias）3.2.5预测能力低（lowpredictivepower）3.2.6过时的样本3.2.7离群值3.2.8数据泄露/目标泄漏3
python processpoolexecutor_Python多进程解决方案multiprocessing ProcessPoolExecutor weixin_39599046 python
大多数编程语言都会有多线程和多进程的概念，至于线程和进程的概念，大家可以百度一下。作为一门胶水语言，Python毫不意外，也可以利用多线程和多进程处理并发问题，但是多线程由于GIL的存在，起作用范围大打折扣，仅限于在IO等场景可以发挥点作用。所以，今天要跟大家分享的是Python多进程方案，更好地利用系统多核，从而提升性能。基础方案一：利用Process新建一个子进程，在子进程执行任务。我们写一个
python processpoolexecutor_Python线程和进程池并行编程三千香蕉三千 python
Python3.2版本之后发布了concurrent.futures模块，用以支持和管理并发编程，内容涵盖了进程和线程池(ThreadandProcessPooling)、非确定性执行流(NondeterministicExecutionFlows)以及进程和线程同步。本文通过将带有可选参数的任务提交(Submit)给执行器(Executor)来实例化futures对象。执行器是线程或者进程执行池
python 底层原理processpoolexecutor_Python 并发编程：PoolExecutor 篇风投小虾 python
个人笔记，如有疏漏，还请指正。使用多线程(threading)和多进程(multiprocessing)完成常规的并发需求，在启动的时候start、join等步骤不能省，复杂的需要还要用1-2个队列。随着需求越来越复杂，如果没有良好的设计和抽象这部分的功能层次，代码量越多调试的难度就越大。对于需要并发执行、但是对实时性要求不高的任务，我们可以使用concurrent.futures包中的PoolE
机器学习实战第一章机器学习基础 LuoY、 Machine Learning 机器学习算法人工智能
第一章机器学习1.1何谓机器学习1.2关键术语1.3机器学习的主要任务1.4如何选择合适的算法1.5开发机器学习应用程序的步骤1.6Python语言的优势1.1何谓机器学习 1、简单地说，机器学习就是把无序的数据转换成有用的信息； 2、机器学习能让我们自数据集中受启发，我们会利用计算机来彰显数据背后的真实含义； 3、机器学习横跨计算机科学、工程技术和统计学等多个学科，需要多学科的
数据挖掘实战-基于机器学习的垃圾邮件检测模型艾派森数据挖掘实战合集数据挖掘机器学习人工智能 python
‍♂️个人主页：@艾派森的个人主页✍作者简介：Python学习者希望大家多多支持，我们一起进步！如果文章对你有帮助的话，欢迎评论点赞收藏加关注+目录1.项目背景2.数据集介绍
conda篇----在已有conda环境的基础上升级python包心惠天意 conda python jvm
conda篇----在已有conda环境的基础上升级python包原先的python版本第一步：condaupdate--all(py11)[xxx@aivrs01xxx]$condaupdate--allCollectingpackagemetadata(current_repodata.json):doneSolvingenvironment:done==>WARNING:Anewervers
集成学习（随机森林） herry57 数学建模大数据随机森林集成学习
目录一、集成学习概念二、Bagging集成原理三、随机森林四、例子（商品分类）一、集成学习概念集成学习通过建⽴⼏个模型来解决单⼀预测问题。它的⼯作原理是⽣成多个分类器/模型，各⾃独⽴地学习和作出预测。这些预测最后结合成组合预测，因此优于任何⼀个单分类的做出预测。只要单分类器的表现不太差，集成学习的结果总是要好于单分类器的二、Bagging集成原理分类圆形和长方形三、随机森林在机器学习中，随机森林是
conda：一个当下最流行的Python虚拟环境工具 Wang_AI
点击上方“AI派”，选择“设为星标”最新分享，第一时间送达！作者：LeonWang，现为中科院特别研究助理(博士后)，在AI、数据科学和科学计算等方面相关的工程实践上积累了丰富的经验。编辑：王老湿前面的文章中，为大家介绍过Python下的虚拟环境和包管理。在实际中，更为流行的是用Conda来管理Python环境。今天这篇文章就为大家介绍这方面的相关内容。Conda环境Conda简介Conda是目前
【机器学习】朴素贝叶斯入门：从零到垃圾邮件过滤实战吴师兄大模型 0基础实现机器学习入门到精通机器学习人工智能朴素贝叶斯深度学习 pytorch sklearn 开发语言
Langchain系列文章目录01-玩转LangChain：从模型调用到Prompt模板与输出解析的完整指南02-玩转LangChainMemory模块：四种记忆类型详解及应用场景全覆盖03-全面掌握LangChain：从核心链条构建到动态任务分配的实战指南04-玩转LangChain：从文档加载到高效问答系统构建的全程实战05-玩转LangChain：深度评估问答系统的三种高效方法（示例生成、手
轻松上手：Matplotlib的基本用法全知道大数据方向陪跑私教 python
《轻松上手：Matplotlib的基本用法全知道》嗨，小伙伴们！之前咱们了解了好多厉害的Python包，今天咱们来好好讲讲Matplotlib这个在数据可视化方面超棒的包。**Matplotlib到底该怎么用呢？**这就像是探索一个新的游乐场，每个功能都是一样好玩的项目。一、安装Matplotlib在开始使用Matplotlib之前，得先把它安装好。如果你已经安装了Python的包管理工具pip，
Python 高手编程系列一千七百零八：在事件循环中使用 executors 杨琴1 python 开发语言
Executor.submit()方法返回的Future类实例在概念上非常接近异步编程中使用的协程。这就是为什么我们可以使用执行器在协同多任务和多进程或多线程之间进行混合。此解决方法的核心是事件循环类的BaseEventLoop.run_in_executor(executor,func,*args)方法。它会在进程池或线程池中调度执行由executor参数表示的func函数。这个方法最重要的是它
【机器学习】机器学习工程实战-第2章项目开始前腊肉芥末果机器学习工程实战机器学习人工智能
上一章：第1章概述文章目录2.1机器学习项目的优先级排序2.1.1机器学习的影响2.1.2机器学习的成本2.2估计机器学习项目的复杂度2.2.1未知因素2.2.2简化问题2.2.3非线性进展2.3确定机器学习项目的目标2.3.1模型能做什么2.3.2成功模型的属性2.4构建机器学习团队2.4.1两种文化2.4.2机器学习团队的成员2.5机器学习项目为何失败2.5.1缺乏有经验的人才2.5.2缺乏领
conda将python低版本环境升级到高版本 dkgee conda python 开发语言
conda将python低版本环境3.7.16升级到高版本3.81.激活你的Conda环境2.升级Python版本3.验证升级4.处理依赖问题5.测试环境注意事项可以将Conda环境中的Python版本从3.7.16升级到3.8。以下是具体步骤：1.激活你的Conda环境首先，你需要激活你想要升级Python版本的环境。假设你的环境名为myenv，你可以使用以下命令激活它：condaactivat
python 爬取某乎某选全部内容路笑笑
在发布了python爬取知乎盐选文章内容后，没想到居然这么快就要更新新的内容了。在下午思考第一篇python爬取知乎盐选文章内容的时候，其实就把自动爬取目录内的其他内容的方法想出来了，但是本来没想这么快更新的，哈哈。不过思来想去还是发出来吧，毕竟要不哪天就忘了。fromDecryptLoginimportloginfrombs4importBeautifulSoupimportreimportba
（含import）两行代码，将ppt的每一页幻灯片保存为图片。（如果你没装office，只装了WPS也可以，只不过更麻烦一些）几道之旅人工智能智能体及数字员工 powerpoint wps
文章目录第一步:安装包第二步：写代码，运行第三步：如果你是Office，现在已经搞定了。但我是WPS，会报错：第四步：直接去包里改代码第五步：保存对包中代码的修改，重新运行咱最开头的代码第六步：成功了第一步:安装包pipinstallpython-office第二步：写代码，运行#安装库：pipinstallpython-officeimportoffice#单页转图片office.ppt.ppt
Python知识分享第十四天闵少搞AI python 开发语言
“”"1.面向对象相关概述概述面向对象是一种编程思想强调的是以对象为基础完成的各种操作它是基于面向过程的扩展Python中是同时支持面向对象和面向过程这两种编程思想的思想特点更符合人们的思考习惯把复杂的问题简单化把人们(程序员)从执行者变成了指挥者2.面向对象三大特征介绍封装继承多态封装概述封装就是隐藏对象的属性和实现细节仅对外提供公共的访问方式举例:插板电脑手机好处提高代码的安全性弊端代码量增加
pythontype函数使用_Python astype(np.float)函数使用方法解析 weixin_39870238 pythontype函数使用
Pythonastype(np.float)函数使用方法解析我的数据库如图结构我取了其中的nameagenr，做成array，只要所取数据存在str型，那么取出的数据，全部转化为str型，也就是array阵列的元素全是str，不管数据库定义的是不是int型。那么问题来了，取出的数据代入公式进行计算的时候，就会类型不符，这是就用到astype(np.float)代码如下importpymysqlim
jquery实现的jsonp掉java后台知了ing java jsonp jquery
什么是JSONP？先说说JSONP是怎么产生的：其实网上关于JSONP的讲解有很多，但却千篇一律，而且云里雾里，对于很多刚接触的人来讲理解起来有些困难，小可不才，试着用自己的方式来阐释一下这个问题，看看是否有帮助。 1、一个众所周知的问题，Ajax直接请求普通文件存在跨域无权限访问的问题，甭管你是静态页面、动态网页、web服务、WCF，只要是跨域请求，一律不准； 2、
Struts2学习笔记 caoyong struts2
SSH : Spring + Struts2 + Hibernate 三层架构(表示层,业务逻辑层,数据访问层) MVC模式 (Model View Controller) 分层原则:单向依赖，接口耦合 1、Struts2 = Struts + Webwork 2、搭建struts2开发环境 a>、到www.apac
SpringMVC学习之后台往前台传值方法满城风雨近重阳 springMVC
springMVC控制器往前台传值的方法有以下几种： 1.ModelAndView 通过往ModelAndView中存放viewName：目标地址和attribute参数来实现传参： ModelAndView mv=new ModelAndView(); mv.setViewName="success
WebService存在的必要性？一炮送你回车库 webservice
做Java的经常在选择Webservice框架上徘徊很久，Axis Xfire Axis2 CXF ，他们只有一个功能，发布HTTP服务然后用XML做数据传输。是的，他们就做了两个功能，发布一个http服务让客户端或者浏览器连接，接收xml参数并发送xml结果。当在不同的平台间传输数据时，就需要一个都能解析的数据格式。但是为什么要使用xml呢？不能使json或者其他通用数据
js年份下拉框 3213213333332132 java web ee
<div id="divValue">test...</div>测试 //年份 <select id="year"></select> <script type="text/javascript"> window.onload =
简单链式调用的实现技术归来朝歌方法调用链式反应编程思想
在编程中，我们可以经常遇到这样一种场景：一个实例不断调用它自身的方法，像一条链条一样进行调用这样的调用你可能在Ajax中，在页面中添加标签： $("<p>").append($("<span>").text(list[i].name)).appendTo("#result"); 也可能在HQ
JAVA调用.net 发布的webservice 接口 darkranger webservice
/** * @Title: callInvoke * @Description: TODO(调用接口公共方法) * @param @param url 地址 * @param @param method 方法 * @param @param pama 参数 * @param @return * @param @throws BusinessException
Javascript模糊查找 | 第一章循环不能不重视。 aijuans Way
最近受我的朋友委托用js+HTML做一个像手册一样的程序，里面要有可展开的大纲，模糊查找等功能。我这个人说实在的懒，本来是不愿意的，但想起了父亲以前教我要给朋友搞好关系，再加上这也可以巩固自己的js技术，于是就开始开发这个程序，没想到却出了点小问题，我做的查找只能绝对查找。具体的js代码如下： function search(){ var arr=new Array("my
狼和羊，该怎么抉择 atongyeye 工作
狼和羊，该怎么抉择在做一个链家的小项目，只有我和另外一个同事两个人负责，各负责一部分接口，我的接口写完，并全部测联调试通过。所以工作就剩下一下细枝末节的，工作就轻松很多。每天会帮另一个同事测试一些功能点，协助他完成一些业务型不强的工作。今天早上到公司没多久，领导就在QQ上给我发信息，让我多协助同事测试，让我积极主动些，有点责任心等等，我听了这话，心里面立马凉半截，首先一个领导轻易说
读取android系统的联系人拨号百合不是茶 android sqlite数据库内容提供者系统服务的使用
联系人的姓名和号码是保存在不同的表中,不要一下子把号码查询来,我开始就是把姓名和电话同时查询出来的,导致系统非常的慢关键代码: 1, 使用javabean操作存储读取到的数据 package com.example.bean; /** * * @author Admini
ORACLE自定义异常 bijian1013 数据库自定义异常
实例： CREATE OR REPLACE PROCEDURE test_Exception ( ParameterA IN varchar2, ParameterB IN varchar2, ErrorCode OUT varchar2 --返回值,错误编码 ) AS /*以下是一些变量的定义*/ V1 NUMBER; V2 nvarc
查看端号使用情况征客丶 windows
一、查看端口在windows命令行窗口下执行： >netstat -aon|findstr "8080" 显示结果： TCP 127.0.0.1:80 0.0.0.0:0 &
【Spark二十】运行Spark Streaming的NetworkWordCount实例 bit1129 wordcount
Spark Streaming简介 NetworkWordCount代码 /* * Licensed to the Apache Software Foundation (ASF) under one or more * contributor license agreements. See the NOTICE file distributed with
Struts2 与 SpringMVC的比较 BlueSkator struts2 spring mvc
1. 机制：spring mvc的入口是servlet，而struts2是filter，这样就导致了二者的机制不同。 2. 性能：spring会稍微比struts快。spring mvc是基于方法的设计，而sturts是基于类，每次发一次请求都会实例一个action，每个action都会被注入属性，而spring基于方法，粒度更细，但要小心把握像在servlet控制数据一样。spring
Hibernate在更新时，是可以不用session的update方法的(转帖） BreakingBad Hibernate update
地址：http://blog.csdn.net/plpblue/article/details/9304459 public void synDevNameWithItil() {Session session = null;Transaction tr = null;try{session = HibernateUtil.getSession();tr = session.beginTran
读《研磨设计模式》-代码笔记-观察者模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; import java.util.Observable; import java.util.Observer; /** * “观
重置MySQL密码 chenhbc mysql 重置密码忘记密码
如果你也像我这么健忘，把MySQL的密码搞忘记了，经过下面几个步骤就可以重置了（以Windows为例，Linux/Unix类似）： 1、关闭MySQL服务 2、打开CMD，进入MySQL安装目录的bin目录下，以跳过权限检查的方式启动MySQL mysqld --skip-grant-tables 3、新开一个CMD窗口，进入MySQL mysql -uroot
再谈系统论，控制论和信息论 comsci 设计模式生物能源企业应用领域模型
再谈系统论，控制论和信息论偶然看
oracle moving window size与 AWR retention period关系 daizj oracle
转自： http://tomszrp.itpub.net/post/11835/494147 晚上在做11gR1的一个awrrpt报告时,顺便想调整一下AWR snapshot的保留时间,结果遇到了ORA-13541这样的错误.下面是这个问题的发生和解决过程. SQL> select * from v$version; BANNER -------------------
Python版B树 dieslrae python
话说以前的树都用java写的,最近发现python有点生疏了,于是用python写了个B树实现,B树在索引领域用得还是蛮多了,如果没记错mysql的默认索引好像就是B树... 首先是数据实体对象,很简单,只存放key,value class Entity(object): '''数据实体''' def __init__(self,key,value)
C语言冒泡排序 dcj3sjt126com 算法
代码示例： # include <stdio.h> //冒泡排序 void sort(int * a, int len) { int i, j, t; for (i=0; i<len-1; i++) { for (j=0; j<len-1-i; j++) { if (a[j] > a[j+1]) // >表示升序
自定义导航栏样式 dcj3sjt126com 自定义
-(void)setupAppAppearance { [[UILabel appearance] setFont:[UIFont fontWithName:@"FZLTHK—GBK1-0" size:20]]; [UIButton appearance].titleLabel.font =[UIFont fontWithName:@"FZLTH
11.性能优化-优化-JVM参数总结 frank1234 jvm参数性能优化
1.堆 -Xms --初始堆大小 -Xmx --最大堆大小 -Xmn --新生代大小 -Xss --线程栈大小 -XX:PermSize --永久代初始大小 -XX:MaxPermSize --永久代最大值 -XX:SurvivorRatio --新生代和suvivor比例,默认为8 -XX:TargetSurvivorRatio --survivor可使用
nginx日志分割 for linux HarborChung nginx linux 脚本
nginx日志分割 for linux 默认情况下，nginx是不分割访问日志的，久而久之，网站的日志文件将会越来越大，占用空间不说，如果有问题要查看网站的日志的话，庞大的文件也将很难打开，于是便有了下面的脚本使用方法，先将以下脚本保存为 cutlog.sh，放在/root 目录下，然后给予此脚本执行的权限复制代码代码如下: chmo
Spring4新特性——泛型限定式依赖注入 jinnianshilongnian spring spring4 泛型式依赖注入
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
centOS安装GCC和G++ liuxihope centos gcc
Centos支持yum安装，安装软件一般格式为yum install .......，注意安装时要先成为root用户。按照这个思路，我想安装过程如下：安装gcc：yum install gcc 安装g++： yum install g++ 实际操作过程发现，只能有gcc安装成功，而g++安装失败，提示g++ command not found。上网查了一下，正确安装应该
第13章 Ajax进阶（上） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
How to determine BusinessObjects service pack and fix pack blueoxygen BO
http://bukhantsov.org/2011/08/how-to-determine-businessobjects-service-pack-and-fix-pack/ The table below is helpful. Reference BOE XI 3.x 12.0.0. y BOE XI 3.0 12.0. x. y BO
Oracle里的自增字段设置 tomcat_oracle oracle
　大家都知道吧，这很坑，尤其是用惯了mysql里的自增字段设置，结果oracle里面没有的。oh，no 　　我用的是12c版本的，它有一个新特性，可以这样设置自增序列，在创建表是，把id设置为自增序列 create table t ( id 　　　　 number generated by default as identity (start with 1 increment b
Spring Security（01）——初体验 yang_winnie spring Security
Spring Security（01）——初体验博客分类： spring Security Spring Security入门安全认证首先我们为Spring Security专门建立一个Spring的配置文件，该文件就专门用来作为Spring Security的配置

支持向量机算法模型

目录

前言

从数据的线性可分到间隔最大化

对偶算法

线性支持向量机与非线性支持向量机

实践案例

你可能感兴趣的:(机器学习,python)