SCUT_Arucee

Andrew Ng机器学习入门学习笔记（六）之支持向量机（SVM）

一.支持向量机的引入

支持向量机（SVM）是一种极受欢迎的监督学习算法，为了引入支持向量机，我们首先从另一个角度看逻辑回归。

1.从单个样本代价考虑

假设函数 hθ(x)=11+e−θTx 。由于S型函数有如下图的特性，

则，如果 y=1 ，那我们希望 hθ(x)≈1 ,即 θTx>>0 ；如果 y=0 ，那我们希望 hθ(x)≈0 ,即 θTx<<0 。

对于逻辑回归，对于单个样本 (x,y) ，其代价为

- (y l o g h θ (x) + (1 - y) l o g (1 - h θ (x))) = - y l o g 1 1 + e - θ T x - (1 - y) l o g (1 - 1 1 + e - θ T x)

①如果 y=1 ，上述单个样本代价函数中只有第一项起作用，第二项为 0 。

令 z=θTx ，此时代价随 z 的变化曲线如下图所示

结合此图也可以看出对于正样本（即， y=1 ），为了使代价 −log11+e−θTx 最小，我们将设置 θTx 比较大，这时代价接近于 0 。

在支持向量机中这种情况可以用两条线段作为新的代价函数 cost1(z) ，如下图桃红色部分

②如果 y=0 ，上述单个样本代价函数中只有第二项起作用，第一项为 0 。

此时代价随 z 的变化曲线如下图所示，

结合此图也可以看出对于负样本（即， y=0 ），为了使代价 −log(1−11+e−θTx) 最小，我们将设置 θTx 比较大，这时代价接近于 0 。

在支持向量机中可以用两条线段作为新的代价函数 cost0(z) ，如下图桃红色部分

2.从优化目标考虑

对于逻辑回归，优化目标是

m i n θ J (θ) = m i n θ [1 m \sum i = 1 m y (i) (- l o g h θ (x (i))) + (1 - y (i)) (- l o g (1 - h θ (x (i)))) + λ 2 m \sum j = 1 n θ 2 j]

支持向量机就是要将其中的

(−loghθ(x(i))) 换成前面

y=1 时新的单个样本代价

cost1(θTx(i)) ，将

(−log(1−hθ(x(i)))) 换成前面

y=0 时新的单个样本代价

cost0(θTx(i)) ，即

m i n θ J (θ) = m i n θ [1 m \sum i = 1 m y (i) c o s t 1 (θ T x (i)) + (1 - y (i)) c o s t 0 (θ T x (i)) + λ 2 m \sum j = 1 n θ 2 j]

又由于无论是否有 1m 都不会影响最小化的结果，故可以忽略 1m ；

同时正则化逻辑回归总的代价函数包括两项，即 A+λB （通过 λ 控制 A,B 间的平衡），SVM则通过另一种方式控制 A,B 间的平衡，即 CA+B 。

综上，SVM的优化目标为

m i n θ [C \sum i = 1 m y (i) c o s t 1 (θ T x (i)) + (1 - y (i)) c o s t 0 (θ T x (i)) + 1 2 \sum j = 1 n θ 2 j]

二.SVM的决策边界

1.SVM优化目标进一步研究

为了最小化代价函数， y=1 时，我们希望 θTx⩾1 ，而不仅仅像逻辑回归那样只要 θTx⩾0 ，就可以预测 hθ(x)=1 ；
同理， y=0 时，我们希望 θTx⩽−1 ，而不仅仅像逻辑回归那样只要 θTx<0 ，就可以预测 hθ(x)=0 。

可以看出SVM相比逻辑回归而言要求更高，相当于多了一个安全的间距因子。故人们也会将SVM看作是大间距分类器。

当 C 为一个很大的值时，为了

m i n θ [C \sum i = 1 m y (i) c o s t 1 (θ T x (i)) + (1 - y (i)) c o s t 0 (θ T x (i)) + 1 2 \sum j = 1 n θ 2 j]

y(i)=1 时，希望 cost1(θTx(i))=0 ，即 θTx(i)⩾1 ；

y(i)=0 时，希望 cost0(θTx(i))=0 ，即 θTx(i)⩽−1 。

综上，SVM的优化目标为

m i n θ 1 2 \sum j = 1 n θ 2 j

且 θ T x (i) ⩾ 1 ， 如 果 y (i) = 1

θ T x (i) ⩽ - 1 ， 如 果 y (i) = 0

2.SVM的决策边界

SVM的这个要求会对决策边界有什么影响呢？

以一个线性可分数据集为例，有多条直线可以把正样本与负样本分开，如下图：

SVM会趋于以黑色线来分离正、负样本，因为黑色线和训练样本间有更大的最短距离，而粉色线和绿色线在分离样本时表现就较差。SVM总是努力用最大间距(margin)来分离样本，这也是它为什么被称为大间距分类器，同时这也是SVM具有鲁棒性的原因。

事实上，SVM比大间距分类器表现得更成熟，比如异常点的影响，如图：

参数 C 控制着对误分类的训练样本的惩罚，故参数 C 较大时会努力使所有训练数据被正确分类，这会导致仅仅因为一个异常点决策边界就能从黑色线变成粉色线，这是不明智的。SVM可以通过将参数 C 设置得不太大而忽略掉一些异常的影响， C 的作用类似于 1λ ，对于这个例子仍然会得到黑线线代表的决策边界。

3.大间距分类背后的数学

前面说到SVM的优化目标是

m i n θ 1 2 \sum j = 1 n θ 2 j

且 θ T x (i) ⩾ 1 ， 如 果 y (i) = 1

θ T x (i) ⩽ - 1 ， 如 果 y (i) = 0

为了简化，令

θ0=0 ，特征数

n=2 ，则

12∑nj=1θ2j=12(θ21+θ22)=12(θ21+θ22−−−−−−√)2=12||θ||2

其中， ||θ|| 为向量 θ 的长度或称为 θ 的范数。

如果将 θTx(i) 看成是经过原点的两个向量相乘，如下图：

则 θTx(i) 等价于向量 x(i) 在向量 θ 上的投影 p(i) 与 θ 的范数 ||θ|| 相乘，即

θ T x (i) = p (i) | | θ | | = θ 1 x (i) 1 + θ 2 x (i) 2

故SVM的优化目标就变为：

m i n θ 1 2 \sum j = 1 n θ 2 j

且 p (i) | | θ | | ⩾ 1 ， 如 果 y (i) = 1

p (i) | | θ | | ⩽ - 1 ， 如 果 y (i) = 0

其中

p(i) 是

x(i) 在向量

θ 上的投影。

①小间距决策边界

假设 θ0=0 ，下图展示了一个小间距决策边界的例子。（绿色线为决策边界）

向量 θ 的斜率为 θ2θ1 ，决策边界为 θTx=0 ，即 θ1x+θ2y=0 ，斜率为 −θ1θ2 ，也就是说决策边界也过原点且与向量 θ 垂直。

取上图中最贴近决策边界的一个正样本（红叉）点 x(1) ，因为正样本点 y(1)=1 ，故要求 p(1)||θ||⩾1 。但事实是这种小间距决策边界， x(1) 在向量 θ 上的投影 p(1) 非常小，这就要求 ||θ|| 很大，显然这与优化目标 minθ12∑j=1nθ2j=minθ12||θ||2 不符。

同理，上图中最贴近决策边界的一个负样本（蓝圈）点 x(2) ，因为负样本点 y(2)=0 ，故要求 p(2)||θ||⩽−1 。 x(2) 在向量 θ 上的投影 p(2)<0且|p(2)|也非常小，这也要求 ||θ|| 很大。

由于这种小间距决策边界的选择与SVM的优化目标不符，故SVM不会选择这种决策边界。

②大间距决策边界

假设 θ0=0 ，下图展示了一个大间距决策边界的例子。（绿色线为决策边界）

同样的，决策边界也是和向量 θ 垂直的。不同的是，对于正样本点 x(1) ，它在 θ 上的投影 p(1) 比小间距分类那里的要长多了；对于负样本点 x(2) ，它在 θ 上的投影 p(2) 的长度比小间距分类那里也要长很多。在满足SVM优化目标的要求时， ||θ|| 可以变小而不必很大。

反过来看，通过在优化目标里让 ||θ|| 不断变小，SVM就可以选择出上图所示的大间距决策边界。这也是SVM可以产生大间距分类器的原因。

以上我们都是假设 θ0=0 ，这会让决策边界通过原点，幸运的是即使 θ0≠0 ，SVM会产生大间距分类仍然是成立的。

三.核函数(Kernels)

SVM利用核函数可以构造出复杂的非线性分类器。如下图

1.SVM的假设函数

h θ (x) = {1, 0, θ T x ⩾ 0 θ T x < 0

2.非线性决策边界特征变量的定义

例如假设函数

h θ (x) = {1, 0, θ 0 + θ 1 x 1 + θ 2 x 2 + θ 3 x 1 x 2 + θ 4 x 21 + \dots ⩾ 0 θ 0 + θ 1 x 1 + θ 2 x 2 + θ 3 x 1 x 2 + θ 4 x 21 + \dots < 0

我们可以定义特征项 f1=x1，f2=x2，f3=x1x2，f4=x21，⋯ ，

则 θ0+θ1x1+θ2x2+θ3x1x2+θ4x21+⋯=θ0+θ1f1+θ2f2+θ3f3+θ4f4+⋯

对于SVM，有没有比这些高阶项更好的特征项？

给定 x ，根可以据与标记点的接近程度来计算新的特征项。如下图手动选择了3个标记点 l(1)，l(2)，l(3) 。

则，

f 1 = s i m i l a r i t y (x, l (1)) = e x p (- | | x - l ( 1 ) | | 2 2 σ 2)

f 2 = s i m i l a r i t y (x, l (2)) = e x p (- | | x - l ( 2 ) | | 2 2 σ 2)

f 3 = s i m i l a r i t y (x, l (3)) = e x p (- | | x - l ( 3 ) | | 2 2 σ 2)

这种相似度，用数学术语来说，就是核函数。核函数有不同的种类，其中常用的就是我们上述这种高斯核函数。

更具体点，忽略 x0 ，则上述

f 1 = s i m i l a r i t y (x, l (1)) = e x p (- | | x - l ( 1 ) | | 2 2 σ 2) = e x p (- \sum n j = 1 ( x j - l ( 1 ) j ) 2 2 σ 2)

如果

x 的位置接近于

l(1) ，即

x≈l(1) ，则

f 1 \approx e x p (- 0 2 2 σ 2) \approx 1

相反，如果

x 的位置远离于

l(1) ，则

f 1 \approx e x p (- ( l a r g e n u m b e r ) 2 2 σ 2) \approx 0

故，有三个标记点时，给定一个

x ，就可以计算出3个新的特征。

例如： l(1)=[35]，σ2=1，n=2 时

x=[35] 时， f1=1 ；而 x 在离 [35] 较远时，如下图的边缘位置，则 f1≈0 。

f 的值在0与1之间，具体取决于 x 与标记点 l 的接近程度。

改变核函数中 σ2 的大小，如减小到 σ2=0.5 ，可看到突起变窄了，从1降到低处的速度会变得更快，如下图

若增大 σ 到 σ2=3 ，则突起会变宽，新的特征值从大减小的速度会变慢，如下图

3.通过核函数和标记点构造复杂的非线性边界

假设只考虑3个标记点，根据SVM假设函数的定义，若 θ0+θ1f1+θ2f2+θ3f3⩾0 ，则预测 y=1 。

假设 θ0=−0.5，θ1=1，θ2=1，θ3=0 ，标记点和训练样本的位置如下图：

则，对于桃红色的那个训练样本，根据前面SVM新特征项的定义， f1≈1，f2≈0，f3≈0 ，因为 θ0+θ1f1+θ2f2+θ3f3=0.5⩾0 ，故预测 y=1 。

对于蓝绿色的那个训练样本， f1≈0，f2≈0，f3≈0 ，因为 θ0+θ1f1+θ2f2+θ3f3=−0.5<0 ，故预测 y=0 。

综上可以发现，对于接近标记点 l(1) 或 l(2)的点，预测结果为 y=1 ，而对于那些远离标记点 l^{(1)} 和 l^{(2)}的点，预测结果为 y=0 。

故，最终的决策边界会是非线性的，在边界内部预测 y=1 ，在边界外部预测 y=0 ，如下图

这就是通过核函数和标记点来训练出复杂的非线性决策边界的方法。

4.标记点的选择及特征向量的构造

在实际应用中，如何选择这些标记点 l(1),l(2),l(3),⋯ 是机器学习必须解决的问题。

给定 m 个训练样本 (x(1),y(1)),(x(2),y(2)),⋯,(x(m),y(m)) ，可以选择 l(1)=x(1),l(2)=x(2),⋯,l(m)=x(m) ，即选择与样本点重合的位置作为标记点。

给定一个样本 x （可属于训练集，交叉验证集或测试集），则

f 1 = s i m i l a r i t y (x, l (1)) = s i m i l a r i t y (x, x (1))

f 2 = s i m i l a r i t y (x, l (2)) = s i m i l a r i t y (x, x (2))

⋮

f m = s i m i l a r i t y (x, l (m)) = s i m i l a r i t y (x, x (m))

可得到一个特征向量

f = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ f 1 f 2 ⋮ f m ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥

还可添加一个额外的特征

f0=1 ，则

f = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ f 0 f 1 ⋮ f m ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥

具体的，假设有一个训练样本

(x(i),y(i)) ，则

f(i)0=1

f(i)1=similarity(x(i),l(1))

⋮

f(i)i=similarity(x(i),l(i))=similarity(x(i),x(i))=1

⋮

f(i)m=similarity(x(i),l(m))
合成一个可以用来描述样本

x(i) 的特征向量

f (i) = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ f (i) 0 f (i) 1 ⋮ f (i) m ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥

四.SVM实现

1.假设函数

假设已经有了参数 θ ，给定一个 x ，可以计算出特征向量 f∈Rm+1 （标记点个数等于训练样本数）。则SVM假设函数的定义变为，若 θTf=θ0f0+θ1f1+⋯+θmfm⩾0 ，则 hθ(x)=1 ，其他情况则 hθ(x)=0 。

2.优化目标

有了核函数之后，SVM的优化目标如下：

m i n θ [C \sum i = 1 m y (i) c o s t 1 (θ T f (i)) + (1 - y (i)) c o s t 0 (θ T f (i)) + 1 2 \sum j = 1 n θ 2 j]

其中最后一项中特征数

n=m 。

另外，在SVM的实现中，最后一项略有差别， ∑nj=1θ2j 本应等于 θTθ ，也就是 ||θ|| ，但是在SVM的实现中使用 θTmθ 却比直接优化 ||θ|| 更高效，更能适应超大的训练集。

需要注意，上述那些SVM的计算技巧应用到别的算法，如逻辑回归中，会变得非常慢，所以一般不将核函数以及标记点等方法用在逻辑回归中。

3.SVM的参数

前面提到参数 C 相当于逻辑回归中的 1λ ，那么参数 C 对方差和偏差的影响如下：

C 太大，相当于 λ 太小，会产生高方差，低偏差；

C 太小，相当于 λ 太大，会产生高偏差，低方差。

同时，参数 σ2 也会对方差和偏差产生影响：

σ2 大，则特征 fi 变化较缓慢，可能会产生高偏差，低方差；

σ2 小，则特征 fi 变化不平滑，可能会产生高方差，低偏差。

4.使用SVM及核函数的选择

在具体实现时，我们不需要自己编写代码来最优化参数 θ ，而是使用SVM软件包（如：liblinear,libsvm等）来最优化参数 θ 。

当然了，在使用这些软件包时，我们需要自己选择参数 C 以及选择使用哪种核函数。

例如：选用线性核函数（即，没有使用核函数），若 θTx=θ0+θ1x1+⋯+θnxn>0，则hθ(x)=1 。最终这会产生一个线性分类器。liblinear就是使用线性核函数。

如特征数 n 很大，而训练样本数 m 很小，使用线性核函数产生一个线性分类器就较为适合，不容易过拟合。

如果特征数 n 很小，而训练样本数 m 很大，就适合用一个核函数去实现一个非线性分类器，高斯核函数是个不错的选择。

如果使用的是高斯核函数： fi=exp(−||x−l(i)||22σ2) ,其中 l(i)=x(i) ，则还需要选择参数 σ2 。

核函数还有一些其他选择，需要注意的是，不是所有的相似度函数都是有效的核函数，要成为有效的核函数，需要满足默塞尔定理这个技术条件。

还有一些其他核函数如：多项式核函数，字符串核函数等等，但大多数时候我们用的还是高斯核函数。

5.多类别分类问题

对于 K 类分类问题，可以使用已经内置了多类别分类函数的SVM软件包，也可以用一对多(one-vs-all)的方法训练 K 个SVM分类器，把 y=i （ i=1,2,⋯,K ）的类同其他类区别开来，得到 K 个参数向量 θ(1),θ(2),⋯,θ(K) 。

对于输入的 x ，选择 (θ(i))Tx 最大的那个类别 i 作为识别结果。

6.SVM和逻辑回归的选择问题

什么时候该用逻辑回归？什么时候该用SVM？

①如果 n 相对于 m 来说很大，则应该使用逻辑回归或者线性核函数（无核）的SVM。

m 较小时，使用线性分类器效果就挺不错了，并且也没有足够的数据去拟合出复杂的非线性分类器。

②如果 n 很小， m 中等大小，则应该使用高斯核函数SVM。

③如果 n 很小， m 很大，则高斯核函数的SVM运行会很慢。这时候应该创建更多的特征变量，然后再使用逻辑回归或者线性核函数（无核）的SVM。

对于以上这些情况，神经网络很可能做得很好，但是训练会比较慢。实际上SVM的优化问题是一种凸优化问题，好的SVM优化软件包总是能找到全局最小值或者是接近全局最小的值。

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
遥感影像的切片处理 sand&wich 计算机视觉 python 图像处理
在遥感影像分析中，经常需要将大尺寸的影像切分成小片段，以便于进行详细的分析和处理。这种方法特别适用于机器学习和图像处理任务，如对象检测、图像分类等。以下是如何使用Python和OpenCV库来实现这一过程，同时确保每个影像片段保留正确的地理信息。准备环境首先，确保安装了必要的Python库，包括numpy、opencv-python和xml.etree.ElementTree。这些库将用于图像处理
ai绘画工具midjourney怎么下载？附作品管理教程设计师早上好
Midjourney是一款功能强大的AI绘画工具，它使用机器学习技术和深度神经网络等算法，可以生成各种艺术风格的绘画作品。在创意设计、广告宣传等方面有着广泛的应用前景。那么，ai绘画工具midjourney怎么下载？本文将为您介绍Midjourney的下载以及作品的相关管理。一、Midjourney下载Midjourney的下载非常简单，只需打开Midjourney官网（点击“GetMidjour
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
机器学习-聚类算法不良人龍木木机器学习机器学习算法聚类
机器学习-聚类算法1.AHC2.K-means3.SC4.MCL仅个人笔记，感谢点赞关注！1.AHC2.K-means3.SC传统谱聚类：个人对谱聚类算法的理解以及改进4.MCL目前仅专注于NLP的技术学习和分享感谢大家的关注与支持！
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
python中zeros用法_Python中的numpy.zeros()用法江平舟 python中zeros用法
numpy.zeros()函数是最重要的函数之一,广泛用于机器学习程序中。此函数用于生成包含零的数组。numpy.zeros()函数提供给定形状和类型的新数组,并用零填充。句法numpy.zeros(shape,dtype=float,order='C'参数形状：整数或整数元组此参数用于定义数组的尺寸。此参数用于我们要在其中创建数组的形状,例如(3,2)或2。dtype：数据类型(可选)此参数用于
【NumPy】深入解析numpy.zeros()函数二七830 numpy
欢迎莅临我的个人主页这里是我深耕Python编程、机器学习和自然语言处理（NLP）领域，并乐于分享知识与经验的小天地！博主简介：我是二七830，一名对技术充满热情的探索者。多年的Python编程和机器学习实践，使我深入理解了这些技术的核心原理，并能够在实际项目中灵活应用。尤其是在NLP领域，我积累了丰富的经验，能够处理各种复杂的自然语言任务。技术专长：我熟练掌握Python编程语言，并深入研究了机
【中国国际航空-注册_登录安全分析报告】风控牛验证码接口安全评测系列安全行为验证极验网易易盾智能手机
前言由于网站注册入口容易被黑客攻击，存在如下安全问题：1.暴力破解密码，造成用户信息泄露2.短信盗刷的安全问题，影响业务及导致用户投诉3.带来经济损失，尤其是后付费客户，风险巨大，造成亏损无底洞所以大部分网站及App都采取图形验证码或滑动验证码等交互解决方案，但在机器学习能力提高的当下，连百度这样的大厂都遭受攻击导致点名批评，图形验证及交互验证方式的安全性到底如何？请看具体分析一、中国国际航空PC
机器学习流形数据降维：UMAP 降维算法小嗷犬 Python 机器学习 #数据分析及可视化机器学习算法人工智能
✅作者简介：人工智能专业本科在读，喜欢计算机与编程，写博客记录自己的学习历程。个人主页：小嗷犬的个人主页个人网站：小嗷犬的技术小站个人信条：为天地立心，为生民立命，为往圣继绝学，为万世开太平。本文目录UMAP简介理论基础特点与优势应用场景在Python中使用UMAP安装umap-learn库使用UMAP可视化手写数字数据集UMAP简介UMAP（UniformManifoldApproximatio
七.正则化愿风去了
吴恩达机器学习之正则化（Regularization）http://www.cnblogs.com/jianxinzhou/p/4083921.html从数学公式上理解L1和L2https://blog.csdn.net/b876144622/article/details/81276818虽然在线性回归中加入基函数会使模型更加灵活，但是很容易引起数据的过拟合。例如将数据投影到30维的基函数上，模
机器学习-------数据标准化罔闻_spider 数据分析算法机器学习人工智能
什么是归一化，它与标准化的区别是什么？一作用在做训练时，需要先将特征值与标签标准化，可以防止梯度防炸和过拟合；将标签标准化后，网络预测出的数据是符合标准正态分布的—StandarScaler()，与真实值有很大差别。因为StandarScaler()对数据的处理是（真实值-平均值）/标准差。同时在做预测时需要将输出数据逆标准化提升模型精度：标准化/归一化使不同维度的特征在数值上更具比较性，提高分类
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
两种方法判断Python的位数是32位还是64位 sanqima Python编程电脑 python 开发语言
Python从1991年发布以来，凭借其简洁、清晰、易读的语法、丰富的标准库和第三方工具，在Web开发、自动化测试、人工智能、图形识别、机器学习等领域发展迅猛。 Python是一种胶水语言，通过Cython库与C/C++语言进行链接，通过Jython库与Java语言进行链接。 Python是跨平台的，可运行在多种操作系统上，包括但不限于Windows、Linux和macOS。这意味着用Py
使用最大边际相关性(MMR)选择示例：提高AI模型的多样性和相关性 aehrutktrjk 人工智能 easyui 前端 python
使用最大边际相关性(MMR)选择示例：提高AI模型的多样性和相关性引言在机器学习和自然语言处理领域，选择合适的训练示例对模型性能至关重要。最大边际相关性(MaximalMarginalRelevance,MMR)是一种优秀的示例选择方法，它不仅考虑了示例与输入的相关性，还注重保持所选示例之间的多样性。本文将深入探讨如何使用MMR来选择示例，以提高AI模型的性能和泛化能力。什么是最大边际相关性(MM
LangChain集成指南:如何利用多样化的AI提供商 aehrutktrjk 人工智能 langchain python
LangChain集成指南:如何利用多样化的AI提供商引言在人工智能和机器学习领域,LangChain已成为一个强大而灵活的框架,允许开发者轻松集成各种AI服务提供商。本文将深入探讨LangChain的集成能力,介绍如何利用不同的AI提供商来增强你的应用程序,并提供实用的代码示例。LangChain集成概览LangChain支持多种AI提供商的集成,这些集成可以分为两类:独立包集成:这些提供商有独
机器学习VS深度学习 nfgo 机器学习
机器学习（MachineLearning,ML）和深度学习（DeepLearning,DL）是人工智能（AI）的两个子领域，它们有许多相似之处，但在技术实现和应用范围上也有显著区别。下面从几个方面对两者进行区分：1.概念层面机器学习：是让计算机通过算法从数据中自动学习和改进的技术。它依赖于手动设计的特征和数学模型来进行学习，常用的模型有决策树、支持向量机、线性回归等。深度学习：是机器学习的一个子领
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
【机器学习与R语言】1-机器学习简介苹果酱0567 面试题汇总与解析 java 中间件开发语言 spring boot 后端
1.基本概念机器学习：发明算法将数据转化为智能行为数据挖掘VS机器学习：前者侧重寻找有价值的信息，后者侧重执行已知的任务。后者是前者的先期准备过程：数据——>抽象化——>一般化。或者：收集数据——推理数据——归纳数据——发现规律抽象化：训练：用一个特定模型来拟合数据集的过程用方程来拟合观测的数据：观测现象——数据呈现——模型建立。通过不同的格式来把信息概念化一般化：一般化：将抽象化的知识转换成可用
Python前沿技术：机器学习与人工智能 4.0啊 Python 人工智能 python 机器学习
Python前沿技术：机器学习与人工智能一、引言随着科技的飞速发展，机器学习和人工智能（AI）已经成为了计算机科学领域的热门话题。Python作为一门易学易用且功能强大的编程语言，已经成为了这两个领域的首选语言之一。本文将深入探讨Python在机器学习和人工智能领域的应用，以及一些前沿技术和工具。二、Python机器学习基础2.1机器学习概述机器学习是人工智能（AI）的一个关键子集，它的核心在于让
chatgpt赋能python：如何在Python中计算平均值 tulingtest ChatGpt python chatgpt numpy 计算机
如何在Python中计算平均值计算平均值是数据分析、统计和机器学习等许多领域中的常见任务。Python作为一门功能强大且易于学习的编程语言，为计算平均值提供了多种方法。在本文中，我们将介绍如何在Python中计算平均值。什么是平均值简单来说，平均值是一组数字的总和除以数字的数量。例如，对于数字序列1，3，5，7，9，平均值是(1+3+5+7+9)/5=5。平均值在数据分析中非常有用，因为它可以提供
Python 初学者入门必知： Anaconda是什么？有什么作用？怎么使用？懒大王爱吃狼 Python基础 python 开发语言 python基础 python学习 anaconda anaconda安装 python教程
初学者在学习Python时，经常看到的一个名字是Anaconda。究竟什么是Anaconda，为什么它如此受欢迎？在这篇文章中，我们将探讨Anaconda，了解Anaconda的从安装到使用的。Anaconda是一个免费开源的Python和R编程发行版，包含上千个适用于数据科学和机器学习的包。同时，配备了Spyder和Jupyternotebook等工具，初学者可以使用它们来学习Python，使用
每天五分钟玩转深度学习PyTorch：模型参数优化器torch.optim 幻风_huanfeng 深度学习框架pytorch 深度学习 pytorch 人工智能神经网络机器学习优化算法
本文重点在机器学习或者深度学习中，我们需要通过修改参数使得损失函数最小化(或最大化)，优化算法就是一种调整模型参数更新的策略。在pytorch中定义了优化器optim，我们可以使用它调用封装好的优化算法，然后传递给它神经网络模型参数，就可以对模型进行优化。本文是学习第6步(优化器)，参考链接pytorch的学习路线随机梯度下降算法在深度学习和机器学习中，梯度下降算法是最常用的参数更新方法，它的公式
一切皆是映射：AI的去中心化：区块链技术的融合 AI大模型应用之禅计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
一切皆是映射：AI的去中心化：区块链技术的融合作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming关键词：AI，区块链，去中心化，智能合约，共识机制，数据安全，隐私保护，分布式账本技术，机器学习，数据隐私1.背景介绍1.1问题的由来随着人工智能（AI）技术的快速发展，其在各个领域的应用越来越广泛，从自动驾驶、智能医疗到金融服务，AI正在改变着我们的生活。
第五届核磁机器学习班（训练营：2023.6.5~6.17）茗创科技
茗创科技专注于脑科学数据处理，涵盖（EEG/ERP,fMRI,结构像,DTI,ASL,FNIRS）等，欢迎留言讨论及转发推荐，也欢迎了解茗创科技的脑电课程，数据处理服务及脑科学工作站销售业务，可添加我们的工程师（微信号MCKJ-zhouyi或17373158786）咨询。★课程简介★基于血氧水平依赖的功能磁共振成像(fMRI)技术,利用其数据构建的功能性脑网络后,发现脑并不是一个单纯对外界刺激进行
如何有效的学习AI大模型？ Python程序员罗宾学习人工智能语言模型自然语言处理架构
学习AI大模型是一个系统性的过程，涉及到多个学科的知识。以下是一些建议，帮助你更有效地学习AI大模型：基础知识储备：数学基础：学习线性代数、概率论、统计学和微积分等，这些是理解机器学习算法的数学基础。编程技能：掌握至少一种编程语言，如Python，因为大多数AI模型都是用Python实现的。理论学习：机器学习基础：了解监督学习、非监督学习、强化学习等基本概念。深度学习：学习神经网络的基本结构，如卷
多线程编程之理财周凡杨 java 多线程生产者消费者理财
现实生活中，我们一边工作，一边消费，正常情况下会把多余的钱存起来，比如存到余额宝，还可以多挣点钱，现在就有这个情况：我每月可以发工资20000万元（暂定每月的1号），每月消费5000（租房+生活费）元（暂定每月的1号），其中租金是大头占90%，交房租的方式可以选择（一月一交，两月一交、三月一交），理财：1万元存余额宝一天可以赚1元钱，
[Zookeeper学习笔记之三]Zookeeper会话超时机制 bit1129 zookeeper
首先，会话超时是由Zookeeper服务端通知客户端会话已经超时，客户端不能自行决定会话已经超时，不过客户端可以通过调用Zookeeper.close()主动的发起会话结束请求，如下的代码输出内容 Created /zoo-739160015 CONNECTEDCONNECTED .............CONNECTEDCONNECTED CONNECTEDCLOSEDCLOSED
SecureCRT快捷键 daizj secureCRT 快捷键
ctrl + a : 移动光标到行首ctrl + e ：移动光标到行尾crtl + b: 光标前移1个字符crtl + f: 光标后移1个字符crtl + h : 删除光标之前的一个字符ctrl + d ：删除光标之后的一个字符crtl + k ：删除光标到行尾所有字符crtl + u : 删除光标至行首所有字符crtl + w: 删除光标至行首
Java 子类与父类这间的转换周凡杨 java 父类与子类的转换
最近同事调的一个服务报错，查看后是日期之间转换出的问题。代码里是把 java.sql.Date 类型的对象强制转换为 java.sql.Timestamp 类型的对象。报java.lang.ClassCastException。代码：
可视化swing界面编辑朱辉辉33 eclipse swing
今天发现了一个WindowBuilder插件，功能好强大，啊哈哈，从此告别手动编辑swing界面代码，直接像VB那样编辑界面，代码会自动生成。首先在Eclipse中点击help，选择Install New Software,然后在Work with中输入WindowBui
web报表工具FineReport常用函数的用法总结（文本函数）老A不折腾 finereport web报表工具报表软件 java报表
文本函数 CHAR CHAR(number):根据指定数字返回对应的字符。CHAR函数可将计算机其他类型的数字代码转换为字符。 Number:用于指定字符的数字，介于1Number:用于指定字符的数字，介于165535之间（包括1和65535）。示例: CHAR(88)等于“X”。 CHAR(45)等于“-”。 CODE CODE(text):计算文本串中第一个字
mysql安装出错林鹤霄 mysql安装
[root@localhost ~]# rpm -ivh MySQL-server-5.5.24-1.linux2.6.x86_64.rpm Preparing... #####################
linux下编译libuv aigo libuv
下载最新版本的libuv源码，解压后执行： ./autogen.sh 这时会提醒找不到automake命令，通过一下命令执行安装（redhat系用yum，Debian系用apt-get）： # yum -y install automake # yum -y install libtool 如果提示错误：make: *** No targe
中国行政区数据及三级联动菜单 alxw4616
近期做项目需要三级联动菜单,上网查了半天竟然没有发现一个能直接用的! 呵呵,都要自己填数据....我了个去这东西麻烦就麻烦的数据上. 哎,自己没办法动手写吧. 现将这些数据共享出了,以方便大家.嗯,代码也可以直接使用文件说明 lib\area.sql -- 县及县以上行政区划分代码（截止2013年8月31日)来源：国家统计局发布时间：2014-01-17 15:0
哈夫曼加密文件百合不是茶哈夫曼压缩哈夫曼加密二叉树
在上一篇介绍过哈夫曼编码的基础知识,下面就直接介绍使用哈夫曼编码怎么来做文件加密或者压缩与解压的软件,对于新手来是有点难度的,主要还是要理清楚步骤; 加密步骤: 1,统计文件中字节出现的次数,作为权值 2,创建节点和哈夫曼树 3,得到每个子节点01串 4,使用哈夫曼编码表示每个字节
JDK1.5 Cyclicbarrier实例 bijian1013 java thread java多线程 Cyclicbarrier
CyclicBarrier类一个同步辅助类，它允许一组线程互相等待，直到到达某个公共屏障点 (common barrier point)。在涉及一组固定大小的线程的程序中，这些线程必须不时地互相等待，此时 CyclicBarrier 很有用。因为该 barrier 在释放等待线程后可以重用，所以称它为循环的 barrier。 CyclicBarrier支持一个可选的 Runnable 命令，
九项重要的职业规划 bijian1013 工作学习
一. 学习的步伐不停止古人说，活到老，学到老。终身学习应该是您的座右铭。世界在不断变化，每个人都在寻找各自的事业途径。您只有保证了足够的技能储
【Java范型四】范型方法 bit1129 java
范型参数不仅仅可以用于类型的声明上，例如 package com.tom.lang.generics; import java.util.List; public class Generics<T> { private T value; public Generics(T value) { this.value =
【Hadoop十三】HDFS Java API基本操作 bit1129 hadoop
package com.examples.hadoop; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FSDataInputStream; import org.apache.hadoop.fs.FileStatus; import org.apache.hadoo
ua实现split字符串分隔 ronin47 lua split
LUA并不象其它许多"大而全"的语言那样，包括很多功能，比如网络通讯、图形界面等。但是LUA可以很容易地被扩展：由宿主语言(通常是C或 C++)提供这些功能，LUA可以使用它们，就像是本来就内置的功能一样。LUA只包括一个精简的核心和最基本的库。这使得LUA体积小、启动速度快，从而适合嵌入在别的程序里。因此在lua中并没有其他语言那样多的系统函数。习惯了其他语言的字符串分割函
java-从先序遍历和中序遍历重建二叉树 bylijinnan java
public class BuildTreePreOrderInOrder { /** * Build Binary Tree from PreOrder and InOrder * _______7______ / \ __10__ ___2 / \ / 4
openfire开发指南《连接和登陆》开窍的石头 openfire 开发指南 smack
第一步官网下载smack.jar包下载地址：http://www.igniterealtime.org/downloads/index.jsp#smack 第二步把smack里边的jar导入你新建的java项目中开始编写smack连接openfire代码 p
[移动通讯]手机后盖应该按需要能够随时开启 comsci 移动
看到新的手机，很多由金属材质做的外壳，内存和闪存容量越来越大，CPU速度越来越快，对于这些改进，我们非常高兴，也非常欢迎但是，对于手机的新设计，有几点我们也要注意第一：手机的后盖应该能够被用户自行取下来，手机的电池的可更换性应该是必须保留的设计,
20款国外知名的php开源cms系统 cuiyadll cms
内容管理系统，简称CMS，是一种简易的发布和管理新闻的程序。用户可以在后端管理系统中发布，编辑和删除文章，即使您不需要懂得HTML和其他脚本语言，这就是CMS的优点。在这里我决定介绍20款目前国外市面上最流行的开源的PHP内容管理系统，以便没有PHP知识的读者也可以通过国外内容管理系统建立自己的网站。 1. Wordpress WordPress的是一个功能强大且易于使用的内容管
Java生成全局唯一标识符 darrenzhu java uuid unique identifier id
How to generate a globally unique identifier in Java http://stackoverflow.com/questions/21536572/generate-unique-id-in-java-to-label-groups-of-related-entries-in-a-log http://stackoverflow
php安装模块检测是否已安装过, 使用的SQL语句 dcj3sjt126com sql
SHOW [FULL] TABLES [FROM db_name] [LIKE 'pattern'] SHOW TABLES列举了给定数据库中的非TEMPORARY表。您也可以使用mysqlshow db_name命令得到此清单。本命令也列举数据库中的其它视图。支持FULL修改符，这样SHOW FULL TABLES就可以显示第二个输出列。对于一个表，第二列的值为BASE T
5天学会一种 web 开发框架 dcj3sjt126com Web 框架 framework
web framework层出不穷，特别是ruby/python,各有10+个,php/java也是一大堆根据我自己的经验写了一个to do list,按照这个清单，一条一条的学习，事半功倍，很快就能掌握一共25条，即便很磨蹭，2小时也能搞定一条，25*2=50。只需要50小时就能掌握任意一种web框架各类web框架大同小异:现代web开发框架的6大元素，把握主线，就不会迷路建议把本文
Gson使用三(Map集合的处理,一对多处理) eksliang json gson Gson map Gson 集合处理
转载请出自出处：http://eksliang.iteye.com/blog/2175532 一、概述 Map保存的是键值对的形式，Json的格式也是键值对的，所以正常情况下，map跟json之间的转换应当是理所当然的事情。二、Map参考实例 package com.ickes.json; import java.lang.refl
cordova实现“再点击一次退出”效果 gundumw100 android
基本的写法如下： document.addEventListener("deviceready", onDeviceReady, false); function onDeviceReady() { //navigator.splashscreen.hide(); document.addEventListener("b
openldap configuration leaning note iwindyforest configuration
hostname // to display the computer name hostname <changed name> // to change go to: /etc/sysconfig/network, add/modify HOSTNAME=NEWNAME to change permenately dont forget to change /etc/hosts
Nullability and Objective-C 啸笑天 Objective-C
https://developer.apple.com/swift/blog/?id=25 http://www.cocoachina.com/ios/20150601/11989.html http://blog.csdn.net/zhangao0086/article/details/44409913 http://blog.sunnyxx
jsp中实现参数隐藏的两种方法 macroli JavaScript jsp
在一个JSP页面有一个链接，//确定是一个链接?点击弹出一个页面，需要传给这个页面一些参数。//正常的方法是设置弹出页面的src="***.do?p1=aaa&p2=bbb&p3=ccc"//确定目标URL是Action来处理?但是这样会在页面上看到传过来的参数，可能会不安全。要求实现src="***.do"，参数通过其他方法传！//////
Bootstrap A标签关闭modal并打开新的链接解决方案 qiaolevip 每天进步一点点学习永无止境 bootstrap 纵观千象
Bootstrap里面的js modal控件使用起来很方便，关闭也很简单。只需添加标签 data-dismiss="modal" 即可。可是偏偏有时候需要a标签既要关闭modal，有要打开新的链接，尝试多种方法未果。只好使用原始js来控制。 <a href="#/group-buy" class="btn bt
二维数组在Java和C中的区别流淚的芥末 java c 二维数组数组
Java代码： public class test03 { public static void main(String[] args) { int[][] a = {{1},{2,3},{4,5,6}}; System.out.println(a[0][1]); } } 运行结果： Exception in thread "mai
systemctl命令用法 wmlJava linux systemctl
对比表，以 apache / httpd 为例任务旧指令新指令使某服务自动启动 chkconfig --level 3 httpd on systemctl enable httpd.service 使某服务不自动启动 chkconfig --level 3 httpd off systemctl disable httpd.service 检查服务状态 service h

Andrew Ng机器学习入门学习笔记（六）之支持向量机（SVM）

一.支持向量机的引入

二.SVM的决策边界

三.核函数(Kernels)

四.SVM实现

你可能感兴趣的:(机器学习,模式识别)