土肥宅娘口三三

SVM学习笔记-核函数与非线性SVM

SVM 学习笔记第三篇

SVM学习笔记-线性支撑向量机
SVM学习笔记-对偶形式的SVM
SVM学习笔记-核函数与非线性SVM
SVM学习笔记-软间隔SVM

Kernel Support Vector Machine

1 - 核技术

1.1 - 回顾

上次讲到了 SVM 的对偶形式，这个对偶问题也是二次规划问题。所以可以使用二次规划的方法来解决。之所以要使用 SVM 的对偶形式，是因为它告诉了我们 SVM 背后的一些几何意义，例如，对偶的 SVM 问题的解中 αn≥0 所对应的那些点 (zn,yn) 就是我们想要找的支撑向量。另一方面，这个对偶问题在求解的时候好像几乎和我们所在的空间的维度没有关系，（经过复杂的特征转化之后的 Z 空间的维度 d~ 一般来说是很大的）。但是实际上我们上一篇中讲到其实是有关系的，隐藏在了我们使用二次规划时求解矩阵 Q 的过程中。我们今天的目标是要得到一个能用特征转换还确实和 Z 空间的维度没有关系的 SVM 。即，我们的目标是要找一个不依赖于 d~ 的 SVM 算法。

1.2 - 对偶的SVM

m i n α s u b j e c t t o 1 2 α T Q D α - 1 T α y T α = 0; α n \geq 0, f o r n = 1, 2, \dots, N (26) (27) (28)

该问题从变量的数量 N 和约束的数量 N+1 来看是和 d~ 没有关系的，但是 qn,m=ynymzTnzm 是要在 d~ 空间中做內积，即需要做长度为 d~ 的两个向量 z 的內积运算。所以在这里如果 d~ 很大的话，那么这将是我们求解 SVM 的一个瓶颈。

问题出在：我们要在 Z 空间中做內积。
这可以分为两个步骤：

将 x 做转换到 z 空间， z=Φ(x) ；
再在 z 空间中做內积。

我们的想法是：如果我们可以将这两个步骤合为一个的话，可能会算的快些。

1.3 - 二次转换下快速计算內积

我们首先看一个简单的例子，我们想要通过这个例子来看看，先进行转换再进行內积这样的步骤可不可以通过某些操作简化一点。二次多项式转换：

Φ 2 (x 1, x 2, \dots, x d) = (1, x 1, x 2, \dots, x d, x 21, x 1 x 2, \dots . x 1 x d, x 2 x 1, x 22, \dots, x 2 x d, \dots, x 2 d)

这样原来在 X 空间中的一个样本的特征 (x1,x2,x3) 经过以上的二次转换就变为了如下在 Z 空间的向量 (1,x1,x2,x3,x1x1,x1x2,x1x3,x2x1,x2x2,x2x3,x3x1,x3x2,x3x3)

考虑两个向量 x,x′ ，首先我们计算这两个向量经过特征转换之后的內积：

Φ 2 (x) T Φ 2 (x') = 1 + \sum i = 1 d x i x' i + \sum i = 1 N \sum j = 1 N x i x j x' i x' j = 1 + \sum i = 1 d x i x' i + \sum i = 1 N x i x' i \sum j = 1 N x j x' j = 1 + x T x' + (x T x') (x T x') (56) (57) (58)

既然这样，那么对于上述问题我们就可以先在 X 空间算內积，然后加 1 再加內积的平方就可以得到先做特征转化在做內积的结果。前者的复杂度为 O(d) ，后者的复杂度为 O(d2)

1.4 - 核函数

通过以上的操作我们完成了原来需要两步（先转换到 Z 空间，再在 Z 空间中做內积）才能得到的结果。即通过一个函数 KΦ ，作用于 X 空间中向量的內积就可以得到将 x 通过转换 Φ 在 Z 空间中得到的向量然后做內积的结果。

K Φ (x, x') = Φ (x) T Φ (x'), 或 者 表 示 为 ： K Φ (x T x') = Φ (x) T Φ (x') 更 贴 合 以 上 的 描 述

我们把这样的函数称为是核函数, 直观上理解，核函数就是将我们原来要做的两步：特征转化+高维空间中內积，合并为了一步：直接在低维空间中计算我们想要的结果。例如在刚刚的那个例子中我们得到的核函数为：

Φ 2 : K Φ 2 (x, x') = 1 + (x T x') + (x T x') 2

有了核函数的定义之后，我们看看对于原来的对偶形式的 SVM 来说有什么用呢？

计算二次项的系数 Q ，可以看到 q 是一个 Z 空间中的內积： qn,m=ynymzTnzm=ynymK(xn,xm)
计算 b ：选一个 αs>0 的 SV ： $b = y s - w T z s = y s - (\sum S V α n y n z n) z s = y s - \sum S V α n y n (z n z s) = y s - \sum S V α n y n K (x n, x s)$
对于一个测试样本 x ，计算 SVM 的分类结果：
$g S V M (x) = s i g n (w T Φ (x) + b) = s i g n (\sum S V α n y n z n Φ (x) + b) = s i g n (\sum S V α n y n K (x n, x) + b)$

这样我们所有需要在 Z 空间中的內积运算都被核函数取代了。也就是说，到这里我就真正的实现了在上一篇中想要实现的目标： SVM 和 d~ 无关了。

1.5 - 带有核函数的硬间隔支撑向量机算法

Kernel Hard-Margin SVM Algorithm(Kernel SVM)

计算二次规划的中的二次项系数： qn,m=ynymK(xn,xm)
使用二次规划程序进行求解： α⟵QP(QD,p,A,c)
找到一个支撑向量 (xs,ys) 计算偏置值： b=ys−∑SV αnynK(xn,xs)
得到支撑向量机，对新的样本 x 进行分类： gSVM(x)=sign(∑SV αnynK(xn,x)+b)

所以我们就得到了 Kernel SVM ，就是将原来 Dual SVM 中所有涉及到 Z 空间內积的运算都使用 Kernel 函数，这样就和 d~ 没有关系了。

2 - 多项式核(Polynomial Kernel)

2.1 - 二次转换的核函数

上一小节使用了一个特殊的二次多项式转化导出了一个核函数。

二次项转化	对应的核函数
Φ2(x)=(1,x1,x2,⋯,xd,x21,⋯,x2d)	K(x,x′)=1+xTx′+(xTx′)2
Φ2(x)=(1,2–√x1,2–√x2,⋯,2–√xd,x21,⋯,x2d)	K(x,x′)=(1+xTx′)2
Φ2(x)=(1,2γ−−√x1,2γ−−√x2,⋯,2γ−−√xd,γx21,⋯,γx2d)	K(x,x′)=(1+γxTx′)2

K(x,x′)=(1+γxTx′)2 是更为常用的形式，也更容易延伸到高次多项式，即将原始的內积做 γ 的放缩之后加 1 的平方。那么 K(x,x′)=1+xTx′+(xTx′)2 和 K(x,x′)=(1+γxTx′)2 有什么区别呢？相同的是它们都对应到了一个相同维度的空间；不同的是它们定义了不一样的內积运算，不同的內积代表不同的距离计算方法。不同的距离会影响到 margin ，所以使用不同的转换，尽管是转换到了相同的空间中，可能也会得到不同的边界。通常我们会将 K(x,x′)=(1+γxTx′)2 直接称为 K2 。

2.2 - 使用不同的核函数

可以看到分隔超平面不同，虽然都是二次曲线。并且支撑向量也不同。所以换核函数，就是换几何定义，这样 margin 的定义就会换掉。所以可能会得到不一样的结果。所以我们要仔细的对很函数做选择。就像我们以前仔细的对特征转换做选择，但是现在特征转换的部分包含在核函数中，所以我们要仔细的对核函数做选择。

2.3 - 多项式核(General Polynomial Kernel)

基于二次 Kernel 出发，我们可以延伸出更一般的核函数：

K2(x,x′)=(ζ+γxTx′)2 withγ>0,ζ≥0 K 2 ( x , x ′ ) = ( ζ + γ x T x ′ ) 2 w i t h γ > 0 , ζ ≥ 0

K3(x,x′)=(ζ+γxTx′)3 withγ>0,ζ≥0 K 3 ( x , x ′ ) = ( ζ + γ x T x ′ ) 3 w i t h γ > 0 , ζ ≥ 0

⋯ ⋯

KQ(x,x′)=(ζ+γxTx′)Q withγ>0,ζ≥0 K Q ( x , x ′ ) = ( ζ + γ x T x ′ ) Q w i t h γ > 0 , ζ ≥ 0

SVM 加上多项式核就得到了多项式 SVM 。现在我们就可以很容易的使用高次的转换，例如只是需要将 Q 设置为 10 ，并且设置 γ,ζ 的取值。就可以得到一个 10 次的特征转化下 SVM 的结果。如果没有 Kernel trick ，我们首先要将特征展成 10 次空间中的特征，很多的计算量，很大的维度。另一个可能会考虑到的问题是，如果运用 10 次的特征转换会不会出现 overfitting ，有可能，但是 SVM 本身的 large margin 的特征会自动的帮助我们控制下复杂度。如下图是一个 10 次的 Kernel 做出的分界线，也就是 10 次的特征转换的结果：

Linear Kernel：K1(x,x′)=(0+1⋅xTx′)1 ，也就是不做任何的转化，这个时候可能没有必要使用 Dual SVM ，直接使用原始的 SVM 求解就好。

如果线性的支撑向量机已经可以做的很好了，那么我们就没有必要再使用非线性的 SVM ，或者没有必要使用对偶形式的 SVM ；如果线性的效果不是很好，再使用对偶形式的 SVM ，然后挑选合适的核函数。这应该是我们考虑使用 SVM 的最佳步骤。

3 - 高斯核Gaussian Kernel

3.1 - 做无限维的特征转换

上一节介绍了多项式核Polynomial Kernel。
现在我们设想一下，因为利用核函数我们可以“假装”做 Z 空间的特征转换和內积，我们是不是可以做无限多维的特征转化呢？
在没有 kernel 之前，如果我们有这个想法，那么我们就要把 Z 空间中的所有的特征都算出来，但是这是无穷维度的，是算不完的，更不要说还得求內积了。但是现在因为有了 Kernel trick ， Kernel trick 可以代替特征的转换和內积运算，所以我们现在可以尝试考虑了。

考虑一个特别的例子：原始的样本只有一个维度，另外考虑一个特别的函数如下：
K(x,x′)=exp(−(x−x′)2)
我们想要得到的结果是 K(x,x′) 其实是 x,x′ 分别转换后的內积，即 K(x,x′)=Φ(x)Φ(x′) ，并且这个转换是 无限维的。

K (x, x') = e x p (- (x - x') 2) = e x p (- x 2 + 2 x x' - 2 x' 2) = e x p (- x 2) e x p (- x' 2) e x p (2 x x') = e x p (- x 2) e x p (- x' 2) \sum i = 0 \infty ( 2 x x ' ) i i ! = \sum i = 0 \infty e x p (- x 2) e x p (- (x') 2) 2 i i ! - - - \sqrt 2 i i ! - - - \sqrt x i (x') i = \sum i = 0 \infty (e x p (- x 2) 2 i i ! - - - \sqrt x i) (e x p (- (x') 2) 2 i i ! - - - \sqrt (x') i) = Φ (x) Φ (x') (66) (67) (68) (69) (70) (71) (72)

（第三行到第四行的推到使用了泰勒公式。）
我们可以得到：

Φ (x) = e x p (- x 2) (1, 2 1 ! - - \sqrt x, 2 2 2 ! - - - \sqrt x 2 . \dots)

也就是说

Φ(x) Φ ( x ) 是

x x 的一个无限多维的特征转换。而

K(x,x′) K ( x , x ′ ) 计算了经过这个无限多维的转换之后的两个样本的內积。

到这里我们证明了，高斯函数中隐藏了一个无限维度的转换。也就说两个向量（这里我们推到的是一维的） x 和 x′ 的 K(x,x′) 运算 (K(x,x′)=exp(−(x−x′)2)) 的结果就是这两个向量分别做一个无限维度的转换 Φ 之后再做內积的结果。

这样我们就可以把我们的特征映射到无限维。映射的方法是 Φ(x)=exp(−x2)(1, 21!−−√x, 222!−−√x2.⋯) ，而在无限维中內积计算的方法就是 K(x,x′)=exp(−(x−x′)2) 。

更一般的情形，高斯核函数如下：

K (x, x') = e x p (- γ | | x - x' | | 2) w i t h γ > 0

使用高斯核得到的 SVM 的分隔超平面如下：

g S V M (x) = s i g n (\sum S V α n y n e x p (- γ | | x - x n | | 2) + b)

得到的分隔超平面是中心在

Support Vector S u p p o r t V e c t o r 上的高斯函数的线性组合。所以高斯核也被称为

Radial Basis Function (RBF) Kernel R a d i a l B a s i s F u n c t i o n ( R B F ) K e r n e l 。

3.2 - 高斯核的表现

使用不同的高斯核 (γ) 的结果：

可以看到如果参数选择的不好的话，也有可能会 overfit ，虽然有 large margin 的保证。所以我们也需要认真的选择参数 γ 。通常不建议使用太大的 γ ，事实上，当设置太大的 γ 的时候， Kernel(x,x′)=|[x=x′]| ，因为当 x=x′ 的时候， Kernel(x,x′)=1 和 γ 没有关系；当 x≠x′ 的时候， Kernel(x,x′)=0 。这样就好像这个分类器只是记住了每一个样本的特征。

4 - 核函数的选择Comparison of Kernels

现在简要记录下各个 Kernal 的优劣势，以便以后做选择的时候参考。

4.1 - 线性核：Linear Kernel

K 1 (x, x') = (0 + 1 x T x')

我们称之为线性核。实际上就是不做任何的转换。即

K(x,x′)=xTx′2 K ( x , x ′ ) = x T x ′ 2 ，可以使用

Dual SVM D u a l S V M ，或者是

primal SVM p r i m a l S V M 来求解。

优势：

简单，安全，应该是做 SVM 首先要尝试的方法。
不使用对偶问题，所以不用计算 Q 矩阵。
可解释性， w 会告诉你每一个特征的权重。

劣势：

如果数据不是线性可分的，那么不可以使用。

4.2 - 多项式核：Polynomial Kernel

K (x, x') = (γ + ζ x T x') Q

优势

比起线性的 SVM 来说限制更少，线性的 SVM 做不了的事情，说不定通过一个二次转换，三次转换，十次转换就可以做的很好。
通过参数 Q 可以带入主观的对于数据的先验的认识。

劣势

当参数 Q 很大，即你想要做很复杂的特征转换，这个时候会出现计算上的问题：
- |γ+ζxTx′|<1:K⟶0
- |γ+ζxTx′|>1:K⟶big
有太多的参数需要指定 (γ,ζ,Q) 。

通常用于比较小的 Q 。如果需要的转换特别的低次的时候，例如说需要二次的转换或者是三次的转换，其实可以直接对 Z 空间进行展开，然后在使用 Linear SVM 来解原始问题通常是更好的（也就是说不解 Dual SVM ），尤其是在 d~ 不是很大的情况下。

4.3 - 高斯核：Gaussian Kernel

K (x, x') = e x p (- γ | | x - x' | | 2)

优势

能够应付非常复杂的数据，做出非常复杂的边界。
只需要确定一个参数 γ 。

劣势

可解释性差。
算 QD 矩阵要花费大量的气力。
参数选择失败的话会 overfit 。

4.4 - 其他的核

可以说 kernel 代表的是 x 和 x′ 转换之后在 Z 空间的相似性。

一个函数可以称之为核的必要条件是：

对称性。
矩阵 K 要是半正定的，其中的每一个元素是 kij=K(xi,xj) 。

这两个条件其实不仅仅是必要条件，也是充分条件。所以一个函数如果是核函数的话，就需要满足以上的两个条件，这两个条件也被称为是 Mercer′s condition 。

5 - 小结

本篇介绍了 Kernel SVM ，首先提出了核技巧，将我们原来需要两步（先特征转换，再计算內积）才能做完的事情利用核函数可以简单的完成。然后介绍了多项式核和高斯核，其中高斯函数中包含了一个无限维的特征转换。最后对不同的 Kernel 做出了比较。线性的 SVM 有比较高的效率，高斯的 SVM 可以找到比较复杂的边界线应对比较复杂的数据。
之前我们考虑的是要将数据绝对正确的分类（在转换之后的 Z 空间也要是线性可分的）。这样可能会造成一定的问题，比如说可能会去过拟合那些噪声。之后我们将讨论怎么解决这些问题。

支持向量机SVM 李昊哲小课 sklearn 人工智能机器学习支持向量机算法机器学习 sklearn 人工智能数据挖掘
支持向量机SVM一、支持向量机算法支持向量机（SupportVectorMachine，SVM）是一种用于分类和回归分析的机器学习算法。分类场景举例（更容易理解）假设现在有一个二维平面上散落着一些点，这些点分为两类，一类是红色的圆形点，另一类是蓝色的方形点。我们的任务就是找到一条直线，能够把这两类点尽可能准确地分开。支持向量机算法做的事情就和这个类似。算法核心思想它不是随便找一条能分开两类数据的直
高斯混合模型（GMM）中的协方差矩阵类型与聚类形状关系详解码字的字节机器学习机器学习人工智能高斯混合模型 GMM
高斯混合模型（GMM）简介高斯混合模型（GaussianMixtureModel,GMM）是概率统计与机器学习交叉领域的重要模型，其核心思想是通过多个高斯分布的线性组合来描述复杂数据分布。与单一高斯分布不同，GMM能够捕捉数据中的多模态特性，这使得它在处理真实世界非均匀分布数据时展现出独特优势。从数学形式上看，一个包含K个分量的GMM可表示为：其中(\pi_k)是第k个高斯分量的混合系数（满足(\
机器学习初学者理论初解 Mikhail_G 机器学习人工智能
大家好!为什么手机相册能自动识别人脸？为什么购物网站总能推荐你喜欢的商品？这些“智能”背后，都藏着一位隐形高手——机器学习（MachineLearning）。一、什么是机器学习？简单说，机器学习是教计算机从数据中自己找规律的技术。就像教孩子认猫：不是直接告诉他“猫有尖耳朵和胡须”，而是给他看100张猫狗照片，让他自己总结出猫的特征。传统程序vs机器学习传统程序：输入规则+数据→输出结果（例：按“温
Embedding与向量数据库玖月初玖大模型应用开发基础人工智能 embedding 数据库
1.Embedding是什么EmbeddingModel是一种机器学习模型，它的核心任务是将离散的、高维的符号（如单词、句子、图片、用户、商品等）转换成连续的、低维的向量（称为“嵌入”或“向量表示”），并且这个向量能有效地捕捉原始符号的语义、关系或特征。1.1通俗理解EmbeddingModel是让计算机“理解”世界的核心工具，把“文字、图片、音频”等信息变成一串有意义的数字我们称之为“向量”。类
2023年第10期(NeuroImage)：DomainATM：多中心医学图像数据标准化工具箱影浮科技ImageFlow
基本信息1.标题：DomainATM:Domainadaptationtoolboxformedicaldataanalysis.2.期刊：NeuroImage3.IF/JCR/分区：7.4/Q1/中科院一区4.DOI：10.1016/j.neuroimage.2023.119863目录1、导读2、背景动机3、研究目的4、工具箱介绍5、测试试验6、局限不足1导读域适应（DA）是基于机器学习的现代医
在NLP深层语义分析中，深度学习和机器学习的区别与联系
在自然语言处理（NLP）的深层语义分析任务中，深度学习与机器学习的区别和联系主要体现在以下方面：一、核心区别特征提取方式机器学习：依赖人工设计特征（如词频、句法规则、TF-IDF等），需要领域专家对文本进行结构化处理。例如，传统情感分析需人工定义“情感词库”或通过词性标注提取关键成分。深度学习：通过神经网络自动学习多层次特征。例如，BERT等模型可从原始文本中捕获词向量、句法关系甚至篇章级语义，无
迁移学习：知识复用的智能迁移引擎 | 从理论到实践的跨域赋能范式大千AI助手人工智能 Python #OTHER 迁移学习人工智能机器学习算法神经网络大模型迁移
让AI像人类一样“举一反三”的通用学习框架本文由「大千AI助手」原创发布，专注用真话讲AI，回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我，一起撕掉过度包装，学习真实的AI技术！一、核心定义与基本概念迁移学习（TransferLearning）是一种机器学习范式，其核心思想是：将源领域（SourceDomain）学到的知识迁移到目标领域（TargetDomain），以提升目标任务的性能
AI原生应用中的用户画像构建：从理论到实践全解析
AI原生应用中的用户画像构建：从理论到实践全解析关键词：用户画像、AI原生应用、特征工程、机器学习、个性化推荐、数据隐私、模型优化摘要：本文全面解析AI原生应用中用户画像构建的全过程，从基础概念到核心技术，再到实际应用和未来趋势。我们将用通俗易懂的方式讲解用户画像如何像"数字身份证"一样工作，深入探讨特征提取、模型构建等关键技术，并通过实际案例展示用户画像在推荐系统、精准营销等场景中的应用。文章还
Python爬虫【四十五章】爬虫攻防战：异步并发+AI反爬识别的技术解密程序员_CLUB Python入门到进阶 python 爬虫人工智能
目录引言：当爬虫工程师遇上AI反爬官一、异步并发基础设施层1.1混合调度框架设计1.2智能连接池管理二、机器学习反爬识别层2.1特征工程体系2.2轻量级在线推理三、智能决策系统3.1动态策略引擎3.2实时对抗案例四、性能优化实战4.1全链路压测数据4.2典型故障处理案例五、总结：构建智能化的爬虫生态系统Python爬虫相关文章（推荐）引言：当爬虫工程师遇上AI反爬官在大数据采集领域，我们正经历着技
万字长文，解读大模型技术原理（非常详细）零基础入门到精通，收藏这一篇就够了
大模型是指具有大规模参数和复杂计算结构的机器学习模型。本文从大模型的发展历程出发，对大模型领域的各个技术细节进行详细解读，供大家在了解大模型基本知识的过程中起到一定参考作用。一、大模型的定义大语言模型作为一个被验证可行的方向，其“大”体现在训练数据集广，模型参数和层数大，计算量大，其价值体现在通用性上，并且有更好的泛化能力。这些模型通常由深度神经网络构建而成，拥有数十亿甚至数千亿个参数。大模型的设
TensorFlow为AI人工智能航空航天领域带来变革 AI原生应用开发人工智能 tensorflow python ai
TensorFlow为AI人工智能航空航天领域带来变革关键词：TensorFlow、人工智能、航空航天、机器学习、深度学习、神经网络、自主系统摘要：本文探讨了TensorFlow这一强大的机器学习框架如何推动航空航天领域的创新。我们将从基础概念入手，逐步深入分析TensorFlow在航天器导航、卫星图像处理、飞行器自主决策等关键应用场景中的实现原理。通过实际代码示例和架构图解，展示TensorFl
多语言文本分类在AI应用中的实践 AI原生应用开发人工智能分类数据挖掘 ai
多语言文本分类在AI应用中的实践关键词：多语言文本分类、自然语言处理、机器学习、深度学习、BERT、迁移学习、跨语言模型摘要：本文深入探讨多语言文本分类在AI领域的应用实践。我们将从基础概念出发，逐步讲解其核心原理、技术架构和实现方法，并通过实际案例展示如何构建一个高效的多语言文本分类系统。文章将涵盖从传统机器学习方法到最先进的深度学习技术，特别关注跨语言迁移学习在实际业务场景中的应用。背景介绍目
从零开始构建AI原生应用的认知架构 AI原生应用开发 AI-native 架构 ai
从零开始构建AI原生应用的认知架构关键词：AI原生应用、认知架构、机器学习、知识图谱、神经网络、智能决策、系统设计摘要：本文深入探讨如何从零开始构建AI原生应用的认知架构。我们将从基本概念出发，逐步解析认知架构的核心组件，包括知识表示、推理机制和学习能力等。通过生动的比喻和实际代码示例，帮助读者理解如何设计一个能够模拟人类认知过程的AI系统。文章还将介绍当前最先进的认知架构模型，并展望未来发展趋势
Deep Multi-scale Convolutional Neural Network for Dynamic Scene Deblurring 论文阅读钟屿论文阅读计算机视觉人工智能
用于动态场景去模糊的深度多尺度卷积神经网络摘要针对一般动态场景的非均匀盲去模糊是一个具有挑战性的计算机视觉问题，因为模糊不仅来源于多个物体运动，还来源于相机抖动和场景深度变化。为了去除这些复杂的运动模糊，传统的基于能量优化的方法依赖于简单的假设，例如模糊核是部分均匀或局部线性的。此外，最近的基于机器学习的方法也依赖于在这些假设下生成的合成模糊数据集。这使得传统的去模糊方法在模糊核难以近似或参数化的
基于Paillier同态加密算法的金融数据安全共享机制研究【附数据】
金融数据分析与建模专家金融科研助手|论文指导|模型构建✨专业领域：金融数据处理与分析量化交易策略研究金融风险建模投资组合优化金融预测模型开发深度学习在金融中的应用擅长工具：Python/R/MATLAB量化分析机器学习模型构建金融时间序列分析蒙特卡洛模拟风险度量模型金融论文指导内容：金融数据挖掘与处理量化策略开发与回测投资组合构建与优化金融风险评估模型期刊论文✅具体问题可以私信或查看文章底部二维码
吴恩达机器学习cs229-学习笔记-更新中是娜个二叉树！机器学习学习笔记
吴恩达机器学习cs22901基础概念语言：Matlab/python监督学习定义：获取一组数据集拟合数据从X到Y的映射回归问题：预测的Y是连续的，Y是实数分类问题：分类指的是Y取离散值，输出是离散的两组，正示例和负示例，把所有样本推到这条直线上，用0，1，标识逻辑回归算法，拟合直线区分正，负示例处理相对大量特征的回归算法或者分类算法支持向量机算法：它使用的不是1,2,3,10个输入特征，而是使用无
「日拱一码」033 机器学习——严格划分胖达不服输「日拱一码」机器学习人工智能严格划分组划分
目录简单随机划分（train_test_split）分组划分（GroupSplitting）简单分组划分(GroupSplitting)分层分组划分(StratifiedGroupSplitting)交叉验证法（Cross-Validation）分组K折交叉验证（GroupKFold）留一组法（LeaveOneGroupOut）简单随机划分（train_test_split）简单随机分组通过随机分
从零开始：搭建你的人工智能开发环境人工智能教程人工智能 YOLO 机器学习 transformer 线性回归动态规划排序算法
前言在人工智能和机器学习的旅程中，一个稳定且高效的开发环境是成功的关键第一步。无论是初学者还是经验丰富的开发者，一个配置良好的开发环境都能大大提高工作效率，减少遇到的问题。本文将从零开始，逐步指导你如何搭建一个完整的人工智能开发环境，包括操作系统选择、Python安装、常用库的配置以及开发工具的选择。一、选择合适的操作系统（一）主流操作系统介绍在搭建人工智能开发环境时，首先需要选择一个合适的操作系
基于机器学习的加密货币资金费率预测与套利策略云梦量化科技 python
一、资金费率机制解析永续合约的资金费率是加密货币衍生品市场独有的机制，旨在使永续合约价格锚定现货价格。资金费率每8小时结算一次，结算时多空双方互相支付资金费用：费率为正时，多头支付给空头；费率为负时，空头支付给多头。此机制既促使永续合约价格回归现货价格，也反映市场多空情绪。某安永续合约资金费率计算公式通常为：资金费率 F = 平均溢价指数 P + Clamp(综合利率 I − 溢价指数 P, +0
机器人-组成结构-感知 - 决策 - 执行具身智能-查布嘎具身智能机器人人工智能
目录一、感知系统内部传感器：外部传感器：二、智能决策系统机器学习家族1.1机器学习2.1深度学习2.2深度学习模型(主要属于监督/强化学习范畴，但结构通用)：3.1监督学习3.2监督学习模型4.1半监督学习4.2无/半监督学习模型：5.1无监督学习5.2生成模型(可属于监督/无监督)：6.1强化学习7.1其他学习三、控制系统（运控）①对应小脑和脊柱一、感知系统①对应人体的五官。由具有不同功能的各种
机器学习入门（五）：线性回归—从模型函数到目标函数米饭超人
从数据反推公式假设我们获得了这样一张表格，上面列举了美国纽约若干程序员职位的年薪：enterimagedescriptionhere大家可以看到，表格中列举了职位、经验、技能、国家和城市几项特征。除了经验一项，其他都是一样的。不同的经验（工作年限），薪水不同。而且看起来，工作年头越多，工资也就越高。那么我们把Experience与Salary抽取出来，用x和y来分别指代它们。enterimaged
Python深度学习实践：LSTM与GRU在序列数据预测中的应用 AI智能应用 Python入门实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
Python深度学习实践：LSTM与GRU在序列数据预测中的应用作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来序列数据预测是机器学习领域的一个重要研究方向，涉及时间序列分析、自然语言处理、语音识别等多个领域。序列数据具有时间依赖性，即序列中每个元素都受到前面元素的影响。传统的机器学习算法难以捕捉这种时间依赖性，而深度学习
一个例子带你入门机器学习
目录1.为建模选择数据2.选择预测目标3.选择“特征”4.构建您的模型（这篇文章将使用经典墨尔本房价数据集作为例子，引导机器学习的流程，数据集为melb_data.csv，请在csdn的下载区自行下载，运行代码时需要将数据集下载在同个目录下）1.为建模选择数据数据集有太多的变量，多到难以理解，甚至无法很好地打印出来。如何将这海量的数据削减为能够理解的内容？我们将首先凭借直觉选择几个变量。后续将介绍
初探机器学习与力学研究的交叉领域 faderbic 机器学习人工智能深度学习
目录关于如何踏入机器学习领域机器学习与力学研究的交叉方向1.使用机器学习加速有限元求解2.结合有限元计算和机器学习预测复杂材料结构与力学性能的关系3.结构健康检测4.疲劳寿命预测总结关于如何踏入机器学习领域因为我本科的专业是力学，所以当我开始关注机器学习领域时，首先考虑的是机器学习和力学的交叉领域。对于很多对人工智能感兴趣的朋友，想加入人工智能的潮流却不知道从何学起，我提供一个思路，我认为将自己学
[NIPST AI]对抗性机器学习攻击和缓解的分类和术语 Anooyman 人工智能网络安全人工智能大语言模型网络安全安全
原文link：https://nvlpubs.nist.gov/nistpubs/ai/NIST.AI.100-2e2025.pdfIntroduction人工智能（AI）系统在过去几年中持续全球扩展。这些系统正在被众多国家开发并广泛部署于各自的经济体系中，人们在生活的许多领域都获得了更多使用AI系统的机会。本报告区分了两大类AI系统：预测型AI（PredictiveAI，PredAI）和生成型A
通俗易懂：什么是决策树？淦暴尼算法 python 决策树算法机器学习
1.引言：决策树就像“选择题”你是否曾经在生活中做过“选择题”？比如：今天要不要带伞？晚饭吃什么？该不该买那件心仪已久的商品？其实，我们的大脑经常会像“决策树”一样，通过一连串问题和判断，逐步缩小选择范围，最终做出决定。**决策树（DecisionTree）**就是这样一种模拟人类决策过程的机器学习模型。它通过“提问-分支-决策”的方式，把复杂问题拆解成一系列简单的判断，广泛应用于分类（如判断邮件
java毕业设计-基于Javaweb的家常小菜烹饪学习管理系统的设计与实现(源码+LW+部署文档+全bao+远程调试+代码讲解等) 程序猿刘 vue spring boot 毕业设计 java 课程设计学习
博主介绍：✌️码农一枚，专注于大学生项目实战开发、讲解和毕业文撰写修改等。全栈领域优质创作者，博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战✌️技术范围：：小程序、SpringBoot、SSM、JSP、Vue、PHP、Java、python、爬虫、数据可视化、大数据、物联网、机器学习等设计与开发。主要内容：免费开题报告、任务书、全bao定制+
java毕业设计源码案例-基于ssm+协同过滤的个性化小说推荐系统设计与实现(源码+LW+部署文档+全bao+远程调试+代码讲解等) 项目帮 springboot java 计算机毕设 java 课程设计开发语言
博主介绍：✌️码农一枚，专注于大学生项目实战开发、讲解和毕业文撰写修改等。全栈领域优质创作者，博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战✌️技术范围：：小程序、SpringBoot、SSM、JSP、Vue、PHP、Java、python、爬虫、数据可视化、大数据、物联网、机器学习等设计与开发。主要内容：免费功能设计，开题报告、任务书、全b
机器学习中的数据预处理：从入门到实践耐思nice～机器学习由浅入深-吴恩达机器学习人工智能
在当今的智能时代，机器学习已经渗透到我们生活的方方面面。比如我们常用的推荐系统，它能根据我们的浏览记录精准推送喜欢的商品或视频，这背后就离不开机器学习的支撑。而一个优秀的机器学习模型，离不开高质量的数据，数据预处理正是保证数据质量的关键环节，它就像烹饪前的食材处理，直接影响着最终“菜品”的口感，也就是模型的性能。今天，我们就来全面学习机器学习中数据预处理的关键步骤。一、数据预处理的重要性数据预处理
计算机专业大数据毕业设计-基于 Spark 的音乐数据分析项目(源码+LW+部署文档+全bao+远程调试+代码讲解等) 程序猿八哥数据可视化计算机毕设 spark 大数据课程设计 spark
博主介绍：✌️码农一枚，专注于大学生项目实战开发、讲解和毕业文撰写修改等。全栈领域优质创作者，博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战✌️技术范围：：小程序、SpringBoot、SSM、JSP、Vue、PHP、Java、python、爬虫、数据可视化、大数据、物联网、机器学习等设计与开发。主要内容：免费功能设计，开题报告、任务书、全b
mongodb3.03开启认证 21jhf mongodb
下载了最新mongodb3.03版本，当使用--auth 参数命令行开启mongodb用户认证时遇到很多问题，现总结如下：（百度上搜到的基本都是老版本的，看到db.addUser的就是，请忽略） Windows下我做了一个bat文件，用来启动mongodb，命令行如下： mongod --dbpath db\data --port 27017 --directoryperdb --logp
【Spark103】Task not serializable bit1129 Serializable
Task not serializable是Spark开发过程最令人头疼的问题之一，这里记录下出现这个问题的两个实例，一个是自己遇到的，另一个是stackoverflow上看到。等有时间了再仔细探究出现Task not serialiazable的各种原因以及出现问题后如何快速定位问题的所在，至少目前阶段碰到此类问题，没有什么章法 1. package spark.exampl
你所熟知的 LRU(最近最少使用) dalan_123 java
关于LRU这个名词在很多地方或听说，或使用，接下来看下lru缓存回收的实现 1、大体的想法 a、查询出最近最晚使用的项 b、给最近的使用的项做标记通过使用链表就可以完成这两个操作，关于最近最少使用的项只需要返回链表的尾部；标记最近使用的项，只需要将该项移除并放置到头部，那么难点就出现你如何能够快速在链表定位对应的该项？这时候多
Javascript 跨域周凡杨 JavaScript jsonp 跨域 cross-domain
linux下安装apache服务器 g21121 apache
安装apache 下载windows版本apache，下载地址：http://httpd.apache.org/download.cgi 1.windows下安装apache Windows下安装apache比较简单，注意选择路径和端口即可，这里就不再赘述了。 2.linux下安装apache：下载之后上传到linux的相关目录，这里指定为/home/apach
FineReport的JS编辑框和URL地址栏语法简介老A不折腾 finereport web报表报表软件语法总结
JS编辑框： 1.FineReport的js。作为一款BS产品，browser端的JavaScript是必不可少的。 FineReport中的js是已经调用了finereport.js的。大家知道，预览报表时，报表servlet会将cpt模板转为html，在这个html的head头部中会引入FineReport的js，这个finereport.js中包含了许多内置的fun
根据STATUS信息对MySQL进行优化墙头上一根草 status
mysql 查看当前正在执行的操作，即正在执行的sql语句的方法为: show processlist 命令 mysql> show global status;可以列出MySQL服务器运行各种状态值，我个人较喜欢的用法是show status like '查询值%';一、慢查询mysql> show variab
我的spring学习笔记7-Spring的Bean配置文件给Bean定义别名 aijuans Spring 3
本文介绍如何给Spring的Bean配置文件的Bean定义别名？原始的 <bean id="business" class="onlyfun.caterpillar.device.Business"> <property name="writer"> <ref b
高性能mysql 之性能剖析 annan211 性能 mysql mysql 性能剖析剖析
1 定义性能优化 mysql服务器性能，此处定义为响应时间。在解释性能优化之前，先来消除一个误解，很多人认为，性能优化就是降低cpu的利用率或者减少对资源的使用。这是一个陷阱。资源时用来消耗并用来工作的，所以有时候消耗更多的资源能够加快查询速度，保持cpu忙绿，这是必要的。很多时候发现编译进了新版本的InnoDB之后，cpu利用率上升的很厉害，这并不
主外键和索引唯一性约束百合不是茶索引唯一性约束主外键约束联机删除
目标;第一步;创建两张表用户表和文章表第二步;发表文章 1,建表; ---用户表 BlogUsers --userID唯一的 --userName --pwd --sex create
线程的调度 bijian1013 java 多线程 thread 线程的调度 java多线程
1. Java提供一个线程调度程序来监控程序中启动后进入可运行状态的所有线程。线程调度程序按照线程的优先级决定应调度哪些线程来执行。 2. 多数线程的调度是抢占式的（即我想中断程序运行就中断，不需要和将被中断的程序协商） a)
查看日志常用命令 bijian1013 linux 命令 unix
一.日志查找方法，可以用通配符查某台主机上的所有服务器grep "关键字" /wls/applogs/custom-*/error.log 二.查看日志常用命令1.grep '关键字' error.log：在error.log中搜索'关键字'2.grep -C10 '关键字' error.log：显示关键字前后10行记录3.grep '关键字' error.l
【持久化框架MyBatis3一】MyBatis版HelloWorld bit1129 helloworld
MyBatis这个系列的文章，主要参考《Java Persistence with MyBatis 3》。样例数据本文以MySQL数据库为例，建立一个STUDENTS表，插入两条数据，然后进行单表的增删改查 CREATE TABLE STUDENTS ( stud_id int(11) NOT NULL AUTO_INCREMENT,
【Hadoop十五】Hadoop Counter bit1129 hadoop
1. 只有Map任务的Map Reduce Job File System Counters FILE: Number of bytes read=3629530 FILE: Number of bytes written=98312 FILE: Number of read operations=0 FILE: Number of lar
解决Tomcat数据连接池无法释放 ronin47 tomcat 连接池　优化
近段时间，公司的检测中心报表系统(SMC)的开发人员时不时找到我，说用户老是出现无法登录的情况。前些日子因为手头上有Jboss集群的测试工作，发现用户不能登录时，都是在Tomcat中将这个项目Reload一下就好了，不过只是治标而已，因为大概几个小时之后又会再次出现无法登录的情况。今天上午，开发人员小毛又找到我，要我协助将这个问题根治一下，拖太久用户难保不投诉。简单分析了一
java-75-二叉树两结点的最低共同父结点 bylijinnan java
import java.util.LinkedList; import java.util.List; import ljn.help.*; public class BTreeLowestParentOfTwoNodes { public static void main(String[] args) { /* * node data is stored in
行业垂直搜索引擎网页抓取项目 carlwu Lucene Nutch Heritrix Solr
公司有一个搜索引擎项目，希望各路高人有空来帮忙指导，谢谢！这是详细需求：（1）通过提供的网站地址(大概100-200个网站)，网页抓取程序能不断抓取网页和其它类型的文件（如Excel、PDF、Word、ppt及zip类型），并且程序能够根据事先提供的规则，过滤掉不相干的下载内容。（2）程序能够搜索这些抓取的内容，并能对这些抓取文件按照油田名进行分类，然后放到服务器不同的目录中。
[通讯与服务]在总带宽资源没有大幅增加之前,不适宜大幅度降低资费 comsci 资源
降低通讯服务资费，就意味着有更多的用户进入，就意味着通讯服务提供商要接待和服务更多的用户，在总体运维成本没有由于技术升级而大幅下降的情况下，这种降低资费的行为将导致每个用户的平均带宽不断下降，而享受到的服务质量也在下降，这对用户和服务商都是不利的。。。。。。。。 &nbs
Java时区转换及时间格式 Cwind java
本文介绍Java API 中 Date, Calendar, TimeZone和DateFormat的使用，以及不同时区时间相互转化的方法和原理。问题描述：向处于不同时区的服务器发请求时需要考虑时区转换的问题。譬如，服务器位于东八区（北京时间，GMT+8:00），而身处东四区的用户想要查询当天的销售记录。则需把东四区的“今天”这个时间范围转换为服务器所在时区的时间范围。
readonly,只读，不可用 dashuaifu js jsp disable readOnly readOnly
readOnly 和 readonly 不同，在做js开发时一定要注意函数大小写和jsp黄线的警告！！！我就经历过这么一件事：使用readOnly在某些浏览器或同一浏览器不同版本有的可以实现“只读”功能，有的就不行，而且函数readOnly有黄线警告！！！就这样被折磨了不短时间！！！（期间使用过disable函数，但是发现disable函数之后后台接收不到前台的的数据！！！）
LABjs、RequireJS、SeaJS 介绍 dcj3sjt126com js Web
LABjs 的核心是 LAB（Loading and Blocking）：Loading 指异步并行加载，Blocking 是指同步等待执行。LABjs 通过优雅的语法（script 和 wait）实现了这两大特性，核心价值是性能优化。LABjs 是一个文件加载器。RequireJS 和 SeaJS 则是模块加载器，倡导的是一种模块化开发理念，核心价值是让 JavaScript 的模块化开发变得更
[应用结构]入口脚本 dcj3sjt126com PHP yii2
入口脚本入口脚本是应用启动流程中的第一环，一个应用（不管是网页应用还是控制台应用）只有一个入口脚本。终端用户的请求通过入口脚本实例化应用并将将请求转发到应用。 Web 应用的入口脚本必须放在终端用户能够访问的目录下，通常命名为 index.php，也可以使用 Web 服务器能定位到的其他名称。控制台应用的入口脚本一般在应用根目录下命名为 yii（后缀为.php），该文
haoop shell命令 eksliang hadoop hadoop shell
cat chgrp chmod chown copyFromLocal copyToLocal cp du dus expunge get getmerge ls lsr mkdir movefromLocal mv put rm rmr setrep stat tail test text
MultiStateView不同的状态下显示不同的界面 gundumw100 android
只要将指定的view放在该控件里面，可以该view在不同的状态下显示不同的界面，这对ListView很有用，比如加载界面，空白界面，错误界面。而且这些见面由你指定布局，非常灵活。 PS：ListView虽然可以设置一个EmptyView，但使用起来不方便，不灵活，有点累赘。 <com.kennyc.view.MultiStateView xmlns:android=&qu
jQuery实现页面内锚点平滑跳转 ini JavaScript html jquery html5 css
平时我们做导航滚动到内容都是通过锚点来做，刷的一下就直接跳到内容了，没有一丝的滚动效果，而且 url 链接最后会有“小尾巴”，就像#keleyi，今天我就介绍一款 jquery 做的滚动的特效，既可以设置滚动速度，又可以在 url 链接上没有“小尾巴”。效果体验：http://keleyi.com/keleyi/phtml/jqtexiao/37.htmHTML文件代码： &
kafka offset迁移 kane_xie kafka
在早前的kafka版本中（0.8.0），offset是被存储在zookeeper中的。到当前版本（0.8.2）为止，kafka同时支持offset存储在zookeeper和offset manager（broker）中。从官方的说明来看，未来offset的zookeeper存储将会被弃用。因此现有的基于kafka的项目如果今后计划保持更新的话，可以考虑在合适
android > 搭建 cordova 环境 mft8899 android
1 , 安装 node.js http://nodejs.org node -v 查看版本 2, 安装 npm 可以先从 https://github.com/isaacs/npm/tags 下载源码解压到
java封装的比较器，比较是否全相同，获取不同字段名字 qifeifei
非常实用的java比较器，贴上代码： import java.util.HashSet; import java.util.List; import java.util.Set; import net.sf.json.JSONArray; import net.sf.json.JSONObject; import net.sf.json.JsonConfig; i
记录一些函数用法 .Aky. 位运算 PHP 数据库函数 IP
高手们照旧忽略。想弄个全天朝IP段数据库，找了个今天最新更新的国内所有运营商IP段，copy到文件，用文件函数，字符串函数把玩下。分割出startIp和endIp这样格式写入.txt文件，直接用phpmyadmin导入.csv文件的形式导入。（生命在于折腾，也许你们觉得我傻X，直接下载人家弄好的导入不就可以，做自己的菜鸟，让别人去说吧）当然用到了ip2long()函数把字符串转为整型数
sublime text 3 rust wudixiaotie Sublime Text
1.sublime text 3 => install package => Rust 2.cd ~/.config/sublime-text-3/Packages 3.mkdir rust 4.git clone https://github.com/sp0/rust-style 5.cd rust-style 6.cargo build --release 7.ctrl