风度78

【机器学习基础】一文详尽之支持向量机（SVM）算法！

Datawhale干货

作者：小一，Datawhale优秀学习者

寄语：本文介绍了SVM的理论，细致说明了“间隔”和“超平面”两个概念；随后，阐述了如何最大化间隔并区分了软硬间隔SVM；同时，介绍了SVC问题的应用。最后，用SVM乳腺癌诊断经典数据集，对SVM进行了深入的理解。

支持向量机（support vector machines, SVM）是一种二分类模型，它的基本模型是定义在特征空间上的间隔最大的线性分类器，间隔最大使它有别于感知机。

SVM的的学习策略就是间隔最大化，可形式化为一个求解凸二次规划的问题，也等价于正则化的合页损失函数的最小化问题。SVM的的学习算法就是求解凸二次规划的最优化算法。

下图为SVM的分类效果显示，可以发现，不管是线性还是非线性，SVM均表现良好。

学习框架

后台回复 SVM 可下载SVM学习框架高清导图

SVM理论

支持向量机(Support Vector Machine：SVM)的目的是用训练数据集的间隔最大化找到一个最优分离超平面。

下边用一个例子来理解下间隔和分离超平面两个概念。现在有一些人的身高和体重数据，将它们绘制成散点图，是这样的：

如果现在给你一个未知男女的身高和体重，你能分辨出性别吗？直接将已知的点划分为两部分，这个点落在哪一部分就对应相应的性别。那就可以画一条直线，直线以上是男生，直线以下是女生。

问题来了，现在这个是一个二维平面，可以画直线，如果是三维的呢？该怎么画?我们知道一维平面是点，二维平面是线，三维平面是面。

对的，那么注意，今天的第一个概念：超平面是平面的一般化：

在一维的平面中，它是点
在二维的平面中，它是线
在三维的平面中，它是面
在更高的维度中，我们称之为超平面

注意：后面的直线、平面都直接叫超平面了。

继续刚才的问题，我们刚才是通过一个分离超平面分出了男和女，这个超平面唯一吗？很明显，并不唯一，这样的超平面有若干个。

那么问题来了，既然有若干个，那肯定要最好的，这里最好的叫最优分离超平面。如何在众多分离超平面中选择一个最优分离超平面？下面这两个分离超平面，你选哪个？绿色的还是黑色的？

对，当然是黑色的，可是原理是什么？很简单，原理有两个，分别是：

正确的对训练数据进行分类
对未知数据也能很好的分类

黑色的分离超平面能够对训练数据很好的分类，当新增未知数据时，黑色的分离超平面泛化能力也强于绿色。深究一下，为什么黑色的要强于绿色？原理又是什么？

其实很简单：最优分离超平面其实是和两侧样本点有关，而且只和这些点有关。怎么理解这句话呢，我们看张图：

其中当间隔达到最大，两侧样本点的距离相等的超平面为最优分离超平面。注意，今天的第二个概念：对应上图，Margin对应的就是最优分离超平面的间隔，此时的间隔达到最大。

一般来说，间隔中间是无点区域，里面不会有任何点（理想状态下）。给定一个超平面，我们可以就算出这个超平面与和它最接近的数据点之间的距离。那么间隔（Margin）就是二倍的这个距离。

如果还是不理解为什么这个分离超平面就是最优分离超平面，那你在看这张图。

在这张图里面间隔MarginB小于上张图的MarginA。当出现新的未知点，MarginB分离超平面的泛化能力不如MarginA，用MarginB的分离超平面去分类，错误率大于MarginA

总结一下

支持向量机是为了通过间隔最大化找到一个最优分离超平面。在决定分离超平面的时候，只有极限位置的那两个点有用，其他点根本没有大作用，因为只要极限位置离得超平面的距离最大，就是最优的分离超平面了。

如何确定最大化间隔

如果我们能够确定两个平行超平面，那么两个超平面之间的最大距离就是最大化间隔。看个图你就都明白了：

左右两个平行超平面将数据完美的分开，我们只需要计算上述两个平行超平面的距离即可。所以，我们找到最大化间隔：

找到两个平行超平面，可以划分数据集并且两平面之间没有数据点
最大化上述两个超平面

1. 确定两个平行超平面

怎么确定两个平行超平面？我们知道一条直线的数学方程是：y-ax+b=0，而超平面会被定义成类似的形式：

推广到n维空间，则超平面方程中的w、x分别为：

如何确保两超平面之间没有数据点？我们的目的是通过两个平行超平面对数据进行分类，那我们可以这样定义两个超平面。

对于每一个向量xi：满足：

属于类别

或者

属于类别

也就是这张图：所有的红点都是1类，所有的蓝点都是−1类。

整理一下上面的两个超平面：

属于类别

不等式两边同时乘以 yi，-1类的超平面yi=-1，要改变不等式符号，合并后得

ok，记住上面的约束条件。

2. 确定间隔

如何求两个平行超平面的间隔呢？我们可以先做这样一个假设：

是满足约束的超平面
是满足约束的超平面
是上的一点

则到平面的垂直距离就是我们要的间隔。

这个间隔是可以通过计算出来的，推导还需要一些步骤，直接放结果了就：

其中||w||表示w的二范数，求所有元素的平方和，然后在开方。比如，二维平面下：

可以发现，w 的模越小，间隔m 越大

3. 确定目标

我们的间隔最大化，最后就成了这样一个问题：

找到使最小的

了其中w和b，我们的最优分离超平面就确定了，目的也就达到了。

上面的最优超平面问题是一个凸优化问题，可以转换成了拉格朗日的对偶问题，判断是否满足KKT条件，然后求解。上一句话包含的知识是整个SVM的核心，涉及到大量的公式推导。

此处略过推导的步骤，若想了解推导过程可直接百度。你只需要知道它的目的就是为了找出一个最优分离超平面。就假设我们已经解出了最大间隔，找到了最优分离超平面，它是这样的：

除去上面我们对最大间隔的推导计算，剩下的部分其实是不难理解的。从上面过程，我们可以发现，其实最终分类超平面的确定依赖于部分极限位置的样本点，这叫做支持向量。

由于支持向量在确定分离超平面中起着决定性作用，所有将这类模型叫做支持向量机。

我们在上面图中的点都是线性可分的，也就是一条线（或一个超平面）可以很容易的分开的。但是实际情况不都是这样，比如有的女生身高比男生高，有的男生体重比女生都轻，像这种存在噪声点分类，应该怎么处理？

针对样本的SVM

1. 硬间隔线性SVM

上面例子中提到的样本点都是线性可分的，我们就可以通过分类将样本点完全分类准确，不存在分类错误的情况，这种叫硬间隔，这类模型叫做硬间隔线性SVM。

2. 软间隔线性SVM

同样的，可以通过分类将样本点不完全分类准确，存在少部分分类错误的情况，这叫软间隔，这类模型叫做软间隔线性SVM。

不一样的是，因为有分类错误的样本点，但我们仍需要将错误降至最低，所有需要添加一个惩罚项来进行浮动，所有此时求解的最大间隔就变成了这样：

硬间隔和软间隔都是对线性可分的样本点进行分类，那如果样本点本身就不线性可分？举个例子：下面这幅图

样本点并不是线性可分的，这种问题应该怎么处理呢？解决这个问题之前，先看一下这个小短视频：

视频中是将平面中的样本点映射到三维空间中，使用一个平面将样本线性可分。

所以我们需要一种方法，可以将样本从原始空间映射到一个更高纬的空间中，使得样本在新的空间中线性可分，即：核函数。在非线性SVM中，核函数的选择关系到SVM的分类效果。

幸好的是，我们有多种核函数：线性核函数、多项式核函数、高斯核函数、sigmoid核函数等等，甚至你还可以将这些核函数进行组合，以达到最优线性可分的效果

核函数了解到应该就差不多了，具体的实现我们在下一节的实战再说。

多分类SVM

前面提到的所有例子最终都指向了二分类，现实中可不止有二分类，更多的是多分类问题。那么多分类应该怎么分呢？有两种方法：一对多和一对一。

1. 一对多法

一对多法讲究的是将所有的分类分成两类：一类只包含一个分类，另一类包含剩下的所有分类

举个例子：现在有A、B、C、D四种分类，根据一对多法可以这样分：

①：样本A作为正集，B、C、D为负集
②：样本B作为正集，A、C、D为负集
③：样本C作为正集，A、B、D为负集
④：样本D作为正集，A、B、C为负集

该方法分类速度较快，但训练速度较慢，添加新的分类，需要重新构造分类器。

2. 一对一法

一对一法讲究的是从所有分类中只取出两类，一个为正类一个为父类

再举个例子：现在有A、B、C三种分类，根据一对一法可以这样分：

①分类器：样本A、B
②分类器：样本A、C
③分类器：样本B、C

该方法的优点是：当新增一类时，只需要训练与该类相关的分类器即可，训练速度较快。缺点是：当类的种类K很多时，分类器个数K(K-1)/2会很多，训练和测试时间较慢。

SVC，Support Vector Classification

我们知道针对样本有线性SVM和非线性SVM。同样的在sklearn中提供的这两种的实现，分别是：LinearSVC和SVC。

SVC : Support Vector Classification 用支持向量机处理分类问题

SVR : Support Vector Regression 用支持向量机处理回归问题

1. SVC和LinearSVC

LinearSVC是线性分类器，用于处理线性分类的数据，且只能使用线性核函数。SVC是非线性分类器，即可以使用线性核函数进行线性划分，也可以使用高维核函数进行非线性划分。

2. SVM的使用

在sklearn 中，一句话调用SVM，

from sklearn import svm

主要说一下SVC的创建，因为它的参数比较重要

model = svm.SVC(kernel='rbf', C=1.0, gamma=0.001)

分别解释一下三个重要参数：

kernel代表核函数的选择，有四种选择，默认rbf（即高斯核函数）
参数C代表目标函数的惩罚系数，默认情况下为 1.0
参数gamma代表核函数的系数，默认为样本特征数的倒数

其中kernel代表的四种核函数分别是：

linear：线性核函数，在数据线性可分的情况下使用的
poly：多项式核函数，可以将数据从低维空间映射到高维空间
rbf：高斯核函数，同样可以将样本映射到高维空间，但所需的参数较少，通常性能不错
sigmoid：sigmoid核函数，常用在神经网络的映射中

SVM的使用就介绍这么多，来实战测试一下。

经典数据集实战

1. 数据集

SVM的经典数据集：乳腺癌诊断。医疗人员采集了患者乳腺肿块经过细针穿刺 (FNA) 后的数字化图像，并且对这些数字图像进行了特征提取，这些特征可以描述图像中的细胞核呈现。通过这些特征可以将肿瘤分成良性和恶性。

本次数据一共569条、32个字段，先来看一下具体数据字段吧：

其中mean结尾的代表平均值、se结尾的代表标准差、worst结尾代表最坏值（这里具体指肿瘤的特征最大值）。所有其实主要有10个特征字段，一个id字段，一个预测类别字段。我们的目的是通过给出的特征字段来预测肿瘤是良性还是恶性。

2. 数据EDA

EDA:Exploratory Data Analysis探索性数据分析，先来看数据的分布情况：

df_data.info()

一共569条、32个字段。32个字段中1个object类型，一个int型id，剩下的都是float 类型。另外：数据中不存在缺失值。

大胆猜测一下，object类型可能是类别型数据，即最终的预测类型，需要进行处理，先记下。再来看连续型数据的统计数据：

df_data.describe()

好像也没啥问题（其实因为这个数据本身比较规整），可直接开始特征工程吧。

3. 特征工程

首先就是将类别数据连续化

"""2. 类别特征向量化"""
le = preprocessing.LabelEncoder()
le.fit(df_data['diagnosis'])
df_data['diagnosis'] = le.transform(df_data['diagnosis'])

再来观察每一个特征的三个指标：均值、标准差和最大值。优先选择均值，最能体现该指特征的整体情况。

 """3. 提取特征"""
 # 提取所有mean 字段和label字段
df_data_X = df_data.filter(regex='_mean')
df_data_y = df_data['diagnosis']

现在还有十个特征，我们通过热力图来看一下特征之间的关系。

#热力图查看特征之间的关系
sns.heatmap(df_data[df_data_X.columns].corr(), linewidths=0.1, vmax=1.0, square=True,
            cmap=sns.color_palette('RdBu', n_colors=256),
            linecolor='white', annot=True)
plt.title('the feature of corr')
plt.show()

热力图是这样的：

我们发现radius_mean、perimeter_mean和area_mean这三个特征强相关，那我们只保留一个就行了。这里保留热力图里面得分最高的perimeter_mean。

最后一步，因为是连续数值，最好对其进行标准化。标准化之后的数据是这样的：

 df_data_X = df_data_X.drop(['radius_mean', 'area_mean'], axis=1)
"""5. 进行特征归一化/缩放"""
scaler = preprocessing.StandardScaler()
df_data_X = scaler.fit_transform(df_data_X)
return df_data_X, df_data_y

4. 训练模型

上面已经做好了特征工程，直接塞进模型看看效果怎么样。因为并不知道数据样本到底是否线性可分，所有我们都来试一下两种算法。先来看看LinearSVC 的效果

"""1.1. 第一种模型验证方法"""
    # 切分数据集
    X_train, X_test, y_train, y_test = train_test_split(data_X, data_y, test_size=0.2)
    # 创建SVM分类器
    model = svm.LinearSVC()
    # 用训练集做训练
    model.fit(X_train, y_train)
    # 用测试集做预测
    pred_label = model.predict(X_test)
    print('准确率: ', metrics.accuracy_score(pred_label, y_test))

效果很好，简直好的不行，在此，并没有考虑准确率。

ok，还有SVC的效果。因为SVC需要设置参数，直接通过网格搜索让机器自己找到最优参数，效果更好。

"""2. 通过网格搜索寻找最优参数"""
    parameters = {
        'gamma': np.linspace(0.0001, 0.1),
        'kernel': ['linear', 'poly', 'rbf', 'sigmoid'],
    }
    model = svm.SVC()
    grid_model = GridSearchCV(model, parameters, cv=10, return_train_score=True)
    grid_model.fit(X_train, y_train)
    # 用测试集做预测
    pred_label = grid_model.predict(X_test)
    print('准确率: ', metrics.accuracy_score(pred_label, y_test))
    # 输出模型的最优参数
    print(grid_model.best_params_)

可以看出，最终模型还是选择rbf高斯核函数，果然实至名归。主要是通过数据EDA+特征工程完成了数据方面的工作，然后通过交叉验证+网格搜索确定了最优模型和最优参数。

往期精彩回顾




适合初学者入门人工智能的路线及资料下载机器学习及深度学习笔记等资料打印机器学习在线手册深度学习在线手册AI基础下载（pdf更新到25集）本站qq群1003271085，加入微信群请回复“加群”获取一折本站知识星球优惠券，复制链接直接打开：https://t.zsxq.com/yFQV7am喜欢文章，点个在看

C++11堆操作深度解析：std::is_heap与std::is_heap_until原理解析与实践
文章目录堆结构基础与函数接口堆的核心性质函数签名与核心接口std::is_heapstd::is_heap_until实现原理深度剖析std::is_heap的验证逻辑std::is_heap_until的定位策略算法优化细节代码实践与案例分析基础用法演示自定义比较器实现最小堆检查边缘情况处理性能分析与实际应用时间复杂度对比典型应用场景与手动实现的对比注意事项与最佳实践迭代器要求比较器设计C++标
冒泡、选择、插入排序：三大基础排序算法深度解析（C语言实现） xienda 算法排序算法数据结构
在算法学习道路上，排序算法是每位程序员必须掌握的基石。本文将深入解析冒泡排序、选择排序和插入排序这三种基础排序算法，通过C语言代码实现和对比分析，帮助读者彻底理解它们的差异与应用场景。算法原理与代码实现1.冒泡排序（BubbleSort）工作原理：通过重复比较相邻元素，将较大元素逐步"冒泡"到数组末尾。voidbubbleSort(intarr[],intn){ for(inti=0;iarr[
Leetcode 148. 排序链表
文章目录前引题目代码（首刷看题解）代码（8.9二刷部分看解析）代码（9.15三刷部分看解析）前引综合性比较强的一道题，要求时间复杂度必须O(logn)才能通过，最适合链表的排序算法就是归并。这里采用自顶向下的方法步骤：找到链表中点（双指针）对两个子链表排序(递归，直到只有一个结点，记得将子链表最后指向nullptr）归并（引入dummy结点）题目Leetcode148.排序链表代码（首刷看题解）c
全面触摸屏输入法设计与实现长野君
本文还有配套的精品资源，点击获取简介：触摸屏输入法是针对触摸设备优化的文字输入方案，包括虚拟键盘、手写、语音识别和手势等多种输入方式。本方案通过提供主程序文件、用户手册、界面截图、示例图、说明文本和音效文件，旨在为用户提供一个完整的、多样的文字输入体验。开发者通过持续优化算法和用户界面，使用户在无物理键盘环境下也能高效准确地进行文字输入。1.触摸屏输入法概述简介在现代信息技术飞速发展的今天，触摸屏
FPGA小白到项目实战：Verilog+Vivado全流程通关指南（附光学类岗位技能映射）阿牛的药铺算法移植部署 fpga开发 verilog
FPGA小白到项目实战：Verilog+Vivado全流程通关指南（附光学类岗位技能映射）引言：为什么这个FPGA入门路线能帮你快速上岗？本文设计了一条**"Verilog语法→工具链操作→光学项目实战→岗位技能对标"的阶梯式学习路径。不同于泛泛而谈的FPGA教程，我们聚焦光学类产品开发**核心能力（时序接口设计、图像处理算法移植、高速接口应用），通过3个递进式项目（从LED闪烁到图像边缘检测），
PyTorch & TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）阿牛的药铺算法移植部署 pytorch tensorflow fpga开发
PyTorch&TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）引言：为什么算法移植工程师必须掌握框架基础？针对光学类产品算法FPGA移植岗位需求（如可见光/红外图像处理），深度学习框架是算法落地的"桥梁"——既要用PyTorch/TensorFlow验证算法可行性，又要将训练好的模型（如CNN、目标检测）转换为FPGA可部署的格式（ONNX、TFLite）。本文采用"
算法学习笔记：17.蒙特卡洛算法 ——从原理到实战，涵盖 LeetCode 与考研 408 例题
在计算机科学和数学领域，蒙特卡洛算法（MonteCarloAlgorithm）以其独特的随机抽样思想，成为解决复杂问题的有力工具。从圆周率的计算到金融风险评估，从物理模拟到人工智能，蒙特卡洛算法都发挥着不可替代的作用。本文将深入剖析蒙特卡洛算法的思想、解题思路，结合实际应用场景与Java代码实现，并融入考研408的相关考点，穿插图片辅助理解，帮助你全面掌握这一重要算法。蒙特卡洛算法的基本概念蒙特卡
Python之七彩花朵代码实现 PlutoZuo Python python 开发语言
Python之七彩花朵代码实现文章目录Python之七彩花朵代码实现下面是一个简单的使用Python的七彩花朵。这个示例只是一个简单的版本，没有很多高级功能，但它可以作为一个起点，你可以在此基础上添加更多功能。importturtleastuimportrandomasraimportmathtu.setup(1.0,1.0)t=tu.Pen()t.ht()colors=['red','skybl
算法学习笔记：15.二分查找 ——从原理到实战，涵盖 LeetCode 与考研 408 例题呆呆企鹅仔算法学习算法学习笔记考研二分查找
在计算机科学的查找算法中，二分查找以其高效性占据着重要地位。它利用数据的有序性，通过不断缩小查找范围，将原本需要线性时间的查找过程优化为对数时间，成为处理大规模有序数据查找问题的首选算法。二分查找的基本概念二分查找（BinarySearch），又称折半查找，是一种在有序数据集合中查找特定元素的高效算法。其核心原理是：通过不断将查找范围减半，快速定位目标元素。与线性查找逐个遍历元素不同，二分查找依赖
LeetCode算法题：电话号码的字母组合吱屋猪_ 算法 leetcode java
题目描述：给定一个仅包含数字2-9的字符串，返回所有它能表示的字母组合。答案可以按任意顺序返回。给出数字到字母的映射如下（与电话按键相同）。注意1不对应任何字母。2->"abc"3->"def"4->"ghi"5->"jkl"6->"mno"7->"pqrs"8->"tuv"9->"wxyz"例如，给定digits="23"，返回["ad","ae","af","bd","be","bf","cd
霍夫变换（Hough Transform）算法原来详解和纯C++代码实现以及OpenCV中的使用示例点云SLAM 算法图形图像处理算法 opencv 图像处理与计算机视觉算法直线提取检测目标检测霍夫变换算法
霍夫变换（HoughTransform）是一种经典的图像处理与计算机视觉算法，广泛用于检测图像中的几何形状，例如直线、圆、椭圆等。其核心思想是将图像空间中的“点”映射到参数空间中的“曲线”，从而将形状检测问题转化为参数空间中的峰值检测问题。一、霍夫变换基本思想输入：边缘图像（如经过Canny边缘检测）输出：一组满足几何模型的形状（如直线、圆）关键思想：图像空间中的一个点→参数空间中的一个曲线参数空
Shader面试题100道之（81-100）还是大剑师兰特 #Shader 综合教程100+大剑师 shader面试题 shader教程
Shader面试题（第81-100题）以下是第81到第100道Shader相关的面试题及答案：81.Unity中如何实现屏幕空间的热扭曲效果（HeatDistortion）？热扭曲效果可以通过GrabPass抓取当前屏幕图像，然后在片段着色器中使用噪声或动态UV偏移模拟空气扰动，再结合一个透明通道控制扭曲强度来实现。82.Shader中如何实现物体轮廓高亮（OutlineHighlight）？轮廓
Java特性之设计模式【责任链模式】 Naijia_OvO Java特性 java 设计模式责任链模式
一、责任链模式概述顾名思义，责任链模式（ChainofResponsibilityPattern）为请求创建了一个接收者对象的链。这种模式给予请求的类型，对请求的发送者和接收者进行解耦。这种类型的设计模式属于行为型模式在这种模式中，通常每个接收者都包含对另一个接收者的引用。如果一个对象不能处理该请求，那么它会把相同的请求传给下一个接收者，依此类推主要解决：职责链上的处理者负责处理请求，客户只需要将
Kafka系列之：Dead Letter Queue死信队列DLQ 快乐骑行^_^ Kafka Kafka系列 Dead Letter Queue 死信队列 DLQ
Kafka系列之：DeadLetterQueue死信队列DLQ一、死信队列二、参数errors.tolerance三、创建死信队列主题四、在启用安全性的情况下使用死信队列更多内容请阅读博主这篇博客：Kafka系列之：KafkaConnect深入探讨-错误处理和死信队列一、死信队列死信队列（DLQ）仅适用于接收器连接器。当一条记录以JSON格式到达接收器连接器时，但接收器连接器配置期望另一种格式，如
Maya自定义右键菜单样例教程 holy-pills
本文还有配套的精品资源，点击获取简介：本文详细指导如何在Maya中通过脚本节点自定义右键菜单，增强工作效率和个性化工作环境。自定义右键菜单允许用户根据个人习惯调整菜单项，使之更加便捷。文章介绍了创建脚本节点、编写菜单脚本、关联菜单到视图以及保存和加载自定义菜单的具体步骤。同时提供了实际操作样例，帮助用户更好地理解和应用这一技巧。1.Maya自定义右键菜单的重要性Maya，作为三维动画制作的行业标准
Java三年经验程序员技术栈全景指南：从前端到架构，对标阿里美团全栈要求可曾去过倒悬山 java 前端架构
Java三年经验程序员技术栈全景指南：从前端到架构，对标阿里美团全栈要求三年经验是Java程序员的分水岭，技术栈深度决定你成为“业务码农”还是“架构师候选人”。本文整合阿里、美团、滴滴等大厂招聘要求，为你绘制可落地的进阶路线。一、Java核心：从语法糖到JVM底层三年经验与初级的核心差异在于系统级理解，大厂面试常考以下能力：JVM与性能调优内存模型（堆外内存、元空间）、GC算法（G1/ZGC适用场
被动降噪的概念及编程实现 CodeByte 人工智能算法 javascript 编程
被动降噪是指通过编程技术和算法，对输入的数据进行处理，以减少或消除其中的噪声。噪声可以是各种形式的干扰，例如来自传感器、通信信号或其他外部源的干扰。在本文中，我们将探讨被动降噪的意义以及如何使用编程来实现这一目标。被动降噪的意义：噪声对数据的准确性和可靠性产生负面影响。在许多应用领域，例如图像处理、音频处理和信号处理中，噪声的存在可能导致数据质量下降，使得后续的分析和处理变得困难。因此，被动降噪技
传统检测响应慢？陌讯多模态引擎提速90+FPS实战 2501_92473147 算法计算机视觉目标检测
开篇痛点：实时目标检测在安防监控中的核心挑战在安防监控领域，实时目标检测是保障公共安全的关键技术。然而，传统算法如YOLOv5或开源框架MMDetection常面临两大痛点：误报率高（复杂光照或遮挡场景下检测不稳定）和响应延迟（高分辨率视频流处理FPS低于30）。实测数据显示，城市交通监控系统误报率达15%，导致安保资源浪费；客户反馈表明，延迟超100ms时，目标跟踪可能失效。这些问题源于算法泛化
反光衣识别漏检率 30%？陌讯多尺度模型实测优化
在建筑工地、交通指挥等场景中，反光衣是保障作业人员安全的重要装备，对其进行精准识别是智能监控系统的核心功能之一。但传统视觉算法在实际应用中却屡屡碰壁：强光下反光衣易与背景混淆、远距离小目标漏检率高达30%、复杂场景下模型泛化能力不足[实测数据来源：某智慧工地项目2024年Q1日志]。这些问题直接导致安全监控系统预警滞后，给安全生产埋下隐患。一、技术解析：反光衣识别的核心难点与陌讯算法创新反光衣识别
Omics精进03|一文彻底搞明白Germline Mutation和Somatic Mutation qq_21478261 #生物信息生物学生物信息学
胚系突变（GermlineMutation）和体细胞突变（SomaticMutation）在WES、WGS、GenePanel检测时常常遇到，二者最大的区别是胚系突变可以遗传给后代，而体细胞突变不能够遗传给后代。本文将从形成原因、遗传性、功能、发生时期、变异检测几个方面介绍二者的区别。上图，直观理解二者区别形成原因Germlinemutations主要是由于生殖细胞（germcells）突变导致，
【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（Advanced RAG[1]）基于历史对话重新生成Query？ 985小水博一枚呀 AI大模型学习路线人工智能学习 langchain RAG
【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（AdvancedRAG[1]）基于历史对话重新生成Query？【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（AdvancedRAG[1]）基于历史对话重新生成Query？文章目录【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（AdvancedRAG[1]）基于历史对话重新生成Q
【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（Advanced RAG[1]）其他Query优化相关策略？ 985小水博一枚呀 AI大模型学习路线人工智能学习 langchain
【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（AdvancedRAG[1]）其他Query优化相关策略？【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（AdvancedRAG[1]）其他Query优化相关策略？文章目录【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（AdvancedRAG[1]）其他Query优化相关策略？一
【GESP】C++三级真题 luogu-B4359 [GESP202506 三级] 分糖果 CoderCodingNo GESP c++java 开发语言
GESPC++三级，2025年6月真题，模拟算法，难度★★☆☆☆。本次三级题目个人感觉比较简单。题目题解详见：【GESP】C++三级真题luogu-B4359[GESP202506三级]分糖果|OneCoder【GESP】C++三级真题luogu-B4359[GESP202506三级]分糖果|OneCoderGESPC++三级，2025年6月真题，模拟算法，难度★★☆☆☆。本次三级题目个人感觉比较
【华为机试】HJ61 放苹果不爱熬夜的Coder 算法华为机试 golang 华为 golang 算法面试
文章目录HJ61放苹果描述输入描述输出描述示例1示例2解题思路算法分析问题本质分析状态定义与转移递推关系详解动态规划表构建算法流程图示例推导过程代码实现思路时间复杂度分析关键优化点边界情况处理递归解法对比实际应用场景测试用例分析算法特点数学原理完整题解代码HJ61放苹果描述我们需要将m个相同的苹果放入n个相同的盘子中，允许有的盘子空着不放。求解有多少种不同的分法。输入描述输入两个整数m,n(0B[
AI 图像编辑提示词参考之：背景替换
在AI图像编辑中（以FluxKontext为例），“替换背景”（BackgroundReplacement）是提升图像表现力的关键手段之一。但背景更换不仅仅是简单的视觉置换，更重要的是：确保人物主体外观不变，并与新背景在色温、色调、光影等方面自然融合。只有这样，最终图像才会呈现出“原本拍摄于该背景环境”的真实感。建议使用以下结构组织提示词：Replacethebackgroundwith[新背景]
redis集群之Sentinel哨兵高可用会飞的爱迪生 redis redis sentinel bootstrap
Sentinel是官网推荐的高可用（HA）解决方案，可以实现redis的高可用，即主挂了从代替主工作，在一台单独的服务器上运行多个sentinel，去监控其他服务器上的redismaster-slave状态(可以监控多个master-slave)，当发现master宕机后sentinel会在slave中选举并启动新的master。至少需要3台redis才能建立起基于哨兵的reids集群。一、通过s
.NET中的安全性之数字签名、数字证书、强签名程序集、反编译 hezudao25 NET .net assembly 加密算法 reference header
本文将探讨数字签名、数字证书、强签名程序集、反编译等以及它们在.NET中的运用（一些概念并不局限于.NET在其它技术、平台中也存在）。1.数字签名数字签名又称为公钥数字签名，或者电子签章等，它借助公钥加密技术实现。数字签名技术主要涉及公钥、私钥、非对称加密算法。1.1公钥与私钥公钥是公开的钥匙，私钥则是与公钥匹配的严格保护的私有密钥；私钥加密的信息只有公钥可以解开，反之亦然。在VisualStud
AI Agent开发学习系列 - langchain之Chains的使用(7)：用四种处理文档的预制链轻松实现文档对话 alex100 AI Agent 学习人工智能 langchain prompt 语言模型 python
在LangChain中，四种文档处理预制链（stuff、refine、mapreduce、mapre-rank）是实现文档问答、摘要等任务的常用高阶工具。它们的核心作用是：将长文档切分为块，分步处理，再整合结果，极大提升大模型处理长文档的能力。stuff直接拼接所有文档内容到prompt，一次性交给大模型处理。适合文档较短、token不超限的场景。refine递进式摘要。先对第一块文档生成初步答案
Java Web 之 Session 详解艾伦~耶格尔 java 开发语言后端前端 session
在JavaWeb开发中，Session就像网站的专属记忆管家，为每个用户保管着重要的信息和状态，确保用户在网站的旅程顺畅无阻。场景一：想象你去一家大型超市购物，推着购物车挑选商品。这个购物车就如同Session，它记录了你的购物信息，方便你在结账时一次性结算。场景二：你在玩一个在线游戏，登录账号后，你的游戏进度、等级、装备等信息都会被保存在Session中，即使你中途关闭游戏，下次登录时依然可以继
Ajax之核心语法详解 AA-代码批发V哥 Ajax/Axios ajax
Ajax之核心语法详解一、Ajax的核心原理与优势1.1什么是Ajax？1.2Ajax的优势二、XMLHttpRequest：Ajax的核心对象2.1XHR的基本使用流程2.2核心属性与事件解析2.2.1`readyState`：请求状态2.2.2`status`：HTTP状态码2.2.3响应数据属性2.2.4常用事件三、HTTP请求方法与数据传递3.1GET请求：获取数据3.2POST请求：提交
解线性方程组 qiuwanchi
package gaodai.matrix; import java.util.ArrayList; import java.util.List; import java.util.Scanner; public class Test { public static void main(String[] args) { Scanner scanner = new Sc
在mysql内部存储代码 annan211 性能 mysql 存储过程触发器
在mysql内部存储代码在mysql内部存储代码，既有优点也有缺点，而且有人倡导有人反对。先看优点： 1 她在服务器内部执行，离数据最近，另外在服务器上执行还可以节省带宽和网络延迟。 2 这是一种代码重用。可以方便的统一业务规则，保证某些行为的一致性，所以也可以提供一定的安全性。 3 可以简化代码的维护和版本更新。 4 可以帮助提升安全，比如提供更细
Android使用Asynchronous Http Client完成登录保存cookie的问题 hotsunshine android
Asynchronous Http Client是android中非常好的异步请求工具除了异步之外还有很多封装比如json的处理，cookie的处理引用 Persistent Cookie Storage with PersistentCookieStore This library also includes a PersistentCookieStore whi
java面试题 Array_06 java 面试
java面试题第一，谈谈final, finally, finalize的区别。 final-修饰符（关键字）如果一个类被声明为final，意味着它不能再派生出新的子类，不能作为父类被继承。因此一个类不能既被声明为 abstract的，又被声明为final的。将变量或方法声明为final，可以保证它们在使用中不被改变。被声明为final的变量必须在声明时给定初值，而在以后的引用中只能
网站加速 oloz 网站加速
前序:本人菜鸟，此文研究总结来源于互联网上的资料，大牛请勿喷！本人虚心学习，多指教. 1、减小网页体积的大小，尽量采用div+css模式，尽量避免复杂的页面结构，能简约就简约。 2、采用Gzip对网页进行压缩； GZIP最早由Jean-loup Gailly和Mark Adler创建，用于UNⅨ系统的文件压缩。我们在Linux中经常会用到后缀为.gz
正确书写单例模式随意而生 java 设计模式单例
　　单例模式算是设计模式中最容易理解，也是最容易手写代码的模式了吧。但是其中的坑却不少，所以也常作为面试题来考。本文主要对几种单例写法的整理，并分析其优缺点。很多都是一些老生常谈的问题，但如果你不知道如何创建一个线程安全的单例，不知道什么是双检锁，那这篇文章可能会帮助到你。　　懒汉式，线程不安全　　当被问到要实现一个单例模式时，很多人的第一反应是写出如下的代码，包括教科书上也是这样
单例模式香水浓 java
懒汉调用getInstance方法时实例化 public class Singleton { private static Singleton instance; private Singleton() {} public static synchronized Singleton getInstance() { if(null == ins
安装Apache问题：系统找不到指定的文件 No installed service named "Apache2" AdyZhang apache http server
安装Apache问题：系统找不到指定的文件 No installed service named "Apache2" 每次到这一步都很小心防它的端口冲突问题，结果，特意留出来的80端口就是不能用，烦。解决方法确保几处： 1、停止IIS启动 2、把端口80改成其它（譬如90，800，，，什么数字都好） 3、防火墙(关掉试试) 在运行处输入 cmd 回车，转到apa
如何在android 文件选择器中选择多个图片或者视频？ aijuans android
我的android app有这样的需求，在进行照片和视频上传的时候，需要一次性的从照片/视频库选择多条进行上传但是android原生态的sdk中，只能一个一个的进行选择和上传。我想知道是否有其他的android上传库可以解决这个问题，提供一个多选的功能，可以使checkbox之类的，一次选择多个处理方法官方的图片选择器(但是不支持所有版本的androi，只支持API Level
mysql中查询生日提醒的日期相关的sql baalwolf mysql
SELECT sysid,user_name,birthday,listid,userhead_50,CONCAT(YEAR(CURDATE()),DATE_FORMAT(birthday,'-%m-%d')),CURDATE(), dayofyear( CONCAT(YEAR(CURDATE()),DATE_FORMAT(birthday,'-%m-%d')))-dayofyear(
MongoDB索引文件破坏后导致查询错误的问题 BigBird2012 mongodb
问题描述： MongoDB在非正常情况下关闭时，可能会导致索引文件破坏，造成数据在更新时没有反映到索引上。解决方案：使用脚本，重建MongoDB所有表的索引。 var names = db.getCollectionNames(); for( var i in names ){ var name = names[i]; print(name);
Javascript Promise bijian1013 JavaScript Promise
Parse JavaScript SDK现在提供了支持大多数异步方法的兼容jquery的Promises模式，那么这意味着什么呢，读完下文你就了解了。一.认识Promises “Promises”代表着在javascript程序里下一个伟大的范式，但是理解他们为什么如此伟大不是件简
[Zookeeper学习笔记九]Zookeeper源代码分析之Zookeeper构造过程 bit1129 zookeeper
Zookeeper重载了几个构造函数，其中构造者可以提供参数最多，可定制性最多的构造函数是 public ZooKeeper(String connectString, int sessionTimeout, Watcher watcher, long sessionId, byte[] sessionPasswd, boolea
【Java命令三】jstack bit1129 jstack
jstack是用于获得当前运行的Java程序所有的线程的运行情况(thread dump），不同于jmap用于获得memory dump [hadoop@hadoop sbin]$ jstack Usage: jstack [-l] <pid> (to connect to running process) jstack -F
jboss 5.1启停脚本　动静分离部署 ronin47
以前启动jboss，往各种xml配置文件，现只要运行一句脚本即可。start nohup sh /**/run.sh -c servicename -b ip -g clustername -u broatcast jboss.messaging.ServerPeerID=int -Djboss.service.binding.set=p
UI之如何打磨设计能力? brotherlamp UI ui教程 ui自学 ui资料 ui视频
在越来越拥挤的初创企业世界里，视觉设计的重要性往往可以与杀手级用户体验比肩。在许多情况下，尤其对于 Web 初创企业而言，这两者都是不可或缺的。前不久我们在《右脑革命：别学编程了，学艺术吧》中也曾发出过重视设计的呼吁。如何才能提高初创企业的设计能力呢?以下是 9 位创始人的体会。 1.找到自己的方式如果你是设计师，要想提高技能可以去设计博客和展示好设计的网站如D-lists或
三色旗算法 bylijinnan java 算法
import java.util.Arrays; /** 问题：假设有一条绳子，上面有红、白、蓝三种颜色的旗子，起初绳子上的旗子颜色并没有顺序，您希望将之分类，并排列为蓝、白、红的顺序，要如何移动次数才会最少，注意您只能在绳子上进行这个动作，而且一次只能调换两个旗子。网上的解法大多类似：在一条绳子上移动，在程式中也就意味只能使用一个阵列，而不使用其它的阵列来
警告:No configuration found for the specified action: \'s chiangfai configuration
1.index.jsp页面form标签未指定namespace属性。  <%@taglib prefix="s" uri="/struts-tags"%> ... <s:form action="submit" method="post"&g
redis -- hash_max_zipmap_entries设置过大有问题 chenchao051 redis hash
使用redis时为了使用hash追求更高的内存使用率，我们一般都用hash结构，并且有时候会把hash_max_zipmap_entries这个值设置的很大，很多资料也推荐设置到1000，默认设置为了512，但是这里有个坑 #define ZIPMAP_BIGLEN 254 #define ZIPMAP_END 255 /* Return th
select into outfile access deny问题 daizj mysql txt 导出数据到文件
本文转自：http://hatemysql.com/2010/06/29/select-into-outfile-access-deny%E9%97%AE%E9%A2%98/ 为应用建立了rnd的帐号，专门为他们查询线上数据库用的，当然，只有他们上了生产网络以后才能连上数据库，安全方面我们还是很注意的，呵呵。授权的语句如下： grant select on armory.* to rn
phpexcel导出excel表简单入门示例 dcj3sjt126com PHP Excel phpexcel
<?php error_reporting(E_ALL); ini_set('display_errors', TRUE); ini_set('display_startup_errors', TRUE); if (PHP_SAPI == 'cli') die('This example should only be run from a Web Brows
美国电影超短200句 dcj3sjt126com 电影
1. I see．我明白了。2. I quit! 我不干了!3. Let go! 放手!4. Me too．我也是。5. My god! 天哪!6. No way! 不行!7. Come on．来吧(赶快)8. Hold on．等一等。9. I agree。我同意。10. Not bad．还不错。11. Not yet．还没。12. See you．再见。13. Shut up!
Java访问远程服务 dyy_gusi httpclient webservice get post
随着webService的崛起，我们开始中会越来越多的使用到访问远程webService服务。当然对于不同的webService框架一般都有自己的client包供使用，但是如果使用webService框架自己的client包，那么必然需要在自己的代码中引入它的包，如果同时调运了多个不同框架的webService，那么就需要同时引入多个不同的clien
Maven的settings.xml配置 geeksun settings.xml
settings.xml是Maven的配置文件，下面解释一下其中的配置含义： settings.xml存在于两个地方： 1.安装的地方：$M2_HOME/conf/settings.xml 2.用户的目录：${user.home}/.m2/settings.xml 前者又被叫做全局配置，后者被称为用户配置。如果两者都存在，它们的内容将被合并，并且用户范围的settings.xml优先。
ubuntu的init与系统服务设置 hongtoushizi ubuntu
转载自： http://iysm.net/?p=178 init Init是位于/sbin/init的一个程序，它是在linux下，在系统启动过程中，初始化所有的设备驱动程序和数据结构等之后，由内核启动的一个用户级程序，并由此init程序进而完成系统的启动过程。 ubuntu与传统的linux略有不同，使用upstart完成系统的启动，但表面上仍维持init程序的形式。运行
跟我学Nginx+Lua开发目录贴 jinnianshilongnian nginx lua
使用Nginx+Lua开发近一年的时间，学习和实践了一些Nginx+Lua开发的架构，为了让更多人使用Nginx+Lua架构开发，利用春节期间总结了一份基本的学习教程，希望对大家有用。也欢迎谈探讨学习一些经验。目录第一章安装Nginx+Lua开发环境第二章 Nginx+Lua开发入门第三章 Redis/SSDB+Twemproxy安装与使用第四章 L
php位运算符注意事项 home198979 位运算 PHP &
$a = $b = $c = 0; $a & $b = 1; $b | $c = 1 问a,b,c最终为多少? 当看到这题时，我犯了一个低级错误，误以为位运算符会改变变量的值。所以得出结果是1 1 0 但是位运算符是不会改变变量的值的，例如： $a=1;$b=2; $a&$b; 这样a,b的值不会有任何改变
Linux shell数组建立和使用技巧 pda158 linux
1.数组定义　　[chengmo@centos5 ~]$ a=(1 2 3 4 5) 　　[chengmo@centos5 ~]$ echo $a 　　1 　　一对括号表示是数组，数组元素用“空格”符号分割开。　　 2.数组读取与赋值　　得到长度：　　[chengmo@centos5 ~]$ echo ${#a[@]} 　　5 　　用${#数组名[@或
hotspot源码(JDK7) ol_beta java HotSpot jvm
源码结构图，方便理解： ├─agent Serviceab
Oracle基本事务和ForAll执行批量DML练习 vipbooks oracle sql
基本事务的使用：从账户一的余额中转100到账户二的余额中去，如果账户二不存在或账户一中的余额不足100则整笔交易回滚 select * from account; -- 创建一张账户表 create table account( -- 账户ID id number(3) not null, -- 账户名称 nam

【机器学习基础】一文详尽之支持向量机（SVM）算法！

学习框架

SVM理论

如何确定最大化间隔

如果我们能够确定两个平行超平面，那么两个超平面之间的最大距离就是最大化间隔。看个图你就都明白了：

2. 确定间隔

如何求两个平行超平面的间隔呢？我们可以先做这样一个假设：

3. 确定目标

我们的间隔最大化，最后就成了这样一个问题：

针对样本的SVM

多分类SVM

前面提到的所有例子最终都指向了二分类，现实中可不止有二分类，更多的是多分类问题。那么多分类应该怎么分呢？有两种方法：一对多和一对一。

1. 一对多法

2. 一对一法

SVC，Support Vector Classification

1. SVC和LinearSVC

2. SVM的使用

经典数据集实战

1. 数据集

2. 数据EDA

EDA:Exploratory Data Analysis探索性数据分析，先来看数据的分布情况：

4. 训练模型

你可能感兴趣的:(【机器学习基础】一文详尽之支持向量机（SVM）算法！)