机器学习 支持向量机 --简单介绍

前言

我第一次听到“支持向量机”这个名字,我觉得,如果这个名字本身听起来那么复杂,那么这个概念的表述将超出我的理解范围。幸运的是,我看到了一些大学讲座视频,并意识到这个工具是多么简单有效。在本文中,我们将讨论支持向量机如何工作。本文适合那些对此算法知之甚少且对学习新技术有好奇心的读者。在以下文章中,我们将详细探索该技术,并分析这种技术强于其他技术的案例。

什么是分类分析?

让我们考虑一个例子来理解这些概念。我们的人口由50%-50%的男性和女性组成。使用这个群体的一个样本,您想要创建一些规则,这些规则将指导对其余的人口进行性别分类。使用这种算法,我们打算创造一个机器人,可以识别一个人是男性还是女性。这是分类分析的样本问题。使用一些规则,我们将尝试将人口分为两个可能的部分。为简单起见,我们假设确定的两个区别因素是:个体的身高和头发长度。以下是样本的散点图。
机器学习 支持向量机 --简单介绍_第1张图片

图中的蓝色圆圈表示女性,绿色方块表示男性。图中的一些预期见解是:

1、我们人口中的男性平均身高更高。

2、我们人口中的女性头发更长。

如果我们看到一个身高180厘米,头发长度为4厘米的人,我们最好的猜测是将这个人归类为男性。这就是我们进行分类分析的方法。

什么是支持向量,什么是SVM?

支持向量只是个体观测的坐标。例如,(45,150)是对应于女性的支持向量。支持向量机是一个最好的男性与女性隔离的边界。在这种情况下,这两个类很好地相互分离,因此更容易找到SVM。

如何为手头的案例找到支持向量机?

有许多可能的边界可以对手头的问题进行分类。以下是三个可能的边界。

机器学习 支持向量机 --简单介绍_第2张图片

我们如何确定这个特定问题的最佳边界?

在SVM中,解释目标函数的最简单方法是找到边界与最近支持向量的最小距离(这可以属于任何类)。例如,橙色边界最接近蓝色圆圈。最近的蓝色圆圈距离边境2个单位。一旦我们拥有所有边界的这些距离,我们只需选择具有最大距离的边界(距离最近的支持向量)。在显示的三个边界中,我们看到黑色边界距离最近的支撑向量(即15个单位)最远。

如果我们找不到划分类的清晰边界怎么办?

在这个商业案例中,我们的工作相对容易找到SVM。如果分布看起来如下图怎么办?

机器学习 支持向量机 --简单介绍_第3张图片

在这种情况下,我们并没有在当前的平面上直接看到一条直线边界作为SVM。在这种情况下,我们需要将这些向量映射到更高维度的平面,以便它们彼此分离。一旦我们开始使用SVM的公式,就会涉及到这些情况。现在,您可以可视化地看到这样的转换将生成以下类型的SVM。
机器学习 支持向量机 --简单介绍_第4张图片

原始分布中的每个绿色正方形都映射到一个转换的比例上。而变换后的比例有明显的类分离。已经提出了许多算法来进行这些转换,其中一些将在后续文章中讨论。

结束笔记

支持向量机是一种非常强大的分类算法。当与随机森林和其他机器学习工具结合使用时,它们为集成模型提供了一个非常不同的维度。因此,在需要很高预测能力的情况下,它们变得非常重要。由于公式的复杂性,这样的算法难以形象化。您会发现这些算法对于解决Kaggle问题语句非常有用。

你可能感兴趣的:(机器学习)