SVM学习每个训练数据点对于表示两个类别之间的决策边界的重要性。通 常只有一部分训练数据点对于定义决策边界来说很重要:位于类别之间边界上的那些点。 这些点叫作支持向量(support vector),支持向量机正是由此得名。想要对新样本点进行预测,需要测量它与每个支持向量之间的距离。分类决策是基于它与 支持向量之间的距离以及在训练过程中学到的支持向量重要性(保存在 SVC 的 dual_coef_ 属性中)来做出的。
数据点之间的距离由高斯核给出: krbf (x1, x2) = exp (-γ‖x1 - x2‖2) 这里 x1 和x2 是数据点,‖x1 - x2‖ 表示欧氏距离,γ是控制高斯核宽度的参数。
from sklearn.svm import SVC
X,y=mglearn.tools.make_handcrafted_dataset()
svm=SVC(kernel="rbf",C=10,gamma=0.1).fit(X,y)
mglearn.plots.plot_2d_separator(svm,X,eps=.5)
mglearn.discrete_scatter(X[:,0],y)
sv=svm.support_vectors_
svlabels=svm.dual_coef_.ravel()>0
mglearn.discrete_scatter(sv[:,0],sv[:,1],sv_abels,s=15,markeredgewidth=3)
plt.xlabel("Feature 0")
plt.ylabel("Feature 1")
gamma 参数是上一节给出的公式中的参数,用于控制高斯核的宽度。它决定了点与点之间 “靠近”是指多大的距离。C 参数是正则化参数,与线性模型中用到的类似。它限制每个点 的重要性(或者更确切地说,每个点的 dual_coef_)
fig, axes = plt.subplots(3, 3, figsize=(15, 10)) 、
for ax, C in zip(axes, [-1, 0, 3]):
for a, gamma in zip(ax, range(-1, 2)):
mglearn.plots.plot_svm(log_C=C, log_gamma=gamma, ax=a)
axes[0, 0].legend(["class 0", "class 1", "sv class 0", "sv class 1"], ncol=4, loc=(.9, 1.2))
参数 gamma 的值从 0.1 增加到 10。gamma 较小,说明高斯核的半径较大, 许多点都被看作比较靠近。左侧的图决策边界非常平滑,越向右 的图决策边界更关注单个点。小的 gamma 值表示决策边界变化很慢,生成的是复杂度较低 的模型,而大的 gamma 值则会生成更为复杂的模型
参数 C 的值从 0.1 增加到 1000。与线性模型相同,C 值很小,说明模型 非常受限,每个数据点的影响范围都有限。决策边界看起来 几乎是线性的,误分类的点对边界几乎没有任何影响。增大 C 之后这些 点对模型的影响变大,使得决策边界发生弯曲来将这些点正确分类。
虽然 SVM 的表现通常都很好,但它对参数的设定和数据的缩放非常敏感。特别地, 它要求所有特征有相似的变化范围。
解决这个问题的一种方法就是对每个特征进行缩放,使其大致都位于同一范围。核 SVM 常用的缩放方法就是将所有特征缩放到0 和 1 之间。
min_on_training = X_train.min(axis=0)
range_on_training = (X_train - min_on_training).max(axis=0)
X_train_scaled = (X_train - min_on_training) / range_on_training