基于支持向量机的文本分类算法研究(一) —— 支持向量机及核函数背景(stitp项目)

1 前言

  • 上世纪90年代,Vapnik率先提出了用于分类的支持向量机方法(也称支持向量分类算法),接下的几年中,又提出了用于回归的支持向量机方法(也称支持向量回归算法)。支持向量机(SVM)是在统计学习理论基础上提出的一种新的机器学习方法,它采用结构风险最小化原则,根据有限样本信息,在模型的学习能力和复杂性之间寻求最佳折衷,以获得最佳的推广能力。而无论是支持向量分类算法还是支持向量回归法均是建立在统计学习理论基础之上的,遵循结构风险最小化原则,根据有限样本信息,在模型的复杂性和学习能力之间寻求最佳折中,以期获得最好泛化性能的新的机器学习方法,它在解决小样本问题、非线性问题、高维问题上有着良好的表现,它有效地克服了机器学习中的过学习和欠学习问题,使其学习精度高,且学习结果具备良好的泛化能力和良好的鲁棒性。自其诞生之后,由于其坚实的理论基础,给机器学习领域带来了新的活力和动力,因而倍受人们关注并被广泛地应用于多种领域。
  • SVM的核心思想是通过引入核函数,将在输入空间线性不可分样本,映射到高维特征空间,达到线性可分或者近似线性可分。由于其具有极强的模型推广能力,不会陷入局部极小点,以及很强的非线性处理能力等特点,已成为模式识别中最为活跃的研究领域之一。
  • 但是,SVM在也存在一些局限性。比如:SVM的性能很大程度上依赖于核函数的选择。但没有很好的方法指导针对具体问题的核函数的选择,而参数选取的好坏将直接影响着分类器泛化性能好坏。本文对支持向量机核函数与参数的选择进行比较分析,最后进行总结。

2 支持向量机核函数

  • 支持向量机的理论基础(凸二次规划)决定了它最终求得的为全局最优值而不是局部最优值,也保证了它对未知样本的良好泛化能力。支持向量机是建立在统计学习理论基础之上的新一代机器学习算法,支持向量机的优势主要体现在解决线性不可分问题,它通过引入核函数,巧妙地解决了在高维空间中的内积运算,从而很好地解决了非线性分类问题。
  • 构造出一个具有良好性能的SVM,核函数的选择是关键.核函数的选择包括两部分工作:一是核函数类型的选择,二是确定核函数类型后相关参数的选择。

你可能感兴趣的:(stitp项目)