常用分类算法总结

分类任务就是明确对象属于哪个预定义的目标类。其中预定义的目标类是离散时为分类,连续时为回归。

常用的分类算法有决策树分类法,基于规则的分类算法,神经网络,支持向量机和朴素贝叶斯分类法。

下面主要介绍各个算法的一些特点

(一)决策树

(1)决策树归纳是一种构建分类模型的非参数方法。换句话说,它不要求任何先验假设,不假定类和其他的属性服从一定的概率分布。

(2)找到最佳的决策树是NP问题。许多决策苏算法采取启发式的方法指导对假设空间的搜索。

(3)即使训练集很大,构建决策树的代价也较小。

(4)决策树相对容易解释。

(5)决策树算法对于噪声的干扰具有相当好的鲁棒性。

(7)冗余属性不会对决策树的准确率造成不利的影响。

(8)由于大多数的决策树算法都采用自顶向下的递归划分方法,因此沿着树向下,记录会越来越小。在叶节点,记录可能更少,对于叶节点代表的类,不能做出具有统计意义的判决,产生所谓的数据碎片。

(9)子树可能在决策树中重复多次,使得决策树过于复杂,并且更难解释。

(二)基于规则的分类算法

(1)规则集的表达能力几乎等价于决策树,因为决策树可以用互斥和穷觉的规则集表示。基于规则的分类器和决策树分类器都对属性空间进行直线划分,并将类指派到每个划分。

(2)基于规则的分类器通常用来产生更易于解释的描述性模型,而模型的性能却可与决策树分类器相媲美。

(3)被很多基于规则的分类器(如RIPPER)所采用的基于类的规则排序方法非常适用于处理类分布不均衡的数据集。

(三)最近邻分类器

(1)最近邻分类器是一种基于实例的学习技术,它使用具体的训练实例进行预测,而不必维护源自数据的抽象。

(2)最近邻分类器是一种消极学习方法,它不需要建立模型,然而测试样例的开销很大,因为需要逐个计算测试样例和训练样例之间的相似度。相反,积极学习方法通过花费大量计算资源来建立模型,模型一旦建立,分类测试样例就会非常快。

(3)最近邻分类器对噪声非常敏感。因为,最近邻分类器基于局部信息进行预测,而决策树和基于规则的分类器则是在拟合在整个输入空间上的全局模型。

(4)最近邻分类器的可以生成任意形状的决策边界,这样的决策边界与决策树和基于规则的分类器通常局限的直线决策边界相比,能够提供更加灵活的模型表示。

(5)除非采用适当的邻近性度量和数据预处理,否则最近邻分类可能做出错误的预测。

(四)朴素贝叶斯分类器

(1)面对孤立的噪声点,朴素贝叶斯分类器是健壮的。因为在从数据中估计条件概率时,这些点被平均。通过在建模和分类时忽略样例,朴素贝叶斯分类器也可以处理属性值遗漏问题。

(2)面对无关属性,该分类器是健壮的。

(3)相关属性可能会降低朴素贝叶斯分类器的性能。

(五)贝叶斯信念网络(BBN)

(1)BBN提供了一种用图形模型来捕获特定领域的先验知识的方法。

(2)构造网络可能既费时又费力,然而,一旦网络结构确定下来,添加新变量就十分容易。

(3)贝叶斯网络很适合处理不完整的数据。对有属性遗漏的实例可以通过对该属性的所有可能取值的概率求和或求积分来加以处理。

(4)因为数据和先验知识以概率的方式结合起来了,所以该方法对模型的过分拟合问题是非常鲁棒的。

(六)人工网络

(1)至少含有一个隐藏层的多层神经网络是一种普适近似,即可以用来近似任何目标函数。

(2)ANN可以处理冗余特征,因为权值在训练过程中自动学习。

(3)神经网络对训练数据中的噪声非常敏感。

(4)ANN权值学习使用的梯度下降方法经常会收敛到局部极小值。避免局部极小值的方法是在权值更新公式中加上一个动量项。

(5)训练ANN是一个很耗时的过程,特别是当隐藏结点数量很大时。然而,测试样例分类时非常快

(七)支持向量机的特征(SVM)

(1)SVM学习问题可以表示为凸优化问题,因此可以利用已知的有效算法发现目标函数的全局最小值。而其他的分类方法都采用一种基于贪心学习的策略来搜索假设空间,这种方法一般只能获得局部最优解。

(2)SVM通过最大化决策边界边缘来控制模型能力。

(3)通过对数据中每个分类属性引入一个哑变量,SVM可以应用于分类数据。


参考:数据挖掘导论



你可能感兴趣的:(分类算法,数据挖掘)