数据挖掘十大算法

1.C4.5算法
用于处理分类问题的算法。它的目标是监督学习:给定一个数据集,其中的每一个元组都能用一组属性值来描述,每一个元组属于一个互斥的类别中的某一类。C4.5的目标是通过学习,找到一个从属性值到类别的映射关系,并且这个映射能用于对新的类别未知的实体进行分类。
源于ID3算法的一种决策树诱导算法。C4.5算法除了能诱导出决策树,还可以将决策树转换成某种具有良好可理解性的规则。
2.k-means
直接聚类算法。给定一个对象(或记录)的集合,所谓聚类(或拆分)就是把这些对象划分为多个组或者“聚簇”,从而使得同组内对象间比较相似而不同组对象间差异比较大。换言之,聚类算法就是要将相似的对象放入同一个聚簇,而将不相似的对象分到不同的具簇中。
聚类通常归于无监督学习任务。在进行有监督学习任务之前,经常需要先利用聚类等无监督学习来探查数据集并挖掘其特性。
k-means算法是一种简单的迭代型聚类算法,它将一个给定的数据集分为用户指定的k个聚簇。
局限性:仅能获得局部最优解。
3.SVM:支持向量机
支持向量机(SVM)是90年代中期发展起来的基于统计学习理论的一种机器学习方法,通过寻求结构化风险最小来提高学习机泛化能力,实现经验风险和置信范围的最小化,从而达到在统计样本量较少的情况下,亦能获得良好统计规律的目的。
通俗来讲,它是一种二类分类模型,其基本模型定义为特征空间上的间隔最大的线性分类器,即支持向量机的学习策略便是间隔最大化,最终可转化为一个凸二次规划问题的求解。
4.Apriori
频繁模式和关联规则挖掘。
数据形式主要局限于市场交易。
5.EM(期望最大化算法)
一种被广泛用于极大似然估计的迭代型计算方法。它对处理大量的数据不完整问题非常有用。
6.PageRank
基于链接的排序算法。
7.AdaBoost
泛化能力刻画了从给定训练数据集中学得的学习器处理未知新数据的能力。
AdaBoost自适应推举算法。
8.kNN-最近邻
kNN方法是指从训练集找出k个最接近测试对象的训练对象,再从这k个训练对象中找出居于主导的类别,将其赋给测试对象。
9.Naive Bayes
朴素贝叶斯,有监督分类
10.CART:分类和回归树

你可能感兴趣的:(数据挖掘十大算法)