1.数据挖掘

1.1 数据挖掘的定义与应用

什么是数据挖掘,目前数据挖掘的定义仍然有着不同的理解,绝大部分人公认的定义是:从数据中获取知识。

数据挖掘利用了来自如下领域的思想:

(1)来自统计学的抽样、估计和假设检验。

(2)人工智能、模式识别和机器学习的搜索算法、建模分析和学习理论。

1.2 数据挖掘的第一个里程碑

1.C4.5算法

分类问题算法,C4.5的目标是通过学习,找到1个从属性值到类别值得映射关系,并且这个映射

能用于对新的未知类别进行分类。

C4.5算法核心是ID3,只是做了以下改进:

(1).用信息增益率来选择属性 (2)在构建决策树中剪枝 

(3)能够完成对连续属性的离散化处理 (4)能够对不完整数据进行处理

2.K-Means算法

是一种聚类算法,试图找到数据中自然聚类中心。

3.Support Vector Machines(SVM支持向量机)

应用于分类与回归分析中,将向量映射到一个更高的维度空间中,在这个空间建立一个最大间隔的超平面

4.The Apriori Algorithm(Apriori 算法)

Apriori算法是一种最具有影响力的挖掘布尔关联规则频繁项集的算法。在这里,所有支持度大于最小支持度的项集都称为频繁项集。

5.最大期望(EM)算法

最大期望(Expectation-Maximization,EX)算法是在概率模型中寻找参数最大似然估计的算法。

6.AdaBoost 增强型算法

是一种迭代算法,其核心思想就是针对同一个训练集训练成不同的分类器,然后把这些弱分类器集合起来,构成一个更强的最终分类器。

你可能感兴趣的:(1.数据挖掘)