数据挖掘–从大量数据中寻找其规律的技术,是统计学、数据库技术和人工智能技术的综合。
数据挖掘是从数据中自动地抽取模式、关联、变化、异常和有意义的结构;
数据挖掘大部分的价值在于利用数据挖掘技术改善预测模型。
数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。
按企业既定业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证已知的规律性,并进一步将其模型化的先进有效的方法。数据挖掘是从海量数据中提取隐含在其中的有用信息和知识的过程。它可以帮助企业对数据进行微观、中观乃至宏观的统计、分析、综合和推理,从而利用已有数据预测未来,帮助企业赢得竞争优势。
数据挖掘是一个交叉学科邻域,受多个学科影响,包括数据库系统、统计学、机器学习、可视化和信息科学。
技术分类:
数据挖掘技术:
描述性数据汇总技术可以用来识别数据的典型性质,突显哪些数据值应当视为噪声或离群点。(更好的理解数据)
主要内容:
现实世界的数据一般是不完整的、有噪声的和不一致的。
数据清理的任务:
操作:
数据集成合并多个数据源中的数据,存放在一个一致的数据库中。
源数据可能包括多个数据库,数据立方体或一般文件。
数据变换将数据转换或统一成适合于挖掘的形式。
数据归约技术可以用来得到数据集的归约表示,它小得多,但仍接近保持原数据的完整性。
对归约后的数据集挖掘将更有效,并产生相同(或几乎相同)的结果。
数据归约策略:
一个关联规则的例子:70%购买了牛奶的顾客将倾向于同时购买面包。
发现这样的关联规则可以为市场预测、决策和策划等方面提供依据。
设 I = {i1, i2, … ,im}是由m个不同项目构成的集合
Apriori算法通过多次扫描数据集,找出(通过迭代来穷举出)所有频繁集,然后用这些频繁集产生强关联规则。
FP-growth算法在扫描两遍数据集之后,利用一棵频繁模式树(FP-tree)来表示频繁集,进而再确定相应的强关联规则。
1、建立分类模型:描述数据中的类
2、使用模型进行分类:将未知类标识的数据分类
评估模型的预测准确率
如果模型的预测准确率可以接受,就可用模型对未知类标识的数据对象进行分类
指导:训练数据(度量、观察)带有类标识,即训练数据集中的每个数据对象所属的类已知
有指导的学习:分类
无指导的学习:聚类(训练数据的类标识未知;对给定的一组观察数据或度量数据,识别数据中存在的类或簇)
预测:
用预测法预测类标号为分类,用预测法预测连续值为预测
在树的每个节点上,选择具有最高信息增益(或最大熵压缩)的属性作为测试属性(该属性使得对划分结果中的样本分类所需的信息量最小)
对某个样本分类所需的期望信息为:
根据值域为{a1,a2,…,av}的属性A划分得到的子集的熵为:
使用属性A划分数据产生的信息增益(熵的期望压缩)为:
过拟合:
避免过拟合的两个方法:
可伸缩性:以合理的速度分类包含百万条记录和几百个属性的数据集
可伸缩的判定树算法:SLIQ、SPRINT、RainForest
分为5类:
算法:
优点:
计算复杂度较小,快速高效
缺点:
仅适用于可以计算均值的数据,无法处理分类类型的数据
需要指定簇的数目k
对噪音与孤立点敏感
仅适于发现大小相近的球形簇
三种算法:PAM、CLARA、CLARANS
根据数据之间的距离,透过一种层次架构方式,反复将数据进行聚合,创建一个层次以分解给定的数据集。常用于一维数据的自动分组。
分为两类:凝聚的和分裂的层次聚类
绝大多数层次聚类方法属于凝聚的层次聚类
优点:不需要预先制定聚类数,对于距离度量标准的选择并不敏感,可以发现类的层次关系
缺点:效率低,可伸缩性较差,已做的处理不能被撤销
改进:与其他的聚类技术进行集成。(BIRCH、CURE、CHAMELEON)
将簇看作是数据空间中被低密度区域分隔开的高密度对象区域
几种算法:DBSCAN、OPTICS、DENCLUE、CLIQUE
优点:聚类速度快,对噪声点不敏感,能发现任意形状的簇,不需要输入要划分的聚类个数,聚类簇的形状没有偏倚
缺点:数据量大时,需要较大的内存和计算时间,对两个参数的设置敏感,算法效果依赖距离公式选择
三种算法:STING、WaveCluster、CLIQUE
优点:速度快
缺点:参数敏感、无法处理不规则分布的数据
三类方法:
优点:对”类“的划分不那么”坚硬“,而是以概率形式表现,每一类的特征也可以用参数来表达
缺点:执行效率不高