随着IT技术的不断深入企业的日常管理,我们逐步进入了经常听到的大数据时代,不仅有着
* 客户关系管理系统
* 前端系统
* 后端系统
* 财务系统
* …等等
伴随着这些系统,每天都有着大量的数据产生,而这些数据是有价值的,如何充分利用起这些数据,就是我们往下要探讨的数据挖掘了。
数据挖掘的基本任务包括利用分类与预测、聚类分析、关联规则、时序模型、偏差检测、只能推荐等方法,帮助我们提取数据中蕴含的商业价值,提高企业竞争力。
在进行数据挖掘之前,我们首先要明确自己本次挖掘的目标是什么?系统完成后能达到怎样的效果?要想充分发挥数据挖掘的价值,必须针对目标进行一个清晰明确的定义,说白了,就是你首先要知道自己到底想干什么!
在明确了需要进行数据挖掘的目标后,接下来就是要去搜集数据,数据都没有的话,还谈什么挖掘。数据抽取的标准,一是相关性,二是可靠性,三是有效性,而不是一上来就把所有数据都调用出来,通过对数据样本的精选,不仅能减少不必要的数据处理量,节省系统资源,还可以使我们想寻找的规律性更加凸显出来。
对所抽取的样本数据进行探索、审核何必要的加工处理,是保证最终的挖掘模型的质量所必需的。可以说,挖掘模型的质量不会超过抽取样本的质量,数据探索和预处理的目的是为了保证样本数据的质量,从而保证模型质量。
数据探索主要包括:
- 异常值分析
- 缺失值分析
- 相关分析
- 周期分析
- …等等(具体见第三章
)
就是常说的数据清洗,为后面的挖掘建模提供高质量的数据支持。
数据预处理主要包括
- 数据筛选
- 数据变量转换
- 缺失值处理
- 坏数据处理
- 数据标准化
- 主成分分析
- 属性选择
- 数据规约
- …等等(具体见第三章
)
这一步是数据挖掘的核心环节,处理完数据后,我们接下来要考虑的问题是:本次加墨属于数据挖掘应用中的哪类问题(分类?聚类?关联规则?时间序列?或者只能推荐?)选择哪种算法进行模型构建?
建模过程中会得出一系列的分析结果,模型评价的目的之一就是从这些模型中选择出一个号的模型。对不同类型的分析模型的评价方法是有所不同的,具体的评价方法见第五章的相关介绍。
数据挖掘是一个反复探索的过程,只有将数据挖掘工具提供的技术和实施经验与项目的逻辑和需求结合,才能取得较好的效果,下面简单的介绍几种常用的数据挖掘建模工具。
本书所用的工具
)