从大量数据中挖掘出隐含的、未知的、对决策有潜在价值的关系、模式和趋势,并用这些知识和规则建立用于决策支持的模型,提供预测性决策支持的方法、工具和过程,这就是数据挖掘。
是统计学、数据库技术、人工智能技术的结合。
利用分类与预测、聚类分析、关联规则、时序模式、偏差检测、智能推荐等方法,帮助企业提取数据中蕴含的商业价值,提高企业的竞争力。
定义挖掘目标
数据取样
数据探索
数据质量分析
检查是否存在脏数据——不符合要求,以及不能直接进行相应分析的数据
缺失值、异常值、不一致的值、重复数据、含特殊符号的数据
数据特征分析
分布分析、对比分析、统计量分析、周期性分析、贡献度分析、相关性分析
统计量分析
集中趋势:均值、中位数
离中趋势:方差、四分位间距
贡献度分析
帕累托法则/28定律:同样的投入放在不同的地方会产生不同的效益,一个企业80%的利润通常来自20%最畅销的产品。
数据预处理
数据清洗:删除原始数据集中的无关数据、重复数据,平滑噪音数据,筛选掉与挖掘主题无关的数据,
处理缺失值、异常值。缺失值可用拉格朗日插值法和牛顿插值法进行填补;
数据集成:将多个数据源合并存放在一个一致的数据存储(如数据仓库)中的过程,在数据集成时,
由于数据源的表达形式不一样,有可能不匹配,要考虑实体识别问题和属性冗余问题,从而将源
数据在最低层上加以提炼、转换和集成。
数据变换:简单函数变换、规范化、连续属性离散化、属性构造、小波变换。
有时简单的对数变换或者差分运算就可以将非平稳序列转换成平稳序列。
小波变换在信号处理、图像处理、语音处理、模式识别、量子物理领域得到广泛应用。
数据规约:属性规约—列角度—减少维度、数值规约—行角度—减少数据量。
挖掘建模
分类、聚类、关联规则、时序模式、智能推荐?
模型评价