数据挖掘定义:从大量的数据中发现有用信息的过程。
数据仓库和联机分析处理技术(存储)
数据挖掘:在大量的数据中挖掘感兴趣的知识/规则/规律/模式/约束(分析)
数据仓库用于决策分析
关联分析
关联规则挖掘:反映一个事件和其他事件之间依赖或关联的知识。
广泛用于购物篮或事物数据分析
聚类分析
最大化类内的相似性和最小化类间的相似性(无监督的学习方法)
例如:扑克牌划分
分类挖掘
反映同类事物共同性质的特征型知识和不同事物之间的差异型特征知识(有监督的学习方法)
通过分析训练集中的数据,为每个类别建立分类分析模型;然后用这个分类分析模型对数据库中的其他记录进行分类。
例如:垃圾邮件识别分类、信用卡的使用
聚类和分类区别
聚类是一种无指导的观察式学习,没有预先定义的类;
分类是有指导的示例式学习,有预先定义的类
孤立点分析
对差异和极端特例的描述
孤立点:事物偏离常规的异常现象,如标准类外的特例,数据聚类外的离群值等;
异常检测通过构建正常行为模型(称为特征描述),来检测与特征描述严重偏离的新的模式。
例如:信用卡欺诈检测、移动电话欺诈检测、医疗分析(异常)
分析极端数据,保险公司
事务型(操作型)数据处理:数据库
分析型数据处理:数据仓库
知识发现:数据挖掘
数据仓库是为构建分析型数据处理环境而出现的一种数据存储和组织技术。用来保存从多个数据库或其它信息源选取的数据,并为上层应用提供统一用户接口,完成数据查询和分析。
数据仓库之父: William H.Inmon 1993
数据仓库是一个面向主题的、集成的、随时间而变化的、不容易丢失的数据集合,支持管理部门的决策过程.—W.H.Inmon
在较高层次上对分析对象的数据进行一个完整、一致的描述,能完整、统一管理各个分析对象所涉及的企业各项数据以及数据之间的联系
高层次:很高的数据抽象级别,如整个企业、组织
面向主题,是数据仓库显著区别于关系数据库系统的一个特征
因此数据在进入数据仓库之前,必然要经过加工和集成,将原始数据结构做一个从面向应用到面向主题的大转变
一个数据仓库是通过集成多个异种数据源来构造的
数据仓库中的综合数据不能从原有的数据库系统直接得到,需使用数据清理和数据集成技术对数据进行处理
主要工作:1.统一源数据中所有矛盾之处(命名约定、编码结构、属性度量等)2.进行数据综合和计算
消除冲突
数据的综合和计算
尽管数据仓库中的数据来自于操作数据库,但它们却是在物理上分离保存的
只进行两种数据访问:1. 数据的初始装载 2. 查询操作
在某个时间点保持不变
定期加载,加载后的数据极少更新。并不意味着数据仓库中的数据不更新
数据仓库从历史的角度来提供信息:时间范围比操作数据库系统要长的多
例如:
数据仓库中的每一个关键结构都隐式或显式地包含时间元素,时间维是数据仓库中一个非常重要的维度
事务型处理:管理者 日常管理 数据库
分析型处理:决策者 预处判断分析 数据仓库
转同时进行的集成
数据仓库的数据分为四个级别:早期细节级、当前细节级、轻度综合级、高度综合级
数据仓库中的元数据描述了数据的结构、内容、索引、码、数据转换规则、粒度定义等
数据仓库–存储技术
数据挖掘–分析技术
成功的数据挖掘的关键之一是通过访问正确的、完整的和集成的数据,以进行深层次的分析,而这正是数据仓库所能提供的
数据仓库不仅是集成数据的一种方式,而且为数据挖掘提供了一个极佳的操作平台
数据仓库不是数据挖掘的必要条件
数据挖掘不一定必须建立在数据仓库上,数据仓库不是实施数据挖掘的必要条件
在数据仓库中,数据立方体是n-D的。不只是三维的
多维数据模型为不同角度上的数据建模和观察提供了一个良好的基础
在数据仓库中,一个概念分层(concept hierarchy)定义一个映射序列,将低层概念映射到更一般的高层概念
对于一个给定的属性或维,根据不同的用户视图,可能有多个概念层次。例如:
允许我们在各种抽象级审查和处理数据
作用:
定义:给定一个维的集合,将在不同汇总级别上给出的数据立方体称为方体的格
每个方体的格都在不同的汇总级或不同的数据子集显示数据
顶点方体:0维方体存放最高层的汇总
基本方体:存放最底层汇总的方体
是数据仓库的数据模型的第一层或最高层
数据仓库用“信息包图”表示概念模型
信息包图:提供了分析人员思维模式的可视化表示
是数据仓库数据模型的第二层
通常有三种逻辑模型表示法:星型模型、雪花模型、事实星座模型
星型模型中,每维只用一个表表示,每个表包含一组属性
这一限制可能造成某些冗余
雪花模型
是星型模型的变种
在雪花模型中,某些维表是规范化的,通过把数据进一步分解到附加表中,以便减少冗余 — 表套表
是逻辑模型在数据仓库中的实现
主要进行:数据存储结构、存储策略、索引策略、存储分配优化等工作
常见存储结构:1. 分布式存储 2. 集中式存储
处理类型不同
DB : 操作型数据环境,面向业务
DW: 面向主题的分析型数据环境,面向分析,从基本主题开始,不断发展新主题
面向需求不同
DB:业务需求
DW:分析需求
设计目标不同
DB:OLTP
DW:OLAP
数据来源不同
DB:企业的业务流程中产生的数据
DW:系统内部,主要从OLTP系统中获取,经过转换、重组、综合; 同时包括部分外部信息
设计方法不同
DB:SDLC – 应用需求驱动
DW:CLDS – 数据驱动(主要)+ 需求驱动
数据驱动是指根据当前数据基础和质量等情况,进行数据源分析
需求驱动是指根据业务方向性需求、业务问题等,确定系统范围和需求框架
E.F.Codd 提出了OLAP概念
多维数据库和多维分析的概念
定义:联机分析处理是共享多维信息的、针对特定问题的联机数据访问和分析的快速软件技术
OLAP是针对特定问题的联机数据访问和分析处理。使分析人员能迅速、一致、交互地从各个方面观察信息,以达到深入理解数据的目的
OLAP的目标是满足决策支持或多维环境下特定的查询和报表需求,其技术核心是“维”这一概念,因此OLAP也可以说是多维数据分析工具的集合
数据仓库侧重于存储和管理面向主题的数据;
OLAP则侧重于数据仓库中的数据分析,并将其转换成辅助决策的信息。
切片 切块 旋转 钻取
切片
在多维数组的某一维上选定一个维成员,即从n维数组选取n-1维子集.(降维操作)
选择多维数组的一个二维子集
切块
定义1:在多维数组的某一维上选定某一区间的维成员,即限制某一维的取值区间
切片是切块的特例,即限制的取值区间只取一个维成员
切块可看作由多个邻接的切片迭合而成
定义2:选定多维数组的一个三维子集
钻取
下钻:加深细节
上钻:靠近宏观
旋转
改变一个报告或页面显示的内容
ROLAP:利用关系数据库来存储和管理基本数据和聚合数据,并利用一些中间件来支持缺失数据的处理
具有良好的可扩展性
MOLAP:利用多维数据库来存放和管理基本数据和聚合数据
对预综合的数据进行快速索引
HOLAP:对最常用的维,使用多维数据库存储;对于不常用的维度,采用ROLAP存储;充分利用ROLAP的可伸缩性和MOLAP的快速计算
数据与处理的重要性
数据预处理的常见方法
分箱方法 通过考察“邻居”(即周围的值)来平滑存储数据的值 局部平滑
需要确定方法 如何分箱 如何对
分箱步骤
排序数据,它们分到等深(等宽)的箱中
1.1 等深分箱 按记录数进行分箱,每箱具有相同的记录数,每箱的记录数称为箱的权重,也称箱子的深度
1.2 等宽分箱 在整个属性值的区间上平均分布,即每个箱的区间范围设定为一个常量,称为箱子的宽度 用的最多 处理极端数值最佳方法
然后可以按箱的平均值、按箱中值或者按箱的边界等进行平滑
按箱的平均值平滑:箱中每一个值被箱中的平均值替换
按箱的中值平滑:箱中的每一个值被箱中的中值替换
按箱的边界平滑:箱中的最大和最小值被视为箱边界,箱中的每一个值被最近的边界值替换
聚类 相似或相邻近的数据聚合在一起形成各个聚类集合,而那些位于聚类集合之外的数据对象,被视为孤立点
特点:直接形成簇并对簇进行描述,不需要任何先验知识
通过聚类分析查找孤立点,消除噪声
计算机和人工检查结合 计算机检测可疑数据,然后对它们进行人工判断
回归 发现两个相关的变量之间的变化模式,利用回归分析方法所获得的拟合函数,帮助平滑数据及除去噪声
数据集成:将来自多个数据源的数据合并到一起
数据变换:对数据进行规范化操作,将其转换成适合于数据挖掘的形式
模式匹配问题 冗余问题 数据值冲突问题
平滑处理:从数据中消除噪声; 分箱
聚集操作:对数据进行综合;
数据规范化:将数据转换到一个较小的范围之内
数据规范化常用方法:将数据按比例缩放至一个小的特定区间
最小-最大规范化;
零-均值规范化(z-score规范化);
小数定标规范化
压缩数据集的规模
数据消减或约简,是在不影响最终挖掘结果的前提下,缩小所挖掘数据的规模。
对归约后的数据集进行挖掘可提高挖掘的效率,并产生相同(或几乎相同)的结果
标准
策略
数据立方体聚集
维归约
数据离散化
略
主要用于检测并删除不相关、弱相关或冗余的属性维
最常用的方法:属性子集选择。
目标:寻找出最小的属性子集并确保新数据子集的概率分布尽可能接近原来数据集的概率分布
方法:启发式算法
对于属性子集选择,通常使用压缩搜索空间的启发式算法。它们的策略是做局部最优选择,期望由此导致全局最优解
常用的启发式方法:
三种类型的属性值:
标称型(无序) 不可比不可加
序数型(有序) 可比不可加
连续型 可比可加
常用的离散化方法
思想:将数值区域划分为相对一致的、易于阅读的、看上去更直观或自然的区间
自然划分的3-4-5规则常可以将数值数据划分为相对一致和“自然”的区间。一般的,根据最重要的数字上的值区域,递归的和逐层的将给定的数据区域划分为3、4或5个等宽区间。
步骤:
最高有效位:绝对值最大 看是10的几次方
例如; 252 划分为 [0,300]
对于数据集中出现的最大值和最小值的极端分布,为了避免上述方法出现的结果扭曲,可以在顶层分段时,选用一个大部分的概率空间。e.g. 5%-95%
从数据分析角度,两类DM:描述式数据挖掘、预测式数据挖掘
特征化:提供给定数据集的简洁汇总
比较(区分):提供两个或多个数据集的比较描述
数据概化可以将大量的相关数据从一个较低的概念层次转化到一个比较高的层次
属性删除:若一个属性(在初始数据集中)有许多不同数值
且1.该属性上没有定义概化操作符 2. 它的较高层概念可用其他属性表示
不重要且可替代
属性概化
若一个属性(在初始数据集中)有许多不同数值,且:在该属性上存在概化操作符,则应当选择该概化操作符
有简称用简称
大量不同值处理:1. 属性概化阈值控制 2. 概化关系阈值控制
属性概化阈值控制:取值范围一般为2到8,可以是指定的也可以是默认的
如果用户感到一个属性概化达到的层次太高,可以加大阈值(属性下钻);反之,可减小阈值(属性上卷)
概化关系阈值控制:控制最后关系/规则的大小
为概化关系设置一个阈值,如果概化关系中不同元组的个数超过该阈值,则应进一步概化;否则,不再概化。
阈值可在数据挖掘系统中预先设定(通常为10~30),或由用户或专家设置、调整
如果用户感到概化的关系太少,可以加大阈值(属性下钻);反之,可减小阈值(属性上卷)
面向属性归纳结果的表示方法
过滤掉统计上不相关或弱相关的属性,而仅保留对手头挖掘任务最相关的属性
基本思想:对给定的数据集,计算某种度量,用于量化属性与给定的类或概念间的相关性
常用的度量包括信息增益、GINI索引、不确定性和相关系数等
信息增益法:
ID3算法 决策树
在ID3算法中,决策节点属性的选择运用了信息论中的熵概念作为启发式函数
在这种属性选择方法中,选择具有最大信息增益的属性作为当前划分节点
通过这种方式选择的节点属性可以保证决策树具有最小的分枝数量,使得到的决策树冗余最小
关系数据库系统通常提供了5个内置的合计函数:count(), sum(), avg(), max() 和 min()。这些函数可以对数据进行高效运算,仍可用于多维数据的统计度量
除此之外,在许多挖掘任务中,需要了解更多有关数据的中心趋势(central tendency)和数据分布(data dispersion)等数据特点
中心趋势:均值(average)、中位数(median)、模(mode) ;
数据分布:四分位数(quartiles)、方差、标准差等
数据离散度的最常用度量是四分位数和标准差
四分位数;数值序下的数据集合的第k个百分位数是具有如下性质的值x:数据项的百分之k在x上或低于x
中间四分位数区间IQR=Q3-Q1
识别孤立点:落在至少高于第三个四分位数或低于第一个四分位数1.5*IQR处的值