笔记
数据仓库与数据挖掘笔记
相关概念
数据仓库:是一个数据库环境,它提供用户用于决策支持的当前和历史数据,这些数据在传统的数据库中不方便得到。
特点:面向主题,集成的,相对稳定的,反应历史变化的。
组成:数据仓库的数据库,数据抽取工具,元数据,访问工具,数据集市,数据仓库管理,信息发布系统。
数据挖掘:就是从大量数据中获取有效的,新颖的,潜在有用的,最终可理解的模式的过程。
数据挖掘的分析方法:
直接数据挖掘:利用可用的数据建立模型,用模型对剩余的数据进行描述,包括分类,估值,预言等分析方法。
见解数据挖掘:没有选出具体变量并用模型进行描述,而是在搜有的变量中建立起关系,如相关性分组,关联规则,聚集,描述和可视化及复杂数据来兴的挖掘。
数据仓库和数据挖掘的关系:矿井和挖矿的关系。
事务处理分类
OLTP 联机事务处理。
OLAP 联机事务分析。
数据仓库技术
OLAP相关主要概念
多维数据集:联机分析处理的主要对象,它是一个由一组维度和度量值定义的多维结构的集合。
维度:一组数据的属性,(面向对象中对象的属性,数据表中的列)。但是维可能是抽象的,比如时间维可能是对象中年,月,日,属性的合体。
度量值:就是维度属性的值。
多维分析:把多维数据,用切片,切块,钻取,旋转等分析方法剖析数据,使用户从不同的角度来观察数据。
1) 钻取:向上钻取,向下钻取,交叉钻取,钻透。向上钻取:比如现在查看的是年月维度的数据,向上钻取就是现在要查看以年维度的数据。
2) 切片和切块:在一部分维上选定值后,度量值在剩余维的分布,两维是切片,三维是切块。
3) 旋转:变换维的方向,行列互换。
OLAP技术:使分析人员,管理人员,或执行人员能够从多角度对信息进行快速,一致交互存取,进而获得对数据深入了解的技术。
OLAP分类
ROALP 基于关系数据库
MOLAP 基于独立多维数据集
HOLAP 混合方式
工具:通过多维方式对数据进行分析,查询,报表的工具。
数据仓库实施的关键环节和技术
数据抽取:数据从联机事务系统,外部数据源,脱机的数据存储介质中导入数据仓库。
数据存储:数量大,并行处理,查询优化。(B树索引对重复度很高的列作用不大,位图索引将以二进制表示字段的状态,将查询变为筛选),支持多维查询。多维数据库,星形模型(目前主流和前景广阔)
数据表现:多维分析,统计分析,数据挖掘。
数据仓库实施方法
常用产品:
Molap:cognos,essbase,
Rolap:oracle(discoverer,express,reports) 微软(sql server analysis services,sql server integration services,sql server reporting services) IBM(db2 olap server)
数据仓库系统的体系结构
数据源:数据的来源
数据存储与管理:把数据进行抽取,清理,有效的集成,按照主题重新组织,最终确定数据仓库的存储结构。同时组织存储数据仓库的元数据。
Olap服务器:ROLAP基本数据和聚合数据放在RDBMS之中, MOLAP:基础数据和聚合数据放在多维数据集中。HOLAP:基础数据放在 RDBMS中,聚合数据放在多维数据集中。
前端工具与应用:数据分析针对OLAP服务器,报表,挖掘也可针对数据仓库。
两层架构
独立数据集市
依赖型数据集市和操作性数据存储
逻辑性数据集市和实时数据仓库
独立的数据仓库体系结构
由源数据库(内部外部)===》经过抽取清洗,调和,导出 到达 ==》数据集结区===》加载===》数据仓库(唯一的企业级的数据仓库)===》填充====》数据展示:查询工具,报表工具,建模与挖掘工具。
其中抽取转换加载称为ETL过程。
基于数据集市的数据仓库体系结构
基于依赖性数据集市和操作性数据存储的数据仓库体系结构
基于逻辑性数据集市和实时数据仓库的体系结构