数据仓库基本知识

目录

1.数据仓库

1.1 数据仓库起源

1.1.1 联机事务处理系统(On-Line Transaction Processing,OLTP)

1.1.2 联机分析处理系统(On-Line Analytical Processing,OLAP)

1.1.3 建立DW的基本条件

1.2 数据仓库基本概念

1.2.1 面向主题

1.2.2 集成

1.2.3 随时间变化

1.2.4 OLTP与OLAP的差异

1.3 数据仓库技术要求

1.3.1 ETL(Extract-Transform-Load)概念

1.3.2 ETL技术概念

1.3.3 集成平台

1.3.4 存储和管理

1.4 数据仓库体系结构

1.5 构造数据仓库方式

1.6 其他

1.6.1 BI的含义

1.6.3 BI的关键

1.6.4 BI的选型


1.数据仓库

1.1 数据仓库起源

1.1.1 联机事务处理系统(On-Line Transaction Processing,OLTP)

OLTP系统也称生产系统,是为了协助业务生产建设的系统,它是事件驱动、面向需求的。例如MES系统、WMS系统等就是典型的OLTP系统。OLTP系统在使用过程中积累了大量数据,存储在DB中。自从关系型数据库概念被提出后,联机事务处理一直是数据库应用的主流。

OLTP系统的特点:1、时间响应要求高;2、用户数据量庞大,主要是操作用户;3、数据库各种操作基于索引进行。

1.1.2 联机分析处理系统(On-Line Analytical Processing,OLAP)

OLAP系统也称分析系统,是基于数据仓库的信息分析处理的系统。OLAP系统是数据仓库的用户接口部分,它是数据驱动、面向分析的。OLAP系统是跨部门、面向主题的。例如Report系统。OLAP系统在建设时及建设后,积累了不同业务系统的海量数据,存储在DW(Data WareHouse,数据仓库)中。OLAP系统的出现晚于OLTP系统,而且只有数据规模较大的企业才会投资建设。

OLAP系统的特点:1、基础数据来源于生产系统的操作数据;2、用户数据量较小,主要是业务决策和管理人员;3、需要对数据的时间进行合理规划。

1.1.3 建立DW的基本条件

  1. 该行业有较为成熟的OLTP系统,OLAP系统的建设提供了内部客官条件;
  2. 该行业面临较大的市场竞争压力,为DW建设提供了外部驱动力;
  3. 该行业为数据密集型产业。

1.2 数据仓库基本概念

        数据仓库是一个面向主题的、集成的、随时间变化的、信息相对稳定的数据集合,它用于对企业管理和决策提供支持。

1.2.1 面向主题

        指用户使用数据仓库进行决策时所关心的重点方向,例如原材料、成品、WIP、Hold、废品、良品等;所谓面向主题,指数据仓库内的信息是按主题进行组织的,而非业务支撑系统那样按业务功能进行组织。

注:分析和明确企业所涵盖的业务范围,并对企业业务进行高度概括性描述,把密切线管业务对象进行归类,没有同一标准,主要根据设计者的经验,不同行业会有不同主题域划分。

1.2.2 集成

        指数据仓库中的信息不是从各个业务系统见但抽取出来的,二十经过一起列加工、整理和汇总的过程,消除源数据中的不一致型,因此数据仓库中的信息是关于整个企业的一致性全局信息。

注:各个业务系统可能由不同厂家独立创建,他们之间的数据模型设计、编码规则都是不相同的,这些数据加载到数据仓库之后,需要进行一个加工转换的过程。

1.2.3 随时间变化

        指数据仓库内的信息不只是反应企业当前的信息,二十记录了过去某一时点到当前各个阶段的信息。通过这些信息,可以对企业的发展力成和未来的趋势做出定量的分析和预测。

注:业务系统只记录当前的最新状态,数据仓库可以反应一个用户的状态变化过程及分析变化的原因。

1.2.4 OLTP与OLAP的差异

  1. 面向对象:OLTP面向应用;OLAP面向主题
  2. 数据内容:OLTP记录详细数据;OLAP记录综合的或汇总的数据。
  3. 存储介质:OLTP是数据库DB;OLAP是数据仓库DW
  4. 服务对象:OLTP服务业务生产;OLAP服务管理决策
  5. 数据状态:OLTP数据可更新;OLAP数据不可更新
  6. 驱动方式:OLTP由事务驱动;OLAP由分析驱动
  7. 冗余数据:OLTP非冗余数据;OLAP经常有冗余数据
  8. 处理数量:OLTP一次处理很少数据;OLAP一次处理大量数据
  9. 访问度:OLTP高访问度;OLAP适量的访问度
  10. 数据时效:OLTP当前数据;OLAP历史数据

1.3 数据仓库技术要求

1.3.1 ETL(Extract-Transform-Load)概念

        ETL:用户从数据源抽出所需数据,经过清洗/转换,最终按预先定义好的数据仓库模型,将数据加载到数据仓库;ETL是数据仓库中最重要的概念之一,ETL在一个数据仓库的项目建设中至少要消费一半以上的时间,也是后期运维工作的重头戏。

数据仓库基本知识_第1张图片

1.3.2 ETL技术概念

        增量、全量、定时、调度、监控

  • 增量数据:流水类数据,操作历史的抽取方式。
  • 全量数据:用户信息类数据,产品信息类数据,状态会更新发生变化的数据全部采用全量抽取方式。
  • 定时抽取:数据抽取一般在生产系统相对闲暇的时候进行,尤其针对大规模数据抽取,需要安排在晨间情况较多,且需按照数据周期进行。
  • 作业调度:由于涉及到的业务系统数据量庞大,需要分批抽取以及抽取后的一系列计算。
  • 作业监控:对所有ETL JOB状态进行监控。

1.3.3 集成平台

数据仓库基本知识_第2张图片

1.3.4 存储和管理

注:DW关键核心技术

需要注意的问题:

  1. 大数据量的存储和管理;
  2. 并行处理;
  3. 针对决策支持的查询优化;
  4. 支持多维分析的查询方式。

1.4 数据仓库体系结构

数据仓库基本知识_第3张图片

数据仓库基本知识_第4张图片

数据仓库基本知识_第5张图片

1.5 构造数据仓库方式

  1. 自上而下:一个企业建立唯一数据中心,其中数据经过整合、清洗,得到标准的可统一的视图。(注:需要从整个企业环境入手,从总结中获取完整的概念)
  2. 自下而上:数据仓库应按照实际需求加载数据,摒弃不需要的数据。(注:建设周期短,快速建成果)
  3. 注:两种方式结合使用

1.6 其他

数据仓库基本知识_第6张图片

1.6.1 BI的含义

BI(Business Intelligence):商业智能。技术层面上讲,是将数据仓库、联机分析处理工具(OLAP)、数据挖掘等技术结合在一起分析数据。业务层面上讲,是将企业数据进行清洗、分析、挖掘,以获得企业经营所需的决策数据。

1.6.2 BI的发展

  1. 第一阶段:业务报表。静态信息。
  2. 第二阶段:数据仓库。建立数据仓库存储业务数据、建立数据集市解决特定专题分析、提供OLAP和统计分析。
  3. 第三阶段:商务智能解决方案。客户中心型数据仓库和数据集市、集成复杂的管理工具(OLAP、数据挖掘、评估)、业务模式、客户反馈渠道。

1.6.3 BI的关键

将来自不同企业的系统数据进行清洗、整合提取正确数据。然后,通过抽取(Extraction)、转换(Transformation)、装载(Load)等ETL过程,将数据合并到一个数据仓库中,获得企业数据全局视图。最后,通过查询分析工具、数据挖掘工具、OLAP工具对数据进行分析,获得辅助生产经营的决策数据。

1.6.4 BI的选型

  • 数据库:DB2、Oracle、SQL Server、Teradata
  • ETL工具:DataStage、PowerCenter(另,SAS(ETL Server\BO Data Integrator))
  • OLAP工具:MOLAP\ROLAP

 

 

 

 

 

 

你可能感兴趣的:(DB,数据仓库,数据分析)