数据仓库之名词解释

OLTP:
On-Line Transaction Processing联机事务处理过程(OLTP),也称为面向交易的处理过程,其基本特征是前台接收的用户数据可以立即传送到计算中心进行处理,并在很短的时间内给出处理结果,是对用户操作快速响应的方式之一。

OLAP:
On-Line Analytical Processing联机分析处理是一种软件技术,它使分析人员能够迅速、一致、交互地从各个方面观察信息,以达到深入理解数据的目的。
当今的数据处理大致可以分成两大类:联机事务处理OLTP(on-line transaction processing)、联机分析处理OLAP(On-Line Analytical Processing)。OLTP是传统的关系型数据库的主要应用,主要是基本的、日常的事务处理,例如银行交易。OLAP是数据仓库系统的主要应用,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果.

all-or-nothing
事务对数据的操作,表示一致性,要么全部成功要么全部失败。

BPM:
业务过程管理

RDS:(RAW DATA STORES)
原始数据存储的意思。将原始数据保存在数据仓库使得追踪并修改某些错误成为可能。另外有时数据仓库的用户会查询细节和原始数据的需求,有了RDS,这种需求容易实现,且不必影响业务系统的正常运作。

ODS:(Operational Data Store)
操作数据存储,一个面向主题的、集成的、可变的、当前或接近当前的细节数据集合。是数据仓库体系里可选的一部分。主要的作用是:

  • 充当业务系统与数据仓库之间的过渡区(数据仓库来源复杂,数据形式多样,转换规则复杂,如果直接抽取并做转换,会对业务系统造成影响。而ODS中存放的数据从数据结构、数据粒度、数据之间的逻辑关系上和业务系统基本保存一致,因此抽取过程只需简单的数据复杂而基本不用做转换,降低了复杂性,同时最小化对业务系统侵入)
  • 转移部分业务系统细节查询的功能(原来由业务系统产生的报表、细节数据的查询功能能够在ODS中进行,从而降低业务系统的查询压力)
  • 完成数据仓库中不能完成的一些功能(使用者有时要求数据仓库查询最低粒度级别的细节数据,而数据仓库中存储的数据一般都是聚合或汇总过的数据。)

TDS:(TRANSFORMED DATA STORES)
转换后的数据存储。这是真正在数据仓库的数据,使用者会在经过转换的数据集上处理日常的查询。一般通过自动定期重复执行ETL过程,把业务数据导入到TDS里。例如:财务主管需要每月的营收汇总报表,销售人员想看每天的产品销售数据等。

ETL:
Extract(抽取)、TransForm(转换)、Load(装载)。这是建立数据仓库最重要的处理过程,你的工作大部分精力都是放在这里。
* 抽取:从操作型数据源获取数据。
* 转换:转换数据,使之转变为适用于查询和分析的形式和结构
* 装载:将转换后的数据导入到最终的目标数据仓库

ETL工具
Oracle的OWB和ODI
微软的SQL Server Integration Services
SAP的Data Integrator
IBM的 InfoSphere DataStage、Informatica
pentaho公司的kettle

CDC:
在抽取处理过程中需要重点考虑增量抽取,也被称为变化数据捕获,简称CDC。cdc是建立准实时数据仓库的关键技术,cdc方法有时间戳、快照、触发器和日志四种。

SQL语言:(Stuctured Query Language)
意味结构化查询语言,已被国际标准化组织(ISO)进行了标准化。SQL语言分为DDL、DML、DCL、TCL四类

  • DDL是Data Definition Language的缩写,意为数据定义语言,用于定义数据结构和模式。典型的DDL有create、alter、drop、truncate、comment、rename等。
  • DML是Data Manipulation Language的缩写,意为数据操纵语言,用于检索、管理和维护数据库对象。典型的DML有select、insert、update、delete、merge、call、explain、lock等
  • DCL是Data Control Language的缩写,意为数据控制语言,用于授予和回收数据库对象上的权限。典型的有grant和revoke
  • TCL 是Transaction Control Language的缩写,意为事务控制语言,用于管理DML对数据的改变。它允许一组DML对数据的改变。典型的有commit、rollback、save point、set transaction等。

DM:Dimensional modeling
维度数据模型简称维度模型,是一套技术和概念的集合,用于数据仓库设计。维度模型中有两个核心概念事实和维度。
事实表示对业务数据的度量,事实通常是数字类型的,可以进行聚合和计算。例如:销售金额是一个事实
维度通常是一组层次关系和描述信息,用来定义事实。例如:销售时间、销售产品、购买的顾客、商店等
DM(维度模型)通常有两种模式:
星型模式:星型模式是维度模式最简单的形式,由事务表和维度表组成,一个星型模式中可以有一个或多个事实表,每个事实表引用任意数量的维度表。星型模式的物理模型像一颗星星的形状,中心是一个事实表,围绕在事务表周围的维度表表示星星的放射状分枝,这就是这个名字的由来。

  • 事实表:事实表记录了特定事件的数字化的考量,一般由数字值和指向维度表的外键组成。一般由三种类型:事务事实表、快照事务表、累计事务表
  • 维度表:维度表的记录数通常比事实表少,但每条记录包含有大量用于描述事实数据的属性字段。几种常用的维度表:事件维度表、地理维度表、产品维度表、人员维度表、范围维度表。

雪花模式
与星型模式相同,雪花模式也是由事务表和维度表组成。所谓的“雪花化”就是将星型模式中的维度表进行规范化处理。
两则区别:
在雪花模式中,一个维度被规范化成多个关联的表,而在星型模式中,每个维度由一个单一的维度表所表示。一个规范化的维度对应一组具有层次关系的维度表,而事实表作为雪花模式的子表,存在具有层次关系的多个父表。

DV:Data Vault模型
数据仓库建模的一种方法,它是面向细节,可追踪历史的,一组有链接关系的规范化表的集合。它保留系统的所有时间的所有数据,装载数据时不做验证、清洗等工作,即时从不同数据源来的数据是自相矛盾的,它会保存两个不同版本的数据,对数据的解释将推迟到整个架构的后一个阶段(数据集市)。DV模型有中心表(Hub)、链接表(Link)、附属(Satellite)表三个主要组成部分。中心表记录业务主键、链接表记录业务关系,附属表记录业务描述

数据集市
数据集市时数据仓库的一种简单形式,通常由组织内的业务部门自己建立和控制。一个数据集市面向单一主题域,如销售、市场等。它和数据仓库主要区别是:部门或业务级、单一主题和多个主题、部分历史数据和全部历史数据、较粗力度和较细力度

设计表范式规则
1NF:第一范式,表中的列只能含有原子性(不可再分)的值
2NF:满足第一范式,且没有部分依赖。
3NF:满足第二范式,且没有传递依赖。
以上是常用的设计表的3种范式规则,关系型的数据库主要采用3NF规范来设计。

你可能感兴趣的:(技术基础知识)