《CDA-LEVEL-II考试大纲》解读--PART2 数据模型管理

PART2 数据模型管理

【领会】
数据和信息的概念;数据分类中的主数据、交易数据和元数据概念;
数据库建模中概念、逻辑、物理模型之间的关系;
数据库范式的概念、数据仓库和数据集市、ETL 过程。
【熟知】
关系模型与维度模型的使用场景

一、主数据/交易数据/元数据

数据分类中的主数据、交易数据和元数据概念:
主数据:指组织或企业中用于描述其业务实体、特定对象或属性的核心数据,如客户、产品、供应商等。主数据通常用于支持组织内部的决策制定、流程管理和数据分析等方面。
交易数据:指组织或企业中记录日常业务活动的数据,如销售订单、采购订单、发票等。这些数据通常是瞬时的,且与时间相关,用于支持组织内部的业务活动跟踪、财务报表生成和业务分析等方面。
元数据:指描述数据本身的数据,即数据的定义、结构、来源、用途等信息。元数据通常用于支持数据管理、数据集成、数据质量控制和数据安全等方面。

二、数据库建模

数据库建模中的概念、逻辑、物理模型之间的关系:
概念模型:概念模型是数据库设计的第一步,它描述了系统中的所有业务对象及其之间的关系。概念模型通常采用实体-关系模型(ER模型)来表示,包括实体、属性和关系等概念。
逻辑模型:逻辑模型是在概念模型的基础上进一步细化而得到的模型,它描述了数据在系统中的组织方式和操作方式。逻辑模型通常采用关系模型来表示,包括表、字段和关系等概念。
物理模型:物理模型是在逻辑模型的基础上进一步细化而得到的模型,它描述了数据在计算机存储介质中的具体存储方式和访问方式。物理模型通常采用数据库管理系统(DBMS)所支持的数据结构来表示,包括表、索引、触发器等概念。
在实际应用中,这三个模型相互依赖,但是每个模型都有自己的独立性和特点,需要根据具体的需求进行选择和设计。

三、数据库范式

数据库范式是一种规范化设计数据库的方法,它通过对数据库中表的结构进行分解和调整,以消除冗余数据,并提高数据的一致性、完整性和可维护性。通常情况下,数据库范式分为一般范式和特殊范式两类,其中一般范式包括第一范式(1NF)、第二范式(2NF)、第三范式(3NF)等,而特殊范式包括巴斯-科德范式(BCNF)和第四范式(4NF)等。

四、数据仓库/数据集市

数据仓库和数据集市都是企业级数据管理系统,用于支持企业决策制定、业务分析和战略规划等方面。

数据仓库:数据仓库是一个面向主题的、集成的、历史的、非易失的数据集合,用于支持企业级的决策制定和业务分析。数据仓库通常采用星型或雪花型的数据模型,包含多个维度和事实表,可以通过在线分析处理(OLAP)等工具进行查询和分析。
数据集市:数据集市是一个面向
业务部门
的、独立的、易扩展的数据集合,用于快速响应业务需求和提供决策支持。数据集市通常采用主题模型,包含多个维度和事实表,可以通过自助式BI工具等进行查询和分析。

五、ETL 过程

ETL(Extract-Transform-Load)是指从源系统中抽取数据、对数据进行转换处理,并将处理后的数据加载到目标系统中的一种数据集成过程。ETL 过程通常由以下三个步骤组成:

Extract:从源系统中抽取需要的数据,通常使用SQL查询或API调用等方式进行。
Transform:对抽取出来的数据进行清洗、加工和转换,以满足目标系统的要求。这些处理包括数据清洗、数据合并、数据重构、数据规范化等。
Load:将处理后的数据加载到目标系统中,通常使用SQL语句或数据导入工具等方式进行。

ETL 过程是数据仓库和数据集市的基础,它可以将来自不同数据源的数据整合到一个统一的数据集中,以支持企业级的决策制定和业务分析。

六、关系模型/维度模型

关系模型是一种基于关系代数理论的数据建模方法,它将数据分解为多个表,并通过表之间的关系来描述数据的结构和语义。关系模型通常采用SQL语言来查询和操作数据,是传统的**关系型数据库管理系统(RDBMS)所采用的数据模型。
维度模型是一种基于星型或雪花型数据模型的数据建模方法,它将数据分解为一个事实表和多个维度表,并通过事实表与维度表之间的关系来描述数据的结构和语义。维度模型通常采用
在线分析处理(OLAP)**工具来查询和分析数据,是数据仓库和数据集市所采用的数据模型。
关系模型和维度模型的设计原则、实现方式、使用场景的区别如下表所示:

区别 关系模型 维度模型
设计原则 消除冗余,满足第三范式等规范,以提高数据的一致性和完整性 保留冗余,以提高查询性能和用户体验
应用场景 适用于事务处理系统,支持高并发的数据更新和查询操作 适用于决策支持系统,支持复杂的数据分析和查询操作
实现方式 采用表与表之间的关联关系来描述数据结构和语义,需要进行多表联合查询等操作 通过事实表与维度表之间的关系来描述数据结构和语义,可以通过单表查询或聚合查询来查询和分析数据
优缺点 需要进行频繁的数据更新和查询操作;数据结构比较复杂,需要满足第三范式等规范;数据库规模比较大,需要进行高效的索引和查询优化。 需要进行复杂的数据分析和查询操作;数据结构相对简单,事实表和维度表之间的关系比较清晰;数据库规模较小,基于OLAP工具进行查询和分析。

(“The fact that you are beaten by darkness proves that you are light itself. 天将降大任于斯人也,必先苦其心志。”FIGHTING. . . .)

你可能感兴趣的:(数据分析,数据仓库,数据库,数据挖掘,database,etl)