数据仓库与数据挖掘 2

数据仓库的概念、特点与组合

数据仓库的组成

数据仓库数据库(核心,数据信息存放的地方);
数据抽取工具;
元数据:技术元数据(开发和管理)与业务元数据(单位业务);
访问工具;
数据集市(Data Marts)(特定的应用目的);
数据仓库管理; 信息发布系统

数据抽取工具把数据从各种各样的存储环境中提取出来,进行必要的转化、整理,再存放到数据仓库中。对各种不同的数据存储方式的访问能力是数据抽取工具的关键,数据转换通常包括:

删除对决策分析没有意义的数据;转换成统一的数据名称和定义 ;计算统计和衍生数据 ;填补缺失数据 ;统一不同的数据定义方式

数据集市(Data Mart) ,也叫数据市场。
数据集市是企业级数据仓库的一个子集 ,是为了特定的应用目的,从数据仓库中独立出来的一部分数据,也称为部门数据或主题数据。在分析、内容、表现,以及易用性方面迎合专业用户群体的特殊需求。
在数据仓库的实施过程中,通常可以从一个部分的数据集市着手,再逐渐用几个数据集市组成一个完整的数据仓库(自底向上)。

数据仓库架构

传统的:

数据仓库与数据挖掘 2_第1张图片
传统数仓中常见的技术架构,将单机数据库节点组成集群,提升整体处理性能节点间为非共享架构(Share Nothing),每个节点都有独立的磁盘存储系统和内存系统;每台数据节点通过专用网络或者商业通用网络互相连接,彼此协同计算,作为整体提供服务;设计上优先考虑C(一致性),其次考虑 A(可用性),尽量做好P(分区容错性)
数据仓库与数据挖掘 2_第2张图片
CAP理论参考:https://www.cnblogs.com/mingorun/p/11025538.html

分布式架构

数据仓库与数据挖掘 2_第3张图片
大数据中常见的技术架构,也称为Hadoop架构/批处理架构。各节点实现场地自治(可以单独运行局部应用),数据在集群中全局透明共享;每台节点通过局域网或广域网相连,节点间的通信开销较大,在运算时致力减少数据移动;优先考虑的是P(分区容错性),然后是A(可用性),最后再考虑C(一致性)

ETL – Extract-Transform-Load

将数据从来源端经过抽取(extract)、交互转换(transform)、加载(load)至目的端的过程
构建数据仓库的重要一环,用户从数据源抽取出所需的数据,经过数据清洗,最终按照预先 定义好的数据仓库模型,将数据加载到数据仓库中去.

ETL 规则的设计和实施约占整个数据仓库搭建工作量的 60%~80%
数据仓库与数据挖掘 2_第4张图片

数据抽取(Extraction)

抽取的数据源可以分为结构化数据、非结构化数据、半结构化数据
结构化数据一般采用JDBC、数据库日志方式,非|半结构化数据会监听文件变动

抽取方式

数据抽取方式有全量同步、增量同步两种方式
全量同步会将全部数据进行抽取,一般用于初始化数据装载
增量同步方式会检测数据的变动,抽取发生变动的数据,一般用于数据更新

数据转换(Transformation)

数据转换要经历数据清洗和转换两个阶段

-数据清洗主要是对出现的重复、二义性、不完整、违反业务或逻辑规则等问题的数据进行统一的处理
-数据转换主要是对数据进行标准化处理,进行字段、数据类型、数据定义的转换

结构化数据在转换过程中的逻辑较为简单,非 | 半结构化数据的转换会较为复杂

数据加载( Loading )

将最后处理完的数据导入到对应的目标源里

ETL工具

结构化数据ETL工具

Sqoop
Kettle
Datastage
Informatica
Kafka

非|半结构化数据ETL工具

Flume
Logstash

操作数据层(ODS)

数据与原业务数据保持一致,可以增加字段用来进行数据管理
存储的历史数据是只读的,提供业务系统查询使用
业务系统对历史数据完成修改后,将update_type字段更新为UPDATE,追加回ODS中
在这里插入图片描述

数据明细层(DWD)

数据明细层对ODS层的数据进行清洗、标准化、维度退化(时间、分类、地域)
数据仍然满足3NF模型,为分析运算做准备
数据仓库与数据挖掘 2_第5张图片

数据汇总层(DWS)

数据汇总层的数据对数据明细层的数据,按照分析主题进行计算汇总,存放便于分析的宽表
存储模型并非3NF,而是注重数据聚合,复杂查询、处理性能更优的数仓模型,如维度模型

数据应用层(ADS)

数据应用层也被称为数据集市
存储数据分析结果,为不同业务场景提供接口,减轻数据仓库的负担
-数据仓库擅长数据分析,直接开放业务查询接口,会加重其负担

下一篇:数据仓库与数据挖掘 3

文献参考

[0] 陈志泊 主编. 数据仓库与数据挖掘(第二版). 清华大学出版社,2019
[1] 陈立伟著,数据仓库与数据挖掘教程,清华大学出版社,2006
[2] 林宇编著. 数据仓库原理与实践,人民邮电出版社,2003。
[3] 彭木根著 数据仓库技术与实现,电子工业出版社,2002.6。
[4] [加]韩家炜、[加]坎伯,范明等译,数据挖掘概念与技术,机械工业出版社,2005。
[5] 张云涛、龚玲著,数据挖掘原理与技术,电子工业出版社,2003。

你可能感兴趣的:(数据仓库与数据挖掘,数据挖掘,数据库,big,data,数据仓库)