数据仓库概念及特点

数据仓库

DW(Data Warehouse)

1.1概念及特点

1.数据仓库通常是一个面向主题的集成的,随时间变化的,但信息本身相对稳定的数据集市,它用于对管理决策过程的支持

1)数据库是数据仓库的基础,但没有明确的上下级关系

2)数据仓库数据随时间变化(实时更新)

3)数据仓库更多用来读和插入

4)数据仓库大于数据库

2.数据仓库和数据集市

1)DW(Data Warehouse):数据的归宿,这里保持着所有的从源系统到来的数据,并长期保存,而且这些数据不会被修改

2)DM(Data Mart)数据集市:为了特定的应用目的或应用范围,而从数据仓库中独立出来的一部分数据,也可称为部门数据,面向应用(两个数据集市对撞会产生冗余)

3)数据的生命周期:冰冷 温 热 (短期数据)

①热:1~7天,存放在mysql(关系型数据库管理系统)

redis (高性能的key-value 数据库) 分布式存储系统查询

②温:7~14 天 mysql,oracle(关系型数据库管理系统)

③冷:ssd(固态硬盘)(固态驱动器)14~45天

④冰:45天以上,不放在数据库,放在机械硬盘(hhd)(c盘)

超过365天不会在本地存

4.数据仓库的优点

1)主题性:针对某个主题来进行组织

比如说滴滴出行,司机行为分析就是一个主题,所以可以将多种不同的数据库进行整合,而传统的数据库主要针对某个项目而言,数据相对分数和独立

2)集成性:数据仓库需要将多个数据源的数据存到一起,但是这些数据以前的存储方式不同,所以要经过抽取,清洗,转换,加载

3)稳定性:保存的数据是一系列历史快照不允许修改,只能分析

4)时变性:会定期接受到新的数据,反应出是新的变化

注:清洗后的数据表里带有时间戳

varchar2 oracle专属

5.什么是ETL

数据仓库接收的数据源是不同的,要做成集成的话,需要抽取,清洗,转换三个步骤,这就是ETL(Extract – Transform – Load)

6.sql是结构化的(一对一,一对多,多对一,多对多)

数据湖与数据中心的关系,数据湖和数据中台的区别

  1. 1) 数据湖作为一个集中的存储库,可以在其中存储任何形式(结构化和非结构化),热播和规模的数据。在数据湖中,可以不对存储的数据进行优化,只有在使用数据的时候再利用数据湖强大的大数据查询处理和应用,因此,数据湖具备运行不同类型数据分析的能力

  1. 2) 数据中心:从技术的层面承接了数据湖的技术通过数据技术,

对海量,多源,多样的数据进行采集,处理,存储,计算,同时统一标准和口径,把数据统一之后,以标准形式存储,形成大规模资产层,以满足前台数据分析和应用的需求

  1. 3) 数据湖更强调应用,离业务更近,强调服务于前台的能力,实现逻辑,算法,标签,模型,数据资产的沉淀和复用,能更快速的相应业务和应用开发的需求,可追溯,更精准

7.数仓特点

1)数据质量:基于数据仓库的应用所面对的一段为企业决策层用户,所以对数据仓库提供的各种信息,肯定要准确的数据;但对于数据源有脏数据或者代码不严谨,所以数据仓库流程通常分为多个步骤,包括数据抽取,清洗,转换,装载,查询,展现等等;其中数据清洗则主要对抽取过来各数据源的脏数据和不规范数据进行统一标准化

2)扩展性:有的大型数据仓库系统架构设计复杂,是因为考虑到了未来3-5年的扩展性,这样的话,未来不用花太多时间去重建数据仓库系统,就能稳定运行。主要体现载数据建模的合理性,数据仓库方案中多出一些中间层,使海量数据六有足够的缓冲,不至于因为数据源的变动而导致用户应用功能的频繁变动

8.数据来源:数据湖包含原始系统所产生的原始数据拷贝一级为了各类任务而产生的转化数据,包括来自于关系型数据库中的结构化数据,半结构化数据,非结构化数据和二进制数据(为了储存)

(数据中台是一套体系,既不是工具又不是储存,它可以包含数据湖和数据仓库)

9.建设目标:数据湖能实现数据的集中式管理,为企业提供全局的,统一的企业级数据概览视图,让人了解,分析数据,提供自助式探索数据的可能(数据中台主张打通全域数据孤岛,消除数据标准和口径不一致的问题,释放业务方数据应用价值)

10.数据应用

1)数据湖能结合不同的工具做数据处理和分析,不止于输出报表,也同样适合数据探索和发现,能够为企业挖掘的运营需求

2)数据中心通过将数据服务化之后提供给业务系统,载数据应用上不仅限于分析型场景,也适用于交易性场景,比如营销推荐,风险评估等

3)总体来说,数据中台是加速企业从数据到业务价值的过程的中间层,可以建立载数据仓库和数据湖之上

4)至于企业于什么阶段建数据仓库,什么阶段数据湖,什么阶段数据中台,海得看企业现阶段的具体情况,比如数据量,数据分析维度及要求,数据应用场景,预算等等,总之只有把工具和需求匹配起来,才能真正解决企业业务诉求

11.集成:指数据仓库中的信息不是从各个业务系统中简单抽取出来的,二十经过一系列加工,整理和汇总的过程

12.效率足够高:数据仓库的数据分析数据一般分为日,周,月,季,年等,可以看出,日为周期的数据要求的效率最高,要求24小时甚至12小时内,目前最普通的数据展现方式为T+1,即当日处理昨日的业务数据

13.随时间变化:指数据仓库内的信息并不只是反映企业当前的状态,而是记录了从过去某一时点到当前各个阶段的信息。通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测

14.脏读,不可重复读,幻读

事务的隔离性是指多个事务并发执行的时候相互之间不收到彼此的干扰的特性,隔离性是事务ACID特性中的I,根据隔离程度从底到高分别为Read Uncommitted(读未提交),Read Committed(读已提交),Repeatable Read(可重复读),Serializable(串行化)四种隔离检测

  1. 1) 脏读是指一个事务中访问到了另外一个事务未提交的数据

  1. 2) 不可重复读是指在一个事务内根据同一个条件对行记录进行多次查询,但是搜出来的结果却不一致。发生不可重复读的原因是在多次搜索期间查询条件覆盖的数据被其他事务修改了

  1. 3) 幻读是指同一个事务内多次查询返回的结果集不一样(比如增加了或者减少了记录)

15.银行主题:客户,存款,贷款,银行卡,渠道,总账,中间业务,公共

16.联机分析处理OLAP(数据仓库的主要应用)

联机事务处理OLTP(传统的关系型数据库的主要应用)

17.数仓架构

1)应用层:报表展示,标准化数据中心(数据中心)

汇总层(主题层):根据客户需求,将业务宽表的数据按照不同的主题(维度)进行汇总

基础层(集成层,模型层):根据业务条件,将源数据进行集成加工,得到业务宽表

标准层:对从各个不同源系统传入的,不统一,不合乎本系统规范的数据进行标准化处理

贴源层(ODS层,导入层):存储由各个源系统导入的原始数据,方便数据确认

18. 外部系统:公安系统,法院系统,征信系统 (数据源,上游系统)

19. 数仓架构-ODS层-抽取方式

源数据到ODS层数据库的数据流程走向

20. 抽取方式

1)全量抽取:类似于数据迁移或数据复制

2)增量抽取:只抽取上次抽取以来数据库中要抽取的表中新增或修改的数据

21. 抽取频率:从源系统抽取

22. 雪花模型:星型模型的扩展,它对星型模型的维表进一步层次化,原有的各维表可能都连接到主维度而不是事实表。雪花模型更加符合数据库范式,减少数据冗余,但是在分析数据的时候操作,操作比较复杂,需要join的表比较多,所以其性能不一定比星型模型高

你可能感兴趣的:(数据仓库,大数据,数据仓库,数据库,数据分析)