数据仓库理论

一、数仓简介
1、历史演进
1)数据仓库最早可以追溯到20世纪70年代,希望将业务处理系统和分析处理系统分成不同的层次;

2)1991年Bill Inmon在《Building the Data Warehouse》中提出了自上而下地建设企业数据仓库;

3)Ralph Kimball编写了《The Data Warehouse Tookit》,主张自下而上建立数据仓库,极力推崇创建数据集市
2、数据仓库
数据仓库是面向主题(Subject-Oriented )、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化的(Time-Variant )数据集合
主题(Subject):分析领域
集成的(Integrated):抽取多系统数据清理、转换和汇总
相对稳定的(Non-Volatile):不能修改
反映历史变化的(Time-Variant ):统计数据
3、数据集市:单个分析领域的数据仓库

自上而下:先建立范式模型的数仓,再在数仓上抽取主题建设数据集市

自下而上:先建立单主题数据集市,再把多个集市组合成数仓

2、分类
OLTP:关系性数据操作,增删改查。
OLAP:统计分析。
传统数仓:依赖于关系型数据库的特定数据分析场景。
大数据数仓:依赖于分布式数据库的大数据场景。
数据集市:单主题数仓
数据中台:数据孤岛解决方案

二、数仓工具
存储:hive
etl:hivesql、sparksql

调度系统:定时任务
三、数仓术语
1、主题、主题域、数据域
对于一个erp系统而言,"销售分析"就是一个分析领域,这个"销售分析"所涉及到的分析对象有商品、供应商、顾客、仓库等,那么数仓主题就确定为商品主题、供应商主题、顾客主题、仓库主题,"销售分析"就可以作为一个主题域;

2、维度、指标
指标:原生指标、衍生指标、派生指标
变化维

3、维度表:由主键和枚举类型的属性组成。
粒度:汇总程度

越粗数据量越小
只能从细粒度往粗粒度汇总
最细粒度就是维度表的id

address

city

province

country

江苏南京

南京市

江苏省

中国

江苏无锡

无锡市

江苏省

中国

浙江温州

温州市

浙江省

中国

圣保罗

圣保罗

SP

巴西

数据仓库理论_第1张图片

四、数仓架构
1、数据采集

大数据主要研究对象是平台用户行为。

用户行为数据:

系统数据:mysql(增量+全量)

日志数据:log(增量)

埋点数据:sls(增量)
其他平台数据(增量+全量)
2、明细建设

1)、过滤、清洗

2)、结构化

3)、可读性转化

4)、合成全量表

5)、合成宽表

3、汇总层
4、应用层
5、维度层
五、数仓管理
元数据管理
数据标准管理
数据质量管理
数据治理


数据安全管理

1、不建议拉取明细数据,拉取数据限制条数

2、锁屏

3、不在公共场所发表公司言论

你可能感兴趣的:(大数据,spark,分布式)