数仓概念理解精华汇整(1)

数据仓库更多代表的是一种对数据的管理和使用的方式,它是一整套包括了etl、调度、建模在内的完整的理论体系。现在所谓的大数据更多的是一种数据量级的增大和工具的上的更新。 两者并无冲突,相反,而是一种更好的结合。

ODS全称是Operational Data Store,操作数据存储;这一层面的数据却不等同于原始数据。在源数据装入这一层时,要进行诸如去噪(例如去掉明显偏离正常水平的银行刷卡信息)、去重(例如银行账户信息、公安局人口信息中均含有人的姓名,但是只保留一份即可)、提脏(例如有的人的银行卡被盗刷,在十分钟内同时有两笔分别在中国和日本的刷卡信息,这便是脏数据)、业务提取、单位统一、砍字段(例如用于支撑前端系统工作,但是在数据挖掘中不需要的字段)、业务判别等多项工作。

维表简单分类
高基数维度数据:一般是用户资料表、商品资料表类似的资料表。数据量可能是千万级或者上亿级别。
低基数维度数据:一般是配置表,比如枚举值对应的中文含义,或者日期维表。数据量可能是个位数或者几千几万。

指标与度量的关系
这就得说到指标,我愿意表述为"它是表示某种相对程度的值"。区别于上面的度量概念,那是一种绝对值,尺子量出来的结果,汇总出来的数量等。而指标至少需要两个度量之间的计算才能得到,例如收入增长率,用本月收入比上上月收入。当然可能指标的计算还需要两个以上的度量。

一般理解,维表包含维度代理键,维度属性,维度关联的扩展属性;而事实表包含粒度、维度、度量、指标数据;宽表则包含粒度[主键]、维度、维度属性、度量、指标、标签及其他方面同粒度度量的联合。

一定程度上,范式建模与维度建模并不两种对立的建模方式。他们是在满足规范化与取数据方便、应用便捷上作的不同侧重的取舍;也可以说,他们是对数据的重组与重构在不同角度的理解而已。他们没有优劣,都有自身适用的场景。

 

你可能感兴趣的:(DataWarehouse)