Hive零基础从入门到实战 实战篇(一)数据仓库分层及命名规范

目录

前言

1. 目的

2. 表命名规范

2.1 数据分层代码命名规范

2.2 周期标志代码命名约定

2.3 应用示例

3. 字段命名规范

4. 脚本规范


 

前言

本文是针对Hive数据仓库设计提出的一些简单规范,供大家参考。

 

1. 目的

建立命名规范的目的是为表、列建立有意义的、清晰的、简明的和独特的名字。一个完善的命名标准可以提高数据仓库的逻辑和物理模型的质量,同时保证数据模型的易读和易懂性,提高数据仓库的可管理性。一个统一完善的命名规范,可以使读者在读到一个列或表的名字时,立刻知道列或表的含义;并且可以避免不同的人取一些不一致甚至相互矛盾的名字,从而造成不必要的混乱。

 

2. 表命名规范

t+下划线('_') +数据分层代码+周期标志+下划线('_')+表名称(体现业务含义)

注意:对象的所有字母均为小写,表名一般控制在30个字符内,若表名太长需要将单词缩写。(取单词开头的 3~5 个字母)

 

2.1 数据分层代码命名规范

为了方便区分和使用,建议先将数据仓库简单分为3层:

数据分层

约定名

说明

ODS(Operational Data Store):贴源层

s

贴源层表,直接从日志或者业务数据库中导入hive的表。

DW(Data Warehouse) :数据仓库层

w

使用ODS层的数据处理聚合后产生的表

DM(Data Market) :数据集市层

m

使用ods层和dw层数据统计出的BI数据表

维度表

r

 

 

2.2 周期标志代码命名约定

属性

约定名

小时(hour)

h

日(day)

d

周(week)

w

月(month)

m

季(quarter)

q

年(year)

y

 

2.3 应用示例

表名以t开头,代表是一张表;第二个字段显示表的数据层级和更新频率,比如贴源层按日更新就是sd,DM层按周更新就是mw;最后跟业务名称。

示例:t_wd_use_cnt 

 

3. 字段命名规范

以下划线('_')分隔,单词简写(单词开头的 3~5 个字母),单个字段不超过20 个字母。

注意:字段名的字母全部为小写。

id类字段统一写法(string):xxx_id:

数量字段统一写法(bigint):xxx_num

类型字段统一写法(string):xxx_type

金额字段统一写法(bigint):xxx_price

 

4. 脚本规范

  1. 在脚本开头处的注释中写明脚本功能、操作时间、操作人、操作描述;
  2. 对每一段SQL单元加中文注释;
  3. 当子查询过长影响对整个语句的结构把握时,请使用 with as语句;
  4. 对重复使用的表不要重复访问,作为一个单元单独拆出来;
  5. 关联时先对表做分区剪裁和列剪裁,不要直接使用表名关联;
  6. 脚本加前置依赖检查、长时间sleep告警、数据跑完为0条数据告警。

 

你可能感兴趣的:(Hive零基础从入门到实战 实战篇(一)数据仓库分层及命名规范)