数仓数据建模中的概念总结(数据域、主题域、总线矩阵、指标...)

概念归纳

  • 业务分类:业务板块是某一大类业务的指标和维度的集合,如电商,文 娱。

  • 数据域:面向业务分析,将业务过程或者维度进行抽象的集合,如交易域, 日志域。
    将零散的需求分类,后续一一展开,这个过程叫数据域划分。数据域需要抽象提炼、并且长期维护和更新的,但不轻易变动。在划分数据域时, 既能涵盖当前所有的业务需求,又能在新业务进入时无影响地被包含进已有的数据 域或者扩展新的数据域。 数仓数据建模中的概念总结(数据域、主题域、总线矩阵、指标...)_第1张图片
    事实表为了更好地进行分析,往往会冗余一些维度属性,例如交易域的“购买商品”业务过程,会冗余店铺、商品、会员等维度信息,因此,我们还需要分析业务过程与维度的关联关系,这个时候,就要用到总线矩阵了。

  • 总线矩阵:是一种在全局视角理解数据结构的一种工具,可以让相关人员对整个数 仓结构能够有清晰了解,很容易就能看出来数据域与业务过程、维度的关系;以及 业务过程与维度的关系。数仓数据建模中的概念总结(数据域、主题域、总线矩阵、指标...)_第2张图片

  • 业务过程:业务过程指企业的业务活动事件,如下单,支付。

  • 数据集市:面向某个应用场景或者产品的数据组织,一般会依赖数据 公共层。

  • 主题域:将数据集市按照分析视角进行切分,比如在电商行业,通常分 为会员、交易、商品等。

• 业务过程与维度的关系:方便开发时对照需要冗余的维度属性。
• 数据域与业务过程/维度的关系:方便开发时就做好数据资产的归类,便于后续
复用。

  • 维度:维度是用于分析数据的一个角度,一方面对维度进行可控管理, 另一方面指导维度表的设计,如地理维度,时间维度。
  • 维度属性:维度属性隶属于一个维度,用来描述维度的属性,如地理维 度中的国家名称,省份名称。
  • 时间周期:时间周期是用来明确数据统计的时间范围或者时间点,如 最近 30 天,自然周。
  • 修饰词:修饰词是对指标统计业务范围的划定,指除了统计维度外指 标的业务场景的限定抽象,如 PC 端,无线端。
  • 原子指标:原子指标是一般不可再细分的度量,原子指标命名=业务过 程+度量。如支付金额,访问人数。
  • 派生指标:派生指标直接用于汇总表的字段,派生指标由原子指标、时间周期、修饰词(可选)组成,如最近 1 天海外买家支付金额。数仓数据建模中的概念总结(数据域、主题域、总线矩阵、指标...)_第3张图片

你可能感兴趣的:(数据研发,数据仓库)