数据平台之数仓模型设计

文章目录

    • 前言
    • 一、维度建模基本概念
      • 1.1 事实表
      • 1.2 维度表
    • 二、维度建模三种模式
      • 2.1 星型模型
      • 2.2 雪花模式
      • 2.3 星座模式
    • 三、ChatGPT代替Sql Boy
      • 3.1 简单案例
      • 3.2 复杂案例
    • 四、总结


前言

看到几篇不错的文章,自己总结合并了分享给小伙伴

金博尔和恩门共同开创的数仓建模的设计方法,这个方法对于后来基于数据湖的现代数据仓库的设计有重要的意义,所以你有必要了解:

恩门提出的建模方法自顶向下(这里的顶是指数据的来源,在传统数据仓库中,就是各个业务数据库),基于业务中各个实体以及实体之间的关系,构建数据仓库。比如,在一个最简单的买家购买商品的场景中,按照恩门建模的思维模式,首先你要理清这个业务过程中涉及哪些实体。买家、商品是一个实体,买家购买商品是一个关系。所以,模型设计应该有买家表,商品表,和买家商品交易表三个模型。

金博尔建模与恩门正好相反,是一种自底向上的模型设计方法,从数据分析的需求出发,拆分维度和事实。那么用户、商品就是维度,库存、用户账户余额是事实。

这两种方法各有优劣,恩门建模因为是从数据源开始构建,构建成本比较高,适用于应用场景比较固定的业务,比如金融领域,冗余数据少是它的优势。金博尔建模由于是从分析场景出发,适用于变化速度比较快的业务,比如互联网业务。由于现在的业务变化都比较快,所以我更推荐金博尔的建模设计方法。

一、维度建模基本概念

维度模型是数据仓库工程领域最流行的数仓建模经典。维度建模以分析决策的需求出发构建模型,构建的数据模型为分析需求服务,因此它重点解决用户如何更快速完成分析需求,同时还有较好的大规模复杂查询的响应性能。

维度建模是专门应用于分析型数据库、数据仓库、数据集市建模的方法。数据集市可以理解为是一种小型数据仓库。

1.1 事实表

发生在现实世界中的操作型事件,其所产生的可度量数值,存储在事实表中。从最低的粒度级别来看,事实表行对应一个度量事件,反之亦然。事实表表示对分析主题的度量。比如一次购买行为我们就可以理解为是一个事实。

数据平台之数仓模型设计_第1张图片

图中的订单表就是一个事实表,可以理解他就是在现实中发生的一次操作型事件,每完成一个订单,就会在订单中增加一条记录。

事实表的特征:表里没有存放实际的内容,他是一堆主键的集合,这些ID分别能对应到维度表中的一条记录。事实表包含了与各维度表相关联的外键,可与维度表关联。事实表的度量通常是数值类型(条/个/次),且记录数会不断增加,表数据规模迅速增长。

1.2 维度表

维度表示要对数据进行分析时所用的一个量,比如你要分析产品销售情况, 你可以选择按类别进行分析,或按区域分析。这样的按…分析就构成一个维度。
数据平台之数仓模型设计_第2张图片
上图中的用户表、商家表、时间表这些都属于维度表。这些表都有一个唯一的主键,然后在表中存放了详细的数据信息。

  • 例如:交易金额分析分析

男性用户的订单金额、联想商品的订单金额、第一季度的订单金额、手机的订单金额、家里下单的订单金额

  • 例如:学生分析

姓张的同学有多少、男性的同学有多少、江苏的同学有多少、身高小于170cm的同学有多少、年龄小于23岁的同学有多少。

每个维度表都包含单一的主键列。维度表的主键可以作为与之关联的任何事实表的外键,当然,维度表行的描述环境应与事实表行完全对应。维度表通常比较宽,是扁平型非规范表,包含大量的低粒度的文本属性。

总的说来,在数据仓库中不需要严格遵守规范化设计原则。因为数据仓库的主导功能就是面向分析,以查询为主,不涉及数据更新操作。

事实表的设计是以能够正确记录历史信息为准则。

维度表的设计是以能够以合适的角度来聚合主题内容为准则。

二、维度建模三种模式

2.1 星型模型

星形模式(Star Schema)是最常用的维度建模方式。星型模式是以事实表为中心,所有的维度表直接连接在事实表上,像星星一样。星形模式的维度建模由一个事实表和一组维表成,且具有以下特点:

维表只和事实表关联,维表之间没有关联;
每个维表主键为单列,且该主键放置在事实表中,作为两边连接的外键;
以事实表为核心,维表围绕核心呈星形分布;

数据平台之数仓模型设计_第3张图片

2.2 雪花模式

雪花模式(Snowflake Schema)是对星形模式的扩展。雪花模式的维度表可以拥有其他维度表的,虽然这种模型相比星型更规范一些,但是由于这种模型不太容易理解,维护成本比较高,而且性能方面需要关联多层维表,性能也比星型模型要低。所以一般不是很常用。

数据平台之数仓模型设计_第4张图片

2.3 星座模式

星座模式是星型模式延伸而来,星型模式是基于一张事实表的,而星座模式是基于多张事实表的,而且共享维度信息。
前面介绍的两种维度建模方法都是多维表对应单事实表,但在很多时候维度空间内的事实表不止一个,而一个维表也可能被多个事实表用到。在业务发展后期,绝大部分维度建模都采用的是星座模型

数据平台之数仓模型设计_第5张图片

三、ChatGPT代替Sql Boy

ChatGPT是一个基于自然语言处理和机器学习技术的人工智能模型,可以用于生成文本、回答问题、翻译等任务。在数据库管理和数据分析领域中,SQL是一种常用的查询语言,用于从关系型数据库中检索和操作数据。生成SQL语句可以帮助用户快速有效地提取数据,提高工作效率。

利用ChatGPT生成SQL的背景是基于自然语言查询数据库的需求。对于那些不熟悉SQL的人来说,学习SQL的成本比较高,而且SQL语法繁琐,容易出错。ChatGPT可以为用户提供一种更为自然的交互方式,让用户可以使用日常语言进行查询,将查询需求转化为SQL语句,并执行查询操作。这种方式更加方便,也可以帮助用户提高查询效率和准确性。因此,利用ChatGPT生成SQL可以帮助用户快速实现数据库查询和数据分析的需求,提高工作效率和准确性。

3.1 简单案例

假设有一家销售公司,需要查询销售额最高的产品和对应的销售额。公司的数据库中有两个表:产品表(Product)和订单表(Orders),它们之间通过产品编号(ProductId)建立了一对多的关系。现在,公司的销售经理想要查询销售额最高的前5个产品及其对应的销售额。为了实现这个查询,可以使用ChatGPT生成SQL语句。
首先,销售经理可以向ChatGPT提供以下自然语言查询:

“查询销售额最高的前5个产品及其对应的销售额”

ChatGPT可以将这个查询转化为以下SQL语句:

SELECT p.ProductName, SUM(o.Quantity * o.UnitPrice) AS SalesAmount
FROM Product p
INNER JOIN Orders o ON p.ProductId = o.ProductId
GROUP BY p.ProductName
ORDER BY SalesAmount DESC
LIMIT 5;

3.2 复杂案例

例如,假设销售经理需要查询在2021年第一季度(1月1日至3月31日)中,销售额最高的5个产品及其对应的销售额和销售数量。为了实现这个查询,需要向ChatGPT提供更为详细和精准的自然语言描述:

“查询2021年第一季度(1月1日至3月31日)中,销售额最高的5个产品及其对应的销售额和销售数量。订单表(Orders)中包含订单创建日期(OrderDate)字段,订单状态(Status)字段,产品表(Product)中包含产品名称(ProductName)字段,产品单价(UnitPrice)字段和产品数量(Quantity)字段。”

ChatGPT可以将这个查询转化为以下SQL语句:

SELECT p.ProductName, SUM(o.Quantity) AS SalesQuantity, SUM(o.Quantity * o.UnitPrice) AS SalesAmount
FROM Product p
INNER JOIN Orders o ON p.ProductId = o.ProductId
WHERE o.OrderDate BETWEEN '2021-01-01' AND '2021-03-31' AND o.Status = 'Completed'
GROUP BY p.ProductName
ORDER BY SalesAmount DESC
LIMIT 5;

四、总结

数仓的建模理论是非常有必要掌握的。

每一个指标的计算,往往都是通过指标的审核->模型的建立->指标的开发

以流程的方式进行数仓开发。

接着就是sql的编写,不管是简单的SQL或者复杂的SQL,我们都可以借助GPT进行编写

即使不是很完善,但是在我们修改提示词之后,我相信也能够给我们一个基础的SQL代码框架。

ChatGPT可以根据用户提供的自然语言查询,自动生成相应的SQL语句,从而简化数据查询和分析的过程。

但是我们需要注意以下:

  • 1.为了确保生成的SQL语句的准确性和可靠性,用户需要提供清晰、简洁和准确的自然语言描述,以及数据表结构和相关字段信息。
  • 2.ChatGPT生成的SQL语句的精度和准确性受到模型的训练数据和算法的影响。因此,在使用ChatGPT生成SQL语句时,需要进行必要的检查和验证,以确保结果的准确性和可靠性。
  • 3.ChatGPT可以帮助用户快速生成简单的SQL语句,但在处理复杂的查询需求时,可能需要用户的参与和进一步的修改优化。
  • 4.ChatGPT的出现使得数据查询和分析工作更加便捷和自动化,但并不代表人工智能技术可以完全替代人类的工作。在实际工作中,程序员仍然需要掌握SQL语法和数据库管理技能,以确保数据分析和查询的准确性和可靠性。

总之,ChatGPT可以帮助我们快速生成SQL语句,从而简化数据查询和分析的过程。但是,在使用ChatGPT生成SQL语句时,需要注意保证自然语言描述的准确性和数据表结构的清晰性,以确保结果的准确性和可靠性。

同时,我们也需要持续学习和提高自己的SQL语法和数据库管理技能,以适应变化的市场需求

你可能感兴趣的:(#,---,数据仓库,大数据,spark,分布式)