数仓（第66页

谈笑间学会数仓—维度表概念及设计案例

维度表维度定义从某个角度观察事实数据的窗口，存储的数据用来从某个角度描述事实。维度表可以看成是用户用来分析一个事实的窗口，它里面的数据应该是对事实的各个方面描述，比如时间维度表，它里面的数据就是一些日，周，月，季，年，日期等数据，维度表只能是事实表的一个分析角度。换句话说维度表可以看作是用户来分析数据的窗口，维度表中包含事实数据表中事实记录的特性，有些特性提供描述性信息，有些特性指定如何汇总事实数

MrZhangBaby·2020-09-14 03:02

谈笑间学会数仓—表的种类和特征-事务事实表

事务事实表概念可以看做是保存某一事务的日志数据，事务一旦被提交就成为历史数据，只能以增量的方式维护。事务事实表记录的事务层面的事实，保存的是最原子的数据，也称“原子事实表”。事务事实表中的数据在事务事件发生后产生，数据的粒度通常是每个事务记录一条记录。一旦事务被提交，事实表数据被插入，数据就不再进行更改，其更新方式为增量更新。由于事实表具有稀疏性质，因此只有当天数据才会进入当天的事实表中，相当于每

MrZhangBaby·2020-09-14 03:02

【数仓】数据存储格式的选择：Parquet与ORC

大家好，我终于又出现了！这次要讲讲数据存储格式Parquet和ORC之间的选择！平时呢，我也会加一些有的没有的交流群，主要还是日常潜水看看里面有没有大佬！然后就遇到了一个问题：hadoop上存储的数据，要进行查询，用什么格式存储更好？我下意识的反应是ORC，因为ORC的压缩比更高（文件能压缩的更小），但是转念一想，ORC和Parquet都是列式存储的格式，两者之间有什么区别呢？或者说在最开始选择数

lsr40·2020-09-14 03:19

谈笑间学会数仓—建模方法论

谈笑间学会数仓—建模方法论ER模型数据仓库之父BillInmon提出的建模方法是从全企业的高度设计的一个3NF模型，用实体关系（EntityRelationship，ER）模型描述企业业务，在范式理论上符合

MrZhangBaby·2020-09-14 03:45

谈笑间学会数仓—主题域&&数据域

谈笑间学会数仓—主题域&&数据域在之前的文章里虽然没有按照顺序来，但是基本上都介绍了数据仓库建设的大概流程，比如技术架构方案设计、建模方法论、数仓分层、开发规范、数仓建设中的各种事实表、维度表、事务事实表

MrZhangBaby·2020-09-14 03:45

谈笑间学会数仓—周期快照表&累积快照表

周期快照表按固定周期对事实表进行统计生成的表，按时间段保存记录，增量更新。应用场景需要统计一个季度的商品成交量怎么取做？如果用一个季度内的事实事务表进行计算，虽然可以得出结果但是效率太低，在实际生产中并不可行，因此，需要定期对指定的度量进行整合，作为周期快照表用于下游应用。一般设计事实表时，事务事实表和周期快照表是成对设计的，大部分的周期表由事务表加工产生，还有部分特殊数据是直接应用系统产生（如订

MrZhangBaby·2020-09-14 03:45

谈笑间学会数仓—开发规范

谈笑间学会数仓—开发规范文章目录谈笑间学会数仓—开发规范前言数据库/表命名规范数据库公共维表dim公共明细层dwd公共汇总层dws应用数据层ads临时存储层tmp字段命名规范关键字字段类型规范常用系统词汇

MrZhangBaby·2020-09-14 03:14

数仓维度建模

20世纪80年代末期，数据仓库技术兴起。自RalphKimball于1996年首次出版TheDataWarehouseToolkit(Wiley)一书以来，数据仓库和商业智能(DataWarehousingandBusinessIntelligence,DW/BI)行业渐趋成熟。Kimball提出了数据仓库的建模技术--维度建模(dimensionalmodelling),该方法是在实践观察的基础

GOD_WAR·2020-09-13 22:07

数仓相关知识点

尤其是在数仓领域，使用SQL更是家常便饭。

ddttoop·2020-09-13 20:26

持续定义Saas模式云数据仓库+BI

内容包括云数据仓库概述，BI使用场景与趋势，基于MaxCompute云数仓+BI的特性，以及实践案例。

阿里云云栖号·2020-09-13 14:59

基于 Flink 的典型 ETL 场景实现

简介：本文将从数仓诞生的背景、数仓架构、离线与实时数仓的对比着手，综述数仓发展演进，然后分享基于Flink实现典型ETL场景的几个方案。

阿里云云栖号·2020-09-13 14:59

滴滴基于 Flink 的实时数仓建设实践

1.实时数仓建设目的随着互联网的发展进入下半场，数据的时效性对企业的精细化运营越来越重要，商场如战场，在每天产生的海量数据中，如何能实时有效的挖掘出有价值

阿里云云栖号·2020-09-13 14:24

阿里巴巴电商搜索推荐实时数仓演进之路

简介：自建实时数仓难在哪里？实时数仓应该怎么建？阿里巴巴搜索团队用实战经验告诉您答案！

阿里云云栖号·2020-09-13 14:23

有赞大数据平台安全建设实践

大数据平台的定位主要是服务数据开发人员，提高数据开发效率，提供便捷的开发流程，有效支持数仓建设。大数据平台的用户都是公司内部人员。数据本身的安全性已经由公司层面的网络及物理机房的隔离来得到保证。

阿里云云栖号·2020-09-13 14:22

数据仓库的元数据

广义上说：元数据描述了数据仓库内数据的结构和建立方法的数据①构建数仓的主要步骤之一是ETL，元数据定义源数据系统到数据仓库的映射、数据转换的规则、数据仓库的逻辑结构、数据更新的规则、数据导入历史纪录以及装载周期等相关内容

吗达拉·2020-09-13 06:52

Flink Forward Asia 2019 PPT 下载

FlinkForwardAsia2019在北京召开的，有主会场和几个分会场（企业实践、ApacheFlink核心技术、开源大数据生态、实时数仓、人工智能），内容涉及很多，可以查看下面的PPT。

zhisheng_blog·2020-09-12 07:00

数据仓库-元数据浅析

比如：以大数据数仓常见的架构为例：源数据通常通过ETL工具如kettle或canal或其他工具将数据抽到大数据平台中，存储在hdfs上，再经过数据分析(经典数仓按照ods->dwd->dws->ads)

anickname·2020-09-11 14:05

银行大数据新玩法，构建“一湖两库”金融数据湖

大数据技术经过近几年的快速发展，在企业数据中心的基础设施上已不鲜见，尤其是金融行业，大数据技术应用一直走在其它行业前面，它们在以数据湖、融合数仓、湖内数仓（DataLakeHouse）等一些典型的技术场景中

华为云·2020-09-11 12:38

如何使用Canal同步MySQL的Binlog到Kafka

另一方面，可以减轻夜间离线数仓数据同步的压力。

Eights-Li·2020-09-11 08:24

数仓维度建模之维度表设计（设计实操一）

维度设计基本方法1、设计步骤：1）第一步：选择维度或新建维度。作为维度建模的核心，在企业级数据仓库中必须保证维度的唯一性。以淘宝商品维度为例，有且只允许有一个维度定义。2）第二步：确定主维表。此处的主维表一般是ODS表，直接与业务系统同步。以淘宝商品维度为例，s_auction_auctions是与前台商品中心系统同步的商品表，此表即是主维表。3）第三步：确定相关维表。数据仓库是业务源系统的数据整

小小程序员凉凉·2020-09-11 06:47

滴滴基于 Flink 的实时数仓建设实践

1.实时数仓建设目的随着互联网的发展进入下半场，数据的时效性对企业的精细化运营越来越重要，商场如战场，在每天产生的海量数据中，如何能实时有效的挖掘出有价值

GOD_WAR·2020-09-11 06:23

转载，维表join详解

维表是数仓中的一个概念，维表中的维度属性是观察数据的角度，在建设离线数仓的时候，通常是将维表与事实表进行关联构建星型模型。

黄瓜炖啤酒鸭·2020-09-11 02:49

实时数仓|基于Flink1.11的SQL构建实时数仓探索实践

实时数仓主要是为了解决传统数仓数据时效性低的问题，实时数仓通常会用在实时的OLAP分析、实时的数据看板、业务指标实时监控等场景。

西贝木土·2020-09-11 01:01

SQL查询的底层运行原理分析

如果你是做数仓开发的，那么写SQL可能占据了你的大部分工作时间。我们在理解SELECT语法的时候，还需要了解SELECT执行时的底层原理。只有这样，才能让我们对SQL有更深刻的认识。

西贝木土·2020-09-11 01:30

关于CarbonData+Spark SQL的一些应用实践和调优

行业亟需一个高效、统一的融合数仓，从海量数据中快速获取有效信息，从而洞察机遇、规避风险。

fengyuruhui123·2020-09-11 01:45

数据仓库实践杂谈-（五）-ETL

整体数据分层第三章：整体实现框架第四章：元数据第五章：ETL第六章：数据校验第七章：数据标准化第八章：去重第九章：增量/全量第十章：拉链处理第十一章：分布式处理增量第十二章：列式存储第十三章：逻辑数据模型（数仓模型

老程序员一叶知秋·2020-09-11 00:39

60-150-046-使用-Sink-Flink落HDFS数据按事件时间分区解决方案

0x1摘要Hive离线数仓中为了查询分析方便，几乎所有表都会划分分区，最为常见的是按天分区，Flink通过以下配置把数据写入HDFS，BucketingSinksink=newBucketingSink

九师兄·2020-09-10 23:02

数仓分层哪四层？作用都是什么？

功能：1）ods是数仓准备区2）为dwd提供原始数据3）减少对业务系统影响建模方式及原则：数据保留时间根据实现业务需求而定；可以分表进行周期性存储，存储周期不长；从业务系统以增量方式抽取加载到ods；数据

小白->大牛的历程·2020-09-10 20:38

阿里巴巴电商搜索推荐实时数仓演进之路

分享嘉宾：张照亮阿里巴巴高级技术专家编辑整理：郑银秋出品平台：DataFunTalk导读：今天分享的内容是阿里搜索推荐数据平台研发团队在实时数仓的一些探索，围绕着团队在数仓上基于Flink+Hologres

架构师小秘圈·2020-09-10 13:38

阿里巴巴电商搜索推荐实时数仓演进之路

简介：自建实时数仓到底难在哪里？实时数仓应该怎么建？

阿里云开发者·2020-09-10 12:16

滴滴基于 Flink 的实时数仓建设实践

简介：随着滴滴业务的高速发展，业务对于数据时效性的需求越来越高，而伴随着实时技术的不断发展和成熟，滴滴也对实时建设做了大量的尝试和实践。本文主要以顺风车这个业务为引子，从引擎侧、平台侧和业务侧各个不同方面，来阐述滴滴所做的工作，分享在建设过程中的经验。随着滴滴业务的高速发展，业务对于数据时效性的需求越来越高，而伴随着实时技术的不断发展和成熟，滴滴也对实时建设做了大量的尝试和实践。本文主要以顺风车这

阿里云开发者·2020-09-10 12:43

大数据离线分析------数据仓库

集成性—>把来自各个不同数据源的数据集中在数仓的主题下面，便于分析.ETL不可更改性：数据仓库不支持更新操作时变性：在时间的角度，数仓又是变化的，一批次分析一次。

爱可爱的学霸霸·2020-09-10 10:25

大数据学习：离线数仓

学习地址：Bilili1数据仓库概念2项目需求及架构设计2.1项目需求分析2.2阿里云技术框架2.2.1技术选型2.2.3系统数据流程设计

chaoge_dgqb·2020-09-10 09:46

PySpark——开启大数据分析师之路

实际上"名不副实"这件事在大数据生态圈各个组件中是很常见的，例如Hive（蜂巢），从名字中很难理解它为什么会是一个数仓，难道仅仅是因为

简说Python·2020-09-07 08:00

ClickHouse 权限控制与资源隔离

使用clickhouse多半应用在实时数仓项目来支持adhoc查询，为了确保企业数据安全高效的使用，那么权限控制与资源隔离是必不可少的clickhouse在20.4之后的版本开始支持基于RBAC的访问控制管理

·2020-09-07 00:00

ClickHouse 在实时场景的应用和优化

这两个平台的数据主要由分析师或者数仓同学产出，以T+1的离线指标为主。考虑到ClickHouse并不支持事务

字节跳动技术团队·2020-09-06 10:00

网易实时数仓实践与展望

分享嘉宾：马进网易杭研技术专家编辑整理：张满意出品平台：DataFunTalk导读：随着大数据技术的进步，各种计算框架的涌现，数据仓库相关技术难题已经从离线数仓逐渐过渡到实时数仓，越来越多的企业对数据的实时性提出了严格的要求

NetEaseResearch·2020-09-04 18:46

技本功|Hive优化之建表配置参数调优（一）

简介：Hive是大数据领域常用的组件之一，主要用于大数据离线数仓的运算，关于Hive的性能调优在日常工作和面试中是经常涉及的一个点，因此掌握一些Hive调优是必不可少的一项技能。

b732fee81ae2·2020-09-04 15:28

数据仓库及维度建模的初步了解

之前只是在工作涉及数仓这块的一些业务，理论上有一定的缺失，所以最近准备刷一刷《数据仓库工具箱》这本书，顺便就将读完的一些理解和知识点在这边记录下来，算是对自己未来学习计划的一个鼓励和督促。

俩只猴·2020-08-30 17:37

id-mapping 理解和实现

一、id-mapping概述在后续的数仓、画像、推荐等模块开发中，我们都需要对每一条行为日志数据标记用户的唯一标识！

Next question·2020-08-29 17:03

技本功|基于OGG 实现Oracle到Kafka增量数据实时同步

传统的数仓通过批量数据同步的方式，定期从OLTP系统中抽取数据。但是随着业务需求的升级，批量同步无论从实时性，还是对在线OLTP系统的抽取压力，都无法满足要求。

b732fee81ae2·2020-08-28 20:17

数仓建模系列-数据体系搭建篇

NetEaseResearch·2020-08-28 14:29

深度解读：实时数仓架构对比与基于Flink的典型ETL场景实现

1.实时数仓的相关概述1.1实时数仓产生背景我们先来回顾一下数据仓库的概念。

大数据技术之路---花火·2020-08-27 10:43

实时数仓在滴滴的实践和落地

1.实时数仓建设目的随着互联网的发展进入下半场，数据的时效性对企业的精细化运营越来越重要，商场如战场，在每天产生的海量数据中，如何能实时有效的挖

滴滴技术·2020-08-26 21:58

基于 Flink 的典型 ETL 场景实现

本文将从数仓诞生的背景、数仓架构、离线与实时数仓的对比着手，综述数仓发展演进，然后分享基于Flink实现典型ETL场景的几个方案。

涪擎大数据·2020-08-26 17:22

flume整合spark实现监控目录下的数据

文件名假设为preview20200723，这个文件在当天可能会一直有数据在追加（间断性），也可能一次性写完（持续性），需要利用现有的技术监控这个目录中数据的变化，将获取到的json数据做解析再保留到数仓中

stevensam_lin·2020-08-26 14:44

技本功|Hive优化之配置参数的优化（一）

简介：Hive是大数据领域常用的组件之一，主要用于大数据离线数仓的运算，关于Hive的性能调优在日常工作和面试中是经常涉及的一个点，因此掌握一些Hive调优是必不可少的一项技能。

云掣科技·2020-08-26 13:16

技本功|Hive优化之配置参数的优化（一）

简介：Hive是大数据领域常用的组件之一，主要用于大数据离线数仓的运算，关于Hive的性能调优在日常工作和面试中是经常涉及的一个点，因此掌握一些Hive调优是必不可少的一项技能。

云掣科技·2020-08-26 11:00

技本功|Hive优化之配置参数的优化（一）

简介：Hive是大数据领域常用的组件之一，主要用于大数据离线数仓的运算，关于Hive的性能调优在日常工作和面试中是经常涉及的一个点，因此掌握一些Hive调优是必不可少的一项技能。

云掣YUNCHE·2020-08-25 21:14

MaxCompute/Dataworks云数仓高可用最佳实践

一、logview排查作业在日常的开发过程中我们偶尔会发现某些任务突然耗时比较长，或者某些任务突然挂掉需要排查原因。Logview将用来协助我们完成这件事情。Logview是MaxComputeJob提交后查看和Debug任务的工具。通过Logview可看到一个Job的运行状态、运行结果以及运行细节和每个步骤的进度。当Job提交到MaxCompute后，会生成Logview的链接，用户可以直接在浏

阿里云云栖号·2020-08-25 16:21

推荐频道

数仓（

谈笑间学会数仓—维度表概念及设计案例

谈笑间学会数仓—表的种类和特征-事务事实表

【数仓】数据存储格式的选择：Parquet与ORC

谈笑间学会数仓—建模方法论

谈笑间学会数仓—主题域&&数据域

谈笑间学会数仓—周期快照表&累积快照表

谈笑间学会数仓—开发规范

数仓维度建模

数仓相关知识点

持续定义Saas模式云数据仓库+BI

基于 Flink 的典型 ETL 场景实现

滴滴基于 Flink 的实时数仓建设实践

阿里巴巴电商搜索推荐实时数仓演进之路

有赞大数据平台安全建设实践

数据仓库的元数据

Flink Forward Asia 2019 PPT 下载

数据仓库-元数据浅析

银行大数据新玩法，构建“一湖两库”金融数据湖

如何使用Canal同步MySQL的Binlog到Kafka

数仓维度建模之维度表设计（设计实操一）

滴滴基于 Flink 的实时数仓建设实践

转载，维表join详解

实时数仓|基于Flink1.11的SQL构建实时数仓探索实践

SQL查询的底层运行原理分析

关于CarbonData+Spark SQL的一些应用实践和调优

数据仓库实践杂谈-（五）-ETL

60-150-046-使用-Sink-Flink落HDFS数据按事件时间分区解决方案

数仓分层哪四层？作用都是什么？

阿里巴巴电商搜索推荐实时数仓演进之路

阿里巴巴电商搜索推荐实时数仓演进之路

滴滴基于 Flink 的实时数仓建设实践

大数据离线分析------数据仓库

大数据学习：离线数仓

PySpark——开启大数据分析师之路

ClickHouse 权限控制与资源隔离

ClickHouse 在实时场景的应用和优化

网易实时数仓实践与展望

技本功|Hive优化之建表配置参数调优（一）

数据仓库及维度建模的初步了解

id-mapping 理解和实现

技本功|基于OGG 实现Oracle到Kafka增量数据实时同步

数仓建模系列-数据体系搭建篇

深度解读：实时数仓架构对比与基于Flink的典型ETL场景实现

实时数仓在滴滴的实践和落地

基于 Flink 的典型 ETL 场景实现

flume整合spark实现监控目录下的数据

技本功|Hive优化之配置参数的优化（一）

技本功|Hive优化之配置参数的优化（一）

技本功|Hive优化之配置参数的优化（一）

MaxCompute/Dataworks云数仓高可用最佳实践