数仓（第65页

Nexmark: 如何设计一个流计算基准测试？

背景随着数据时效性对企业的精细化运营越来越重要，“实时即未来”、“实时数仓”、“数据湖”成为了近几年炙手可热的

ApacheFlink·2020-10-09 13:13

基于 Flink + Hive 构建流批一体准实时数仓

基于Hive的离线数仓往往是企业大数据生产系统中不可缺少的一环。Hive数仓有很高的成熟度和稳定性，但由于它是离线的，延时很大。

ApacheFlink·2020-10-09 13:40

多数据源一站式入湖

为统一的数据分析打好了基础.背景数据湖作为一个集中化的数据存储仓库，支持的数据类型具有多样性，包括结构化、半结构化以及非结构化的数据，数据来源上包含数据库数据、binglog增量数据、日志数据以及已有数仓上的存量数据等

阿里云云栖号·2020-10-09 13:59

多数据源一站式入湖

为统一的数据分析打好了基础.背景数据湖作为一个集中化的数据存储仓库，支持的数据类型具有多样性，包括结构化、半结构化以及非结构化的数据，数据来源上包含数据库数据、binglog增量数据、日志数据以及已有数仓上的存量数据等

阿里云云栖号·2020-10-09 13:58

阿里巴巴电商搜索推荐实时数仓演进之路

简介：自建实时数仓到底难在哪里？实时数仓应该怎么建？

阿里云云栖号·2020-10-09 13:58

阿里巴巴电商搜索推荐实时数仓演进之路

简介：自建实时数仓到底难在哪里？实时数仓应该怎么建？

阿里云云栖号·2020-10-09 13:57

腾讯看点基于 Flink 的实时数仓及多维实时数据分析实践

当业务发展到一定规模，实时数据仓库是一个必要的基础服务。从数据驱动方面考虑，多维实时数据分析系统的重要性也不言而喻。但是当数据量巨大的情况下，拿腾讯看点来说，一天上报的数据量达到万亿级的规模，要实现极低延迟的实时计算和亚秒级的多维实时查询是有技术挑战的。本文将介绍信息流场景下，腾讯看点的实时数据仓库和多维实时数据分析系统的技术架构。1、可解决的痛点可以先看一下，多维实时数据分析系统可以解决哪些痛点

ApacheFlink·2020-10-09 13:39

社区活动 | Apache Flink Meetup·深圳站，锁定 Flink 最佳实践

9月26日，来自阿里巴巴、英特尔、顺丰、腾讯的四位技术专家与你分享Flink最新企业应用实践，以及与时下热门的数据湖、数仓、社区生态的结合有哪些新进展。活动亮点：独

ApacheFlink·2020-10-09 13:43

技本功|Hive优化之Spark执行引擎参数调优（二）

Hive是大数据领域常用的组件之一，主要是大数据离线数仓的运算，关于Hive的性能调优在日常工作和面试中是经常涉及的的一个点，因此掌握一些Hive调优是必不可少的一项技能。

云掣科技·2020-10-09 12:10

基于 Flink + Hive 构建流批一体准实时数仓

简介：想要搭建流式链路就必须得抛弃现有的Hive数仓吗？并不是，借助Flink可以实现已有的Hive离线数仓准实时化。

阿里云云栖号·2020-10-09 12:10

基于 Flink + Hive 构建流批一体准实时数仓

简介：想要搭建流式链路就必须得抛弃现有的Hive数仓吗？并不是，借助Flink可以实现已有的Hive离线数仓准实时化。

阿里云云栖号·2020-10-09 11:37

[Aliyun] 实时数仓Hologres Demo01实时计算实时写入数据至Hologres

部分内容直接摘抄阿里官网作为背景和概述：背景在实时数据业务场景中，最常见的链路是将实时采集的数据，通过实时计算初步清洗，实时写入数据至数据库，再对接BI工具实现数据的可视化分析。数据处理流程如下图所示。整个业务链路中，要求数据库提供高性能的计算服务，存储海量数据，同时对接多种BI分析工具。单一的数据库很难实现以上所有功能，您必须借助其他数据库的相关能力完成业务流程。在导入导出数据时会产生冗余存储，

栗子哥·2020-10-05 00:06

MongoDB数据增量同步到Hive（方案一通过BSON文件映射）

一、背景随着monggo中数据量越来越大，全量同步到数仓，已不太现实，考虑增量同步的方式，我们在探索增量同步的过程中，方案不断在改进优化，这里记录一下我们mongo增量同步的变迁史吧二、方案一，通过BSON

杨杨_f97a·2020-09-30 10:33

基于Flink+ClickHouse打造轻量级点击流实时数仓

关于两者的优点就不再赘述，本文来简单介绍笔者团队在点击流实时数仓方面的一点实践经验。点击流及其维度建模所谓点击流（clickstream），就是指用户访问网站、App等Web前端时

LittleMagics·2020-09-27 23:05

传统数仓和大数据数仓的区别是什么？

这是我的第58篇原创一个圈里的朋友问，有很多传统数仓的朋友想转型大数据数仓，不知道该怎么办。问我能不能给讲讲课。准备一个课比较费劲，主要是得非常系统的讲。我这样日更，已经把所有的时间都占满了。

大数据架构师Evan·2020-09-26 20:00

网易严选打造数仓规范和评价体系实践

作者|乙峰，严选数仓交易域负责人原载|严选技术团队公众号数据为王的时代，数据量从最初的几十G，慢慢沉淀

NetEaseResearch·2020-09-25 11:59

Hive SQL调优，distict去重效率竟然比group by高？union该如何优化？

这几天因为做数仓，写完SQL后总觉得自己写的SQL又臭又长，是不是应该好好优化下，于是还专门为此重新2本书，才看了没多少，就打破了自己原来对调优的认知。

后来X大数据·2020-09-18 09:42

网易实时数仓实践与展望

从智能商业的角度来讲，数据的结果代表了用户的反馈，获取结果的及时性就显得尤为重要，快速的获取数据反馈能够帮助公司更快的做出决策，更好的进行产品迭代，实时数仓在这一过程中起到了不可替代的作用。

qianshanding0708·2020-09-17 12:27

数据中台

为了解决：传统数仓对业务系统支持不够友好，不支持计算模块。

hzp666·2020-09-17 07:48

linux系统下面所有命令都失效了，显示bash: xxxxx: command not found...

问题最近在给搭建数仓的时候，在安装一些软件，然后使用linux各种命令就都不好使了。解决思路这种情况，一般都是自己在安装软件修改环境变量的时候，环境变量写错了，导致整个系统都找不到各种命令的位置。

liwenjie001i·2020-09-17 05:42

数据中台实践手记——数据体系搭建

数据体系搭建步骤业务板块->数据域->事实表->数据同步（ELT）梳理业务数仓的数据流程图业务表结构梳理业务数仓分层规划资源准备（MaxCompute、DataWorks、RDS等）配置任务ODS（hive

Virgil_Ye·2020-09-17 00:49

实时数仓技术

1.实时数仓建设

cutwind·2020-09-16 22:16

直播预告 | 乘云而上：云原生数据仓库AnalyticDB

趋势1.传统架构趋弱，云数仓兴起。

Enmotech·2020-09-16 02:39

Flink通过异步IO实现redis维表join

使用flink做实时数仓的公司越来越多了，浪尖这边也是很早就开发了一个flink全sql平台来实现实时数仓的功能。说到实时数仓，两个表的概念大家一定会知道的：事实表和维表。

大数据星球-浪尖·2020-09-15 23:33

flink实时数仓(九):增量同步mysql中数据

文章目录数据库中配置流表jdbc工具类枚举类CodeEnumFlowStatusEnumHBaseStorageModeEnum配置类bean对象flink状态类编程MD5加密Hbasesink模板数据库中配置流表CREATETABLE`dbus_flow`(`flowId`int(11)NOTNULLAUTO_INCREMENTCOMMENT'自增ID',`mode`int(11)NOTNULL

_尽_际·2020-09-15 20:56

Apache Doris在美团外卖数仓中的应用实践

本文将介绍Doris在美团外卖数仓的实践。序言本文侧重于以Doris引擎为“发动机”的数仓生产架构的改进与思考。

zl1zl2zl3·2020-09-15 16:57

Hive数仓筛选出2秒内可能重复下单的订单id列表

背景:因为弱网缘故，公司的业务系统对下单的防重处理没有完全防住，导致了可能出现重复单情况。面对海量订单人工进行全部排查十分困难且是不现实的，所以在此背景下，基于全量数据，写了一个HiveSQL来筛选出可能重复订单数据。然后再对指定订单id查询订单明细进行人工确认即可找出准确的重复单，再进行操作(可能退掉其中一单)。--同一门店、同一商品金额，下单时间相差2秒内的订单idsselectshop_id

csdn-延·2020-09-15 14:32

数据仓库简介-ODS、DW和DM概念区分

数仓的数据来源一般有：日志采集系统、业务系统数据库、爬虫系统等。通过对数据仓库中的数据进行分析，可以帮助企业改进业务流程、控制成本、提高产品质量等。举例：对于一个电商App，数据显示对于进入支付页面

AI二师兄·2020-09-15 06:43

数仓之ods与dw的区别

背景知识：在当今这样一个信息技术发展迅速的时代，数据量也在不断的增长，面临这样的压力，总是会有大神提出一些解决方案。比如高层管理人员希望能查看整个公司的发展业绩，数据仓库(DataWarehouse,DW)正是解决该问题的主要方案，随之DW就这样产生了。可是时代在变，需求也会随着改变，比如保险公司的员工希望提高自己的业绩，拿更多的工资，那么他首先希望的就是能把更多的客户挖进来，其实这其中是有很多方

冷雨夜下的星空·2020-09-15 06:29

课堂笔记

实时数仓搭建和flink分析Day02昨日回顾了解实时数仓的整体背景/涉及技术/业务主线实时数仓的整体架构图.使用Canal采集MySQL中的数据变更信息.使用Java开发Canal客户端.ProtoBuf

weixin_45656117·2020-09-15 04:18

课堂笔记

实时数仓搭建和flink分析Day01共性问题HBase里面配置的zk地址后面不能有端口号node01:2181:2181HBase的zk地址不需要自己手动添加端口号,有可能是配置文件引错了.启动的时候提示

weixin_45656117·2020-09-15 04:18

课堂笔记

实时数仓Day04昨日回顾维度数据同步:离线同步维度数据到Redis.实时同步维度数据到Redis.数据过滤进行数据落地:判断MySQL中的操作:增加/修改/删除.执行的时候,不要忘记在APP主程序中调用

weixin_45656117·2020-09-15 03:52

数仓建设过程中DB层增量到ODS层情况解析

to_date(days_sub(NOW(),1))前一天日期背景：每5个小时抽取一次oracle里面6个小时内的数据到DB层，抽完之后，将数据增量到ODS层DB层是textfile文件表，ODS层是parquet按天dt分区的表，每个dt里面存的是增量数据，总ODS层表示一份全量数据增量过程中有两种情况，能生成唯一键和没有唯一键的情况1、对于有唯一键的数据我们操作比较简单，取ods层数据和DB层

xuyingzhong·2020-09-15 01:36

02_数仓分层问题优化

上文回顾：首先来回顾一下我们数仓的分层结构：ods层：ods层就是将业务库的源表，经过清洗后保存起来。当然，用户的行为日志经过结构化后，也可以放在ods层。

猪猪Jedda·2020-09-14 23:11

数仓应用工具Hive：从底层设计窥见其优化策略

Hive介绍：官网上对Hive的介绍可以简单理解为：它是一款构建在Hadoop之上的数据仓库软件，将已存储的数据结构化（将数据库中的各个文件关联起来，形成一定的结构关系），并提供了类SQL查询语句HQL（HiveQueryLanguage）对数据进行分析处理。Hive可以自动将HiveQL语句转换成一系列成MapReduce作业并执行，二不再需要程序员手动编写MR任务（SQL如何转化为MapRed

qingdsj·2020-09-14 21:09

大数据之数仓--DW--Hadoop数仓实践Case-08-退化维度

退化维度概述退化维度，该技术减少维度的数量，简化维度数据仓库模式。简单的模式比复杂的更容易理解，也有更好的查询性能。有时，维度表中除了业务主键外没有其他内容。例如，在我们的销售订单示例中，订单维度表除了订单号，没有任何其他属性，而订单号是事务表的主键。我们将这种维度称为退化维度。业务系统中的主键通常是不允许修改的。销售订单只能新增，不能修改已经存在的订单号，也不会删除订单记录。因此订单维度表也不会

非科班大数据工程师·2020-09-14 17:09

数据仓库灵魂30问之数仓有哪几种建模思想？

范式建模范式建模在实际的应用中有：第一范式(1NF)、第二范式(2NF)、第三范式(3NF)、巴斯-科德范式(BCNF)、第四范式(4NF)、第五范式(5NF)在企业范式建模中，一般追求三范式，即：属性不可分割不存在部分函数依赖不存在传递函数依赖属性不可分割假设有表如下：班级物品3年E班30张桌子3年E班30张椅子很显然这个表不符合第一范式，因为列中的数据不是原子数据项，可以再分割。修改后如下：年

寒暄·2020-09-14 15:28

数据仓库灵魂30问之数仓基础理念理解

主题主题是一个抽象概念，是在较高层次上将数据综合、归类并进行分析利用的抽象。每一个主题都对应一个宏观的分析领域，在实际上，每一个主题对应这个分析领域的所有的分析对象。比如销售主题对应所有和销售这个领域有关的数据。主题域主题域通常是联系较为紧密的数据主题的集合。可以根据业务的关注点，将这些数据主题划分到不同的主题域。比如销售主题的主题域就是这个领域有关的数据的集合。血缘关系血缘关系是指某个字段从哪个

寒暄·2020-09-14 15:28

数据质量概述及通用脚本

数据一致性数仓各层数据应与上一层数据一致，数仓指标与数据源保持一致。数据唯一性每一个事实应当只

寒暄·2020-09-14 15:27

数仓理论知识之什么是度量，什么是粒度，什么是事实，什么是维度

度量度量是业务流程节点上的一个数值。比如销量，价格，成本等等。粒度粒度就是业务流程中对度量的单位，比如商品是按件记录度量，还是按批记录度量。事实在《数据仓库工具箱》一书中对事实的定义是：事实涉及来自业务过程的度量，基本都以数量值表示。一个事实表行与粒度存在一对一关系。比如上班时长表（上班时间，加班时间），上班时间可以拆分成签到时间，签退时间形成一个维度表，加班时间就是一个数值，加了几个小时的班是一

寒暄·2020-09-14 15:27

Flink SQL之维表join-----实时数仓

https://blog.csdn.net/jmx_bigdata/article/details/107872332写的还不错~~~~~

专注于大数据技术栈·2020-09-14 15:36

SQL的规范

SQL的规范合理定义表名，数仓中不同层要以不同的层的名字作为开头，一般表名开头为字母注释，单行注释，多行注释，方便以后阅读--单行注释--从SomeTable中查询col_1SELECTcol_1FROMSomeTable

keepHungery·2020-09-14 14:50

数仓ods分区总结

表概念1.全量表：用来记录当前所有事物的最新信息，包括变化的和没有变化的.2.增量表：用来记录事务的有变化的量。只记录有变化的没有变化的不需要记录.3.快照表：快照表是有时间分区的，每个分区里面的数据都是分区时间对应的前一天的所有全量数据.4.拉链表:记录一个事物从开始，一直到当前状态的所有变化的信息.不分区保留历史数据方式以及计算影响ods层新增数据插入到原表中，这样原表中会保存所有有过变化的历

数据游戏·2020-09-14 09:31

数仓常用建模方法

实体建模法：根据业务与业务之间的联系建模，一般多用在业务建模和领域建模阶段，当然在没有现成可参考的建模方法我们可以采用此方法。维度建模法：紧紧围绕着业务进行多个维度的分析，大量的维度预处理帮助我们提高开发效率，减少重复开发，但是缺点也就很明显，字段冗余，且在更改业务的情况下需要重新定义维度的预处理，一般应用在逻辑建模阶段，我们主要在这里进行逻辑开发范式建模法：由inmon提出的，一般主要应用在关系

Alwaysdazz·2020-09-14 05:03

数仓入门基础-5-数仓建模

个人博客：https://renwula.github.io/，本系列基于互联网公司数仓，使用hive搭建数仓从业中，数仓建模是一个数仓工程师需要的必备的能力，优秀的分层设计能够让整个数据体系更易理解和使用

任乌拉·2020-09-14 04:52

hive作为数仓，各个层次的存储格式

hive作为数仓，分为1、业务数据的数仓，来源于mysql2、用户行为数仓（日志），来源于采集系hive：ods层：用sqoop将mysql的数据导入到hdfs创建Snappy压缩格式的Parquet结构的表

qq_37301790·2020-09-14 04:36

聊聊数仓建模方法论

本文将通过如下几点阐述数仓建模方法论一什么是数据模型?二数仓建模历程.三为什么要数据仓库模型?四数据模型的建设能够给我们解决哪些问题?

无崖子318·2020-09-14 04:04

数仓建模的四种方法

大数据的数仓建模是通过建模的方法更好的组织、存储数据，以便在性能、成本、效率和数据质量之间找到最佳平衡点。

清平の乐·2020-09-14 03:38

浅谈数仓建模及其方法论

认识数据仓库1.数仓的定义:2.数据仓库和数据库的区别:数仓的发展1.简单报表阶段：这个阶段，系统的主要目标是解决一些日常的工作中业务人员需要的报表，以及生成一些简单的能够帮助领导进行决策所需要的汇总数据

Sunshine_Bloom·2020-09-14 03:54

谈笑间学会数仓—全量表&&增量表

全量表全量表增量表数据包含到前一天的全量数据前一天的增量数据分区不分区（ymd为当前日期）（但是也有按天全量设计的，也叫全量表）按照每一天分区保存每天所有的最新状态的数据。（1）全量表，有无变化，都要报（2）每次上报的数据都是所有的数据（变化的+没有变化的）一般导入数据时，不进行任何操作导入的数据就是全量表。例如：平时使用sqoop直接导入，或者load加载，不需要任何特殊的操作，全表覆盖或者先删

MrZhangBaby·2020-09-14 03:34

推荐频道

数仓（

Nexmark: 如何设计一个流计算基准测试？

基于 Flink + Hive 构建流批一体准实时数仓

多数据源一站式入湖

多数据源一站式入湖

阿里巴巴电商搜索推荐实时数仓演进之路

阿里巴巴电商搜索推荐实时数仓演进之路

腾讯看点基于 Flink 的实时数仓及多维实时数据分析实践

社区活动 | Apache Flink Meetup·深圳站，锁定 Flink 最佳实践

技本功|Hive优化之Spark执行引擎参数调优（二）

基于 Flink + Hive 构建流批一体准实时数仓

基于 Flink + Hive 构建流批一体准实时数仓

[Aliyun] 实时数仓Hologres Demo01实时计算实时写入数据至Hologres

MongoDB数据增量同步到Hive（方案一通过BSON文件映射）

基于Flink+ClickHouse打造轻量级点击流实时数仓

传统数仓和大数据数仓的区别是什么？

网易严选打造数仓规范和评价体系实践

Hive SQL调优，distict去重效率竟然比group by高？union该如何优化？

网易实时数仓实践与展望

数据中台

linux系统下面所有命令都失效了，显示bash: xxxxx: command not found...

数据中台实践手记——数据体系搭建

实时数仓技术

直播预告 | 乘云而上：云原生数据仓库AnalyticDB

Flink通过异步IO实现redis维表join

flink实时数仓(九):增量同步mysql中数据

Apache Doris在美团外卖数仓中的应用实践

Hive数仓筛选出2秒内可能重复下单的订单id列表

数据仓库简介-ODS、DW和DM概念区分

数仓之ods与dw的区别

课堂笔记

课堂笔记

课堂笔记

数仓建设过程中DB层增量到ODS层情况解析

02_数仓分层问题优化

数仓应用工具Hive：从底层设计窥见其优化策略

大数据之数仓--DW--Hadoop数仓实践Case-08-退化维度

数据仓库灵魂30问之数仓有哪几种建模思想？

数据仓库灵魂30问之数仓基础理念理解

数据质量概述及通用脚本

数仓理论知识之什么是度量，什么是粒度，什么是事实，什么是维度

Flink SQL之维表join-----实时数仓

SQL的规范

数仓ods分区总结

数仓常用建模方法

数仓入门基础-5-数仓建模

hive作为数仓，各个层次的存储格式

聊聊数仓建模方法论

数仓建模的四种方法

浅谈数仓建模及其方法论

谈笑间学会数仓—全量表&&增量表