数仓（第73页

【与数据同行】开通招聘、产品、数仓、分析、建模、治理等专业群，欢迎加入！...

【与数据同行】社群提供给大家一个开放的平台进行交流，分为【数据专业群】与【招聘交流群】两大类型，当前已经连接了超1万的数据专业人士。1、数据专业群介绍分为综合、数据仓库、数据分析、产品经理、数据治理及机器学习六大专业群，综合群必选，其他专业群可以选择1-2个加入，扫以下二维码加入：活动内容包括：1、原创文章：傅一平的实践原创文章2、它山之石：业界最棒的深入浅出的DT文章精选3、话题讨论：对业界关心

fuyipingwml1976124·2020-07-27 22:17

数仓-需求

一、数据评估数据评估是一个系统的检测过程，对ETL需要使用的数据源的质量、范围和上下文进行检查。从极端意义上讲，一个清洁的数据源是一个维护良好的数据源，只需进行最少量的数据转换和人工干预就可以直接加载到最终的事实表和维表。但对于脏数据源可能需要如下的步骤进行处理：完全清除某些输入字段补入一些遗失的数据，产生特殊的代理键自动替换掉某些错误数据值在记录级别上进行人工干预对数据进行完全规范化的

bin330720911·2020-07-27 19:11

数仓（五）-规范化

一、数据质量正确的：数据的值和描述真实的反映了它需要表达的对象。例如，某一位作者当前居住的城市叫NewHope，那么，关于家庭地址的数据应该包含正确的城市名称NewHope。明确的：数据的值和描述应该是只有一个含义。例如，在美国至少有十个城市叫NewHope，而在宾夕法尼亚州只有一个城市叫NewHope。那么，在“精确的”数据中，描述这个城市中的地址是应该包含城市名NewHope以及州名称宾夕法尼

bin330720911·2020-07-27 19:11

2W字 0-1 讲解数仓(附软硬件架构图)(建议收藏)

大数据篇：一文读懂@数据仓库1网络词汇总结人工智能层的：智慧地球、智慧城市、智慧社会企业层面的：数字互联网，数字经济、数字平台、数字城市、数字政府；平台层面的：物联网，云计算，大数据，5G，人工智能，机器智能，深度学习，知识图谱技术层面的：数据仓库、数据集市、大数据平台、数据湖、数据中台、业务中台、技术中台等等挑重点简介1.1数据中台数据中台是聚合和治理跨域数据，将数据抽象封装成服务，提供给前台以

无精疯·2020-07-27 18:46

专治数仓疑难杂症！美团点评 Flink 实时数仓应用经验分享

实时数仓建设目的解决传统数仓的问题实时数仓是一个很容易让人产生混淆的概念。实时数仓本身似乎和把PPT黑色的背景变得更白一样，从传统的经验来讲，我们认为数仓有一个很重要的功能，即能够记录历史。

ApacheFlink·2020-07-27 17:22

进击的 Flink：网易云音乐实时数仓建设实践

如何基于Flink的新API升级实时数仓架构？

ApacheFlink·2020-07-27 17:31

aliyun_odps数仓常用命令总结

odps_cmd用户和权限管理-------------向项目空间中添加用户:adduserusername;eg:[email protected]查看用户：listusers;删除用户：removeuserusername;授限：向user_name授予名为user_project_name的project的createTable创建表权限grantCreateTableonprojec

csdngyb·2020-07-27 14:46

【实时数仓篇】（02）基于 Flink 的典型 ETL 场景实现

如果你也对数据中台、数据建模、数据分析以及Flink/Spark/Hadoop/数仓开发感兴趣，可以关注我的动态https://blog.csdn.net/BeiisBei，让我们一起挖掘

云祁·2020-07-27 14:40

【实时数仓篇】（01）美团 Flink 实时数仓应用

如果你也对数据中台、数据建模、数据分析以及Flink/Spark/Hadoop/数仓开发感兴趣，可以关注我的动态https://blog.csdn.net/BeiisBei，让我们一起挖掘

云祁·2020-07-27 14:40

【Flink】（十四）Flink Runtime 核心机制剖析

如果你也对数据中台、数据建模、数据分析以及Flink/Spark/Hadoop/数仓开发感兴趣，可以关注我https://blog.csdn.net/BeiisBei，让我们一起挖掘数据的

云祁·2020-07-27 14:40

BI_ODPS-D2-离线数仓-8-QuickBI展示

BI_ODPS-D2-离线数仓-8-QuickBI展示（上周学会使用句号）对RDS的gmall_adb数据库中的表做结果展示。

in_·2020-07-27 14:28

SQL_ODPS-D2-离线数仓-7-临时查询

SQL_ODPS-D2-离线数仓-7-临时查询包括odsdwddwsads数仓的建表语句以及手动导入数据语句test--odpssql--********************************

in_·2020-07-27 14:56

阿里云PB级实时数仓AnalyticDB通用解决方案解析

阿里云PB级实时数仓AnalyticDB通用解决方案解析摘要：大数据上云特惠活动系列直播，阿里巴巴技术部悦畅对PB级实时数仓AnalyticDB通用解决方案进行解析。

SimminonGarcia·2020-07-27 13:12

系列 | 漫谈数仓第四篇NO.4 『数据应用』（BI&OLAP）

ROLAPMOLAPHOLAP]☞03.OLAP引擎[KylinDruidPrestoImpalaKuduADBES..]本文之前，先来回顾一下本系列前三篇文章：▼架构规范▼』维度建模ETL之道今天是我们漫谈数仓系列第四篇

仙子紫霞·2020-07-27 12:02

MVC + EFCore 项目实战 - 数仓管理系统7 - 数据源管理中--新增数据源

上篇我们完成了数据源列表展示功能（还未测试）。本篇我们来新增数据源，并查看列表展示功能。接上篇：二、数据源管理功能开发2、新增数据源我们用模态对话框来完成数据源的新增，效果如下图：我们分两部分讲解：展示和逻辑。展示：我们用的前端UI是基于bootstrap的，因此bootstrap中的所有组件也都可以正常使用。去bootstrap的官网找到模态对话框，粘贴相关UI稍作修改。基本html结构如下。通

MiroYuan·2020-07-22 15:00

MVC + EFCore 项目实战 - 数仓管理系统6 – 数据源管理上--使用view component完成卡片列表

上次课程我们完成了菜单的配置和开发里程碑的划定。按照计划，我们先来开发数据仓库管理中的数据源管理（对应菜单为：数据仓库管理/数据源），首批支持的数据源是SQLSERVER数据库。一、数据源管理功能任务分解我们将这部分需求分解成以下几个任务：1、新建数据源主要功能是配置一个连接字符串，根据此连接字符串可以读取相应的数据库，即我们的数据仓库。2、数据源列表列出所有已建好的数据源。3、预览数据根据上一条

MiroYuan·2020-07-21 08:00

数据仓库面试题

数仓最重要的是什么？概念数据模型、逻辑数据模型、物理数据模型概念数据模型CDM逻辑数据模型LDM物理数据模型PDMSCD的常用处理方式？元数据的理解？技术元数据业务元数据元数据管理系统

upupfeng·2020-07-20 12:16

一次Spark SQL提取数据所遇到的问题

目录需求背景及解决思路问题Ⅰ：csv编码问题问题Ⅱ：shuffle前后的分区问题问题Ⅲ：broadcastjoin不生效问题Ⅳ：sparksql关于stage的划分需求背景及解决思路boss给了一份csv文件，要求从数仓中的点位表中筛选出

bradyM·2020-07-15 21:03

如何从0-1构建用户画像体系？

前面草帽小子介绍了埋点数据采集、指标体系搭建、数仓和OL

无精疯·2020-07-15 19:45

利用spark sql自适应功能避免小文件合并

1.问题来源离线数仓底层分了两层每天业务增量数据层(ODS)：每天一个分区，用于存放业务每天的增量数据，每天业务快照层(SNAP)：事实表一般无分区，保存业务的快照。

L13763338360·2020-07-15 17:24

MySQL主从复制--单库复制搭建

背景说明负责公司MySQL数仓的搭建和维护，因为前端业务涉及到一次业务表的分库，导致整个平台新增加一台MySQL服务器，需要将该库数据通过主从复制同步至原有的数仓实例。

风知洲·2020-07-15 15:53

Apache Flink 任意 Jar 包上传致 RCE 漏洞复现

东塔安全·2020-07-15 14:19

面试过程中的一些面试题

求用户最大连续登陆的天数2、写个sql（简单两表jion）问spark在处理过程中产生多少stage，用mr处理过程中产生多少job，并且mr底层是怎么处理这个sql的（map端和reduce端）3、数仓命名规则

子小哥哥·2020-07-15 12:26

数仓项目中geohash字典的构建(下)

数仓项目中geohash字典的构建(下)剩下将经纬转成geohash码mysql弄不了只能用spark了/***将sql中写好的经纬度字段在spark中生成geohash编码预备:在子模块中传入geohash

北京小峻·2020-07-15 09:02

MVC + EFCore 项目实战 - 数仓管理系统5 – 菜单配置及里程碑划分

上次课程我们完成了需求的梳理。我们根据梳理的需求把菜单配好，另外我们把项目里程碑也配置在系统中，开发和管理都在系统中，形成无文档化管理。一、菜单配置根据我们的归纳图，我们先将菜单配置好。我们遵循敏捷开发的原则，近期要开发的功能列的详细点，远期要开发的先不展开。我们要开发的第一个功能是数据仓库管理。我们将这部分需求回顾下，菜单对应功能是：1、数据源管理数据源。主要功能是配置一个连接字符串，根据此连接

MiroYuan·2020-07-15 08:00

尬聊数据仓库规范

数仓案例目标在学习数据仓库的基本理论知识和所需的工具后，通过案例将整个数据仓库的开发流程串联起来，掌握数据仓库从模型设计、物理实现、加载数据、自动同步以及分析指标和的过程，了解报表展示。

尬聊码农·2020-07-15 08:42

Logtail技术分享(一) : Polling + Inotify 组合下的日志保序采集方案

包括硬盘上的历史数据，用户网页的点击，传感器等等存储：以各种适合计算的模式集中式存储数据，其中既包含大规模的存储系统（例如数仓），也有例如临时的存储（例如Kafka类消息中间件

阿里云云栖号·2020-07-15 07:02

日志分析大数据平台项目、Hive高阶函数、数仓建模模型

1.日志点击流整体框架2.日志点击流大数据平台分析系统2.1表模型page作为点,根据sessionId就可以将用户在该网站的访问情况绘制成一条线,就可以分析用户的访问轨迹表模型原始数据通过flume采集得到的input数据原始访问日志表mr数据清洗原始数据.过滤脏数据,得到weblog_origin通过load方式,加载到hive的ods层,源数据pageview表(重视每一次的访问,一个用户访

啊策策·2020-07-15 07:55

如何设计实时数据平台（下篇）

在上篇（设计篇）中，我们从现代数仓架构角度和典型数据处理角度介绍了RTDP，并探讨了RTDP的整体设计架构。本文作为下篇（技术篇），则是从技术角度入手，

敏捷大数据·2020-07-15 06:17

数仓的理解（二）

四、OLAP&即席查询常见的OLAP场景&选型Druid时序型数据的实时OLAP分析不关心事件明细数据产生速率快、原始数据量大以简单指标（sum/count/min/max）为主，去重指标不多（1~2个）Kylin基于预计算支持固化查询：指标提取、多维分析、dashboard等查询模式比较固定、SQL表达数据规模大、指标数量多、高基数精确去重对响应时间要求比较严苛（TP99<3秒）Diros基于M

翟工的分享空间·2020-07-15 06:30

揭秘阿里云EB级大数据计算引擎

2124|6分钟阅读摘要全球权威咨询与服务机构Forrester发布了《TheForresterWaveTM:CloudDataWarehouse,Q42018》，这是Forrester首次发布关于云数仓解决方案的测评

weixin_33785972·2020-07-15 04:32

数仓设计

（简答题）1.如果让你来设计数据仓库并搭建相关可视化报表,你会考虑哪些问题。1.数据推送方式与批次，是推送增量还是推送全量，是一天一次还是一天两次；2.推送全量的就全删全插，推送增量的涉及到时间拉链的取法，是滚动时间还是平滑时间；3.多次推送的还涉及到数据去重的问题；4.从源端推送过来的数据还需要考虑脏数据；5.大致框架如下：src-->landing层（落地）-->staging层(做逻辑处理：

Nooni·2020-07-15 01:00

数据仓库-拉链表+增量表抽取的实现

背景：业务部门提了用户分层的需求，其中有一点，业务放需要我们数仓提供历史数据，并且业务库里的部分表还没有数据更新时间字段。

张超_·2020-07-14 22:17

数仓表之三范式

没有规范化，数据的更新处理将变得困难，异常的插入、修改、删除数据的操作会频繁发生。我们先来看一下三范式的定义第一范式（1NF）：强调的是列的原子性，即列不能够再分成其他几列。第二范式（2NF）：首先是1NF，另外包含两部分内容，一是表必须有一个主键；二是没有包含在主键中的列必须完全依赖于主键，而不能只依赖于主键的一部分。第三范式（3NF）：首先是2NF，另外非主键列必须直接依赖于主键，不能存在传递

name of space·2020-07-14 18:06

数据库范式与反范式

最近涉及到设计和建立数仓表，数据总体划分为ods/fact/aggr/dws/rpt/dim层，具体结构如下图所示：遵从设计规则：以星型模型为设计模式,维度采用反范式化,且维度数据要整个仓库可共用,数据准确性要保证

lzq20115395·2020-07-14 14:50

数据仓库-数仓是如何反三范式的？

在回答数据库和数据仓库的区别时，最常见的回答是数据仓库反三范式，数据库遵循三范式。那么具体的区别是什么？下面进行简单的说明。数据库三范式字段列含义不可分割。数据库默认遵循第一范式，不遵循第一范式无法创建表，下面的"进货"和"销售"列可以再细分，所以不符合第一范式。2.表有主键，且非主键列依赖主键列。下图中可以将"学号"和"课名"作为联合主键，但是非主键列如"系主任"并没有直接依赖联合主键，所以不符

anickname·2020-07-14 12:17

大数据/数仓面试灵魂30问（转）

可简单说下理解与思路3.数据仓库、数据中台、数据湖的理解4.传统数仓的程度（建模工具、ETL工具、BI报表工具、调度系统）5.传统数仓和大数据数仓的异同？有哪些大的变化？6.印象最深刻的项目？为什么？

颹蕭蕭·2020-07-14 12:08

一文带你认清数据仓库“维度模型设计”与“分层架构” | 原力计划

作者|Alice菌责编|王晓曼出品|CSDN博客数据仓库纬度模型设计1.纬度建模基本概念维度模型是数据仓库领域大师RalphKimall所倡导，他的《数据仓库工具箱》，是数据仓库工程领域最流行的数仓建模经典

CSDN资讯·2020-07-14 09:39

MVC + EFCore 项目实战 - 数仓管理系统4 – 需求分解

上次课程我们完成了项目基本的UI风格配置。现在就开始进入我们的需求开发，我们先捋一下需求。一、总体需求说明项目背景第一篇文章已有介绍，我们回顾一下。这是一个数据管理"工具类"的系统，计划有三个核心功能：1、数据查询通过界面配置相关连接字符串，查询数据库的表数据。2、数据采集配置相关模板，生成数据库表。可以界面填报或通过Excel导入导出填报表数据。3、表结构导出通过界面配置导出数据库表结构（数据字

编程小纸条·2020-07-14 08:00

MVC + EFCore 项目实战 - 数仓管理系统4 – 需求分解

上次课程我们完成了项目基本的UI风格配置。现在就开始进入我们的需求开发，我们先捋一下需求。一、总体需求说明项目背景第一篇文章已有介绍，我们回顾一下。这是一个数据管理"工具类"的系统，计划有三个核心功能：1、数据查询通过界面配置相关连接字符串，查询数据库的表数据。2、数据采集配置相关模板，生成数据库表。可以界面填报或通过Excel导入导出填报表数据。3、表结构导出通过界面配置导出数据库表结构（数据字

我们的征途是星辰大海·2020-07-14 08:00

Hive常用函数总结（上）

在我们开发数仓项目的过程中，我们常常需要写一些复杂的hql语句来完成我们的业务逻辑，今天我们就来聊聊那些Hive中自带的常用函数。

Forever_ck·2020-07-14 04:29

大数据学习——Day01（基础常识和数仓基础）

大数据定义现有技术无法处理的数据。主要特点体量大要求处理速度快数据种类多发展历程数据–>存储、计算数据–>分布式计算大数据处理技术的发展历程谷歌提供了理论支撑：GFS、MapReduce和BigTable。hadoop：大数据处理平台，将分布式计算打包，降低了分布式编程的难度。数据仓库Hive数据仓库中的一个非常重要的技术，是数据仓库与hadoop紧密结合的标志。学习硬件需求服务器集群（vmwar

CoffreLv·2020-07-14 04:29

【实践案例分享】PyFlink 在聚美优品的应用实践

在来到聚美之前，我主要做离线数仓开发和数据开发，来到刷宝之后，部门也并没有现成的实时框架，需要自行搭建。所以，当实时的需求来到我面前的时候，内心是忐忑的。下面我将

木东居士·2020-07-14 03:57

hive常用窗口函数

3、时间函数：数仓的特征随时间变化而变化，所以时间也特别多哪窗口函数到底是什么鬼？？hive中窗口函数是聚合函数的增强实现，是针对分组后，还需要对组内的每行数据返回一个对应的统计值。

Aidon-东哥博客·2020-07-14 02:29

30岁女IT月薪3W的背后：从数据报表到数仓、中台，这工具帮了大忙

大家可能见过女程序员、女IT工程师，但是我今天要讲的这位，肯定和你们看到的都不一样：一位30岁左右的女IT，为了自己的数据梦想，重构企业数据架构的故事，就以第一人称来说吧。我毕业快6年了，从事的第一份工作是国企的软件的基础开发工作，基本没什么事情，也就是你们所说的铁饭碗，该企业的信息系统，Oracle数据库、ERP等软件都是标配，但是利用率非常低下，3000人的大企业，还靠手动上传数据，竟然还用E

Leo.yuan·2020-07-13 23:34

老生长谈的数据仓库 3 种建模方法，附猫眼娱乐数仓架构演进！

猫眼技术团队https://juejin.im/post/5d5be159f265da03970bbc3a数据仓库存在的初期，甚至没有数据仓库的时候，猫眼的日常需求报表和数据接口提供方式如图一：数据散落在企业各数据散落在企业各部门应用的数据存储中，它们之间有着复杂的业务连接关系，从整体上看就如一张巨大的蜘蛛网：结构上错综复杂，却又四通八达。在企业级数据应用上单一业务使用方便，且灵活多变；但涉及到跨

码农小光·2020-07-13 21:58

大数据问答题

1、数仓ETL过程中，数据探索阶段主要包括哪些内容？2、数据仓库中为什么要做拉链表?什么样的场景比较适合用拉链表？举例说明拉链表的实现过程？

weixin_40530363·2020-07-13 19:15

MaxCompute数仓维护心得-五叶草

在维护客户基于MaxCompute搭建的数据仓库时，我们遇到过一些问题，踩过一些坑，同时积累了一些经验，也初步形成了一套操作流程规范，在这里与大家以Tip的形式与大家分享一下。Tip1.避免同步视图同步的源数据要避免使用视图，在客户的生产环境上曾经出现过这样的情况：由于生成视图的存储过程优化不好，同步视图在同步任务发起请求后很久没有生成出来，导致同步任务及后续的ETL挂起达数小时之久，所以后续和数

weixin_33768481·2020-07-13 17:24

基于canal的实时数据同步架构

技术背景数据同步作为数仓建设和数据分析的基础环节，其重要性不言而喻。目前业界最常用的做法是离线按天备份，通过批处理的方式直连业务库，将数据全量导入到数仓。这种方式简单直接，不会担心数据丢失等问题。

咬定青松·2020-07-13 08:53

【数仓】数据仓库的元数据管理（三）

看了一些其他文章，有说定义的，有画图的，其中也不乏有一些很不错的文章数仓系列：【数仓】数据仓库的思考（一）：https://blog.csdn.net/lsr40/article/details/105576047

lsr40·2020-07-13 07:04

推荐频道

数仓（

【与数据同行】开通招聘、产品、数仓、分析、建模、治理等专业群，欢迎加入！...

数仓-需求

数仓（五）-规范化

2W字 0-1 讲解数仓(附软硬件架构图)(建议收藏)

专治数仓疑难杂症！美团点评 Flink 实时数仓应用经验分享

进击的 Flink：网易云音乐实时数仓建设实践

aliyun_odps数仓常用命令总结

【实时数仓篇】（02）基于 Flink 的典型 ETL 场景实现

【实时数仓篇】（01）美团 Flink 实时数仓应用

【Flink】（十四）Flink Runtime 核心机制剖析

BI_ODPS-D2-离线数仓-8-QuickBI展示

SQL_ODPS-D2-离线数仓-7-临时查询

阿里云PB级实时数仓AnalyticDB通用解决方案解析

系列 | 漫谈数仓第四篇NO.4 『数据应用』（BI&OLAP）

MVC + EFCore 项目实战 - 数仓管理系统7 - 数据源管理中--新增数据源

MVC + EFCore 项目实战 - 数仓管理系统6 – 数据源管理上--使用view component完成卡片列表

数据仓库面试题

一次Spark SQL提取数据所遇到的问题

如何从0-1构建用户画像体系？

利用spark sql自适应功能避免小文件合并

MySQL主从复制--单库复制搭建

Apache Flink 任意 Jar 包上传致 RCE 漏洞复现

面试过程中的一些面试题

数仓项目中geohash字典的构建(下)

MVC + EFCore 项目实战 - 数仓管理系统5 – 菜单配置及里程碑划分

尬聊数据仓库规范

Logtail技术分享(一) : Polling + Inotify 组合下的日志保序采集方案

日志分析大数据平台项目、Hive高阶函数、数仓建模模型

如何设计实时数据平台（下篇）

数仓的理解（二）

揭秘阿里云EB级大数据计算引擎

数仓设计

数据仓库-拉链表+增量表抽取的实现

数仓表之三范式

数据库范式与反范式

数据仓库-数仓是如何反三范式的？

大数据/数仓面试灵魂30问（转）

一文带你认清数据仓库“维度模型设计”与“分层架构” | 原力计划

MVC + EFCore 项目实战 - 数仓管理系统4 – 需求分解

MVC + EFCore 项目实战 - 数仓管理系统4 – 需求分解

Hive常用函数总结（上）

大数据学习——Day01（基础常识和数仓基础）

【实践案例分享】PyFlink 在聚美优品的应用实践

hive常用窗口函数

30岁女IT月薪3W的背后：从数据报表到数仓、中台，这工具帮了大忙

老生长谈的数据仓库 3 种建模方法，附猫眼娱乐数仓架构演进！

大数据问答题

MaxCompute数仓维护心得-五叶草

基于canal的实时数据同步架构

【数仓】数据仓库的元数据管理（三）