数仓（第84页

数仓建设几个关键问题

数仓的功能以我当前的认知，数仓应该至少有下面两个职责:数据整合统一口径下面详细说说这两点。数据整合数据整合是为了解决各系统的异构问题。对于大体量的公司来说，往往会投入大量的资源解决“数据孤岛”问题。

bluedraam_pp·2019-04-06 18:32

数仓--Theory--对数仓面向主题的理解

面向主题面向主题是数仓的四大特点之一，听起来很高大上，但是细细理解起来却有些费劲，本文主要是记录一下个人的理解，参考互联网上各种博客进行理解。

李小李的路·2019-04-04 11:42

Greenplum 5.16.0初探

另外数仓/数据集市方面还有性能强悍的HAWQ，支持更大数据规模Hadoop。

我的二狗呢·2019-03-30 23:00

informatica-etl全量增量设计流程

在数仓ODS层创建目标表例：若源表为test01目标表在172.16.0.133/oratestods_wshh/wshh@2015的格式：创建全量覆盖工作流在sourcetarget目录导入工作流所需要的源和目标并保存

Demonson·2019-03-30 11:01

基于Mysql源数据的数仓表结构整理

1、简单的表结构信息查看SELECT a1.table_name表名, a1.TABLE_ROWS记录条数, a1.TABLE_COMMENT表注释, a2.COLUMN_NAME列名, a2.COLUMN_TYPE数据类型, a2.IS_NULLABLE是否为空, a2.COLUMN_DEFAULT默认值, a2.COLUMN_COMMENT列备注, a1.C

BabyFish13·2019-03-21 15:14

基于Mysql源数据的数仓表结构整理

1、简单的表结构信息查看SELECT a1.table_name表名, a1.TABLE_ROWS记录条数, a1.TABLE_COMMENT表注释, a2.COLUMN_NAME列名, a2.COLUMN_TYPE数据类型, a2.IS_NULLABLE是否为空, a2.COLUMN_DEFAULT默认值, a2.COLUMN_COMMENT列备注, a1.C

BabyFish13·2019-03-21 15:14

数据中台精华问答 | 数据中台和传统数仓的区别是什么？

中台系统把业务层同性的算法能力，服务能力，业务能力高度集成，有效组织，动态规划。更好的帮助上层业务。今天就让我们看看关于数据中台的问答吧。1Q:什么是数据中台？A:数据中台是指通过数据技术，对海量数据进行采集、计算、存储、加工，同时统一标准和口径。数据中台把数据统一之后，会形成标准数据，再进行存储，形成大数据资产层，进而为客户提供高效服务。这些服务跟企业的业务有较强的关联性，是这个企业独有的且能复

csdn业界要闻·2019-03-20 08:49

在hue平台上使用oozie工作流调度

在实习期间，公司使用的hue平台做的数仓，下面就简单介绍一下hue的一些使用的注意事项，主要是工作流的使用和调度进入hue首页：Workflow是工作流，Schedule是调度工作流的，如设置工作流何时跑

luruixiao·2019-03-15 11:00

TiDB简述

项目内使用的MySQL2Hive任务失败，是由于数仓使用的TiDB新版组件BUG引起的，自此了解到了TiDB。

dkjkls·2019-03-09 11:53

广告场景下的实时计算

articles/692364案例与解决方案汇总页：阿里云实时计算产品案例&解决方案汇总广告场景的综述，计算广告与流处理技术综述：其中涉及的主要实时处理环节：实时数据统计与BI，可参考数据仓库介绍与实时数仓案例在线流量反作弊

串行并jjjjj·2019-03-05 11:34

数据中台和数仓的关系

传统数仓传统数仓有几个特点：数据具有历史性基于文件存储以表为形态，自带元数据存储（比如Hive）在数仓的数据是其他数据的拷贝或者拷贝的加工传统数仓需要拷贝数据的重要原因是因为基于数据和存储需要尽可能的近

祝威廉·2019-03-04 14:07

数据中台和数仓的关系

传统数仓传统数仓有几个特点：数据具有历史性基于文件存储以表为形态，自带元数据存储（比如Hive）在数仓的数据是其他数据的拷贝或者拷贝的加工传统数仓需要拷贝数据的重要原因是因为基于数据和存储需要尽可能的近

祝威廉·2019-03-04 00:00

一些awesome网站

nginxNginx高性能Web服务器3、docker系列docker系列-jsonhcloocode-docker系列4、Spark系列Spark学习之路5、Flink系列Flink系列美团点评实时数仓实践滴滴是如何从零构建集中式实时计算平台的

江畔独步·2019-03-01 15:20

大数据平台安全建设实践

大数据平台的定位主要是服务数据开发人员，提高数据开发效率，提供便捷的开发流程，有效支持数仓建设。大数据平台的用户都是公司内部人员。数据本身的安全性已经由公司层面的网络及物理机房的隔离来得到保证。

金光闪闪耶·2019-03-01 12:36

关于目前某游戏直播平台数仓建设规划的思考3

现在回想起在苏宁的数仓做法，及另一前同事在天源迪科的数仓建模描述，也是大致按这种方式进行的。所以，综合考虑，可能要舍弃【思考2】中在DWH中两种建模方式的表述，统一采用宽表的建模方

BabyFish13·2019-02-27 17:01

阿里云实时计算产品案例&解决方案汇总

场景：广告场景下的实时计算运维场景下的实时计算案例&解决方案：通过Flink实时构建搜索引擎的索引基于实时计算（Flink）与高斯模型构建实时异常检测系统计算广告与流处理技术综述数据仓库介绍与实时数仓案例基于实时计算

客服小羊·2019-02-26 18:34

数仓项目第一天

关系数据库系统是支持关系模型的数据库系统。常见的数据库MySQL，Oracle、DB2，SQLServer都是关系型数据库。关系：由行和列构成的二维结构，对应关系数据中表，也就是数据的存储结构元组关系数据库中的一个表的行，也就是一条记录。关系数据库的特性在一个数据库中，表名称唯一表中的每个列名称不同，不同的表列名称可以相同列是无序的行是无序的关系数据模型中的键关系模型中具有一些键：超键、候选键、主

大岛君·2019-02-12 20:03

Spark SQL 读取hive分区表出现分区字段为null的情况

今天在使用SparkSQL读取hive分区表数据的时候，出现了下面的错误：由于这个表是数仓维护提供给我使用的，我并不是很清楚表中数据的情况，于是我取查了一下这个表，发现分区字段pk_year，pk_month

big_data1·2019-01-23 16:02

hive电商项目：1数仓构建过程

1、获取数据源后台的服务数据前台的点击流日志数据业务数据2、确定主题用户主题：用户、会员相关的信息订单主题：订单相关的信息浏览器主题：跟浏览器相关的信息事件主题：跟事件相关3、创建模型（创建表）100张表以内不分层，以外将分层。如果维度表较多则将维度表单独分层1、创建维度层：dim_维度表地域维度：拆分成省市浏览器维度：浏览器名称、版本时间维度：周、季度事件维度：category(种类)、acti

大岛君·2019-01-05 00:52

数仓模型示例

数仓模型案例一、范式建模1.零范式为便于分级说明三范式的特点，我们将不满足任何范式即无范式的数据称为零范式，假设它只满足一个最基本的条件——数据中不存在重复数据。

abebill·2019-01-03 17:38

eBay：将60PB的MPP DBMS迁移至Spark的经验

从17年开始，eBay将这个庞大的数仓向Spark做迁移，使用eBay开发的工具，这其中90%的工作都可以自动化地完成，并且通过优化Spark框架，这些措施使得整个流程节省了一半的内存。

Hadoop技术博文·2018-12-21 08:10

深入理解 Hive 分区分桶

在Hive数仓中也有分区分桶的概念，在逻辑上分区表与未分区表没有区别，在物理上分区表会将数据按照分区键的列值存储在表目录的子目录中，目录名=“分区键=键值”。其中

tingtingding·2018-12-19 15:39

CDH5.12.0-HiveServer2-java.net.SocketTimeoutException: Read timed out

一.问题背景基于CDH构建离线数仓，在通过JDBC向HiveServer2提交作业时出现java.net.SocketTimeoutException:Readtimedout错误，导致大批量的作业失败

HamaWhite·2018-12-14 21:45

杠上Spark、Flink？Kafka为何转型流数据平台

它通常作为一个数据管道，链接了各种业务前台和数据后台（比如数仓等）。\u003cstrong\u003e但是随着越来越多的企业应用开始采纳流计算作为数据的计算引擎，以及基础架构

坚持669·2018-12-10 09:15

HIVE数仓的安装与使用

hive的安装与简单入门1HIVE简单介绍1.1什么是HiveHive：由Facebook开源用于解决海量结构化日志的数据统计。Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类SQL查询功能。本质是：将HQL转化成MapReduce程序1.2Hive架构原理1.3Hive在加载数据的过程中不会对数据进行任何处理，甚至不会对数据进行扫描，因此也没有对数据中的

huoliangwu·2018-11-29 20:09

大数据数仓之Hive入门《一》

一、Hive基本概念1.1什么是HiveHive：由Facebook开源用于解决海量结构化日志的数据统计。它是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类SQL查询功能。本质就是：将HQL转化成MapReduce程序1）Hive处理的数据存储在HDFS2）Hive分析数据底层的实现是MapReduce3）执行程序运行在Yarn上1.2Hive的优缺点1.2.1优

Forever_ck·2018-11-29 18:43

美团点评基于 Flink 的实时数仓建设实践

qq_41694752·2018-10-22 09:19

美团点评基于 Flink 的实时数仓建设实践

引言近些年，企业对数据服务实时化服务的需求日益增多。本文整理了常见实时数据组件的性能特点和适用场景，介绍了美团如何通过Flink引擎构建实时数据仓库，从而提供高效、稳健的实时数据服务。此前我们美团技术博客发布过一篇文章《流计算框架Flink与Storm的性能对比》，对Flink和Storm俩个引擎的计算性能进行了比较。本文主要阐述使用Flink在实际数据生产上的经验。实时平台初期架构在实时数据系统

美团技术团队·2018-10-19 00:00

美团点评基于 Flink 的实时数仓建设实践

引言近些年，企业对数据服务实时化服务的需求日益增多。本文整理了常见实时数据组件的性能特点和适用场景，介绍了美团如何通过Flink引擎构建实时数据仓库，从而提供高效、稳健的实时数据服务。此前我们美团技术博客发布过一篇文章《流计算框架Flink与Storm的性能对比》，对Flink和Storm俩个引擎的计算性能进行了比较。本文主要阐述使用Flink在实际数据生产上的经验。实时平台初期架构在实时数据系统

美团点评技术团队·2018-10-18 22:00

【云+社区极客说】新一代大数据技术：构建PB级云端数仓实践

本文来自腾讯云技术沙龙，本次沙龙主题为构建PB级云端数仓实践在现代社会中，随着4G和光纤网络的普及、智能终端更清晰的摄像头和更灵敏的传感器、物联网设备入网等等而产生的数据，导致了PB级储存的需求加大。

腾讯云加社区·2018-10-10 00:00

数据仓库Kimball Or Inmon?

对数仓建立要求的开始，往往源于一个部门，而非多个部门的联合，需求往

云藤·2018-10-03 16:26

大数据数仓中增量数据问题讨论

目录数据增量类型介绍三种增量类型的具体介绍流水新增数据常规业务变化数据优化的业务变化数据总结数仓中增量数据的方法探讨先做个数据例子1月份2月份3月份4月份数仓分层生产数据同步到ODS层1月份ODS层表2

远处的一只猫·2018-09-29 10:20

Core Table Housekeeping案例1

分享一下自己做CoreTableHousekeeping的思路…首先说下背景：我们系统没有使用warehouse，用的是ODS，因为考虑到改动和测试量很大，所以暂不考虑建数仓。一、为什么要做数据清理？

小代嘚吧嘚·2018-09-12 12:21

使用CLI进行高速跨域日志复制、历史数据重新索引与数仓投递

摘要：高速跨域日志复制、对历史数据重新索引，投递历史数据到OSS/ODPS？现在这些操作CLI都可以支持了。背景使用日志服务是不是常常遇到如下烦恼？开启了字段索引却无法对历史日志起作用，而手动重建索引又很困难怎么办？需要迁移数据，复制数据到其他区域logstore，写代码实现大并发复制又很复杂怎么办？投递日志到OSS/ODPS仅仅对新数据起作用，又想投递历史日志怎么办？现在使用CLI就可以帮你轻松

阿里云云栖社区·2018-09-07 00:00

深入理解 Hive 分区分桶（Inceptor）

在Hive数仓中也有分区分桶的概念，在逻辑上分区表与未分区表没有区别，在物理上分区表会将数据按照分区键的列值存储在表目录的子目录中，目录名=“分区键=键值”。其中

bw_233·2018-08-31 17:11

ORA-30013: undo tablespace currently in use故障处理思路

当日早上，某系统数仓数据库告警，数据库版本为12c，操作系统为RHEL7.22018-08-23T06:43:17.297341+08:00PDB$SEED(2):OpatchvalidationisskippedforPDBPDB

yangjunfeng·2018-08-23 17:28

调度、模型、同步与任务——阿里云大数据数仓建设性能优化方案

摘要：对于阿里云大数据数仓建设性能优化而言，主要可以从调度优化、模型优化、同步优化以及任务优化这四个方面着手。

xstardust·2018-08-03 17:04

数仓面试题

hive优化https://blog.csdn.net/oracle8090/article/details/80008924https://blog.csdn.net/B11050101/article/details/787546521.hive表关联查询,造成数据倾斜的常见原因,如何解决数据倾斜2请说明hive中sortby,orderby,clusterby,distributeby含义3

oracle8090·2018-07-31 11:29

如何处理新业务

对数仓的要求是什么？

一路琼瑶足迹多·2018-07-19 12:30

HBase系列(一)：HBase表结构及数据模型的理解

一般我们从数仓中离线统计分析海量数据，将得到的结果插入HBase中用于实时查询。HBase表结构这里以一个公司员工表为案例来讲解，此表中

bw_233·2018-07-18 21:18

将传统数仓(mysql)数据导入hive中

步骤：一：建表1.获取建表语句（例dim_area），代码如下注意：如果不设置建表格式为orc文件,txt文件loaddata到orc中会出错。2.做部分修改后获得如下createtabledim_area(AreaIdint,AreaNamestring,ParentIdint,Shortstring,IsActiveint,FullNamestring,start_datestring,end

-dimension·2018-07-17 12:37

ClickHouse REST API(HTTP接口)及Engine引擎的使用

clickhouse-client使用的是“原生”的TCP连接来完成与服务端的交互，而在应用中用它的话，它有实现一个HTTP的访问接口，把SQL语句通过HTTP发送到服务端，就可以得到响应数据了（其实不用担心效率问题，数仓场景下

i000zheng·2018-05-28 20:58

袋鼠云数据中台专栏（一）：浅析数据中台策略与建设实践

数据中台和传统数仓还有数据

chudufan0339·2018-05-28 10:00

分享一个实时数仓系统--SnappyData的博客与中文社区

分享一个实时OLAP系统–SnappyData的博客与中文社区SnappyData中文博客SnappyData中文社区

lmalds李麦迪·2018-04-23 00:00

hive中的lateral view 与 explode函数的使用

本身已经违背了数据库的设计原理（不论是业务系统还是数据仓库系统），不过大数据技术普及后，很多类似pv，uv的数据，在业务系统中是存贮在非关系型数据库中，用json存储的概率比较大，直接导入hive为基础的数仓系统中

guodong2k·2018-03-06 16:24

数仓心得(一):管理和发展

做数仓也有三年了，经历过业务和平台的零到一，一到二，一把鼻涕一把泪。把这些经历总结下，主要从三个方面去总结：一、数仓管理和发展；二、数仓逻辑架构和维度建模；三、平台选型。

ckqq46580·2018-02-28 19:19

Apache Kylin 深入Cube和查询优化

ApacheKylin在中企的使用主要在新数仓系统以及BI报表的数据计算工作，带来的变化有：一方面Kylin帮助我们提升了开发效率，减少了开发人员需要手动编写HQL/SQL语句去查询维度数据的状况；另一方面解耦现有系统设计

choulanlan·2018-02-05 14:58

Kylin中cube优化

前言ApacheKylin在中企的使用主要在新数仓系统以及BI报表的数据计算工作，带来的变化有：一方面Kylin帮助我们提升了开发效率，减少了开发人员需要手动编写HQL/SQL语句去查询维度数据的状况；

choulanlan·2018-02-05 14:40

数仓-概述

个人学习笔记记录，不做他用一、ETL系统从源系统抽取数据，执行数据质量和一致性标准，然后规格化数据，从而使分散的源数据可以集中在一起使用，最终再以可以展现的格式提交数据，以便应用开发者可以创建应用系统，也使最终用户可以制定决策消除数据错误并纠正缺失数据提供对于数据可信度的文档化衡量为保护数据获取相互作用的数据流程把多个源数据整合到一起将数据进行结构化供最终用户使用二、设计流程2.1规划与

bin330720911·2018-01-03 17:21

TiDB / TiSpark 在易果集团实时数仓中的创新实践

项目背景目前企业大多数的数据分析场景的解决方案底层都是围绕Hadoop大数据生态展开的，常见的如HDFS+Hive+Spark+Presto+Kylin，在易果集团，我们初期也是采取这种思路，但是随着业务规模的快速增长和需求的不断变化，一些实时或者准实时的需求变得越来越多，这类业务除了有实时的OLTP需求，还伴随着一些有一定复杂度的OLAP的需求，单纯地使用Hadoop已经无法满足需求。现有的准实

tidb_pingcap·2017-12-21 10:21

推荐频道

数仓（

数仓建设几个关键问题

数仓--Theory--对数仓面向主题的理解

Greenplum 5.16.0初探

informatica-etl全量增量设计流程

基于Mysql源数据的数仓表结构整理

基于Mysql源数据的数仓表结构整理

数据中台精华问答 | 数据中台和传统数仓的区别是什么？

在hue平台上使用oozie工作流调度

TiDB简述

广告场景下的实时计算

数据中台和数仓的关系

数据中台和数仓的关系

一些awesome网站

大数据平台安全建设实践

关于目前某游戏直播平台数仓建设规划的思考3

阿里云实时计算产品案例&解决方案汇总

数仓项目第一天

Spark SQL 读取hive分区表出现分区字段为null的情况

hive电商项目：1数仓构建过程

数仓模型示例

eBay：将60PB的MPP DBMS迁移至Spark的经验

深入理解 Hive 分区分桶

CDH5.12.0-HiveServer2-java.net.SocketTimeoutException: Read timed out

杠上Spark、Flink？Kafka为何转型流数据平台

HIVE数仓的安装与使用

大数据数仓之Hive入门《一》

美团点评基于 Flink 的实时数仓建设实践

美团点评基于 Flink 的实时数仓建设实践

美团点评基于 Flink 的实时数仓建设实践

【云+社区极客说】新一代大数据技术：构建PB级云端数仓实践

数据仓库Kimball Or Inmon?

大数据数仓中增量数据问题讨论

Core Table Housekeeping案例1

使用CLI进行高速跨域日志复制、历史数据重新索引与数仓投递

深入理解 Hive 分区分桶 （Inceptor）

ORA-30013: undo tablespace currently in use故障处理思路

调度、模型、同步与任务——阿里云大数据数仓建设性能优化方案

数仓面试题

如何处理新业务

HBase系列(一)：HBase表结构及数据模型的理解

将传统数仓(mysql)数据导入hive中

ClickHouse REST API(HTTP接口)及Engine引擎的使用

袋鼠云数据中台专栏（一） ：浅析数据中台策略与建设实践

分享一个实时数仓系统--SnappyData的博客与中文社区

hive中的lateral view 与 explode函数的使用

数仓心得(一):管理和发展

Apache Kylin 深入Cube和查询优化

Kylin中cube优化

数仓-概述

TiDB / TiSpark 在易果集团实时数仓中的创新实践

深入理解 Hive 分区分桶（Inceptor）

袋鼠云数据中台专栏（一）：浅析数据中台策略与建设实践