E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
数仓(
谈笑间学会
数仓
—维度表概念及设计案例
维度表维度定义从某个角度观察事实数据的窗口,存储的数据用来从某个角度描述事实。维度表可以看成是用户用来分析一个事实的窗口,它里面的数据应该是对事实的各个方面描述,比如时间维度表,它里面的数据就是一些日,周,月,季,年,日期等数据,维度表只能是事实表的一个分析角度。换句话说维度表可以看作是用户来分析数据的窗口,维度表中包含事实数据表中事实记录的特性,有些特性提供描述性信息,有些特性指定如何汇总事实数
MrZhangBaby
·
2020-09-14 03:02
谈笑间学会数据仓库
谈笑间学会大数据
Hive
数据仓库
大数据
数据分析
谈笑间学会
数仓
—表的种类和特征-事务事实表
事务事实表概念可以看做是保存某一事务的日志数据,事务一旦被提交就成为历史数据,只能以增量的方式维护。事务事实表记录的事务层面的事实,保存的是最原子的数据,也称“原子事实表”。事务事实表中的数据在事务事件发生后产生,数据的粒度通常是每个事务记录一条记录。一旦事务被提交,事实表数据被插入,数据就不再进行更改,其更新方式为增量更新。由于事实表具有稀疏性质,因此只有当天数据才会进入当天的事实表中,相当于每
MrZhangBaby
·
2020-09-14 03:02
谈笑间学会数据仓库
Hive
谈笑间学会大数据
大数据
hive
【
数仓
】数据存储格式的选择:Parquet与ORC
大家好,我终于又出现了!这次要讲讲数据存储格式Parquet和ORC之间的选择!平时呢,我也会加一些有的没有的交流群,主要还是日常潜水看看里面有没有大佬!然后就遇到了一个问题:hadoop上存储的数据,要进行查询,用什么格式存储更好?我下意识的反应是ORC,因为ORC的压缩比更高(文件能压缩的更小),但是转念一想,ORC和Parquet都是列式存储的格式,两者之间有什么区别呢?或者说在最开始选择数
lsr40
·
2020-09-14 03:19
数据仓库
谈笑间学会
数仓
—建模方法论
谈笑间学会
数仓
—建模方法论ER模型数据仓库之父BillInmon提出的建模方法是从全企业的高度设计的一个3NF模型,用实体关系(EntityRelationship,ER)模型描述企业业务,在范式理论上符合
MrZhangBaby
·
2020-09-14 03:45
谈笑间学会数据仓库
谈笑间学会大数据
大数据
数据仓库
谈笑间学会
数仓
—主题域&&数据域
谈笑间学会
数仓
—主题域&&数据域在之前的文章里虽然没有按照顺序来,但是基本上都介绍了数据仓库建设的大概流程,比如技术架构方案设计、建模方法论、
数仓
分层、开发规范、
数仓
建设中的各种事实表、维度表、事务事实表
MrZhangBaby
·
2020-09-14 03:45
谈笑间学会数据仓库
谈笑间学会大数据
Hive
数据仓库
大数据
谈笑间学会
数仓
—周期快照表&累积快照表
周期快照表按固定周期对事实表进行统计生成的表,按时间段保存记录,增量更新。应用场景需要统计一个季度的商品成交量怎么取做?如果用一个季度内的事实事务表进行计算,虽然可以得出结果但是效率太低,在实际生产中并不可行,因此,需要定期对指定的度量进行整合,作为周期快照表用于下游应用。一般设计事实表时,事务事实表和周期快照表是成对设计的,大部分的周期表由事务表加工产生,还有部分特殊数据是直接应用系统产生(如订
MrZhangBaby
·
2020-09-14 03:45
谈笑间学会数据仓库
谈笑间学会大数据
Hive
数据仓库
大数据
谈笑间学会
数仓
—开发规范
谈笑间学会
数仓
—开发规范文章目录谈笑间学会
数仓
—开发规范前言数据库/表命名规范数据库公共维表dim公共明细层dwd公共汇总层dws应用数据层ads临时存储层tmp字段命名规范关键字字段类型规范常用系统词汇
MrZhangBaby
·
2020-09-14 03:14
谈笑间学会数据仓库
Hive
谈笑间学会大数据
数据仓库
大数据
数仓
维度建模
20世纪80年代末期,数据仓库技术兴起。自RalphKimball于1996年首次出版TheDataWarehouseToolkit(Wiley)一书以来,数据仓库和商业智能(DataWarehousingandBusinessIntelligence,DW/BI)行业渐趋成熟。Kimball提出了数据仓库的建模技术--维度建模(dimensionalmodelling),该方法是在实践观察的基础
GOD_WAR
·
2020-09-13 22:07
数据仓库
数仓
维度建模
数仓
相关知识点
尤其是在
数仓
领域,使用SQL更是家常便饭。
ddttoop
·
2020-09-13 20:26
笔记
持续定义Saas模式云数据仓库+BI
内容包括云数据仓库概述,BI使用场景与趋势,基于MaxCompute云
数仓
+BI的特性,以及实践案例。
阿里云云栖号
·
2020-09-13 14:59
我是程序员
云栖号技术分享
数据仓库
大数据
编程语言
人工智能
基于 Flink 的典型 ETL 场景实现
简介:本文将从
数仓
诞生的背景、
数仓
架构、离线与实时
数仓
的对比着手,综述
数仓
发展演进,然后分享基于Flink实现典型ETL场景的几个方案。
阿里云云栖号
·
2020-09-13 14:59
我是程序员
云栖号技术分享
数据仓库
数据库
滴滴基于 Flink 的实时
数仓
建设实践
1.实时
数仓
建设目的随着互联网的发展进入下半场,数据的时效性对企业的精细化运营越来越重要,商场如战场,在每天产生的海量数据中,如何能实时有效的挖掘出有价值
阿里云云栖号
·
2020-09-13 14:24
我是程序员
云栖号技术分享
大数据
编程语言
数据库
阿里巴巴电商搜索推荐实时
数仓
演进之路
简介:自建实时
数仓
难在哪里?实时
数仓
应该怎么建?阿里巴巴搜索团队用实战经验告诉您答案!
阿里云云栖号
·
2020-09-13 14:23
我是程序员
云栖号技术分享
算法
大数据
数据库
有赞大数据平台安全建设实践
大数据平台的定位主要是服务数据开发人员,提高数据开发效率,提供便捷的开发流程,有效支持
数仓
建设。大数据平台的用户都是公司内部人员。数据本身的安全性已经由公司层面的网络及物理机房的隔离来得到保证。
阿里云云栖号
·
2020-09-13 14:22
云栖号技术分享
我是程序员
网络
大数据
编程语言
数据仓库的元数据
广义上说:元数据描述了数据仓库内数据的结构和建立方法的数据①构建
数仓
的主要步骤之一是ETL,元数据定义源数据系统到数据仓库的映射、数据转换的规则、数据仓库的逻辑结构、数据更新的规则、数据导入历史纪录以及装载周期等相关内容
吗达拉
·
2020-09-13 06:52
数仓
Flink Forward Asia 2019 PPT 下载
FlinkForwardAsia2019在北京召开的,有主会场和几个分会场(企业实践、ApacheFlink核心技术、开源大数据生态、实时
数仓
、人工智能),内容涉及很多,可以查看下面的PPT。
zhisheng_blog
·
2020-09-12 07:00
数据仓库-元数据浅析
比如:以大数据
数仓
常见的架构为例:源数据通常通过ETL工具如kettle或canal或其他工具将数据抽到大数据平台中,存储在hdfs上,再经过数据分析(经典
数仓
按照ods->dwd->dws->ads)
anickname
·
2020-09-11 14:05
元数据
数据仓库
元数据管理
银行大数据新玩法,构建“一湖两库”金融数据湖
大数据技术经过近几年的快速发展,在企业数据中心的基础设施上已不鲜见,尤其是金融行业,大数据技术应用一直走在其它行业前面,它们在以数据湖、融合
数仓
、湖内
数仓
(DataLakeHouse)等一些典型的技术场景中
华为云
·
2020-09-11 12:38
技术交流
数据湖
FusionInsight
大数据
MRS
DWS
如何使用Canal同步MySQL的Binlog到Kafka
另一方面,可以减轻夜间离线
数仓
数据同步的压力。
Eights-Li
·
2020-09-11 08:24
运维
kafka
migration
xhtml
bbs
数仓
维度建模之维度表设计(设计实操一)
维度设计基本方法1、设计步骤:1)第一步:选择维度或新建维度。作为维度建模的核心,在企业级数据仓库中必须保证维度的唯一性。以淘宝商品维度为例,有且只允许有一个维度定义。2)第二步:确定主维表。此处的主维表一般是ODS表,直接与业务系统同步。以淘宝商品维度为例,s_auction_auctions是与前台商品中心系统同步的商品表,此表即是主维表。3)第三步:确定相关维表。数据仓库是业务源系统的数据整
小小程序员凉凉
·
2020-09-11 06:47
大数据-数据仓库
数据仓库
滴滴基于 Flink 的实时
数仓
建设实践
1.实时
数仓
建设目的随着互联网的发展进入下半场,数据的时效性对企业的精细化运营越来越重要,商场如战场,在每天产生的海量数据中,如何能实时有效的挖掘出有价值
GOD_WAR
·
2020-09-11 06:23
Flink
flink
实时数仓
转载,维表join详解
维表是
数仓
中的一个概念,维表中的维度属性是观察数据的角度,在建设离线
数仓
的时候,通常是将维表与事实表进行关联构建星型模型。
黄瓜炖啤酒鸭
·
2020-09-11 02:49
数据仓库
Flink
SQL
数仓
维表join
实时
数仓
|基于Flink1.11的SQL构建实时
数仓
探索实践
实时
数仓
主要是为了解决传统
数仓
数据时效性低的问题,实时
数仓
通常会用在实时的OLAP分析、实时的数据看板、业务指标实时监控等场景。
西贝木土
·
2020-09-11 01:01
数据仓库
Flink
SQL查询的底层运行原理分析
如果你是做
数仓
开发的,那么写SQL可能占据了你的大部分工作时间。我们在理解SELECT语法的时候,还需要了解SELECT执行时的底层原理。只有这样,才能让我们对SQL有更深刻的认识。
西贝木土
·
2020-09-11 01:30
MYSQL
sql
关于CarbonData+Spark SQL的一些应用实践和调优
行业亟需一个高效、统一的融合
数仓
,从海量数据中快速获取有效信息,从而洞察机遇、规避风险。
fengyuruhui123
·
2020-09-11 01:45
spark
数据仓库实践杂谈-(五)-ETL
整体数据分层第三章:整体实现框架第四章:元数据第五章:ETL第六章:数据校验第七章:数据标准化第八章:去重第九章:增量/全量第十章:拉链处理第十一章:分布式处理增量第十二章:列式存储第十三章:逻辑数据模型(
数仓
模型
老程序员一叶知秋
·
2020-09-11 00:39
数据仓库实践
60-150-046-使用-Sink-Flink落HDFS数据按事件时间分区解决方案
0x1摘要Hive离线
数仓
中为了查询分析方便,几乎所有表都会划分分区,最为常见的是按天分区,Flink通过以下配置把数据写入HDFS,BucketingSinksink=newBucketingSink
九师兄
·
2020-09-10 23:02
大数据-flink
数仓
分层哪四层?作用都是什么?
功能:1)ods是
数仓
准备区2)为dwd提供原始数据3)减少对业务系统影响建模方式及原则:数据保留时间根据实现业务需求而定;可以分表进行周期性存储,存储周期不长;从业务系统以增量方式抽取加载到ods;数据
小白->大牛的历程
·
2020-09-10 20:38
阿里巴巴电商搜索推荐实时
数仓
演进之路
分享嘉宾:张照亮阿里巴巴高级技术专家编辑整理:郑银秋出品平台:DataFunTalk导读:今天分享的内容是阿里搜索推荐数据平台研发团队在实时
数仓
的一些探索,围绕着团队在
数仓
上基于Flink+Hologres
架构师小秘圈
·
2020-09-10 13:38
阿里巴巴电商搜索推荐实时
数仓
演进之路
简介:自建实时
数仓
到底难在哪里?实时
数仓
应该怎么建?
阿里云开发者
·
2020-09-10 12:16
存储
SQL
搜索推荐
算法
OLAP
BI
分布式数据库
数据处理
流计算
Hbase
滴滴基于 Flink 的实时
数仓
建设实践
简介:随着滴滴业务的高速发展,业务对于数据时效性的需求越来越高,而伴随着实时技术的不断发展和成熟,滴滴也对实时建设做了大量的尝试和实践。本文主要以顺风车这个业务为引子,从引擎侧、平台侧和业务侧各个不同方面,来阐述滴滴所做的工作,分享在建设过程中的经验。随着滴滴业务的高速发展,业务对于数据时效性的需求越来越高,而伴随着实时技术的不断发展和成熟,滴滴也对实时建设做了大量的尝试和实践。本文主要以顺风车这
阿里云开发者
·
2020-09-10 12:43
SQL
存储
消息中间件
监控
Kafka
分布式数据库
数据库
HIVE
流计算
Hbase
大数据离线分析------数据仓库
集成性—>把来自各个不同数据源的数据集中在
数仓
的主题下面,便于分析.ETL不可更改性:数据仓库不支持更新操作时变性:在时间的角度,
数仓
又是变化的,一批次分析一次。
爱可爱的学霸霸
·
2020-09-10 10:25
学习总结
大数据学习:离线
数仓
学习地址:Bilili1数据仓库概念2项目需求及架构设计2.1项目需求分析2.2阿里云技术框架2.2.1技术选型2.2.3系统数据流程设计
chaoge_dgqb
·
2020-09-10 09:46
大数据
学习
PySpark——开启大数据分析师之路
实际上"名不副实"这件事在大数据生态圈各个组件中是很常见的,例如Hive(蜂巢),从名字中很难理解它为什么会是一个
数仓
,难道仅仅是因为
简说Python
·
2020-09-07 08:00
分布式
编程语言
大数据
人工智能
spark
ClickHouse 权限控制与资源隔离
使用clickhouse多半应用在实时
数仓
项目来支持adhoc查询,为了确保企业数据安全高效的使用,那么权限控制与资源隔离是必不可少的clickhouse在20.4之后的版本开始支持基于RBAC的访问控制管理
·
2020-09-07 00:00
dev
ClickHouse 在实时场景的应用和优化
这两个平台的数据主要由分析师或者
数仓
同学产出,以T+1的离线指标为主。考虑到ClickHouse并不支持事务
字节跳动技术团队
·
2020-09-06 10:00
clickhouse
实时
应用
网易实时
数仓
实践与展望
分享嘉宾:马进网易杭研技术专家编辑整理:张满意出品平台:DataFunTalk导读:随着大数据技术的进步,各种计算框架的涌现,数据仓库相关技术难题已经从离线
数仓
逐渐过渡到实时
数仓
,越来越多的企业对数据的实时性提出了严格的要求
NetEaseResearch
·
2020-09-04 18:46
大数据
flink
数据仓库
技本功|Hive优化之建表配置参数调优(一)
简介:Hive是大数据领域常用的组件之一,主要用于大数据离线
数仓
的运算,关于Hive的性能调优在日常工作和面试中是经常涉及的一个点,因此掌握一些Hive调优是必不可少的一项技能。
b732fee81ae2
·
2020-09-04 15:28
数据仓库及维度建模的初步了解
之前只是在工作涉及
数仓
这块的一些业务,理论上有一定的缺失,所以最近准备刷一刷《数据仓库工具箱》这本书,顺便就将读完的一些理解和知识点在这边记录下来,算是对自己未来学习计划的一个鼓励和督促。
俩只猴
·
2020-08-30 17:37
id-mapping 理解和实现
一、id-mapping概述在后续的
数仓
、画像、推荐等模块开发中,我们都需要对每一条行为日志数据标记用户的唯一标识!
Next question
·
2020-08-29 17:03
技本功|基于OGG 实现Oracle到Kafka增量数据实时同步
传统的
数仓
通过批量数据同步的方式,定期从OLTP系统中抽取数据。但是随着业务需求的升级,批量同步无论从实时性,还是对在线OLTP系统的抽取压力,都无法满足要求。
b732fee81ae2
·
2020-08-28 20:17
数仓
建模系列-数据体系搭建篇
本系列将持续更新
数仓
建模相关知识,将学习到的理论知识和工作实践结合起来,总结沉淀下来,积跬步成千里。
NetEaseResearch
·
2020-08-28 14:29
大数据
数据仓库
数据建模
深度解读:实时
数仓
架构对比与基于Flink的典型ETL场景实现
1.实时
数仓
的相关概述1.1实时
数仓
产生背景我们先来回顾一下数据仓库的概念。
大数据技术之路---花火
·
2020-08-27 10:43
数仓
数据仓库
实时
数仓
在滴滴的实践和落地
1.实时
数仓
建设目的随着互联网的发展进入下半场,数据的时效性对企业的精细化运营越来越重要,商场如战场,在每天产生的海量数据中,如何能实时有效的挖
滴滴技术
·
2020-08-26 21:58
大数据
编程语言
数据库
人工智能
java
基于 Flink 的典型 ETL 场景实现
本文将从
数仓
诞生的背景、
数仓
架构、离线与实时
数仓
的对比着手,综述
数仓
发展演进,然后分享基于Flink实现典型ETL场景的几个方案。
涪擎大数据
·
2020-08-26 17:22
数据仓库
flume整合spark实现监控目录下的数据
文件名假设为preview20200723,这个文件在当天可能会一直有数据在追加(间断性),也可能一次性写完(持续性),需要利用现有的技术监控这个目录中数据的变化,将获取到的json数据做解析再保留到
数仓
中
stevensam_lin
·
2020-08-26 14:44
flume
大数据
spark
技本功|Hive优化之配置参数的优化(一)
简介:Hive是大数据领域常用的组件之一,主要用于大数据离线
数仓
的运算,关于Hive的性能调优在日常工作和面试中是经常涉及的一个点,因此掌握一些Hive调优是必不可少的一项技能。
云掣科技
·
2020-08-26 13:16
大数据
hive
优化
技本功|Hive优化之配置参数的优化(一)
简介:Hive是大数据领域常用的组件之一,主要用于大数据离线
数仓
的运算,关于Hive的性能调优在日常工作和面试中是经常涉及的一个点,因此掌握一些Hive调优是必不可少的一项技能。
云掣科技
·
2020-08-26 11:00
大数据
hive
优化
技本功|Hive优化之配置参数的优化(一)
简介:Hive是大数据领域常用的组件之一,主要用于大数据离线
数仓
的运算,关于Hive的性能调优在日常工作和面试中是经常涉及的一个点,因此掌握一些Hive调优是必不可少的一项技能。
云掣YUNCHE
·
2020-08-25 21:14
大数据
优化
hive
MaxCompute/Dataworks云
数仓
高可用最佳实践
一、logview排查作业在日常的开发过程中我们偶尔会发现某些任务突然耗时比较长,或者某些任务突然挂掉需要排查原因。Logview将用来协助我们完成这件事情。Logview是MaxComputeJob提交后查看和Debug任务的工具。通过Logview可看到一个Job的运行状态、运行结果以及运行细节和每个步骤的进度。当Job提交到MaxCompute后,会生成Logview的链接,用户可以直接在浏
阿里云云栖号
·
2020-08-25 16:21
javascript
上一页
62
63
64
65
66
67
68
69
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他