E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
数仓(
高可用Flink on YARN集群快速配置
我们正准备涉足实时业务,实时
数仓
、实时推荐这些东西总是要有的,快速上手Flink势在必行。Flink的官方文档比较详尽,并且设计理念与Spark多有相通,理解成本较低。Flink有多种集群部署方
LittleMagic
·
2019-07-17 22:19
大数据总线平台DBus设计思路与工作原理
一、背景企业中大量业务数据保存在各个业务系统数据库中,过去通常的同步数据的方法有很多种,比如:各个数据使用方在业务低峰期各种抽取所需数据(缺点是存在重复抽取而且数据不一致)由统一的
数仓
平台通过sqoop
宜信技术学院
·
2019-07-17 00:00
数据采集
大数据
百亿级数据处理优化
我们的
数仓
基于阿里的ODPS,它与Hive类似,所以这篇文章也适用于使用Hive优化。
渡码
·
2019-07-16 08:00
hive学习(一)之Hive简介和数据组织形式
一、hive是什么基于hadoop,数据存储在hdfs上并且对客户端提供hql支持,将hql语句转换为mapreduce任务的
数仓
工具二、hive的特点1、Hive是由Facebook实现并开源的2、Hive
moshang_3377
·
2019-07-16 08:22
hive
数仓
级联求和
今天给大家分享下
数仓
的小案例------级联求和有如下访客访问次数统计表t_access_times访客月份访问次数A2015-015A2015-0115B2015-015A2015-018B2015-
樱*雪儿
·
2019-07-08 19:22
级联求和
知乎实时
数仓
架构演进[笔记]
知乎的实时
数仓
实践以及架构的演进:实时
数仓
1.0版本,主题:ETL逻辑实时化,技术方案:SparkStreaming。
itbgj
·
2019-07-05 11:04
他山之石
数据仓库和建模
目录一、数据库和数据仓库二、
数仓
的分层三、数据仓库技术架构3.1.数据采集3.1.1业务数据3.1.1行为数据3.1.1其他文件数据3.2.数据通道3.3.数据存储3.4.计算引擎3.5.系统调度四、数据仓库建模理论
denganming1214
·
2019-07-04 18:36
大数据
更新hive表
前言hive表的更新,需要对原表的完全重写.或者说,hive表结构的设计,本身的优势在于,结合高扩展性实现的近乎无限的容量,它应对数据变化是十分低效的所以设计
数仓
时,如果大量数据有更新的需求,就应该考虑
IAmListening
·
2019-07-04 18:33
使用说明
如何设计实时数据平台(技术篇)
在上篇(设计篇)中,我们从现代
数仓
架构角度和典型数据处理角度介绍了RTDP,并探讨了RTDP的整体设计架构。
宜信技术
·
2019-07-03 10:22
大数据
实时数据
RTDP
如何设计实时数据平台(设计篇)
在上篇设计篇中,我们首先从两个维度介绍实时数据平台:从现代
数仓
架构角度看待实时数据平台,从典型数据处理角度看待实时数据处理;接着我们会探讨实时数据平台整体设计架构、对具体问题的考量以及解决思路。
宜信技术
·
2019-07-02 10:00
大数据
架构设计
RTDP
知乎实时
数仓
架构演进
从智能商业的角度来讲,数据的结果代表了用户的反馈,获取结果的及时性就显得尤为重要,快速的获取数据反馈能够帮助公司更快的做出决策,更好的进行产品迭代,实时
数仓
在这一过程中起到了不可替代的作用。
阿里云云栖社区
·
2019-06-28 00:00
实时计算
flink
架构
大数据
spark
知乎实时
数仓
架构演进
从智能商业的角度来讲,数据的结果代表了用户的反馈,获取结果的及时性就显得尤为重要,快速的获取数据反馈能够帮助公司更快的做出决策,更好的进行产品迭代,实时
数仓
在这一过程中起到了不可替代的作用。
ApacheFlink
·
2019-06-27 00:00
数据处理
flink
流计算-storm
实时计算
大数据
Linux 搭建Hive
数仓
工具
上一篇文章介绍了如何在Linux下搭建单机版Hadoop环境,文本记录了在此基础上,搭建
数仓
工具Hive的具体过程。
一杉风雨
·
2019-06-25 19:17
hive分区表中--新增字段,发现数据为null的坑
数仓
开发过程中,经常会有需求变更,添加字段的情况所在,添加完了字段还需要重新跑数据,重新将这个字段的数据加载进去,但是会出现一个坑就是加载的数据为null。
ZhuangYQ丶
·
2019-06-22 19:54
大数据学习
Hive学习
如何设计实时数据平台(技术篇)
在上篇(设计篇)中,我们从现代
数仓
架构角度和典型数据处理角度介绍了RTDP,并探讨了RTDP的整体设计架构。本文作为下篇(技术篇),则是从技术角度入手,介绍RTDP
宜信技术学院
·
2019-06-21 00:00
数据建模
大数据
如何设计实时数据平台(设计篇)
在上篇设计篇中,我们首先从两个维度介绍实时数据平台:从现代
数仓
架构角度看待实时数据平台,从典型数据处理角度看待实时数据处理;接着我们会探讨实时数据平台整体设计架构、对具体问题的考量以及解决思路。
宜信技术学院
·
2019-06-20 11:30
宜信研发实践
如何设计实时数据平台(设计篇)
在上篇设计篇中,我们首先从两个维度介绍实时数据平台:从现代
数仓
架构角度看待实时数据平台,从典型数据处理角度看待实时数据处理;接着我们会探讨实时数据平台整体设计架构、对具体问题的考量以及解决思路。
宜信技术学院
·
2019-06-20 00:00
大数据
第十二周
(构建实时
数仓
,实时索引build)数据分析(报表、大屏)数据触发(触发器,告警)链接二、《有状态流式处理引擎基石》状态容错Flink如何保证精确一次如何保证?分布式快照流程中安
梧上擎天
·
2019-06-19 13:48
Python——解决工作中的小问题
问题描述:业务系统的会员信息表进入到
数仓
中,存在数据缺失,其造成这一问题的原因是后台会手动处理一些数据(卸数等ETL流程不存在问题),造成卸数时取不到这些数据,经过考虑,决定用Python解决这一问题。
一克拉的小蚂蚁
·
2019-06-17 16:11
Oracle
Python
Blink 有何特别之处?菜鸟供应链场景最佳实践
作者:晨笙、缘桥菜鸟供应链业务链路长、节点多、实体多,使得技术团队在建设供应链实时
数仓
的过程中,面临着诸多挑战,如:如何实现实时变Key统计?如何实现实时超时统计?如何进行有效地资源优化?
阿里云云栖社区
·
2019-06-17 00:00
flink
实时计算
性能
最佳实践
大数据
数据仓库为什么要分层
第一家公司的老
数仓
技术架构:mysql+kettle,分层s(ods)层、b层(有点记不清了,一个是取数据,一个是做拉链)、m层(根据业务设计的表:贷前loan_before、贷后loan_after,
我爱听听力
·
2019-06-14 18:18
数据仓库
数据仓库介绍与实时
数仓
案例
1.数据仓库简介数据仓库是一个面向主题的(SubjectOriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(TimeVariant)的数据集合,用于支持管理决策。数据仓库是伴随着企业信息化发展起来的,在企业信息化的过程中,随着信息化工具的升级和新工具的应用,数据量变的越来越大,数据格式越来越多,决策要求越来越苛刻,数据仓库技术也在不停的发展。数据
阿里云云栖社区
·
2019-06-11 00:00
消息队列
数据仓库
架构
大数据
Spark原理篇之SparkSQL Join分析
另外,从业务层面来讲,用户在
数仓
建设的时候也会涉及join使用的问题。通常情况下,数据仓库中的表一般会分
huahuaxiaoshao
·
2019-06-08 15:15
Spark
大牛书单 | 大数据存储方向好书分享
TEG书知道本期特邀腾讯云
数仓
数据湖产品负责人堵俊平、腾讯云数据库负责人林晓斌、腾讯TEG云架构平台部数据块中心高级工程师王银虎,腾讯TEG计费平台部账户中心专家工程师潘安群为大家带来大数据方向好书推荐
腾讯技术
·
2019-06-06 15:38
大数据
技术
书单
HAWQ取代传统
数仓
实践
1.为什么选择HAWQ2.HAWQ技术解析(二)——安装部署HAWQ取代传统
数仓
实践(十一)——维度表技术之维度合并有一种合并维度的情况,就是本来属性相同的维度,因为某种原因被设计成重复的维度属性。
鏡澤
·
2019-06-05 14:56
HAWQ取代传统
数仓
实践
1.为什么选择HAWQ2.HAWQ技术解析(二)——安装部署HAWQ取代传统
数仓
实践(十一)——维度表技术之维度合并有一种合并维度的情况,就是本来属性相同的维度,因为某种原因被设计成重复的维度属性。
鏡澤
·
2019-06-05 14:56
应用案例 | Blink 有何特别之处?菜鸟供应链场景最佳实践
作者:晨笙、缘桥菜鸟供应链业务链路长、节点多、实体多,使得技术团队在建设供应链实时
数仓
的过程中,面临着诸多挑战,如:如何实现实时变Key统计?如何实现实时超时统计?如何进行有效地资源优化?
Ververica
·
2019-05-29 16:47
Apache
Flink
Flink
流计算
Apache
Flink
应用案例 | Blink 有何特别之处?菜鸟供应链场景最佳实践
本文授权转自阿里技术官方公众号(ali_tech):菜鸟供应链业务链路长、节点多、实体多,使得技术团队在建设供应链实时
数仓
的过程中,面临着诸多挑战,如:如何实现实时变Key统计?如何实现实时超时统计?
ApacheFlink
·
2019-05-29 00:00
github
批处理
实时计算
2019-05-28
去法院办公,上午与数据分析师聊了下他们平时的工作,谈了下
数仓
如何优化能更好的为他们服务。另外跟团队的人讨论了下本周工作重点。
bigtian
·
2019-05-28 23:49
大数据环境下
数仓
设计
公司目前累计数据为P级,日新增数据为T级,数据主要为结构化数据和半结构化数据,采用hive建设数据仓库的方式进行数据处理,同时严格按照仓库的建设规范进行,以保证
数仓
中的数据层次清晰,各层间的
abebill
·
2019-05-24 14:29
hive数仓
数据仓库
一次
数仓
面试题目及解答
面试题目数据如下dateuserageprogramidPlaytime20190421u130a4min20190421u130b10min20190421u227a2min20190422u335c3min20190422u227d1min问题如下统计:用户总量,用户平均年龄,用户平均观看时长统计:每10岁一个分段,统计每个区间的用户总量,用户平均观看时长统计:每个用户最喜欢的节目统计:观看时
IAmListening
·
2019-05-24 12:10
题库
Blink 有何特别之处?菜鸟供应链场景最佳实践
阿里妹导读:菜鸟供应链业务链路长、节点多、实体多,使得技术团队在建设供应链实时
数仓
的过程中,面临着诸多挑战,如:如何实现实时变Key统计?如何实现实时超时统计?如何进行有效地资源优化?
阿里云云栖社区
·
2019-05-24 00:00
配置
性能
blinker
数仓
架构实践1:阿里五层模型架构
1.ODS数据准备层功能:ODS层是数据仓库准备区,为DWD层提供基础原始数据,可减少对业务系统的影响建模方式及原则:从业务系统增量抽取、保留时间由业务需求决定、可分表进行周期存储、数据不做清洗转换与业务系统数据模型保持一致、按主题逻辑划分2.DWD数据明细层功能:为DW层提供来源明细数据,提供业务系统细节数据的长期沉淀,为未来分析类需求的扩展提供历史数据支撑建模方式及原则:数据模型与ODS层一致
BabyFish13
·
2019-05-17 13:23
DataWarehouse
Model
数仓分层架构
数仓
架构实践1:阿里五层模型架构
1.ODS数据准备层功能:ODS层是数据仓库准备区,为DWD层提供基础原始数据,可减少对业务系统的影响建模方式及原则:从业务系统增量抽取、保留时间由业务需求决定、可分表进行周期存储、数据不做清洗转换与业务系统数据模型保持一致、按主题逻辑划分2.DWD数据明细层功能:为DW层提供来源明细数据,提供业务系统细节数据的长期沉淀,为未来分析类需求的扩展提供历史数据支撑建模方式及原则:数据模型与ODS层一致
BabyFish13
·
2019-05-17 13:23
DataWarehouse
Model
数仓分层架构
基于大数据的数据仓库-数据仓库建模基本理论
(内容整理自网络学习视频)一、
数仓
建模的目标访问性能:能够快速查询所需的数据,减少数据I/O。数据成本:减少不必要的数据冗余,实现计算结果数据复用,降低大数据系统中的存储成本和计算成本。
andyguan01_2
·
2019-05-16 14:00
大数据
2019-05-14
我提到我们需要设计
数仓
,老板建议优先解决客户需求,不宜建设空中楼阁。我提到需要将架构师职责明确,在研发过程中的角色和定位明确,老板建议先梳理研发过程中的问题,带着问题探讨工作思路和规划,
bigtian
·
2019-05-15 00:56
OPPO数据中台之基石:基于Flink SQL构建实数据仓库
本文主要内容如下:OPPO实时
数仓
的演进思路;基于FlinkSQL的扩展工作;构建实时
数仓
的应用案例;未来工作的思考和展望。
阿里云云栖社区
·
2019-05-15 00:00
流计算-storm
数据仓库
sql
大数据
apache
OPPO数据中台之基石:基于Flink SQL构建实数据仓库
本文主要内容如下:OPPO实时
数仓
的演进思路;基于FlinkSQL的扩展工作;构建实时
数仓
的应用案例;未来工作的思考和展望。
Ververica
·
2019-05-14 20:40
Flink
Apache
Flink
流计算
OPPO数据中台之基石:基于Flink SQL构建实数据仓库
本文主要内容如下:OPPO实时
数仓
的演进思路;基于FlinkSQL的扩展工作;构建实时
数仓
的应用案例;未来工作的思考和展望。
ApacheFlink
·
2019-05-14 00:00
hadoop
apache
github
金融数据仓库系列-实时
数仓
OracleGoldenGate实时同步Oracle实时传输到Hadoop集群(HDFS,Hive,Kafka等)的基本原理如图:根据如上原理,配置大概分为如下步骤:源端目标端配置ogg管理器(mgr);源端配置extract进程进行Oracle日志抓取;源端配置pump进程传输抓取内容到目标端;目标端配置replicate进程复制日志到Hadoop集群或者复制到用户自定义的解析器将最终结果落入到
bigdataCoding
·
2019-05-13 20:40
数据仓库
《大数据之路》读书笔记:维度设计(续)
反映历史变化也是
数仓
的特性之一,为了应对这种变化,有几种处理方式:重写维度值如果我不关心历史数据,当属性变化了,那我就看最新的数据,不管历史是什么
橘猫吃不胖
·
2019-05-10 17:04
超小企业的大数据与AI之路该怎么走
举个最简单的例子,获取用户访问行为,然后做个协同,然后推荐时需要把用户看过的内容过滤掉,就这个可能就需要Flume,Kafka,流式引擎等,更别提然后还要归档日志(或者进入
数仓
)了。我以前就
祝威廉
·
2019-05-07 15:00
超小企业的大数据与AI之路该怎么走
举个最简单的例子,获取用户访问行为,然后做个协同,然后推荐时需要把用户看过的内容过滤掉,就这个可能就需要Flume,Kafka,流式引擎等,更别提然后还要归档日志(或者进入
数仓
)了。我以前就
祝威廉
·
2019-05-07 15:00
数仓
--Hive--元数据表结构学习
以Hive2.3.4为例进行学习元数据表总览hive元数据.PNG一共有57张表,大致分类下:image.png版本表VERSIONVERSION.PNG如果该表出现问题,根本进入不了Hive-Cli。比如该表不存在,当启动Hive-Cli时候,就会报错”Table‘hive.version’doesn’texist”。数据库相关元数据表DBS---该表存储Hive中所有数据库的基本信息;DATA
李小李的路
·
2019-04-25 16:47
数仓
--DW--Hadoop
数仓
实践Case-18-拉链表实践
拉链表在
数仓
的实际开发中应用广泛,切实解决优化存储重点是对变化的数据进行统一管理,和缓慢变化维的处理还是不一样的。
李小李的路
·
2019-04-22 14:55
数仓
--DW--Hadoop
数仓
实践Case-10-维度合并
维度合并概述在多维数据仓库建模时,如果维度属性中的两个组存在多对多关系时,应该将它们建模为不同的维度,并在事实表中构建针对这些维度的不同外键。另一种处理多对多关系的方法是,使用桥接表,将一个多对多关系转化为两个一对多关系。事实表通过引用桥接表的一个代理键,同时关联到多个维度值。这样做的目的是消除数据冗余,保证数据一致性。多对多关系的常见示例包括:每个学生登记了许多课程,每个课程有许多学生;一名医生
李小李的路
·
2019-04-17 08:02
面对数据质量高的、跨系统的优质数据源,那么,我们该如何充分利用这些优势呢?
1.研究数据仓库模型:
数仓
的精髓就是面向主题的模型,能理解各大主题域范畴,熟悉不同主题间的关系,基本就掌握了
数仓
的架构;2.学习数据仓库设计文档:设计文档是业务与数据,
数仓
与源系统的桥梁,熟悉表间mapping
duozhishidai
·
2019-04-15 13:26
数据源
大数据
基于MaxCompute的
数仓
数据质量管理
随着业务的增加,数据的应用越来越多,企业在创建的
数仓
过程中对数据的管理也提出了更高的要求,而数据质量也是
数仓
建设过程不容忽视的环节。本文针对MaxCompute
数仓
建设过程中如何
阿里云云栖社区
·
2019-04-12 00:00
数据管理
数据仓库
配置
监控
数据仓库建模指南系列
│
数仓
实时场景中的应用2018.5.12-03.pdf│├─(第一节课)数据仓库的概念和ER实体模型│数据仓库的概念和ER实体模型1.mp4│数据仓库的概念和ER实体模型2.mp4│数据仓库的概念和ER
qq_38472250
·
2019-04-08 15:52
数仓
--Theory--
数仓
的数据模型详解
什么是数据模型数据模型是抽象描述现实世界的一种工具和方法,是通过抽象的实体及实体之间联系的形式,来表示现实世界中事务的相互关系的一种映射。在这里,数据模型表现得抽象得是实体和实体之间得关系,通过对实体和实体之间关系得定义和描述,来表达实际得业务中具体得业务关系。数据仓库模型是数据模型中针对特定得数据仓库应用系统得一种特定得数据模型,一般来说,我们的数据仓库模型分为以下几个层次,如图所示:数据仓库模
李小李的路
·
2019-04-08 13:44
上一页
79
80
81
82
83
84
85
86
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他