E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
数仓(
基于Apache Doris
数仓
平台架构设计
1、
数仓
平台架构设计1.1、
数仓
架构V1.0在公司成立初期业务量不大,数据团队的规模也比较小,对数据的需求仅局限于少量的T+1定制化报表需求。
docsz
·
2023-04-03 01:27
apache
doris
apache
doris
数据仓库
大数据实时
数仓
建设架构图,及应用案例介绍
本文将从数据仓库的简介、经历了怎样的发展、如何建设、架构演变、应用案例以及实时
数仓
与离线
数仓
的对比六个方面全面分享关于
数仓
的详细内容。全文5000字,读完需要13分钟!
hellozhxy
·
2023-04-02 23:51
大数据
数据仓库
数据库
数据挖掘
大数据架构
Lambda架构架构中含有离线处理与实时处理两条链路,两条链路处理数据导致数据不一致等Kappa架构Kappa架构真正的实时
数仓
,目前在业界最常用实现就是Flink+KafkaKappa存在问题Kafka
阳光-星辰大海
·
2023-04-02 23:29
数据平台
数据仓库
大数据
Flink进阶篇-CDC 原理、实践和优化&采集到Doris中
简介基于doris官方用doris构建实时仓库的思路,从flinkcdc到doris实时
数仓
的实践。
顶尖高手养成计划
·
2023-04-02 12:43
Flink
flink
大数据
Apache Hudi 在 B 站构建实时数据湖的实践
主要内容为:1.传统离线
数仓
痛点2.数据湖技术方案3.Hudi任务稳定性保障4.数据入湖实践5.增量数据湖平台收益6.社区贡献7.未来的发展与思考一、传统离线
数仓
痛点1.痛点之前B站
数仓
的入仓流程大致如下所示
阿里云技术
·
2023-04-02 08:31
apache
big
data
hadoop
数据同步之全量同步与增量同步
为保证统计结果的正确性,需要保证数据仓库中的数据与业务数据库是同步的,离线
数仓
的计算周期通常为天,所以数据同步周期也通常为天,即每天同步一次即可。数据的同步策略有全量同步和增量同步。
勤奋的ls丶
·
2023-04-02 04:45
maxwell
DataX
数据仓库
hive
hadoop
【实时
数仓
】DWM层订单宽表之需求分析、订单和订单明细关联源码
文章目录一DWM层-订单宽表1需求分析与思路2订单和订单明细关联代码实现(1)从Kafka的dwd层接收订单和订单明细数据a创建订单实体类b创建订单明细实体类c在dwm包下创建OrderWideApp读取订单和订单明细数据d测试(2)订单和订单明细关联(双流join)a设定事件时间水位线b创建合并后的宽表实体类c设定关联的keyd订单和订单明细关联intervalJoine测试一DWM层-订单宽表
OneTenTwo76
·
2023-04-02 02:04
实时数仓
java
kafka
数据库
字节跳动基于 Apache Hudi 的多流拼接实践方案
字节跳动数据湖团队在实时
数仓
构建宽表的业务场景中,探索实践出的一种基于HudiPayload的合并机制提出的全新解决方案。
Moonxiyue
·
2023-04-02 02:54
数据库
字节
big
data
kafka
数据仓库
Databend 开源周报第 86 期
Databend是一款现代云
数仓
。专为弹性和高效设计,为您的大规模分析需求保驾护航。自由且开源。即刻体验云服务:https://app.databend.com。
Databend
·
2023-04-02 02:50
数据库
sql
基于Apache Hudi 和 Apache Spark Sql 的近实时
数仓
架构之宽表建设
前言无论是在lamda架构还是kappa架构中,实时计算通常是使用flink+mq来实现的,而在这些场景中涉及到多张表join时,一般我们的使用方法是多张流表join如:RegularJoin、IntervalJoin,或者流表+维表的方式join如:Temporaljoin。但无论是那种方式都会存在一些问题,比如窗口开的过小,数据晚到导致数据丢失。窗口开的过大,内存占用过高,成本高,有被打爆的风
scx_white
·
2023-04-02 02:47
数据湖
大数据
spark
数据湖
hudi
Apache Hudi使用简介
数据不实时,处理也不及时的场景则是我们的
数仓
T+1数据。而本文探讨的ApacheHudi,对应的场景是数据的实时,而非处理的实时。它旨在将Mysql中的数据以近实时的方式映射到大数据平台,比如H
youngflyer
·
2023-04-01 23:41
数仓
--Theory--对OLAP的理解及分析方法
OLAP概述OLAP(联机分析处理)是针对特定问题的联机数据访问和分析。通过对信息(维数据)的多种可能的观察形式进行快速、稳定一致和交互性的存取,允许管理决策人员对数据进行深入观察。OLAP技术主要通过多维的方式来对数据进行分析、查询和生成报表,它不同于传统的OLTP处理应用。OLTP应用主要是用来完成用户的事务处理,如民航订票系统和银行的储蓄系统等,通常要进行大量的更新操作,同时对响应的时间要求
李小李的路
·
2023-04-01 21:11
使用 Alluxio 优化 EMR 上 Flink Join
经常会遇到实时消息数据需要与历史存量数据关联查询或者聚合,比如电商常见的订单场景,订单表做为实时事实表,是典型的流式消息数据,通常会在kafka中,而客户信息,商品SKU表是维度表,通常存在业务数据库或者
数仓
中
亚马逊云开发者
·
2023-04-01 19:04
flink
大数据
数据库
Teradata 宣布退出中国,OushuDB 成为更好选择
老牌数据库公司Teradata曾是全球大数据分析和
数仓
领域的头部供应商,在中国运营26年(1997-2023),巅峰期占据中国大半壁数据仓库市场,如今仓皇退出让人唏嘘。
偶数科技
·
2023-04-01 19:19
数据库
【离线
数仓
-4-数据仓库设计-分层规划&构建流程】
离线
数仓
-4-数据仓库设计-分层规划&构建流程离线
数仓
-4-数据仓库设计-分层规划&构建流程1.数据仓库分层规划2.数据仓库构建流程1.数据调研1.业务调研2.需求分析3.总结2.明确数据域3.构建业务总线矩阵
Apache Minor Trend
·
2023-04-01 18:28
数据仓库
大数据
数据治理
数据仓库
大数据
数仓
设计的几点原则
从上面的描述可知,高内聚、低耦合也就是怎么合、如何拆,对于
数仓
中合并与拆分,常常发生在模型设计中:水平拆分/合并、垂直拆分/合并,不管是对于
pucheung
·
2023-04-01 18:52
java
设计模式
python
大数据
数据分析
从0到1简单搭建加载
数仓
DWD层(业务数据解析)
本文来源于网络,如有侵权,联系浪尖删除:langjianliaodashuju来源:畅谈Fintech上一节我们讲解了
数仓
DWD层(用户行为日志数据)的搭建、解析、加载。
浪尖聊大数据-浪尖
·
2023-04-01 18:17
大数据
java
hive
数据仓库
数据库
数据仓库-
数仓
分层
层级全拼职责划分ODS(源数据层)OperationalDataStoreODS层存储最原始的数据,对数据不做任何加工处理;源数据主要来自业务数据库和日志,这些数据是用户操作业务系统产生,所以叫操作型数据(OperationalData)。DWD(明细层)DataWarehouseDetailDWD层的数据表是对ODS层数据表的关联、字段重命名、清洗、类型转换;一般不做汇总操作和指标计算。DWM(
高个子男孩
·
2023-04-01 18:13
大数据
数据仓库
数据库
数据挖掘
数仓
系列之必知基础
概述数据仓库,简称
数仓
,是一个面向主题的、集成的、相对稳定的、反应历史变化的数据集合,用于支持管理决策。
johnny233
·
2023-04-01 18:55
数仓
数据库
数据仓库
数据挖掘
如何优雅的设计DWS层?
对于
数仓
的分层,想必大家都不陌生。
无精疯
·
2023-04-01 17:15
数据分析
编程语言
大数据
数据挖掘
人工智能
数据仓库建设原则规范
一、数据模型架构原则1.
数仓
分层原则优秀可靠的
数仓
体系,往往需要清晰的数据分层结构,即要保证数据层的稳定又要屏蔽对下游的影响,并且要避免链路过长。那么问题来了,一直在讲
数仓
要分层,那
数仓
分几层最好?
m0_57093335
·
2023-04-01 17:00
架构
数据仓库
数据库
big
data
数据挖掘
Warframe虚空境
其初衷是制作一个比较方便的Warframe中文版工具,综合大多
数仓
鼠想要知道的信息、想要的
白翊sky
·
2023-04-01 12:56
数据仓库(6)
数仓
分层设计架构
目前主流的数据仓库分层大多为四层,也有五层的架构,这里介绍基本的四层架构。分别为数据贴源层(ods)、数据仓库明细层(dw)、多维明细层(dws)和数据集市层(dm)。 下面是架构图: 数据分层的目的是:减少重复计算,避免烟囱式开发,节省计算资源,靠上层次,越对应用友好,也对用户友好,希望大部分(80%以上)的需求,都用DWS,DW的表来支持就行,所以ODS层数据不能被DM层任务引用,需要
张飞的猪大数据
·
2023-04-01 09:26
数据仓库的学习笔记
数据仓库
数仓
分层设计
大数据
数据开发ETL
大数据技术架构_建设大数据中台架构思考与总结
数据中台定义:集成离线
数仓
与实时
数仓
,并以多数据源统一整合采集到kafka,再通过kafka进行离线数据仓库及实时数据仓库,并集用户标签,统一数据资产管理(对数据资产目录、元数据、数据质量、数据血缘、数据生命周期等进行管理和展示
weixin_39599705
·
2023-04-01 07:33
大数据技术架构
hive的常规操作
1、首先说说
数仓
与Hive数据仓库,简单来说就是,企业利用其自身和行业本身的历史数据进行智能化统计分析,从中分析、挖掘出有价值的数据,为领导层提供科学的决策支持,作用是改善企业业务流程、运行成本、企业效益和提高用户体验
zeroLinked
·
2023-04-01 05:00
博学谷学习记录
hive
hadoop
大数据
Flink Yarn Java Api Application 模式发布应用
背景最近公司在做实时
数仓
,技术上选择flink作为数据处理引擎,同时需要将实时
数仓
cdc(ODS层),建模(DWD)等逻辑进行功能化集成到数据仓库中方便
数仓
开发人员进行使用。
systemup_v1
·
2023-04-01 02:31
flink
分享
flink
【大数据Hive3.x
数仓
开发】
数仓
基础理论
目录概念OLTP
数仓
的构建
数仓
体系图特征OLTPVSOLAP数据库VS数据仓库数据仓库VS数据集市
数仓
分层架构ODS层DW层DA层分层好处ETLVSELT注:学习课程:黑马程序员Hive全套教程,大数据
锵锵锵锵~蒋
·
2023-03-31 22:29
大数据
数据仓库
数据库
聊聊数据仓库中的缓慢变化维度(SCD)
虽然我的主业是实时计算和批量计算,并不是
数仓
,但是在日常工作中绝对少不了与
数仓
打交道。并且我也算是参与过离线
数仓
建设的,维度建模的基础还是不能忘。本文就作为一篇抄书笔记吧。
LittleMagic
·
2023-03-31 22:53
云栖干货回顾 | 更强大的实时
数仓
构建能力!分析型数据库PostgreSQL 6.0新特性解读
AnalyticDBPG6.0版本大幅提升并发事务处理能力,更好的满足实时
数仓
场
Ta oo
·
2023-03-31 22:34
Flink + TiDB,体验实时
数仓
之美
关注「ApacheFlink」,获取更多技术干货▼摘要:本⽂由社区志愿者L帮忙整理,内容来源⾃王天宜在7月10日ApacheFlinkxTiDBMeetup·北京站分享的《Flink+TiDB,体验实时
数仓
之美
Apache Flink
·
2023-03-31 21:29
大数据
分布式
hadoop
数据库
java
更强大的实时
数仓
构建能力!分析型数据库PostgreSQL 6.0新特性解读
AnalyticDBPG6.0版本大幅提升并发事务处理能力,更好的满足实时
数仓
场
阿里云技术
·
2023-03-31 21:28
阿里云数据库
【实时
数仓
】CDC简介、实现DWD层业务数据的处理(主要任务、接收kafka数据、动态分流*****)
文章目录一CDC简介1什么是CDC2CDC的种类3Flink-CDC二准备业务数据-DWD层1主要任务(1)接收Kafka数据,过滤空值数据(2)实现动态分流功能(3)把分好的流保存到对应表、主题中2接收Kafka数据,过滤空值数据(1)代码(2)测试3根据MySQL的配置表,进行动态分流(1)准备工作a引入pom.xml依赖b在Mysql中创建数据库c在gmall2022_realtime库中创
OneTenTwo76
·
2023-03-31 21:58
实时数仓
kafka
数据库
大数据
记录一次实时应用场景下,
数仓
获取Oracle数据遇到的坑
其中涉及到实时产量和设备状态等信息数据刷新频次要求较高,涉及到Oracle的CDC(实时数据变更获取),原计划是直接通过logminer解析MES的报表库日志设备状态有上位机的设备调用MESWebservice接口,返回的数据写入MES同时也写入
数仓
cpGG
·
2023-03-31 21:26
工作随笔
oracle
数据库
数据仓库
数据分析
大屏端
大数据实战之路-实时
数仓
-实时
数仓
架构
流批一体架构技术栈开发语言(三者都可以)JavaScalaPython技术选型K8sDebeziumKafkaFlink(Hdfs,RockDB)ClickhouseDorisElasticSearchMySQLDataX(离线抽取,主要用于历史,历史数据初始化)批流一体架构架构实现步骤1.实时同步业务库数据到企业总线1.1SqlServer数据实时投递到Kafka1.2MySQL数据实时投递到K
《数据民工包工头》
·
2023-03-31 21:20
大数据实践之路-数据仓库
大数据
ETL工具NIFI的3种部署方式(免登录方式、单用户、多租户登录方式)
在实时
数仓
架构中,选一个得心应手的ETL工具,可以大大提高开发效率,节省人力成本。这里向大家推荐一款很好的、笔者已在生产环境中使用的、可以实现无代码编程的ETL工具:NIFI。
登峰大数据
·
2023-03-31 21:15
bigdata
etl
linux
数据仓库
基于亚马逊云科技 Serverless架构的实时
数仓
架构
近年来,各级政府和企业响应数字化转型的号召,都已开始或者即将开始数字化转型。各类企业通过前期的业务线上化、信息化,积累了大量数据,而数字化转型就是要聚合这些数据,进行深入挖掘分析,用数据来驱动业务,用数据来支撑决策、用数据来推动业务和商业模式创新、推动业务流程优化,进而实现降本增效。要实现数据价值,建设数据仓库是在数字化转型过程中不得不面对的一项任务。数据仓库汇聚各个业务部门数据,避免数据孤岛,使
登峰大数据
·
2023-03-31 21:45
科技
serverless
架构
1.实时
数仓
-典型应用场景
1.CDC备注:flink中已经实现了cdc机制,相比上图spark对cdc的实现更加简洁高效,对于做db数据全量和增量同步;2.ETL3.实时
数仓
典型技术架构
mask哥
·
2023-03-31 21:44
电商数据中台设计
flink
数据中台
电商
大数据
数据架构
Flink实时
数仓
第一篇数据接入
Flink实时
数仓
第一篇数据接入欢迎来到实时
数仓
1.为什么选择Hbase中转,而不是直接入Hive?2.oracle接入为什么这么复杂?3.不支持的cdc数据源怎么办?
chenzuoli
·
2023-03-31 21:43
大数据
数据仓库
实时数仓
数据仓库
flink
实时大数据
big
data
大数据
菜鸟实时
数仓
2.0进阶之路
分享嘉宾:张庭菜鸟数据工程师文章整理:comn出品平台:DataFunTalk导读:供应链物流场景下的业务复杂度高,业务链路长,节点多,实体多,实时
数仓
建设难度高。
Wang_AI
·
2023-03-31 21:41
大数据
编程语言
数据库
flink
java
实时
数仓
架构哪些事儿(续13-PostgreSQL CDC数据实时接入Kudu)
书接前文,在上一节中,我们将MysqlCDC数据实时接入了ImpalaKudu表。完整的数据流向如下图所示:图中MYSQL和SQLSERVER数据库的CDC数据采集,在本系列中已经讲解,本节给大家分享下PostgreSQL数据库的CDC数据采集和DDL监控。在正式进行实战操作之前,请先学习Mysql连接器的使用方法,因为很多的配置都是相同的。本文主要解释下PostgreSQL连接器特有的内容。再次
登峰大数据
·
2023-03-31 21:26
postgresql
数据库
架构
数据仓库
实时数仓
DLink 流批一体技术架构及优势 | 滴普科技FastData系列解读
二、需求背景传统的基于离线(比如Hive)
数仓
有很高的成熟度和稳定性,但在一些时延要求比较高的场景,则需要借助实时
数仓
Flink的帮助,将延时降低到秒级(或分钟级
滴普科技
·
2023-03-31 18:15
架构
hive
big
data
数仓
基础+ONEDATA建模+各类事实表比较
目录一、什么是
数仓
?二、为什么要对数据仓库进行建模?
ListenerDMT
·
2023-03-31 16:37
大数据扩展知识
数据仓库
阿里云实时计算 Flink 版 x Hologres: 构建企业级一站式实时
数仓
企业最常见的做法就是通过构建实时
数仓
来满足对数据的快速探索。
小晨说数据
·
2023-03-31 16:44
数据库
大数据
分布式
hadoop
flink
数字化转型的本质、路径、阶段和挑战,一篇讲明白
来源:
数仓
宝贝库01企业数字化转型的本质数字化可以将人类所处的真实世界和虚拟数字连接起来,从中寻求全新的商业模式。
weixin_38754337
·
2023-03-31 13:49
大数据
人工智能
java
编程语言
算法
大数据架构演变之路
一、JavaWeb为什么需要大数据二、数据库-OLTP&数据仓库-OLAP三、大数据架构演变1.传统离线大数据架构2.Lambda架构(离线处理+实时链路)离线
数仓
+实时
数仓
3.Kappa架构四、架构选择五
紫罗兰盛开
·
2023-03-31 08:35
大数据
数据库
实时大数据
数据仓库
大数据架构演进
1、
数仓
架构演变(场景驱动)1.1经典
数仓
架构数据仓库概念是Inmon于1990年提出并给出了完整的建设方法1.2离线大数据架构随着互联网时代来临,数据量暴增,开始使用大数据工具来代替经典
数仓
中的传统工具此时仅仅是工具的取代
「miraitowa」
·
2023-03-31 08:30
数仓
大数据
数据仓库概念
目录
数仓
概念
数仓
专注分析
数仓
主要特征面向主题性(Subject-Oriented)集成性(Integrated)非易失性、非异变性(Non-Volatile)时变性(Time-Variant)
数仓
概念1
Darcy cui
·
2023-03-31 07:42
hive
大数据架构演变
大数据架构演变一、传统离线大数据架构二、Lambda架构(离线处理+实时链路)-传统实时开发三、Lambda架构(离线
数仓
+实时
数仓
)四、Kappa架构五、架构选择:六、湖仓一体(流批一体)实时
数仓
架构七
LG_985938339
·
2023-03-31 07:15
数据与数据库
大数据
架构
java
数据中台05:数据中台之数据加工总线
一、目前大数据领域实时计算的现状随着大数据行业的整体发展,企业对实时计算的需求越来越多,特别是在构建实时
数仓
的时候,需要接入很多实时数据源,并且
数仓
还是分层的,针对每一层的数据都需要进行实时计算,此时就需要开发很多实时计算程序
做一个有趣的人Zz
·
2023-03-31 07:31
数据中台
数据中台
【珍藏版】⼤数据中台架构及解决⽅案
持续输出敬请关注大数据架构湖仓一体化流批一体离线+实时
数仓
各种大数据解决方案各种大数据新技术实践持续输出敬请关注⼤数据平台基础架构及解决⽅案_大数据研习社的博客-CSDN博客https://blog.csdn.net
大数据研习社
·
2023-03-31 06:59
大数据实战精英+架构师
大数据
Hadoop
数据仓库
flink
架构
上一页
29
30
31
32
33
34
35
36
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他