E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
数仓分层架构
数仓
建设(离线和实时)
文档大纲:一、
数仓
基本概念1.数据仓库架构我们在谈
数仓
之前,为了让大家有直观的认识,先来谈
数仓
架构,“架构”是什么?这个问题从来就没有一个准确的答案。
ashansmile
·
2022-12-24 12:28
big
data
数据仓库
hive
Hive+Spark离线
数仓
工业项目实战--环境构建(3)
项目环境配置根据需求实现项目环境配置实施-注意:所有软件Docker、Hadoop、Hive、Spark、Sqoop都已经装好,不需要额外安装配置,启动即可配置网络:如果你的VMNat网络不是88网段,请按照以下修改-修改Linux虚拟机的ens33网卡,网卡和网关,修改为自己的网段配置映射项目环境测试:Oracle实现项目Oracle环境的测试实施-远程连接:DG-step1:安装DG-step
骨灰级收藏家
·
2022-12-24 12:56
Spark
hive
大数据
hive
spark
hadoop
PB级企业电商离线
数仓
项目实战【上】
第一部分数据仓库理论第1节数据仓库1.1什么是数据仓库1988年,为解决全企业集成问题,IBM公司第一次提出了信息仓库(InformationWarehouse)的概念。数据仓库的基本原理、技术架构以及分析系统的主要原则都已确定,数据仓库初具雏形。1991年BillInmon(比尔·恩门)出版了他的第一本关于数据仓库的书《BuildingtheDataWarehouse》,标志着数据仓库概念的确立
猿大山
·
2022-12-24 12:55
Hadoop
Hive+Spark离线
数仓
工业项目实战--项目介绍及环境构建(1)
一站制造项目主要基于Hive
数仓
分层来存储各个业务指标数据,基于sparkSQL做数据分析。核心业务涉及运营商、呼叫中心、工单、油站、仓储物料。
骨灰级收藏家
·
2022-12-24 12:55
大数据
Spark
hive
大数据
hive
spark
数仓项目
大数据项目
Hive+Spark离线
数仓
工业项目实战--项目介绍及环境构建(2)
Docker的介绍了解Docker的基本功能和设计-为什么要用Docker?-什么是Docker?路径-step1:生产环境的问题-step2:容器的概念-step3:Docker的设计实施生产环境的问题-运维层面:一台机器上的应用太多,不同的环境,安装过程也不一样,管理麻烦,怎么办?-开发层面:不同程序的运行受到环境、资源等因素的干扰,不同的环境,开发的方式也不一样,怎么办?容器的概念-硬件容器
骨灰级收藏家
·
2022-12-24 12:55
hive
大数据
Spark
hive
spark
docker
oracle
mysql
Hive+Spark离线
数仓
工业项目实战--
数仓
设计及数据采集(1)
数仓
设计及数据采集1.
骨灰级收藏家
·
2022-12-24 12:54
hive
大数据
Spark
hive
spark
hadoop
数仓设计
一篇文章让你明白你多级缓存的
分层架构
前言在互联网高速发展的今天,缓存技术被广泛地应用。无论业内还是业外,只要是提到性能问题,大家都会脱口而出“用缓存解决”。这种说法带有片面性,甚至是一知半解,但是作为专业人士的我们,需要对缓存有更深、更广的了解。缓存技术存在于应用场景的方方面面。从浏览器请求,到反向代理服务器,从进程内缓存到分布式缓存。其中缓存策略,算法也是层出不穷,今天就带大家走进缓存。正文缓存对于每个开发者来说是相当熟悉了,为了
·
2022-12-24 10:03
后端java
一篇文章让你明白你多级缓存的
分层架构
前言在互联网高速发展的今天,缓存技术被广泛地应用。无论业内还是业外,只要是提到性能问题,大家都会脱口而出“用缓存解决”。这种说法带有片面性,甚至是一知半解,但是作为专业人士的我们,需要对缓存有更深、更广的了解。缓存技术存在于应用场景的方方面面。从浏览器请求,到反向代理服务器,从进程内缓存到分布式缓存。其中缓存策略,算法也是层出不穷,今天就带大家走进缓存。正文缓存对于每个开发者来说是相当熟悉了,为了
·
2022-12-24 10:31
后端java
MySQL主从复制--单库复制搭建
背景说明负责公司MySQL
数仓
的搭建和维护,因为前端业务涉及到一次业务表的分库,导致整个平台新增加一台MySQL服务器,需要将该库数据通过主从复制同步至原有的
数仓
实例。
灰言sky
·
2022-12-24 00:28
主从复制
mysql
深度!用“极速统一”,开启金融行业数据分析新范式
IDC预测,2024年全球
数仓
的市场规模将达到297亿美元,2019
·
2022-12-23 13:02
数据库
深度!用“极速统一”,开启金融行业数据分析新范式
IDC预测,2024年全球
数仓
的市场规模将达到297亿美元,2019
·
2022-12-23 13:01
数据库
CloudCanal实战-五分钟搞定Oracle到StarRocks数据迁移与同步
简述CloudCanal当前最新版本已经支持源端Oracle、SqlServer等主流传统数据库作为源端迁移同步数据到StarRocks来构建实时
数仓
。
·
2022-12-23 10:48
数据库
Databend 开源周报 #71
Databend是一款强大的云
数仓
。专为弹性和高效设计,自由且开源。即刻体验云服务:https://app.databend.com。
Databend
·
2022-12-23 10:02
大数据
hive
hadoop
星河璀璨 | GBASE南大通用两项成果获评2022大数据“星河”标杆、优秀案例
GBASE南大通用作为支持单位与客户联合申报的两项成果从595份申报项目中脱颖而出,「湖仓一体大数据平台研究和实践」、「混搭架构中构建逻辑
数仓
的应用与实践」分别获评2022大数据“星河(Galaxy)”
GBASE数据库
·
2022-12-22 11:59
GBASE新闻
GBASE荣誉
大数据
面向6G需求的算力网络技术
时代中算力网络存在的意义,并简要说明了算力网络分层结构,然后,结合算力网络(CPN)控制技术,详细说明了分布式控制及集中式控制的工作原理,并对算力网络中的异构计算资源纳管进行了描述,最后详细分析了整个算力网络
分层架构
中各层的作用及构成
宋罗世家技术屋
·
2022-12-21 22:27
物联网及AI前沿技术专栏
人工智能
深度学习
大数据
高可用系列文章之四 - 总结
前文链接高可用系列文章之一-概述-东风微鸣技术博客(ewhisper.cn)高可用系列文章之二-传统
分层架构
技术方案-东风微鸣技术博客(ewhisper.cn)高可用系列文章之三-NGINX高可用实施方案
·
2022-12-20 09:56
运维nginx
数据仓库Hive学习笔记整理
数仓
1.
数仓
概念数据仓库(DataWarehouse,简称
数仓
、DW),是一个用于存储、分析、报告的数据系统。
我的一首歌
·
2022-12-20 08:42
数据仓库
数据库
数据挖掘
互联网摸鱼日报(2022-12-16)
双方称将共同开启下一站创新《反诈法》实施后,蚂蚁“亮剑”反诈平台:首批开放18件关键专利、5套核心反诈技术方案并发提升10倍,运算延时降低70%,领健从ClickHouse和Kudu到ApacheDoris
数仓
升级实践谷歌员工担心自家
每日摸鱼大王
·
2022-12-20 08:42
每日摸鱼新闻
业界资讯
离线
数仓
搭建_16_Azkaban全流程调度
MySQL数据库和表17.3Sqoop导出脚本17.4全调度流程17.4.1数据准备17.4.2编写Azkaban工作流程配置文件17.4.3Azkaban多Executor模式下注意事项上文访问:离线
数仓
搭建
Fang GL
·
2022-12-19 18:00
#
离线数仓搭建
数据库
mysql
Azkaban
离线数仓
任务调度
20000字,详解大厂实时
数仓
建设(好文收藏)
来源:五分钟学大数据一、实时
数仓
建设背景1.实时需求日趋迫切目前各大公司的产品需求和内部决策对于数据实时性的要求越来越迫切,需要实时
数仓
的能力来赋能。
公众号:肉眼品世界
·
2022-12-19 09:12
大数据
数据挖掘
数据库
人工智能
实时
数仓
在滴滴的实践和落地
1.实时
数仓
建设目的随着互联网的发展进入下半场,数据的时效性对企业的精细化运营越来越重要,商场如战场,在每天产生的海量数据中,如何能实时有效的挖
浪尖聊大数据-浪尖
·
2022-12-19 09:09
数据仓库
大数据
编程语言
数据库
人工智能
java
【学习笔记】尚硅谷大数据项目之Flink实时
数仓
---数据采集
尚硅谷大数据项目之Flink实时
数仓
一思考:1.为什么会有DWM(中间层)层3.实时
数仓
为什么要分层?2.实时
数仓
的数据是存在哪里的呢?
在学习的王哈哈
·
2022-12-19 09:07
大数据项目
大数据
学习
flink
滴滴打车 -- 实时
数仓
实践
1.实时
数仓
建设目的随着互联网的发展进入下半场,数据的时效性对企业的精细化运营越来越重要,商场如战场,在每天产生的海量数据中,如何能实时有效的挖
无精疯
·
2022-12-19 09:35
大数据
编程语言
数据库
人工智能
数据分析
大数据Flink电商实时
数仓
实战项目流程全解(四)动态分流详解
DWD层业务数据分流回顾一下之前业务数据的处理;首先把脚本生成的业务数据发送到MySql数据库中,在表gmall0709中可以看到数据:这里就是生成的对应数据表,然后通过Maxwell把数据输入到Kafka中,保存在ods_base_db_m主题中;此时我们需要把这个kafka主题中的数据进行过滤和分流处理,过滤处理很容易,这里我们过滤掉data为空,或者是长度filteredDS=jsonObj
大数据YYDS
·
2022-12-19 09:05
大数据Flink实战
flink
【Flink实时
数仓
】数据仓库项目实战 《四》日志数据分流 【DWD】
文章目录【Flink实时
数仓
】数据仓库项目实战《四》日志数据分流-流量域【DWD】1.流量域未经加工的事务事实表1.1主要任务1.1.1数据清洗(ETL)1.1.2新老访客状态标记修复1.1.3新老访客状态标记修复
一阵暖风
·
2022-12-19 09:34
flink
数据仓库
大数据
高可用系列文章之三 - NGINX 高可用实施方案
前文链接高可用系列文章之一-概述-东风微鸣技术博客(ewhisper.cn)高可用系列文章之二-传统
分层架构
技术方案-东风微鸣技术博客(ewhisper.cn)四NGINX高可用实施方案高可用的实施,主要步骤概述如下
·
2022-12-19 08:37
nginx
一文读懂 kafka 的事务机制
用一句话概括,KAFKA是实时
数仓
的基石,是事件驱动架构的灵魂。
明哥的IT随笔
·
2022-12-19 07:49
源码阅读
KAFKA
kafka
big
data
大数据工具之Superset
由于Superset能够对接常用的大数据分析工具,如Trino、Hive、Kylin、Druid等,且支持自定义仪表盘,故可作为
数仓
的可视化工具,应用于数据仓库的ADS!
八五年的湘哥
·
2022-12-18 22:08
大数据专题
开源技术专题
大数据
大学生自学Java怎样才不会从入门到放弃?
目录前言java8springboot,springbootidea和git是必须掌握的中间件技术数据库技术rpc技术缓存技术高性能队列微服务技术大数据技术
数仓
servicemesh技术分布式事务机器学习和
麒麟来编程
·
2022-12-18 19:37
JAVA核心技术
程序人生
数据库
java
编程语言
后端
基于 Flink + Hudi 的实时
数仓
在 Shopee 的实践
本文首发于微信公众号“Shopee技术团队”摘要ApacheHudi是业内基于Lakehouse解决方案中的典型组件,相比于传统基于HDFS和Hive的数据仓库架构,基于ApacheHudi的Lakehouse解决方案有众多优势,例如:低延迟的数据刷新,高度的数据新鲜度;小文件自动化管理;支持数据文件的多版本读写;与大数据生态内Hive/Spark/Presto等引擎的无缝衔接。基于这些特性,我们
·
2022-12-18 10:10
大数据flinkapache
高可用系列文章之二 - 传统
分层架构
技术方案
前文链接高可用系列文章之一-概述-东风微鸣技术博客(ewhisper.cn)三技术方案3.1概述单点是系统高可用最大的风险和敌人,应该尽量在系统设计的过程中避免单点。保障系统的高可用,方法论上,高可用保证的原则是「集群化」(或「冗余」),只有一个单点,该单点宕机所有服务都会受影响而不可用;如果有冗余或备份,其中一个点宕机还有其他冗余或备份节点能够提供服务。保证系统高可用,架构设计的核心准则是:冗余
·
2022-12-18 09:38
nginx高可用
3.设计模式之分层思维:为什么要做代码
分层架构
?
一、代码
分层架构
是什么软件程序通常有两个层面的需求:功能性需求,简单来说,就是一个程序能为用户做些什么,比如,文件上传、查询数据等;非功能性需求,这个是指除功能性需求以外的其他必要需求,比如,性能、安全性
卜卦丶cc
·
2022-12-17 17:52
设计模式
设计模式
分层思维
技术原理|Hologres Binlog技术原理揭秘
同时在大数据场景上,支持Flink直接消费HologresBinlog,相较于传统
数仓
分层,Flink+HologresBinlog可以实现完整的事件驱动,完成OD
aliyunhologres
·
2022-12-17 14:27
技术原理解读
数据库
大数据
37手游云平台基于Flink+Hologres大数据建设实践
本文整理自37手游大数据平台资深开发工程师史飞翔在实时
数仓
Workshop·广州站的演讲。
aliyunhologres
·
2022-12-17 14:57
场景最佳实践
大数据
flink
看场景、重实操,实时
数仓
不是“纸上谈兵”
本文转载自阿里云Hologres产品负责人合一在ITPUB的访谈,谈谈他眼中的实时
数仓
,原文链接:https://mp.weixin.qq.com/s/RZMWf9r4fKV9mNoGGUtaVw这两年
aliyunhologres
·
2022-12-17 14:57
数据库
数据仓库
数据挖掘
好程序员分享Java转行大数据该怎么规划学习?
数仓
工程师:这个需要SQL基础好一些,其他环境配置基本上公司已经完成,主要是针对Hive方向的开发和数据
好程序员IT
·
2022-12-17 10:47
Java学习资源
大数据培训
好程序员
好程序员
Java
大数据
编程体系结构(08):Spring.Mvc.Boot框架
一、Spring框架1、框架概述Spring是一个开源框架,框架的主要优势之一就是其
分层架构
,
分层架构
允许使用者选择使用哪一个组件,同时为J2EE应用程序开发提供集成的框架。
知了一笑
·
2022-12-17 09:57
Java编程
核心基础
spring
spring
boot
mvc
java
直播 | 新一代极速云原生湖仓的技术内核,StarRocks PMC 今天下午为你揭秘!
本届大会重点围绕云原生数据库、分布式数据库、时序数据库、图数据技术、实时
数仓
技术与应用实践、金融业数据库应用实践等内容展开分享和探讨。
StarRocks_labs
·
2022-12-17 05:48
云原生
数据库
「
数仓
建设篇」
数仓
主题域划分
大家好,本篇聊一下
数仓
建设,讲一下面试常遇到的主题域与主题划分,更多精彩文章优先从微信公众号《大数据阶梯之路》首发,欢迎关注,公众号回复:大数据
数仓
资料,可以获取大数据
数仓
相关学习资料。
大数据阶梯之路
·
2022-12-16 21:01
数据仓库
大数据
面试
「Hive进阶篇」详解存储格式及压缩方式
一、前言hive优化除了有hql语句逻辑优化,hql参数调优等等,还有一个不起眼的细节容易被忽视掉,那便是hive
数仓
模型表的存储格式和压缩方式,hive底层数据是依托在hadoop,以HDFS文件存储在集群上的
大数据阶梯之路
·
2022-12-16 21:01
hive
hadoop
大数据
数据化建设知识图谱(文末附PDF下载)
即使技术变化最快的互联网行业,阿里也是经历了数据库、
数仓
和数据平台的沉淀
大数据阶梯之路
·
2022-12-16 21:30
知识图谱
大数据
技术原理|Hologres Binlog技术原理揭秘
同时在大数据场景上,支持Flink直接消费HologresBinlog,相较于传统
数仓
分层,Flink+HologresBinlog可以实现完整的事件驱动,完成OD
·
2022-12-16 17:31
大数据sql存储
20000节点云
数仓
在大型商业银行的“实践之路”
本次大会以“数据智能价值创新”为主题,邀请逾百位行业专家,重点围绕云原生数据库、实时
数仓
技术与应用实践、大数据平台等内容展开分享和探讨。
·
2022-12-16 13:10
数据库postgresql
因SHUFFLE的KEY不同对落盘文件的影响
业务背景在建立
数仓
体系过程中,采用ORC+SNAPPY存储,单分区文件大小TB级别,对比前后依赖表以及同样体量的表,只有GB级别,故对这种情况产生怀疑,进行验证验证一、确定数据量、以及具体字段数据正常验证二
坤岭
·
2022-12-15 20:02
Spark
spark
大数据
hive
新闻速递 | 开务数据库亮相 DTCC 2022 线上大会并发表系列主题演讲
本届大会以“数据智能价值创新”为主题,邀请超百位行业专家,重点围绕时序数据库、图数据技术、实时
数仓
技术与应用实践、云原生数据库、大数据平台与数据安全等内容展开分享和探讨。
·
2022-12-15 16:15
数据库
新一代云原生实时
数仓
SelectDB 发布会精华干货!五大核心特色解读。
基于传统数据库共享存储架构和专门面向分析型的无共享MPP架构第二阶段:湖仓并行时代使用场景:企业内部报表与分析,更大规模的ETL数据工程、行为分析和画像等新型数据应用分析,百万级外部客户高并发需求技术实现:离线数据湖,在线实时
数仓
第三阶段
·
2022-12-15 14:02
云原生大数据云计算数据仓库
数仓
任务优化
提示:上游任务优化、当前任务优化、下游任务优化和相关环境优化,全链路优化任务。一、模型优化合理的需求、合理的表结构、合理的处理逻辑。1.字段优化1缩减字段1)删除没有用途的字段;2)中英文都有的字段,只保留英文;3)删除不常用且可以通过现有字段关联得到的字段;2字段类型1)选择合适的数据类型,尽量选择低存储的;2)尽量不要为了方便,都选择string类型;3字段值1)选择存储简洁的代码,需要真实值
盛源_01
·
2022-12-15 11:03
通用类
经验分享
3分钟带你重温 SelectDB 产品发布会亮点!
12月8日的SelectDB产品发布会圆满举办,一时间吸引了无数业内关注,大家都对这款在正式发布前就拿下ClickBench全球第一的云
数仓
产品充满期待与好奇。
hf200012
·
2022-12-15 00:46
大数据
SelectDB
Doris
【观察】定义下一代云原生实时
数仓
,SelectDB Cloud“打了个样”
2020年,国家在《关于构建更加完善的要素市场化配置体制机制的意见》中,首次将数据与土地、资本、劳动力并列为关键生产要素,并提出加快培育数据要素市场的愿景,此举可谓意义重大。背后的原因是,当下中国企业正在加速从数字化走向智能化,对数据的应用也提升到了一个全新的高度。例如,企业对数据的即时分析、按需分析、即时部署变得更加的强烈;同时,随着数据的广泛流动,企业为了管理好这些数据,其数据基础设施也必须要
申耀的科技观察
·
2022-12-14 22:45
云原生
软硬件结合,分布式数据库 ZNBase 存储架构优化实践
ZNBase整体存储架构开务数据库(原:云溪数据库)ZNBase采用
分层架构
,分为计算层与存储层,其总体架构如下图所示:在OLTP场景下,当开发人员向集群发送SQL语句时,数据最终会以键值对KV的形式对存储层进行读写
·
2022-12-14 14:19
数据库存储分布式mysql
上一页
51
52
53
54
55
56
57
58
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他