E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
数仓(
深度!用“极速统一”,开启金融行业数据分析新范式
IDC预测,2024年全球
数仓
的市场规模将达到297亿美元,2019
·
2022-12-23 13:01
数据库
CloudCanal实战-五分钟搞定Oracle到StarRocks数据迁移与同步
简述CloudCanal当前最新版本已经支持源端Oracle、SqlServer等主流传统数据库作为源端迁移同步数据到StarRocks来构建实时
数仓
。
·
2022-12-23 10:48
数据库
Databend 开源周报 #71
Databend是一款强大的云
数仓
。专为弹性和高效设计,自由且开源。即刻体验云服务:https://app.databend.com。
Databend
·
2022-12-23 10:02
大数据
hive
hadoop
星河璀璨 | GBASE南大通用两项成果获评2022大数据“星河”标杆、优秀案例
GBASE南大通用作为支持单位与客户联合申报的两项成果从595份申报项目中脱颖而出,「湖仓一体大数据平台研究和实践」、「混搭架构中构建逻辑
数仓
的应用与实践」分别获评2022大数据“星河(Galaxy)”
GBASE数据库
·
2022-12-22 11:59
GBASE新闻
GBASE荣誉
大数据
数据仓库Hive学习笔记整理
数仓
1.
数仓
概念数据仓库(DataWarehouse,简称
数仓
、DW),是一个用于存储、分析、报告的数据系统。
我的一首歌
·
2022-12-20 08:42
数据仓库
数据库
数据挖掘
互联网摸鱼日报(2022-12-16)
双方称将共同开启下一站创新《反诈法》实施后,蚂蚁“亮剑”反诈平台:首批开放18件关键专利、5套核心反诈技术方案并发提升10倍,运算延时降低70%,领健从ClickHouse和Kudu到ApacheDoris
数仓
升级实践谷歌员工担心自家
每日摸鱼大王
·
2022-12-20 08:42
每日摸鱼新闻
业界资讯
离线
数仓
搭建_16_Azkaban全流程调度
MySQL数据库和表17.3Sqoop导出脚本17.4全调度流程17.4.1数据准备17.4.2编写Azkaban工作流程配置文件17.4.3Azkaban多Executor模式下注意事项上文访问:离线
数仓
搭建
Fang GL
·
2022-12-19 18:00
#
离线数仓搭建
数据库
mysql
Azkaban
离线数仓
任务调度
20000字,详解大厂实时
数仓
建设(好文收藏)
来源:五分钟学大数据一、实时
数仓
建设背景1.实时需求日趋迫切目前各大公司的产品需求和内部决策对于数据实时性的要求越来越迫切,需要实时
数仓
的能力来赋能。
公众号:肉眼品世界
·
2022-12-19 09:12
大数据
数据挖掘
数据库
人工智能
实时
数仓
在滴滴的实践和落地
1.实时
数仓
建设目的随着互联网的发展进入下半场,数据的时效性对企业的精细化运营越来越重要,商场如战场,在每天产生的海量数据中,如何能实时有效的挖
浪尖聊大数据-浪尖
·
2022-12-19 09:09
数据仓库
大数据
编程语言
数据库
人工智能
java
【学习笔记】尚硅谷大数据项目之Flink实时
数仓
---数据采集
尚硅谷大数据项目之Flink实时
数仓
一思考:1.为什么会有DWM(中间层)层3.实时
数仓
为什么要分层?2.实时
数仓
的数据是存在哪里的呢?
在学习的王哈哈
·
2022-12-19 09:07
大数据项目
大数据
学习
flink
滴滴打车 -- 实时
数仓
实践
1.实时
数仓
建设目的随着互联网的发展进入下半场,数据的时效性对企业的精细化运营越来越重要,商场如战场,在每天产生的海量数据中,如何能实时有效的挖
无精疯
·
2022-12-19 09:35
大数据
编程语言
数据库
人工智能
数据分析
大数据Flink电商实时
数仓
实战项目流程全解(四)动态分流详解
DWD层业务数据分流回顾一下之前业务数据的处理;首先把脚本生成的业务数据发送到MySql数据库中,在表gmall0709中可以看到数据:这里就是生成的对应数据表,然后通过Maxwell把数据输入到Kafka中,保存在ods_base_db_m主题中;此时我们需要把这个kafka主题中的数据进行过滤和分流处理,过滤处理很容易,这里我们过滤掉data为空,或者是长度filteredDS=jsonObj
大数据YYDS
·
2022-12-19 09:05
大数据Flink实战
flink
【Flink实时
数仓
】数据仓库项目实战 《四》日志数据分流 【DWD】
文章目录【Flink实时
数仓
】数据仓库项目实战《四》日志数据分流-流量域【DWD】1.流量域未经加工的事务事实表1.1主要任务1.1.1数据清洗(ETL)1.1.2新老访客状态标记修复1.1.3新老访客状态标记修复
一阵暖风
·
2022-12-19 09:34
flink
数据仓库
大数据
一文读懂 kafka 的事务机制
用一句话概括,KAFKA是实时
数仓
的基石,是事件驱动架构的灵魂。
明哥的IT随笔
·
2022-12-19 07:49
源码阅读
KAFKA
kafka
big
data
大数据工具之Superset
由于Superset能够对接常用的大数据分析工具,如Trino、Hive、Kylin、Druid等,且支持自定义仪表盘,故可作为
数仓
的可视化工具,应用于数据仓库的ADS!
八五年的湘哥
·
2022-12-18 22:08
大数据专题
开源技术专题
大数据
大学生自学Java怎样才不会从入门到放弃?
目录前言java8springboot,springbootidea和git是必须掌握的中间件技术数据库技术rpc技术缓存技术高性能队列微服务技术大数据技术
数仓
servicemesh技术分布式事务机器学习和
麒麟来编程
·
2022-12-18 19:37
JAVA核心技术
程序人生
数据库
java
编程语言
后端
基于 Flink + Hudi 的实时
数仓
在 Shopee 的实践
本文首发于微信公众号“Shopee技术团队”摘要ApacheHudi是业内基于Lakehouse解决方案中的典型组件,相比于传统基于HDFS和Hive的数据仓库架构,基于ApacheHudi的Lakehouse解决方案有众多优势,例如:低延迟的数据刷新,高度的数据新鲜度;小文件自动化管理;支持数据文件的多版本读写;与大数据生态内Hive/Spark/Presto等引擎的无缝衔接。基于这些特性,我们
·
2022-12-18 10:10
大数据flinkapache
技术原理|Hologres Binlog技术原理揭秘
同时在大数据场景上,支持Flink直接消费HologresBinlog,相较于传统
数仓
分层,Flink+HologresBinlog可以实现完整的事件驱动,完成OD
aliyunhologres
·
2022-12-17 14:27
技术原理解读
数据库
大数据
37手游云平台基于Flink+Hologres大数据建设实践
本文整理自37手游大数据平台资深开发工程师史飞翔在实时
数仓
Workshop·广州站的演讲。
aliyunhologres
·
2022-12-17 14:57
场景最佳实践
大数据
flink
看场景、重实操,实时
数仓
不是“纸上谈兵”
本文转载自阿里云Hologres产品负责人合一在ITPUB的访谈,谈谈他眼中的实时
数仓
,原文链接:https://mp.weixin.qq.com/s/RZMWf9r4fKV9mNoGGUtaVw这两年
aliyunhologres
·
2022-12-17 14:57
数据库
数据仓库
数据挖掘
好程序员分享Java转行大数据该怎么规划学习?
数仓
工程师:这个需要SQL基础好一些,其他环境配置基本上公司已经完成,主要是针对Hive方向的开发和数据
好程序员IT
·
2022-12-17 10:47
Java学习资源
大数据培训
好程序员
好程序员
Java
大数据
直播 | 新一代极速云原生湖仓的技术内核,StarRocks PMC 今天下午为你揭秘!
本届大会重点围绕云原生数据库、分布式数据库、时序数据库、图数据技术、实时
数仓
技术与应用实践、金融业数据库应用实践等内容展开分享和探讨。
StarRocks_labs
·
2022-12-17 05:48
云原生
数据库
「
数仓
建设篇」
数仓
主题域划分
大家好,本篇聊一下
数仓
建设,讲一下面试常遇到的主题域与主题划分,更多精彩文章优先从微信公众号《大数据阶梯之路》首发,欢迎关注,公众号回复:大数据
数仓
资料,可以获取大数据
数仓
相关学习资料。
大数据阶梯之路
·
2022-12-16 21:01
数据仓库
大数据
面试
「Hive进阶篇」详解存储格式及压缩方式
一、前言hive优化除了有hql语句逻辑优化,hql参数调优等等,还有一个不起眼的细节容易被忽视掉,那便是hive
数仓
模型表的存储格式和压缩方式,hive底层数据是依托在hadoop,以HDFS文件存储在集群上的
大数据阶梯之路
·
2022-12-16 21:01
hive
hadoop
大数据
数据化建设知识图谱(文末附PDF下载)
即使技术变化最快的互联网行业,阿里也是经历了数据库、
数仓
和数据平台的沉淀
大数据阶梯之路
·
2022-12-16 21:30
知识图谱
大数据
技术原理|Hologres Binlog技术原理揭秘
同时在大数据场景上,支持Flink直接消费HologresBinlog,相较于传统
数仓
分层,Flink+HologresBinlog可以实现完整的事件驱动,完成OD
·
2022-12-16 17:31
大数据sql存储
20000节点云
数仓
在大型商业银行的“实践之路”
本次大会以“数据智能价值创新”为主题,邀请逾百位行业专家,重点围绕云原生数据库、实时
数仓
技术与应用实践、大数据平台等内容展开分享和探讨。
·
2022-12-16 13:10
数据库postgresql
因SHUFFLE的KEY不同对落盘文件的影响
业务背景在建立
数仓
体系过程中,采用ORC+SNAPPY存储,单分区文件大小TB级别,对比前后依赖表以及同样体量的表,只有GB级别,故对这种情况产生怀疑,进行验证验证一、确定数据量、以及具体字段数据正常验证二
坤岭
·
2022-12-15 20:02
Spark
spark
大数据
hive
新闻速递 | 开务数据库亮相 DTCC 2022 线上大会并发表系列主题演讲
本届大会以“数据智能价值创新”为主题,邀请超百位行业专家,重点围绕时序数据库、图数据技术、实时
数仓
技术与应用实践、云原生数据库、大数据平台与数据安全等内容展开分享和探讨。
·
2022-12-15 16:15
数据库
新一代云原生实时
数仓
SelectDB 发布会精华干货!五大核心特色解读。
基于传统数据库共享存储架构和专门面向分析型的无共享MPP架构第二阶段:湖仓并行时代使用场景:企业内部报表与分析,更大规模的ETL数据工程、行为分析和画像等新型数据应用分析,百万级外部客户高并发需求技术实现:离线数据湖,在线实时
数仓
第三阶段
·
2022-12-15 14:02
云原生大数据云计算数据仓库
数仓
任务优化
提示:上游任务优化、当前任务优化、下游任务优化和相关环境优化,全链路优化任务。一、模型优化合理的需求、合理的表结构、合理的处理逻辑。1.字段优化1缩减字段1)删除没有用途的字段;2)中英文都有的字段,只保留英文;3)删除不常用且可以通过现有字段关联得到的字段;2字段类型1)选择合适的数据类型,尽量选择低存储的;2)尽量不要为了方便,都选择string类型;3字段值1)选择存储简洁的代码,需要真实值
盛源_01
·
2022-12-15 11:03
通用类
经验分享
3分钟带你重温 SelectDB 产品发布会亮点!
12月8日的SelectDB产品发布会圆满举办,一时间吸引了无数业内关注,大家都对这款在正式发布前就拿下ClickBench全球第一的云
数仓
产品充满期待与好奇。
hf200012
·
2022-12-15 00:46
大数据
SelectDB
Doris
【观察】定义下一代云原生实时
数仓
,SelectDB Cloud“打了个样”
2020年,国家在《关于构建更加完善的要素市场化配置体制机制的意见》中,首次将数据与土地、资本、劳动力并列为关键生产要素,并提出加快培育数据要素市场的愿景,此举可谓意义重大。背后的原因是,当下中国企业正在加速从数字化走向智能化,对数据的应用也提升到了一个全新的高度。例如,企业对数据的即时分析、按需分析、即时部署变得更加的强烈;同时,随着数据的广泛流动,企业为了管理好这些数据,其数据基础设施也必须要
申耀的科技观察
·
2022-12-14 22:45
云原生
直播 | 新一代极速云原生湖仓的技术内核,StarRocks PMC 今天下午为你揭秘!
本届大会重点围绕云原生数据库、分布式数据库、时序数据库、图数据技术、实时
数仓
技术与应用实践、金融业数据库应用实践等内容展开分享和探讨。
·
2022-12-14 14:11
数据库
数仓
常用排序详解
目录orderby:全局排序sortby:局部排序clusterby:簇排序groupbypartitionbyorderby:全局排序orderby会对数据进行一次全局排序,所以说,只要hive的sql中指定了orderby,那么所有的数据都会到同一个reducer进行处理(不管有多少map,也不管文件有多少的block只会启动一个reducer)。orderby只在一个reduce中进行,所以
击水三千里
·
2022-12-13 22:49
大数据
hive
hadoop
大数据
标签类目体系的价值与意义
原有的
数仓
架构或指标体系是不是也能解决相关问题?对标签类目体系的价值进行总结提炼,主要体现在以下三点:1数据资产可复用标签类目体系是中台概念的核心落地点。
普通网友
·
2022-12-13 20:15
大数据
java
人工智能
编程语言
数据分析
数仓
建模理论
文章目录第一章
数仓
分层一、为什么要分层(1)数据仓库分层(2)数据仓库为什么要分层二、数据集市与数据仓库概念三、
数仓
命名规范(1)表命名(2)脚本命名(3)表字段类型第二章
数仓
理论一、范式理论(1)范式概念
Chen Mon
·
2022-12-13 18:55
数据仓库
数据挖掘
数据库
数据建模 - 概念模型,逻辑模型,物理模型 的区别以及建模方式
在日常项目中,发现公司很多研发同事在系统表结构设计或
数仓
表结构设计过程中,对概念模型、逻辑模型、物理模型的认识不是很清晰,所以今天这篇文章和大家一起梳理下,什么是概念模型、逻辑模型、物理模型,以及如何通过概念模型
kunyus
·
2022-12-13 12:40
设计
sql
数据库
数仓
(八):数据建模:如何判断一个数据模型的好坏?数据仓库的 KPI 怎么定?
一、
数仓
模型优化-如何判断一个数据模型的好坏1.完善度汇总数据能直接满足多少查询需求,即应用层访问汇总层数据的查询比例跨层引用率:ODS层直接被DWS/ADS/DM层引用的表,占所有ODS层表比例可以快速响应业务方的需求比较好的模型
四月天03
·
2022-12-11 17:43
数仓&数据中台
big
data
数据库
Hive 3.x详细笔记
Hive数据仓库概念数据仓库(DataWarehouse,简称
数仓
、DW),是一个用于存储,分许,报告的数据系统。数据仓库的目的是构建面向分析的集成数据环境,分析结果为企业提供决策支持。
会飞的鱼269
·
2022-12-11 11:49
hive
json
sql
大数据
数据仓库
用distcp实现ftp到hdfs、hdfs到hdfs、hdfs到ftp的文件传输
文章目录0.背景1.指令用法2.封装成shell文件3.进阶—循环将文件从ftp到hdfs4.优化hdfs的小文件(节选)4.1合并思路14.1合并思路20.背景 文件本身存在ftp上,为了文件内的数据和
数仓
╭⌒若隐_RowYet——大数据
·
2022-12-11 11:19
Hadoop
distcp
hadoop
archives
ftp
hdfs
hadoop
数据仓库建设及数据治理总结
在谈
数仓
之前,先来看下面几个问题:
数仓
为什么要分层?
000X000
·
2022-12-10 20:46
数据仓库
数据分析
数据中台
数据仓库
大数据
数据治理
数仓
建设以及数据治理
文章目录前言
数仓
设计
数仓
架构
数仓
建模方法建模实际业务中的
数仓
分层数据层的具体实现数据治理数据治理之道数据治理方式规范治理架构治理以下文章来源五分钟学大数据,作者园陌,关于
数仓
建设及数据治理的超全概括前言
数仓
分层的原因
RyanC3
·
2022-12-10 20:42
#
系统安全
大数据
大数据演进简史:从
数仓
到数据中台,谈技术选型最优解
大家好,今天分享的议题主要包括几大内容:带大家回顾一下大数据在国内的发展,从传统
数仓
到当前数据中台的演进过程;我个人认为数据中台的核心组成,以及一些技术选型参考;数据研发是数据中台很重要的一环,会分享一些我们在数据研发方面的实践
天秤座的架构师
·
2022-12-10 20:42
架构微学堂
商业操作系统--企业中台实践
数据中台
数据仓库
数仓
、数据湖、数据中台介绍
关于
数仓
、数据集市、数据湖、大数据平台以及数据中台,看到一篇从事21年的大佬写的文章分享,将这几者的本质和区别,结合自身经验,讲得偏僻入理,于是转来分享,希望对大家都有所感悟!
hzp666
·
2022-12-10 20:06
数据库
spark
Flink
大数据
数据仓库
数据中台
《大型综合项目-基于大数据平台的数据仓库》学习笔记(03):
数仓
概念篇1
学完本课程,你将很容易就拿到大数据
数仓
建设或用户画像建设等岗位的OFFER本课
江湖人称涛哥
·
2022-12-10 20:33
大数据综合实战项目
大数据项目
数据仓库
大数据数仓
spark项目
hive项目
1W字概括
数仓
建设和数据治理
点击上方"大数据肌肉猿"关注,星标一起成长后台回复【加群】,进入高质量学习交流群2021年大数据肌肉猿公众号奖励制度本文分为两大节介绍,第一节是
数仓
建设,第二节是数据治理,内容较长,还请耐心阅读!
无精疯
·
2022-12-10 20:03
数据仓库
大数据
编程语言
人工智能
数据分析
数仓
建设及数据治理
数仓
为什么要分层?用空间换时间,通过大量的预处理来提升应用系统的用户体验(效率),因此数据仓库会存在大量冗余的数据;不分层的话,如果源业务系统的业务规则发生变化将会影响整个数据清洗过程,工作量巨大。
'煎饼侠
·
2022-12-10 20:31
数仓
postgresql
数据库
第六讲主题:
数仓
中的数据治理
数据治理要做啥?实际上数据治理的范畴相当广泛,按照Google对于数据治理的定义,它包含了数据生命周期(从获取、使用到处置)内对其进行管理的所有原则性方法。涵盖确保数据安全、私有、准确、可用和易用所执行的所有操作,包括必须采取的行动、必须遵循的流程以及在整个数据生命周期中为其提供支持的技术本质:1.合规,使用效率就会提高2.降本增效,根本就是降低成本,更少的钱干更多的事3.团队人员技术提升1.1元
两只老虎学大数据
·
2022-12-10 20:00
大厂大数据泛讲
大数据
数据仓库
sql
数据仓库规范建设指南
数据仓库规范建设指南1.
数仓
公共开发规范1.1层次调用规范稳定业务按照标准的数据流向进行开发,即ODS->DWD->DWS->APP。
༄Chlོ࿆inReོ࿆i༅
·
2022-12-10 18:09
离线数据仓库
数据仓库
大数据
上一页
38
39
40
41
42
43
44
45
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他