E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
HUDI
Apache
Hudi
在 B 站构建实时数据湖的实践
本文作者喻兆靖,介绍了为什么B站选择Flink+
Hudi
的数据湖技术方案,以及针对其做出的优化。
·
2021-09-23 21:03
Flink大数据
Apache
Hudi
在 B 站构建实时数据湖的实践
简介:B站选择Flink+
Hudi
的数据湖技术方案,以及针对其做出的优化。本文作者喻兆靖,介绍了为什么B站选择Flink+
Hudi
的数据湖技术方案,以及针对其做出的优化。
·
2021-09-10 11:16
hadoopapache
技术干货| 阿里云基于
Hudi
构建Lakehouse实践探索
简介:阿里云高级技术专家王烨(萌豆)在ApacheHudi与ApachePulsar联合Meetup杭州站上的演讲整理稿件,本议题介绍了阿里云如何使用
Hudi
和OSS对象存储构建Lakehouse,为大家分享了什么是
·
2021-09-09 11:12
人工智能数据库
使用 Flink
Hudi
构建流式数据湖
用户可以通过FlinkSQL将CDC数据实时写入
Hudi
存储,且在即将发布的0.9版本
Hudi
原生支持CDCformat。
·
2021-09-08 18:30
Flink大数据
技术干货| 阿里云基于
Hudi
构建Lakehouse实践探索
简介:阿里云高级技术专家王烨(萌豆)在ApacheHudi与ApachePulsar联合Meetup杭州站上的演讲整理稿件,本议题介绍了阿里云如何使用
Hudi
和OSS对象存储构建Lakehouse,为大家分享了什么是
·
2021-09-07 11:46
阿里云开发者
技术干货|基于Apache
Hudi
的CDC数据入湖「内附干货PPT下载渠道」
简介:阿里云技术专家李少锋(风泽)在ApacheHudi与ApachePulsar联合Meetup杭州站上的演讲整理稿件,本议题将介绍典型CDC入湖场景,以及如何使用Pulsar/
Hudi
来构建数据湖,
·
2021-09-06 17:03
kafka数据库
技术干货|基于Apache
Hudi
的CDC数据入湖
简介:阿里云技术专家李少锋(风泽)在ApacheHudi与ApachePulsar联合Meetup杭州站上的演讲整理稿件,本议题将介绍典型CDC入湖场景,以及如何使用Pulsar/
Hudi
来构建数据湖,
·
2021-09-06 17:25
阿里云开发者
Hudi
On Flink
一、背景传统数仓分为离线和实时两个部分离线部分属于业务驱动,固定的计算逻辑,通过定时调度,最后产出报表;实时部分属于需求驱动,需要灵活开发。传统架构整体还是以离线为主,实时为辅,实时指标的开发是粗放的,没有schema的规范,没有元数据的管理,也没有打通实时和离线数据之间的联系,但两者实际上解决的都是相同的业务问题,最大的区别就在于时效性。二、实时数仓建设首先统一数仓标准,元数据和开发流程。引入H
TOTower
·
2021-09-06 16:11
今日直播 | Apache
Hudi
x Apache Pulsar Meetup线上专场如期而至 大咖齐聚
简介:ApacheHudi与ApachePulsar联合Meetup线上专场将于2021年8月30日(今天)14:00开启直播,你准备好了吗?ApacheHudi与ApachePulsar联合Meetup线上专场来啦!将于2021年8月30日(今天)14:00开启直播,你准备好了吗?本次Meetup由StreamNative联合阿里云组织发起,并邀请阿里云AnalyticDB数据仓库团队、Zoom
·
2021-08-30 13:28
阿里云开发者
数据湖在大数据场景下应用和实施方案调研笔记(增强版)
网上目前关于Flink集成
Hudi
、IceBerg的资料较少,社区建设不够完善。且因为迭代版本原因,代码过期严重。后面我会专门写一篇Flink连接
Hudi
、IceBerg等的文章。炒作概念还是
王知无(import_bigdata)
·
2021-08-24 08:00
大数据
hadoop
数据库
java
编程语言
Apache
Hudi
x Pulsar Meetup杭州站火爆来袭,实践干货就等你来!
简介:ApacheHudi与ApachePulsar联合Meetup杭州站来啦!将于2021年8月28日(周六)13:30,在杭州召开,你准备好了吗?本次Meetup由StreamNative联合阿里云组织发起,并邀请涂鸦智能、阿里云AnalyticDB数据仓库团队、Zoom等合作伙伴共同为大家呈现,ApacheHudi技术专家、ApachePulsarPMC成员、贡献者、社区技术专家汇聚一堂,共
·
2021-08-19 20:22
Apache
Hudi
是如何维护小文件的
hudi
提供的一个关键特性是自我管理文件大小,这样用户就不需要担心手动维护表。拥有大量的小文件将使计算更难获得良好的查询性能,因为查询引擎不得不多次打开/读取/关闭文件以执行查询。
·
2021-08-09 00:00
dev
Hudi
自带工具DeltaStreamer的实时入湖最佳实践
摘要:本文介绍如何使用
Hudi
自带入湖工具DeltaStreamer进行数据的实时入湖。
·
2021-08-02 15:09
大数据数据湖
Apache
Hudi
使用简介
[TOC]数据实时处理和实时的数据实时分为处理的实时和数据的实时即席分析是要求对数据实时的处理,马上要得到对应的结果Flink、SparkStreaming是用来对实时数据的实时处理,数据要求实时,处理也要迅速数据不实时,处理也不及时的场景则是我们的数仓T+1数据而本文探讨的ApacheHudi,对应的场景是数据的实时,而非处理的实时。它旨在将Mysql中的时候以近实时的方式映射到大数据平台,比如
西北偏北
·
2021-06-26 02:24
百信银行基于 Apache
Hudi
实时数据湖演进方案
本文介绍了百信银行实时计算平台的建设情况,实时数据湖构建在
Hudi
上的方案和实践方法,以及实时计算平台集成
Hudi
和使用
Hudi
的方式。
·
2021-06-18 21:08
flink大数据
Hudi
0.6.0 源码阅读(数据写入)
源码阅读(数据写入)HoodieSparkSqlWriter.write(){//数据写入checkWriteStatus(){//提交数据client.commit(commitTime,writeStatuses)AbstractHoodieWriteClient.commit(){//提交状态commitStats(instantTime,stats,Option>){//保存完成activ
海南中剑
·
2021-06-10 23:44
Flink+iceberg环境搭建以及问题处理
目前数据湖方面有
Hudi
和Iceberg,
Hudi
属于相对成熟的数据湖方案,
小小一刀
·
2021-05-11 10:47
大数据
flink
Apache
Hudi
从入门到放弃(1) ——
Hudi
的初步尝试
写在开始本篇内容主要是分享一下如何通过FlinkSql流式的读写
Hudi
表,也会说说我对
Hudi
的理解IDE选择的是Zeppelin,环境配置可以参考一下我这篇博客环境准备代码编译这里我们使用的是Master
Flink-狄杰
·
2021-04-28 20:24
Apache
Hudi
Apache
Hudi
数据湖
大数据
仓湖一体
数据仓库
融合趋势下基于 Flink Kylin
Hudi
湖仓一体的大数据生态体系
简介:本文由T3出行大数据平台负责人杨华和资深大数据平台开发工程师王祥虎介绍Flink、Kylin和
Hudi
湖仓一体的大数据生态体系以及在T3的相关应用场景。
阿里云云栖号
·
2021-04-23 14:16
云栖号技术分享
flink
数据湖
融合趋势下基于 Flink Kylin
Hudi
湖仓一体的大数据生态体系
摘要:本文由T3出行大数据平台负责人杨华和资深大数据平台开发工程师王祥虎介绍Flink、Kylin和
Hudi
湖仓一体的大数据生态体系以及在T3的相关应用场景,内容包括:湖仓一体的架构Flink/
Hudi
Ververica
·
2021-04-15 21:00
大数据
分布式
编程语言
hadoop
数据库
Hudi
on Flink 快速上手指南
摘要:本文由阿里巴巴的陈玉兆分享,主要介绍Flink集成
Hudi
的最新版本功能以及快速上手实践指南。
·
2021-04-01 12:05
Flink
Hudi
on Flink 快速上手指南
摘要:本文由阿里巴巴的陈玉兆分享,主要介绍Flink集成
Hudi
的最新版本功能以及快速上手实践指南。
Apache Flink
·
2021-03-25 21:00
数据库
大数据
java
mysql
hadoop
Flink + Iceberg 全场景实时数仓的建设实践
整理|路培杰(Flink社区志愿者)摘要:ApacheFlink是目前大数据领域非常流行的流批统一的计算引擎,数据湖是顺应云时代发展潮流的新型技术架构,以Iceberg、
Hudi
、Delta为代表的解决方案应运而生
·
2021-02-01 11:57
Flink
Apache
Hudi
使用简介
ApacheHudi使用简介[TOC]数据实时处理和实时的数据实时分为处理的实时和数据的实时即席分析是要求对数据实时的处理,马上要得到对应的结果Flink、SparkStreaming是用来对实时数据的实时处理,数据要求实时,处理也要迅速数据不实时,处理也不及时的场景则是我们的数仓T+1数据而本文探讨的ApacheHudi,对应的场景是数据的实时,而非处理的实时。它旨在将Mysql中的时候以近实时
·
2021-01-24 16:39
大数据
数据湖架构--Iceberg
和
Hudi
类似,Iceberg也提供了数据湖的功能,根据官网的定义,它是一个为分析大数据集开源的表存储格式,可以SQL表一样用Spark、Preso进行查询。
hawk2014bj
·
2021-01-24 15:33
数仓实时化改造:
Hudi
on Flink 在顺丰的实践应用
作者|蔡适择(顺丰大数据平台负责人)整理|赵阳(Flink社区志愿者)本文主要介绍顺丰在数据仓库的数据实时化、数据库CDC、HudionFlink上的实践应用及产品化经验。文章主要分为以下几部分:●顺丰业务介绍●HudionFlink●产品化支持●后续计划1、顺丰业务1.1顺丰大数据的应用先来看一下顺丰大数据业务的全景图。大数据平台,中间的基础部分是大数据平台,这块是顺丰结合开源组件自行搭建的。与
ApacheFlink
·
2021-01-15 19:41
flink
流计算
数仓实时化改造:
Hudi
on Flink 在顺丰的实践应用
作者|蔡适择(顺丰大数据平台负责人)整理|赵阳(Flink社区志愿者)本文主要介绍顺丰在数据仓库的数据实时化、数据库CDC、HudionFlink上的实践应用及产品化经验。文章主要分为以下几部分:●顺丰业务介绍●HudionFlink●产品化支持●后续计划1、顺丰业务1.1顺丰大数据的应用先来看一下顺丰大数据业务的全景图。大数据平台,中间的基础部分是大数据平台,这块是顺丰结合开源组件自行搭建的。与
ApacheFlink
·
2021-01-06 19:14
flink
流计算
NoSuchObjectException(message:ods_db.event table not found)
hudi
同步数据报错org.apache.
hudi
.hive.HoodieHiveSyncException:Failedtogetupdatelastcommittimesyncedto20210103154432atorg.apache.
hudi
.hive.HoodieHiveClient.updateLastCommitTimeSynced
鸭梨山大哎
·
2021-01-03 15:05
hive
hudi
数据湖和数据仓库区别介绍
基于
Hudi
的数据湖数据是以什么方式存储的?
Hudi
有元数据吗?元数据存储在哪儿?
Hudi
是以什么方式
hzp666
·
2020-12-30 16:30
Hadoop
Hudi
数据仓库
数据湖
Apache
Hudi
使用简介
目录ApacheHudi使用简介数据实时处理和实时的数据业务场景和技术选型Apachehudi简介使用AapcheHudi整体思路
Hudi
表数据结构数据文件.hoodie文件
Hudi
记录IdCOW和MORCopyOnWriteTableMergeOnReadTable
skaljdakdjw
·
2020-12-28 21:22
Apache
Hudi
使用简介
ApacheHudi使用简介[TOC]数据实时处理和实时的数据实时分为处理的实时和数据的实时即席分析是要求对数据实时的处理,马上要得到对应的结果Flink、SparkStreaming是用来对实时数据的实时处理,数据要求实时,处理也要迅速数据不实时,处理也不及时的场景则是我们的数仓T+1数据而本文探讨的ApacheHudi,对应的场景是数据的实时,而非处理的实时。它旨在将Mysql中的时候以近实时
西北偏北
·
2020-12-28 00:47
大数据
【大数据开发】
Hudi
——
Hudi
快速入门
Hudi
快速入门
Hudi
中文文档
Hudi
介绍(含有测试代码,见博客github)spark2.4版本以上才能整合
Hudi
文章目录一、设计原则二、表类型三、kafka数据落地
Hudi
一、设计原则流式读/写
这个妹妹我见过
·
2020-11-09 10:01
Hudi
大数据
划重点!AWS的湖仓一体使用哪种数据湖格式进行衔接?
此前ApacheHudi社区一直有小伙伴询问能否使用AmazonRedshift查询
Hudi
表,现在它终于来了。
leesf
·
2020-09-27 20:00
Apache
Hudi
和Presto的前世今生
1.概述ApacheHudi是一个快速迭代的数据湖存储系统,可以帮助企业构建和管理PB级数据湖,
Hudi
通过引入upserts、deletes和增量查询等原语将流式能力带入了批处理。
leesf
·
2020-09-22 07:00
Hudi
:初识
Hudi
Hudi
是什么?可以说
Hudi
是一个数据湖或是数据库,但它又不是数据湖或是数据库。笔者理解为
Hudi
是除开计算引擎的Hive。
x950913
·
2020-09-17 05:56
hudi
Apache
Hudi
在医疗大数据中的应用
本篇文章主要介绍ApacheHudi在医疗大数据中的应用,主要分为5个部分进行介绍:1.建设背景,2.为什么选择
Hudi
,3.
Hudi
数据同步,4.存储类型选择及查询优化,5.未来发展与思考。
大数据技术架构
·
2020-09-17 05:38
Data
Lake
数据湖
Hudi
原理 | Apache
Hudi
典型应用场景介绍
对于RDBMS摄取,
Hudi
通过Upserts提供了更快的负载,而非昂贵且低效的批量负载。例如你可以读取MySQLbinlog日志或Sqoop增量导入,并将它们应用在DFS上的
Hudi
表,这比批量合并
大数据技术架构
·
2020-09-17 05:38
Data
Lake
数据湖
4、Apache
Hudi
:Spark读取Binlog并写入
1、数据准备使用canal将mysqlbinlog的数据发送到kafka中2、程序编写1、消费kafka中的binlog数据valkafkaParams=Map[String,String]("bootstrap.servers"->"xxx.xxx.xxx.xxx:9092","auto.offset.reset"->"latest","key.deserializer"->"org.apach
星星木有夜
·
2020-09-17 05:08
Apache
Hudi
Apache
Hudii
binlog
1、Apache
Hudi
简介
1、
Hudi
简介
Hudi
是HadoopUpdatesandIncrementals的缩写,用于管理HDFS上的大型分析数据集存储,主要目的是高效的减少入库延时。
星星木有夜
·
2020-09-17 05:38
Apache
Hudi
hudi
Apache
Hudi
在医疗大数据的应用
ApacheHudi在医疗大数据的应用本篇文章主要介绍
hudi
在医疗大数据中的应用,主要分为5个部分进行介绍:建设背景,为什么选择
hudi
,
hudi
的数据同步,存储类型选择及查询优化,未来发展与思考。
别过来胖到我了
·
2020-09-17 04:49
flink
Apache
Hudi
介绍与应用
ApacheHudiApacheHudi在基于HDFS/S3数据存储之上,提供了两种流原语:插入更新增量拉取一般来说,我们会将大量数据存储到HDFS/S3,新数据增量写入,而旧数据鲜有改动,特别是在经过数据清洗,放入数据仓库的场景。而且在数据仓库如hive中,对于update的支持非常有限,计算昂贵。另一方面,若是有仅对某段时间内新增数据进行分析的场景,则hive、presto、hbase等也未提
ZackFairT
·
2020-09-17 04:28
Apache
Hudi
社区新晋多位Committer
1.介绍经过ApacheHudi项目委员会讨论及投票,向UditMehrotra、GaryLi、RaymondXu、PratyakshSharma4人发出Committer邀请,4人均已接受邀请并顺利成为Committer,也使得ApacheHudiCommitter成员在不断发展壮大。UditMehrotra是来自AWSEMR团队的一员,在去年9/10月份开始参与ApacheHudi社区,帮助A
leesf
·
2020-09-14 18:00
Apache
Hudi
架构设计和基本概念
ApacheHudi是一个DataLakes的开源方案,
Hudi
是HadoopUpdatesandIncrementals的简写,它是由Uber开发并开源的DataLakes解决方案。
大数据技术与架构
·
2020-09-10 18:26
Apache
Hudi
0.6.0版本重磅发布
1.下载信息源码:ApacheHudi0.6.0SourceRelease(asc,sha512)二进制Jar包:nexus2.迁移指南如果您从0.5.3以前的版本迁移至0.6.0,请仔细核对每个版本的迁移指南;0.6.0版本从基于list的rollback策略变更为了基于marker文件的rollback策略,为进行平稳迁移,会在hoodie.properties文件中配置一个新属性hoodie
leesf
·
2020-08-26 09:00
Apache
Hudi
:说出来你可能不信,你的ETL任务慢如狗
1.简介ApacheHudi(简称:
Hudi
)使得您能在hadoop兼容的存储之上存储大量数据,同时它还提供两种原语,使得除了经典的批处理之外,还可以在数据湖上进行流处理。
王知无-大数据技术与架构
·
2020-08-23 10:03
数据库
大数据
hadoop
java
spark
大数据与云计算技术周报(第152期)
本期会给大家奉献上精彩的:TensorFlow、Flink、Binlog、MVP、spark、知识图谱、数仓、
Hudi
。全是干货,希望大家喜欢!!!
大数据和云计算技术
·
2020-08-22 20:42
数据库
编程语言
知识图谱
人工智能
微软
详解Apache
Hudi
如何配置各种类型分区
1.引入ApacheHudi支持多种分区方式数据集,如多级分区、单分区、时间日期分区、无分区数据集等,用户可根据实际需求选择合适的分区方式,下面来详细了解
Hudi
如何配置何种类型分区。
leesf
·
2020-08-18 09:00
使用Amazon EMR和Apache
Hudi
在S3上插入,更新,删除数据
将数据存储在AmazonS3中可带来很多好处,包括规模、可靠性、成本效率等方面。最重要的是,你可以利用AmazonEMR中的ApacheSpark,Hive和Presto之类的开源工具来处理和分析数据。尽管这些工具功能强大,但是在处理需要进行增量数据处理以及记录级别插入,更新和删除场景时,仍然非常具有挑战。与客户交谈时,我们发现有些场景需要处理对单条记录的增量更新,例如:遵守数据隐私法规,在该法规
xleesf
·
2020-08-14 21:35
ApacheHudi
Apache
Hudi
表自动同步至阿里云数据湖分析DLA
1.引入
Hudi
0.6.0版本之前只支持将
Hudi
表同步到Hive或者兼容Hive的MetaStore中,对于云上其他使用与Hive不同SQL语法MetaStore则无法支持,为解决这个问题,近期社区对原先的同步模块
leesf
·
2020-08-10 19:00
Apache
Hudi
设计与架构最强解读
1.简介ApacheHudi(简称:
Hudi
)使得您能在hadoop兼容的存储之上存储大量数据,同时它还提供两种原语,使得除了经典的批处理之外,还可以在数据湖上进行流处理。
吃鱼的羊
·
2020-08-05 21:45
SPARK
Hadoop
上一页
7
8
9
10
11
12
13
14
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他