E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
ApacheHudi
重磅!Vertica集成Apache Hudi指南
1.摘要本文演示了使用外部表集成Vertica和
ApacheHudi
。在演示中我们使用Spark上的
ApacheHudi
将数据摄取到S3中,并使用Vertica外部表访问这些数据。
leesf
·
2022-03-29 15:00
超硬核解析!Apache Hudi灵活的Payload机制
ApacheHudi
的Payload是一种可扩展的数据处理机制,通过不同的Payload我们可以实现复杂场景的定制化数据写入方式,大大增加了数据处理的灵活性。
leesf
·
2022-03-28 19:00
一文带你了解Lakehouse的并发控制:我们是否过于乐观
有幸从事过各种数据库项目——RDBMS(Oracle)、NoSQL键值存储(Voldemort)、流数据库(ksqlDB)、闭源实时数据存储,当然还有
ApacheHudi
,我可以肯定地说,工作负载的不同深刻地影响了不同数据库中采用的并
leesf
·
2022-03-27 10:00
查询性能提升3倍!Apache Hudi 查询优化了解下?
文章中比较了2个
ApacheHudi
表(均来自AmazonReviews数据集):未聚
leesf
·
2022-03-06 17:00
使用 Flink Hudi 构建流式数据湖平台
主要内容包括:
ApacheHudi
101FlinkHudiIntegrationFlinkHudiUseCaseApacheHudiRoadmapFFA2021直播回放&演讲PDF下载一、
ApacheHudi
101
·
2022-02-16 19:12
Flink Hudi 0.10.0 发布,多项重要更新,稳定性大幅提升
Flink中文学习网站https://flink-learning.org.cn前言随着云数仓技术的不断成熟,数据湖俨然已成为当下最热门的技术之一,而
ApacheHudi
是当下最具竞争力的数据湖格式之一
·
2021-12-20 14:35
flink大数据编程后端数据湖
从消息到数据湖:看 Apache RocketMQ、Hudi、Kyuubi 最新进展
简介:聚焦消息队列&数据湖场景,ApacheRocketMQwithHudi&Kyuubi上海的开发者小伙伴们,12月18号,ApacheRocketMQ&
ApacheHudi
&ApacheKyuubi
·
2021-11-22 12:50
阿里云开发者
从消息到数据湖:看 Apache RocketMQ、Hudi、Kyuubi 最新进展
上海的开发者小伙伴们,12月18号,ApacheRocketMQ&
ApacheHudi
&ApacheKyuubi(Incubating)三社区Meetup来了,打造最强消息传输、实时计算、数据入湖一体化解决方案专场
·
2021-11-17 20:45
Apache Kyuubi 在 T3 出行的深度实践
因为车联网数据的多样性,T3出行构建了以
ApacheHudi
为基础的企业级数据湖,提供强有力的业务支撑。而对于负责数据价值挖掘的终端用户而言,平台的技术门槛是另一种挑战。
·
2021-11-12 15:26
apache大数据数据库
Apache Kyuubi 在 T3 出行的深度实践
因为车联网数据的多样性,T3出行构建了以
ApacheHudi
为基础的企业级数据湖,提供强有力的业务支撑。而对于负责数据价值挖掘的终端用户而言,平台的技术门槛是另一种挑战。
网易数帆
·
2021-11-12 15:00
COSCon‘21 精彩回顾 | Apache Kyuubi 在 T3 出行的深度实践
因为车联网数据的多样性,T3出行构建了以
ApacheHudi
为基础的企业级数据湖,提供强有力的业务支撑。而对于负责数据价值挖掘的终端用户而言,平台的技术门槛是另一种挑战。
网易杭研
·
2021-11-12 09:33
大数据
big
data
hive
Kyuubi
数据湖
hudi
Flink+Hudi 构架湖仓一体化解决方案
主要内容为:Hudi新架构与湖仓一体最佳实践FlinkonHudiFlinkCDC2.0onHudi一、Hudi1.简介
ApacheHudi
(发音为“Hoodie”)在DFS的数据集上提供以下流原语插入更新
·
2021-11-05 12:38
Flink大数据实时计算
技术干货| 阿里云基于Hudi构建Lakehouse实践探索
简介:阿里云高级技术专家王烨(萌豆)在
ApacheHudi
与ApachePulsar联合Meetup杭州站上的演讲整理稿件,本议题介绍了阿里云如何使用Hudi和OSS对象存储构建Lakehouse,为大家分享了什么是
·
2021-09-09 11:12
人工智能数据库
使用 Flink Hudi 构建流式数据湖
主要内容为:背景增量ETL演示一、背景近实时从2016年开始,
ApacheHudi
社区就开始通过Hudi的UPSERT能力探索近实时场景的使用案例[1]。通过MR/Spark的批处理
·
2021-09-08 18:30
Flink大数据
技术干货| 阿里云基于Hudi构建Lakehouse实践探索
简介:阿里云高级技术专家王烨(萌豆)在
ApacheHudi
与ApachePulsar联合Meetup杭州站上的演讲整理稿件,本议题介绍了阿里云如何使用Hudi和OSS对象存储构建Lakehouse,为大家分享了什么是
·
2021-09-07 11:46
阿里云开发者
技术干货|基于Apache Hudi 的CDC数据入湖「内附干货PPT下载渠道」
简介:阿里云技术专家李少锋(风泽)在
ApacheHudi
与ApachePulsar联合Meetup杭州站上的演讲整理稿件,本议题将介绍典型CDC入湖场景,以及如何使用Pulsar/Hudi来构建数据湖,
·
2021-09-06 17:03
kafka数据库
技术干货|基于Apache Hudi 的CDC数据入湖
简介:阿里云技术专家李少锋(风泽)在
ApacheHudi
与ApachePulsar联合Meetup杭州站上的演讲整理稿件,本议题将介绍典型CDC入湖场景,以及如何使用Pulsar/Hudi来构建数据湖,
·
2021-09-06 17:25
阿里云开发者
今日直播 | Apache Hudi x Apache Pulsar Meetup线上专场如期而至 大咖齐聚
简介:
ApacheHudi
与ApachePulsar联合Meetup线上专场将于2021年8月30日(今天)14:00开启直播,你准备好了吗?
·
2021-08-30 13:28
阿里云开发者
Apache Hudi x Pulsar Meetup杭州站火爆来袭,实践干货就等你来!
简介:
ApacheHudi
与ApachePulsar联合Meetup杭州站来啦!将于2021年8月28日(周六)13:30,在杭州召开,你准备好了吗?
·
2021-08-19 20:22
Apache Hudi 是如何维护小文件的
ApacheHudi
是一种数据湖平台技术,它提供了构建和管理数据湖所需的几个功能。hudi提供的一个关键特性是自我管理文件大小,这样用户就不需要担心手动维护表。
·
2021-08-09 00:00
dev
数据湖分析如何面向对象存储OSS进行优化?
DLALakehouse基于
ApacheHudi
实现,主要目标是提供高效的湖仓,支持CDC及消息的增量写入,目前这块在加紧产品
·
2021-07-27 19:44
存储sql缓存分布式计算算法
Apache Hudi使用简介
数据实时处理和实时的数据实时分为处理的实时和数据的实时即席分析是要求对数据实时的处理,马上要得到对应的结果Flink、SparkStreaming是用来对实时数据的实时处理,数据要求实时,处理也要迅速数据不实时,处理也不及时的场景则是我们的数仓T+1数据而本文探讨的
ApacheHudi
西北偏北
·
2021-06-26 02:24
数据湖分析如何面向对象存储OSS进行优化?
DLALakehouse基于
ApacheHudi
实现,主要目标是提供高效的湖仓,支持CDC及消息的增量写入,目前这块在加紧产品
·
2021-06-18 22:59
存储sql缓存分布式计算算法
Hudi on Flink 快速上手指南
内容包括:背景环境准备Batch模式的读写Streaming读总结一、背景
ApacheHudi
是目前最流行的数据湖解决方案之一,DataLakeAnalytics[1]集成了Hudi服务高效的数据MERGE
·
2021-04-01 12:05
Flink
Hudi on Flink 快速上手指南
内容包括:背景环境准备Batch模式的读写Streaming读总结Tips:点击文末「阅读原文」可查看更多技术干货~一、背景
ApacheHudi
是目前最流行的数据湖解决方案之一,DataLakeAnalytics
Apache Flink
·
2021-03-25 21:00
数据库
大数据
java
mysql
hadoop
数据湖解决方案关键一环,IceBerg会不会脱颖而出?
获取更多资源小编在之前的详细讲解过关于数据湖的发展历程和现状,《我看好数据湖的未来,但不看好数据湖的现在》,在最后一部分中提到了当前数据湖的解决方案中,目前跳的最凶的三巨头包括:Delta、ApacheIceberg和
ApacheHudi
王知无-大数据技术与架构
·
2021-02-03 01:51
大数据
hadoop
spark
flink
hive
Apache Hudi使用简介
ApacheHudi
使用简介[TOC]数据实时处理和实时的数据实时分为处理的实时和数据的实时即席分析是要求对数据实时的处理,马上要得到对应的结果Flink、SparkStreaming是用来对实时数据的实时处理
·
2021-01-24 16:39
大数据
数据湖和数据仓库区别介绍
ApacheHudi
是干什么的?仅仅实现增删改查吗?基于Hudi的数据湖数据是以什么方式存储的?Hudi有元数据吗?元数据存储在哪儿?Hudi是以什么方式
hzp666
·
2020-12-30 16:30
Hadoop
Hudi
数据仓库
数据湖
Apache Hudi使用简介
目录
ApacheHudi
使用简介数据实时处理和实时的数据业务场景和技术选型
Apachehudi
简介使用AapcheHudi整体思路Hudi表数据结构数据文件.hoodie文件Hudi记录IdCOW和MORCopyOnWriteTableMergeOnReadTable
skaljdakdjw
·
2020-12-28 21:22
Apache Hudi使用简介
ApacheHudi
使用简介[TOC]数据实时处理和实时的数据实时分为处理的实时和数据的实时即席分析是要求对数据实时的处理,马上要得到对应的结果Flink、SparkStreaming是用来对实时数据的实时处理
西北偏北
·
2020-12-28 00:47
大数据
划重点!AWS的湖仓一体使用哪种数据湖格式进行衔接?
此前
ApacheHudi
社区一直有小伙伴询问能否使用AmazonRedshift查询Hudi表,现在它终于来了。
leesf
·
2020-09-27 20:00
Apache Hudi和Presto的前世今生
一篇由ApacheHudiPMCBhavaniSudhaSaktheeswaran和AWSPresto团队工程师BrandonScheller分享
ApacheHudi
和Presto集成的一篇文章。
leesf
·
2020-09-22 07:00
Apache Hudi在医疗大数据中的应用
本篇文章主要介绍
ApacheHudi
在医疗大数据中的应用,主要分为5个部分进行介绍:1.建设背景,2.为什么选择Hudi,3.Hudi数据同步,4.存储类型选择及查询优化,5.未来发展与思考。
大数据技术架构
·
2020-09-17 05:38
Data
Lake
数据湖
Apache Hudi在医疗大数据的应用
ApacheHudi
在医疗大数据的应用本篇文章主要介绍hudi在医疗大数据中的应用,主要分为5个部分进行介绍:建设背景,为什么选择hudi,hudi的数据同步,存储类型选择及查询优化,未来发展与思考。
别过来胖到我了
·
2020-09-17 04:49
flink
恭喜!Apache Hudi社区新晋多位Committer
1.介绍经过
ApacheHudi
项目委员会讨论及投票,向UditMehrotra、GaryLi、RaymondXu、PratyakshSharma4人发出Committer邀请,4人均已接受邀请并顺利成为
leesf
·
2020-09-14 18:00
Apache Hudi 架构设计和基本概念
ApacheHudi
是一个DataLakes的开源方案,Hudi是HadoopUpdatesandIncrementals的简写,它是由Uber开发并开源的DataLakes解决方案。
大数据技术与架构
·
2020-09-10 18:26
Apache Hudi 0.6.0版本重磅发布
1.下载信息源码:
ApacheHudi
0.6.0SourceRelease(asc,sha512)二进制Jar包:nexus2.迁移指南如果您从0.5.3以前的版本迁移至0.6.0,请仔细核对每个版本的迁移指南
leesf
·
2020-08-26 09:00
Apache Hudi:说出来你可能不信,你的ETL任务慢如狗
1.简介
ApacheHudi
(简称:Hudi)使得您能在hadoop兼容的存储之上存储大量数据,同时它还提供两种原语,使得除了经典的批处理之外,还可以在数据湖上进行流处理。
王知无-大数据技术与架构
·
2020-08-23 10:03
数据库
大数据
hadoop
java
spark
详解Apache Hudi如何配置各种类型分区
1.引入
ApacheHudi
支持多种分区方式数据集,如多级分区、单分区、时间日期分区、无分区数据集等,用户可根据实际需求选择合适的分区方式,下面来详细了解Hudi如何配置何种类型分区。
leesf
·
2020-08-18 09:00
Apache Hudi 设计与架构最强解读
https://zhuanlan.zhihu.com/p/131210053本文将介绍
ApacheHudi
的基本概念、设计以及总体基础架构。
吃鱼的羊
·
2020-08-05 21:45
SPARK
Hadoop
Apache Hudi + AWS S3 + Athena实战
ApacheHudi
在阿里巴巴集团、EMISHealth,LinkNovate,Tathastu.AI,腾讯,Uber内使用,并且由AmazonAWSEMR和Google云平台支持,最近AmazonAthena
leesf
·
2020-08-03 19:00
官宣!AWS Athena正式可查询Apache Hudi数据集
1.引入
ApacheHudi
是一个开源的增量数据处理框架,提供了行级insert、update、upsert、delete的细粒度处理能力(Upsert表示如果数据集中存在记录就更新;否则插入)。
程序员麦冬
·
2020-08-03 01:34
技术文
大数据
java
hadoop
数据库
hive
使用Apache Spark和Apache Hudi构建分析数据湖
欢迎关注微信公众号:
ApacheHudi
1.引入大多数现代数据湖都是基于某种分布式文件系统(DFS),如HDFS或基于云的存储,如AWSS3构建的。
xleesf
·
2020-07-28 23:25
ApacheHudi
大数据
官宣!Amazon EMR正式支持Apache Hudi
ApacheHudi
是一个开源的数据管理框架,其通过提供记录级别的insert,update,upsert和delete能力来简化增量数据处理和数据管道开发。
xleesf
·
2020-07-28 23:25
ApacheHudi
Apache+Hudi入门指南(含代码示例)
1.什么是
ApacheHudi
一个spark库大数据更新解决方案,大数据中没有传统意义的更新,只有append和重写(Hudi就是采用重写方式)使用Hudi的优点使用Bloomfilter机制+二次查找
别过来胖到我了
·
2020-07-27 22:56
hadoop
Uber基于Apache Hudi构建PB级数据湖实践
文|hudi来源|
ApacheHudi
1.引言从确保准确预计到达时间到预测最佳交通路线,在Uber平台上提供安全、无缝的运输和交付体验需要可靠、高性能的大规模数据存储和分析。
LinkTime_Cloud
·
2020-07-27 16:32
数据中台
大数据
大数据
hadoop
数据库
人工智能
java
Delta Lake、Iceberg 和 Hudi 三大开源数据湖不知道如何选?那是因为你没看这篇文章...
目前市面上流行的三大开源数据湖方案分别为:delta、ApacheIceberg和
ApacheHudi
。
过往记忆
·
2020-07-27 13:55
官宣!AWS Athena正式可查询Apache Hudi数据集
1.引入
ApacheHudi
是一个开源的增量数据处理框架,提供了行级insert、update、upsert、delete的细粒度处理能力(Upsert表示如果数据集中存在记录就更新;否则插入)。
leesf
·
2020-07-27 11:00
官宣!AWS Athena正式可查询Apache Hudi数据集
1.引入
ApacheHudi
是一个开源的增量数据处理框架,提供了行级insert、update、upsert、delete的细粒度处理能力(Upsert表示如果数据集中存在记录就更新;否则插入)。
leesf
·
2020-07-27 11:00
Apache Hudi重磅特性解读之存量表高效迁移机制
1.摘要随着
ApacheHudi
变得越来越流行,一个挑战就是用户如何将存量的历史表迁移到
ApacheHudi
,
ApacheHudi
维护了记录级别的元数据以便提供upserts和增量拉取的核心能力。
leesf
·
2020-07-13 09:00
上一页
1
2
3
4
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他