ApacheHudi 第3页

重磅！Vertica集成Apache Hudi指南

1.摘要本文演示了使用外部表集成Vertica和ApacheHudi。在演示中我们使用Spark上的ApacheHudi将数据摄取到S3中，并使用Vertica外部表访问这些数据。

leesf·2022-03-29 15:00

超硬核解析！Apache Hudi灵活的Payload机制

ApacheHudi的Payload是一种可扩展的数据处理机制，通过不同的Payload我们可以实现复杂场景的定制化数据写入方式，大大增加了数据处理的灵活性。

leesf·2022-03-28 19:00

一文带你了解Lakehouse的并发控制：我们是否过于乐观

有幸从事过各种数据库项目——RDBMS(Oracle)、NoSQL键值存储(Voldemort)、流数据库(ksqlDB)、闭源实时数据存储，当然还有ApacheHudi，我可以肯定地说，工作负载的不同深刻地影响了不同数据库中采用的并

leesf·2022-03-27 10:00

查询性能提升3倍！Apache Hudi 查询优化了解下？

文章中比较了2个ApacheHudi表（均来自AmazonReviews数据集）：未聚

leesf·2022-03-06 17:00

使用 Flink Hudi 构建流式数据湖平台

主要内容包括：ApacheHudi101FlinkHudiIntegrationFlinkHudiUseCaseApacheHudiRoadmapFFA2021直播回放&演讲PDF下载一、ApacheHudi101

·2022-02-16 19:12

Flink Hudi 0.10.0 发布，多项重要更新，稳定性大幅提升

Flink中文学习网站https://flink-learning.org.cn前言随着云数仓技术的不断成熟，数据湖俨然已成为当下最热门的技术之一，而ApacheHudi是当下最具竞争力的数据湖格式之一

·2021-12-20 14:35

从消息到数据湖：看 Apache RocketMQ、Hudi、Kyuubi 最新进展

简介：聚焦消息队列&数据湖场景，ApacheRocketMQwithHudi&Kyuubi上海的开发者小伙伴们，12月18号，ApacheRocketMQ&ApacheHudi&ApacheKyuubi

·2021-11-22 12:50

从消息到数据湖：看 Apache RocketMQ、Hudi、Kyuubi 最新进展

上海的开发者小伙伴们，12月18号，ApacheRocketMQ&ApacheHudi&ApacheKyuubi（Incubating）三社区Meetup来了，打造最强消息传输、实时计算、数据入湖一体化解决方案专场

·2021-11-17 20:45

Apache Kyuubi 在 T3 出行的深度实践

因为车联网数据的多样性，T3出行构建了以ApacheHudi为基础的企业级数据湖，提供强有力的业务支撑。而对于负责数据价值挖掘的终端用户而言，平台的技术门槛是另一种挑战。

·2021-11-12 15:26

Apache Kyuubi 在 T3 出行的深度实践

因为车联网数据的多样性，T3出行构建了以ApacheHudi为基础的企业级数据湖，提供强有力的业务支撑。而对于负责数据价值挖掘的终端用户而言，平台的技术门槛是另一种挑战。

网易数帆·2021-11-12 15:00

COSCon‘21 精彩回顾 | Apache Kyuubi 在 T3 出行的深度实践

因为车联网数据的多样性，T3出行构建了以ApacheHudi为基础的企业级数据湖，提供强有力的业务支撑。而对于负责数据价值挖掘的终端用户而言，平台的技术门槛是另一种挑战。

网易杭研·2021-11-12 09:33

Flink+Hudi 构架湖仓一体化解决方案

主要内容为：Hudi新架构与湖仓一体最佳实践FlinkonHudiFlinkCDC2.0onHudi一、Hudi1.简介ApacheHudi(发音为“Hoodie”)在DFS的数据集上提供以下流原语插入更新

·2021-11-05 12:38

技术干货｜阿里云基于Hudi构建Lakehouse实践探索

简介：阿里云高级技术专家王烨(萌豆)在ApacheHudi与ApachePulsar联合Meetup杭州站上的演讲整理稿件，本议题介绍了阿里云如何使用Hudi和OSS对象存储构建Lakehouse，为大家分享了什么是

·2021-09-09 11:12

使用 Flink Hudi 构建流式数据湖

主要内容为：背景增量ETL演示一、背景近实时从2016年开始，ApacheHudi社区就开始通过Hudi的UPSERT能力探索近实时场景的使用案例[1]。通过MR/Spark的批处理

·2021-09-08 18:30

技术干货｜阿里云基于Hudi构建Lakehouse实践探索

简介：阿里云高级技术专家王烨(萌豆)在ApacheHudi与ApachePulsar联合Meetup杭州站上的演讲整理稿件，本议题介绍了阿里云如何使用Hudi和OSS对象存储构建Lakehouse，为大家分享了什么是

·2021-09-07 11:46

技术干货｜基于Apache Hudi 的CDC数据入湖「内附干货PPT下载渠道」

简介：阿里云技术专家李少锋(风泽)在ApacheHudi与ApachePulsar联合Meetup杭州站上的演讲整理稿件，本议题将介绍典型CDC入湖场景，以及如何使用Pulsar/Hudi来构建数据湖，

·2021-09-06 17:03

技术干货｜基于Apache Hudi 的CDC数据入湖

简介：阿里云技术专家李少锋(风泽)在ApacheHudi与ApachePulsar联合Meetup杭州站上的演讲整理稿件，本议题将介绍典型CDC入湖场景，以及如何使用Pulsar/Hudi来构建数据湖，

·2021-09-06 17:25

今日直播 | Apache Hudi x Apache Pulsar Meetup线上专场如期而至大咖齐聚

简介：ApacheHudi与ApachePulsar联合Meetup线上专场将于2021年8月30日（今天）14:00开启直播，你准备好了吗？

·2021-08-30 13:28

Apache Hudi x Pulsar Meetup杭州站火爆来袭，实践干货就等你来！

简介：ApacheHudi与ApachePulsar联合Meetup杭州站来啦！将于2021年8月28日（周六）13:30，在杭州召开，你准备好了吗？

·2021-08-19 20:22

Apache Hudi 是如何维护小文件的

ApacheHudi是一种数据湖平台技术，它提供了构建和管理数据湖所需的几个功能。hudi提供的一个关键特性是自我管理文件大小，这样用户就不需要担心手动维护表。

·2021-08-09 00:00

数据湖分析如何面向对象存储OSS进行优化？

DLALakehouse基于ApacheHudi实现，主要目标是提供高效的湖仓，支持CDC及消息的增量写入，目前这块在加紧产品

·2021-07-27 19:44

Apache Hudi使用简介

数据实时处理和实时的数据实时分为处理的实时和数据的实时即席分析是要求对数据实时的处理，马上要得到对应的结果Flink、SparkStreaming是用来对实时数据的实时处理，数据要求实时，处理也要迅速数据不实时，处理也不及时的场景则是我们的数仓T+1数据而本文探讨的ApacheHudi

西北偏北·2021-06-26 02:24

数据湖分析如何面向对象存储OSS进行优化？

DLALakehouse基于ApacheHudi实现，主要目标是提供高效的湖仓，支持CDC及消息的增量写入，目前这块在加紧产品

·2021-06-18 22:59

Hudi on Flink 快速上手指南

内容包括：背景环境准备Batch模式的读写Streaming读总结一、背景ApacheHudi是目前最流行的数据湖解决方案之一，DataLakeAnalytics[1]集成了Hudi服务高效的数据MERGE

·2021-04-01 12:05

Hudi on Flink 快速上手指南

内容包括：背景环境准备Batch模式的读写Streaming读总结Tips：点击文末「阅读原文」可查看更多技术干货～一、背景ApacheHudi是目前最流行的数据湖解决方案之一，DataLakeAnalytics

Apache Flink·2021-03-25 21:00

数据湖解决方案关键一环，IceBerg会不会脱颖而出？

王知无-大数据技术与架构·2021-02-03 01:51

Apache Hudi使用简介

ApacheHudi使用简介[TOC]数据实时处理和实时的数据实时分为处理的实时和数据的实时即席分析是要求对数据实时的处理，马上要得到对应的结果Flink、SparkStreaming是用来对实时数据的实时处理

·2021-01-24 16:39

数据湖和数据仓库区别介绍

ApacheHudi是干什么的？仅仅实现增删改查吗？基于Hudi的数据湖数据是以什么方式存储的？Hudi有元数据吗？元数据存储在哪儿？Hudi是以什么方式

hzp666·2020-12-30 16:30

Apache Hudi使用简介

目录ApacheHudi使用简介数据实时处理和实时的数据业务场景和技术选型Apachehudi简介使用AapcheHudi整体思路Hudi表数据结构数据文件.hoodie文件Hudi记录IdCOW和MORCopyOnWriteTableMergeOnReadTable

skaljdakdjw·2020-12-28 21:22

Apache Hudi使用简介

ApacheHudi使用简介[TOC]数据实时处理和实时的数据实时分为处理的实时和数据的实时即席分析是要求对数据实时的处理，马上要得到对应的结果Flink、SparkStreaming是用来对实时数据的实时处理

西北偏北·2020-12-28 00:47

划重点！AWS的湖仓一体使用哪种数据湖格式进行衔接？

此前ApacheHudi社区一直有小伙伴询问能否使用AmazonRedshift查询Hudi表，现在它终于来了。

leesf·2020-09-27 20:00

Apache Hudi和Presto的前世今生

一篇由ApacheHudiPMCBhavaniSudhaSaktheeswaran和AWSPresto团队工程师BrandonScheller分享ApacheHudi和Presto集成的一篇文章。

leesf·2020-09-22 07:00

Apache Hudi在医疗大数据中的应用

本篇文章主要介绍ApacheHudi在医疗大数据中的应用，主要分为５个部分进行介绍：1.建设背景，2.为什么选择Hudi，3.Hudi数据同步，4.存储类型选择及查询优化，5.未来发展与思考。

大数据技术架构·2020-09-17 05:38

Apache Hudi在医疗大数据的应用

ApacheHudi在医疗大数据的应用本篇文章主要介绍hudi在医疗大数据中的应用，主要分为５个部分进行介绍：建设背景，为什么选择hudi,hudi的数据同步，存储类型选择及查询优化，未来发展与思考。

别过来胖到我了·2020-09-17 04:49

恭喜！Apache Hudi社区新晋多位Committer

1.介绍经过ApacheHudi项目委员会讨论及投票，向UditMehrotra、GaryLi、RaymondXu、PratyakshSharma4人发出Committer邀请，4人均已接受邀请并顺利成为

leesf·2020-09-14 18:00

Apache Hudi 架构设计和基本概念

ApacheHudi是一个DataLakes的开源方案，Hudi是HadoopUpdatesandIncrementals的简写，它是由Uber开发并开源的DataLakes解决方案。

大数据技术与架构·2020-09-10 18:26

Apache Hudi 0.6.0版本重磅发布

1.下载信息源码：ApacheHudi0.6.0SourceRelease(asc,sha512)二进制Jar包：nexus2.迁移指南如果您从0.5.3以前的版本迁移至0.6.0，请仔细核对每个版本的迁移指南

leesf·2020-08-26 09:00

Apache Hudi：说出来你可能不信，你的ETL任务慢如狗

1.简介ApacheHudi(简称：Hudi)使得您能在hadoop兼容的存储之上存储大量数据，同时它还提供两种原语，使得除了经典的批处理之外，还可以在数据湖上进行流处理。

王知无-大数据技术与架构·2020-08-23 10:03

详解Apache Hudi如何配置各种类型分区

1.引入ApacheHudi支持多种分区方式数据集，如多级分区、单分区、时间日期分区、无分区数据集等，用户可根据实际需求选择合适的分区方式，下面来详细了解Hudi如何配置何种类型分区。

leesf·2020-08-18 09:00

Apache Hudi 设计与架构最强解读

https://zhuanlan.zhihu.com/p/131210053本文将介绍ApacheHudi的基本概念、设计以及总体基础架构。

吃鱼的羊·2020-08-05 21:45

Apache Hudi + AWS S3 + Athena实战

ApacheHudi在阿里巴巴集团、EMISHealth，LinkNovate，Tathastu.AI，腾讯，Uber内使用，并且由AmazonAWSEMR和Google云平台支持，最近AmazonAthena

leesf·2020-08-03 19:00

官宣！AWS Athena正式可查询Apache Hudi数据集

1.引入ApacheHudi是一个开源的增量数据处理框架，提供了行级insert、update、upsert、delete的细粒度处理能力（Upsert表示如果数据集中存在记录就更新；否则插入）。

程序员麦冬·2020-08-03 01:34

使用Apache Spark和Apache Hudi构建分析数据湖

欢迎关注微信公众号：ApacheHudi1.引入大多数现代数据湖都是基于某种分布式文件系统（DFS），如HDFS或基于云的存储，如AWSS3构建的。

xleesf·2020-07-28 23:25

官宣！Amazon EMR正式支持Apache Hudi

ApacheHudi是一个开源的数据管理框架，其通过提供记录级别的insert,update,upsert和delete能力来简化增量数据处理和数据管道开发。

xleesf·2020-07-28 23:25

Apache+Hudi入门指南（含代码示例）

1.什么是ApacheHudi一个spark库大数据更新解决方案，大数据中没有传统意义的更新，只有append和重写(Hudi就是采用重写方式)使用Hudi的优点使用Bloomfilter机制+二次查找

别过来胖到我了·2020-07-27 22:56

Uber基于Apache Hudi构建PB级数据湖实践

文|hudi来源|ApacheHudi1.引言从确保准确预计到达时间到预测最佳交通路线，在Uber平台上提供安全、无缝的运输和交付体验需要可靠、高性能的大规模数据存储和分析。

LinkTime_Cloud·2020-07-27 16:32

Delta Lake、Iceberg 和 Hudi 三大开源数据湖不知道如何选？那是因为你没看这篇文章...

目前市面上流行的三大开源数据湖方案分别为：delta、ApacheIceberg和ApacheHudi。

过往记忆·2020-07-27 13:55

官宣！AWS Athena正式可查询Apache Hudi数据集

1.引入ApacheHudi是一个开源的增量数据处理框架，提供了行级insert、update、upsert、delete的细粒度处理能力（Upsert表示如果数据集中存在记录就更新；否则插入）。

leesf·2020-07-27 11:00

官宣！AWS Athena正式可查询Apache Hudi数据集

1.引入ApacheHudi是一个开源的增量数据处理框架，提供了行级insert、update、upsert、delete的细粒度处理能力（Upsert表示如果数据集中存在记录就更新；否则插入）。

leesf·2020-07-27 11:00

Apache Hudi重磅特性解读之存量表高效迁移机制

1.摘要随着ApacheHudi变得越来越流行，一个挑战就是用户如何将存量的历史表迁移到ApacheHudi，ApacheHudi维护了记录级别的元数据以便提供upserts和增量拉取的核心能力。

leesf·2020-07-13 09:00

推荐频道

ApacheHudi

重磅！Vertica集成Apache Hudi指南

超硬核解析！Apache Hudi灵活的Payload机制

一文带你了解Lakehouse的并发控制：我们是否过于乐观

查询性能提升3倍！Apache Hudi 查询优化了解下？

使用 Flink Hudi 构建流式数据湖平台

Flink Hudi 0.10.0 发布，多项重要更新，稳定性大幅提升

从消息到数据湖：看 Apache RocketMQ、Hudi、Kyuubi 最新进展

从消息到数据湖：看 Apache RocketMQ、Hudi、Kyuubi 最新进展

Apache Kyuubi 在 T3 出行的深度实践

Apache Kyuubi 在 T3 出行的深度实践

COSCon‘21 精彩回顾 | Apache Kyuubi 在 T3 出行的深度实践

Flink+Hudi 构架湖仓一体化解决方案

技术干货｜ 阿里云基于Hudi构建Lakehouse实践探索

使用 Flink Hudi 构建流式数据湖

技术干货｜ 阿里云基于Hudi构建Lakehouse实践探索

技术干货｜基于Apache Hudi 的CDC数据入湖「内附干货PPT下载渠道」

技术干货｜基于Apache Hudi 的CDC数据入湖

今日直播 | Apache Hudi x Apache Pulsar Meetup线上专场如期而至 大咖齐聚

Apache Hudi x Pulsar Meetup杭州站火爆来袭，实践干货就等你来！

Apache Hudi 是如何维护小文件的

数据湖分析如何面向对象存储OSS进行优化？

Apache Hudi使用简介

数据湖分析如何面向对象存储OSS进行优化？

Hudi on Flink 快速上手指南

Hudi on Flink 快速上手指南

数据湖解决方案关键一环，IceBerg会不会脱颖而出？

Apache Hudi使用简介

数据湖和数据仓库区别介绍

Apache Hudi使用简介

Apache Hudi使用简介

划重点！AWS的湖仓一体使用哪种数据湖格式进行衔接？

Apache Hudi和Presto的前世今生

Apache Hudi在医疗大数据中的应用

Apache Hudi在医疗大数据的应用

恭喜！Apache Hudi社区新晋多位Committer

Apache Hudi 架构设计和基本概念

Apache Hudi 0.6.0版本重磅发布

Apache Hudi：说出来你可能不信，你的ETL任务慢如狗

详解Apache Hudi如何配置各种类型分区

Apache Hudi 设计与架构最强解读

Apache Hudi + AWS S3 + Athena实战

官宣！AWS Athena正式可查询Apache Hudi数据集

使用Apache Spark和Apache Hudi构建分析数据湖

官宣！Amazon EMR正式支持Apache Hudi

Apache+Hudi入门指南（含代码示例）

Uber基于Apache Hudi构建PB级数据湖实践

Delta Lake、Iceberg 和 Hudi 三大开源数据湖不知道如何选？那是因为你没看这篇文章...

官宣！AWS Athena正式可查询Apache Hudi数据集

官宣！AWS Athena正式可查询Apache Hudi数据集

Apache Hudi重磅特性解读之存量表高效迁移机制

技术干货｜阿里云基于Hudi构建Lakehouse实践探索

技术干货｜阿里云基于Hudi构建Lakehouse实践探索

今日直播 | Apache Hudi x Apache Pulsar Meetup线上专场如期而至大咖齐聚