Hudi 第11页

Apache Hudi - 初步了解

背景Hudi是Uber主导开发的开源数据湖框架。所以大部分的出发点都来源于Uber自身场景，比如司机数据和乘客数据通过订单Id来做Join等。在Hudi过去的使用场景里，和大

万州客·2022-04-07 09:41

基于Apache Hudi在Google云构建数据湖平台

自从计算机出现以来，我们一直在尝试寻找计算机存储一些信息的方法，存储在计算机上的信息（也称为数据）有多种形式，数据变得如此重要，以至于信息现在已成为触手可及的商品。多年来数据以多种方式存储在计算机中，包括数据库、blob存储和其他方法，为了进行有效的业务分析，必须对现代应用程序创建的数据进行处理和分

leesf·2022-04-07 08:00

基于Apache Hudi和Debezium构建CDC入湖管道

从Hudiv0.10.0开始，我们很高兴地宣布推出适用于Deltastreamer的Debezium源，它提供从Postgres和MySQL数据库到数据湖的变更捕获数据(CDC)的摄取。有关详细信息请参阅原始RFC1.背景当想要对来自事务数据库（如Postgres或MySQL）的数据执行分析时，通常需要通过称为更改数据捕获CDC的过程将此数据引入数据仓库或数据湖等OLAP系统。Debezium是一

leesf·2022-04-05 20:00

Robinhood基于Apache Hudi的下一代数据湖实践

摘要Robinhood的使命是使所有人的金融民主化。Robinhood内部不同级别的持续数据分析和数据驱动决策是实现这一使命的基础。我们有各种数据源——OLTP数据库、事件流和各种第3方数据源。需要快速、可靠、安全和以隐私为中心的数据湖摄取服务来支持各种报告、关键业务管道和仪表板。不仅在数据存储规模和查询方面，也在我们在数据湖支持的用例方面，我们从最初的数据湖版本[1]都取得了很大的进展。在这篇博

·2022-04-02 11:03

Robinhood基于Apache Hudi的下一代数据湖实践

1.摘要Robinhood的使命是使所有人的金融民主化。Robinhood内部不同级别的持续数据分析和数据驱动决策是实现这一使命的基础。我们有各种数据源——OLTP数据库、事件流和各种第3方数据源。需要快速、可靠、安全和以隐私为中心的数据湖摄取服务来支持各种报告、关键业务管道和仪表板。不仅在数据存储规模和查询方面，也在我们在数据湖支持的用例方面，我们从最初的数据湖版本都取得了很大的进展。在这篇博客

leesf·2022-03-31 15:00

Apache Hudi集成Spark SQL操作hide表

目录1.摘要2.环境准备2.1启动spark-sql2.2设置并发度3.CreateTable4.InsertInto4.1Insert4.2Select5.Update5.1Update5.2Select6.Delete6.1Delete6.2Select7.MergeInto7.1MergeIntoInsert7.2Select7.4MergeIntoUpdate7.5Select7.6Mer

·2022-03-31 12:06

Apache Pulsar结合Hudi构建Lakehouse方案分析

目录1.动机2.分析3.当前方案4.新的Lakehouse存储方案4.1新的存储布局4.2支持高效Upserts4.3将Hudi表当做PulsarTopic4.4可扩展的元数据管理5.引用1.动机Lakehouse

·2022-03-31 10:55

Apache Hudi的多版本清理服务彻底讲解

目录1.回收空间以控制存储成本2.问题描述3.深入了解Hudi清理服务4.清理服务5.例子6.配置7.运行命令8.未来计划ApacheHudi提供了MVCC并发模型，保证写入端和读取端之间快照级别隔离。

·2022-03-30 22:42

深入解析Apache Hudi内核文件标记机制

目录1.摘要2.为何引入Markers机制3.现有的直接标记机制及其局限性4.基于时间线服务器的标记机制提高写入性能5.标记相关的写入选项6.性能7.总结1.摘要Hudi支持在写入时自动清理未成功提交的数据

·2022-03-30 22:11

Z-Order加速Hudi大规模数据集方案分析

目录1.背景2.Z-Order介绍3.具体实现3.1z-value的生成和排序3.1.1基于映射策略的z值生成方法3.1.2基于RangeBounds的z-value生成策略3.2与Hudi结合3.2.1

·2022-03-30 22:41

Apache Hudi数据布局黑科技降低一半查询时间

目录1.背景2.Clustering架构2.1调度Clustering2.2运行Clustering2.3Clustering配置3.表查询性能3.1进行Clustering之前3.2进行Clustering之后4.总结1.背景ApacheHudi将流处理带到大数据，相比传统批处理效率高一个数量级，提供了更新鲜的数据。在数据湖/仓库中，需要在摄取速度和查询性能之间进行权衡，数据摄取通常更喜欢小文件

·2022-03-30 20:07

Apache Hudi基于华米科技应用湖仓一体化改造

目录1.应用背景及痛点介绍2.技术方案选型3.问题与解决方案3.1.增量数据字段对齐问题3.2全球存储兼容性问题3.3云主机时区统一问题3.4升级新版本问题3.5多分区Upsert性能问题3.6数据特性适应问题4.上线收益4.1成本方面4.2效率方面4.3稳定性层面4.4查询性能层面5.总结与展望1.应用背景及痛点介绍华米科技是一家基于云的健康服务提供商，拥有全球领先的智能可穿戴技术。在华米科技，

·2022-03-30 20:06

Apache Hudi异步Clustering部署操作的掌握

目录1.摘要2.介绍3.Clustering策略3.1计划策略3.2执行策略3.3更新策略4.异步Clustering4.1HoodieClusteringJob4.2HoodieDeltaStreamer4.3SparkStructuredStreaming5.总结和未来工作1.摘要在之前的一篇博客中，我们介绍了Clustering(聚簇)的表服务来重新组织数据来提供更好的查询性能，而不用降低摄

·2022-03-30 20:35

Apache教程Hudi与Hive集成手册

目录1.Hudi表对应的Hive外部表介绍2.Hive对Hudi的集成3.创建Hudi表对应的hive外部表4.查询Hudi表对应的Hive外部表4.1操作前提4.2COW类型Hudi表的查询4.2.1COW

·2022-03-30 18:27

OnZoom基于Apache Hudi的一体架构实践解析

1.背景OnZoom是Zoom新产品，是基于ZoomMeeting的一个独一无二的在线活动平台和市场。作为Zoom统一通信平台的延伸，OnZoom是一个综合性解决方案，为付费的Zoom用户提供创建、主持和盈利的活动，如健身课、音乐会、站立表演或即兴表演，以及Zoom会议平台上的音乐课程。在OnZoomdataplatform中，source数据主要分为MySQLDB数据和Log数据。其中Kafka

·2022-03-30 18:26

Apache Hudi结合Flink的亿级数据入湖实践解析

目录1.实时数据落地需求演进2.基于Spark+Hudi的实时数据落地应用实践3.基于Flink自定义实时数据落地实践4.基于Flink+Hudi的落地数据实践5.后续应用规划及展望5.1取代离线报表，

·2022-03-30 18:23

Apache Hudi性能提升三倍的查询优化

目录1.背景2.设置3.测试4.结果5.总结从Hudi0.10.0版本开始，我们很高兴推出在数据库领域中称为Z-Order和Hilbert空间填充曲线的高级数据布局优化技术的支持。

·2022-03-30 18:21

Apache Hudi灵活的Payload机制硬核解析

HudiPayload在写入和读取Hudi表时对数据进行去重、过滤、合并等操作的工具类，通过使用参数"hoodie.datasource.write.payload.class"指定我们需要使用的Payloadclass

·2022-03-30 15:42

Vertica集成Apache Hudi重磅使用指南

目录1.摘要2.ApacheHudi介绍3.环境准备4.Vertica和ApacheHudi集成4.1在ApacheSpark上配置ApacheHudi和AWSS34.2配置Vertica和ApacheHUDI集成4.3如何让Vertica查看更改的数据4.3.1写入数据4.3.2更新数据4.3.3创建和查看数据的历史快照1.摘要本文演示了使用外部表集成Vertica和ApacheHudi。在演示

·2022-03-30 15:40

字节跳动基于 Apache Hudi 的多流拼接实践方案

字节跳动数据湖团队在实时数仓构建宽表的业务场景中，探索实践出的一种基于HudiPayload的合并机制提出的全新解决方案。作者：字节跳动数据湖团队字节跳动数据湖团队在实时数仓构建宽表的业务场景中，探索实践出的一种基于HudiPayload的合并机制提出的全新解决方案。该方案在存储层提供对多流数据的关联能力，旨在解决实时场景下多流JOIN遇到的一系列问题。接下来，本文会详细介绍多流拼接方案的背景以及

·2022-03-30 14:46

Vertica集成Apache Hudi指南

Hudi代表HadoopUpsertsDeletesandIncrementals，是一个开源框架。Hud

leesf·2022-03-29 15:00

Apache Hudi灵活的Payload机制

HudiPayload在写入和读取Hudi表时对数据进行去重、过滤、合并等操作的工具类，通过使用参数"hoodie.datasource.write.payload.class"指定我们需要使用的Payloadclass

leesf·2022-03-28 19:00

华为云FusionInsight MRS实战 - Hudi实时入湖之DeltaStreamer工具最佳实践

背景传统大数据平台的组织架构是针对离线数据处理需求设计的，常用的数据导入方式为采用sqoop定时作业批量导入。随着数据分析对实时性要求不断提高，按小时、甚至分钟级的数据同步越来越普遍。由此展开了基于spark/flink流处理机制的（准）实时同步系统的开发。然而实时同步从一开始就面临如下几个挑战：小文件问题。不论是spark的microbatch模式，还是flink的逐条处理模式，每次写入HDFS

·2022-03-25 10:09

懒癌患者基于 YCSB 构造 hudi upsert 数据集（上篇）

实时小白一枚，在线求更加强大和方便的工具需求对hudi进行upsert压测，简单的链路为flink消费kafka直接灌入hudi表，需要构造10亿条数据，可控制insert和update的配比YCSB调研引言

·2022-03-24 15:39

Apache hudi 源码分析 - 写时处理优化小文件问题（flink)

Flink:0.12(引擎版本影响不大)hudi:0.11.0-SNAPSHOTTime:2022/03/14spark适配同理整体流程flink对每一行数据进行处理，构造recorderKey（包含分区路径

·2022-03-24 14:46

基于MRS-Hudi构建数据湖的典型应用场景介绍

一、传统数据湖存在的问题与挑战传统数据湖解决方案中，常用Hive来构建T+1级别的数据仓库，通过HDFS存储实现海量数据的存储与水平扩容，通过Hive实现元数据的管理以及数据操作的SQL化。虽然能够在海量批处理场景中取得不错的效果，但依然存在如下现状问题：问题一：不支持事务由于传统大数据方案不支持事务，有可能会读到未写完成的数据，造成数据统计错误。为了规避该问题，通常控制读写任务顺序调用，在保证写

·2022-03-23 10:02

华为云MRS基于Hudi和HetuEngine构建实时数据湖最佳实践

数据湖与实时数据湖是什么？各个行业企业都在构建企业级数据湖，将企业内多种格式数据源汇聚的大数据平台，通过严格的数据权限和资源管控，将数据和算力开放给各种使用者。一份数据支持多种分析，是数据湖最大的特点。如果数据湖的数据，从数据源产生后，可以在1分钟以内实时进入到数据湖存储，支持各种交互式分析，这种数据湖通常叫做实时数据湖，如果可以做到15分钟之内，也可称为准实时数据湖。构建实时数据湖，正在成为5G

·2022-03-23 09:56

懒癌患者基于 YCSB 构造 hudi upsert 数据集（上篇）

实时小白一枚，在线求更加强大和方便的工具需求对hudi进行upsert压测，简单的链路为flink消费kafka直接灌入hudi表，需要构造10亿条数据，可控制insert和update的配比YCSB调研引言

·2022-03-22 09:22

HoodieWriteHandle 数据写入处理

项目中使用FlinkSQL将离线数据、流数据写入Hudi，自下而上分析写hudi的流程。hudi版本0.10.0-patch。

todd5167·2022-03-19 13:37

Apache hudi 源码分析 - 写时处理优化小文件问题（flink)

Flink:0.12(引擎版本影响不大)hudi:0.11.0-SNAPSHOTTime:2022/03/14spark适配同理整体流程flink对每一行数据进行处理，构造recorderKey（包含分区路径

·2022-03-14 23:28

Apache Hudi 查询优化了解下？

从Hudi0.10.0版本开始，我们很高兴推出在数据库领域中称为Z-Order和Hilbert空间填充曲线的高级数据布局优化技术的支持。

leesf·2022-03-06 17:00

Hudi Bucket Index 在字节跳动的设计与实践

由字节跳动数据湖团队贡献的RFC-29BucketIndex在近期合入Hudi主分支，本文详细介绍HudiBucketIndex产生的背景与实践经验。

·2022-02-28 13:06

Hudi 0.5.2 Hudi 写时复制读时合并表区别联系

表类型写时复制（CopyOnWrite）：仅使用列式文件格式（parquet，基本文件）存储数据。通过在写入过程中执行同步合并，仅更新版本并重写新文件。读时合并（MergeOnReader）：使用列式文件格式（parquet，基本文件）+基于行（例如avro，增量文件）的文件格式的组合来存储数据。更新记录到增量文件中，然后压缩以同步或异步生成新的列式文件格式。查询类型快照查询（实时查询）：查询给定

海南中剑·2022-02-22 00:26

使用 Flink Hudi 构建流式数据湖平台

摘要：本文整理自阿里巴巴技术专家陈玉兆(玉兆)、阿里巴巴开发工程师刘大龙(风离)在FlinkForwardAsia2021的分享。主要内容包括：ApacheHudi101FlinkHudiIntegrationFlinkHudiUseCaseApacheHudiRoadmapFFA2021直播回放&演讲PDF下载一、ApacheHudi101提到数据湖，大家都会有这样的疑问，什么是数据湖？为什么数

·2022-02-16 19:12

Apache RocketMQ + Hudi 快速构建 Lakehouse

本文目录背景知识大数据时代的构架演进RocketMQConnector&StreamApacheHudi构建Lakehouse实操本文标题包含三个关键词：Lakehouse、RocketMQ、Hudi。

·2022-02-16 03:34

Apache hudi 源码分析 - zorder 布局优化

本篇文章意在通过某个功能逐步熟悉hudi整体架构上的实现，不会讨论算法的实现细节hudi新人，有问题欢迎指正spark:version,3.1.2hudi:branch,masterTime:2022/

·2022-02-06 12:54

Apache RocketMQ + Hudi 快速构建 Lakehouse

简介：基于RocketMQ和Hudi零代码构建Lakehouse架构，以及RocketMQConnector&RocketMQStream助力ETL数据分析，为大家提供快速构建Lakehouse的技术方案和低运维成本实现实时计算的解决方案

·2022-01-20 10:22

Flink Hudi 0.10.0 发布，多项重要更新，稳定性大幅提升

Flink中文学习网站https://flink-learning.org.cn前言随着云数仓技术的不断成熟，数据湖俨然已成为当下最热门的技术之一，而ApacheHudi是当下最具竞争力的数据湖格式之一：拥有最活跃的开源社区之一，周活跃PR一直维持在50+水平；拥有最活跃的国内用户群之一，目前的ApacheHudi钉钉群用户已超过2200+，国内各大厂商都已经布局ApacheHudi生态。Apac

·2021-12-20 14:35

基于Delta lake、Hudi格式的湖仓一体方案

简介：DeltaLake和Hudi是流行的开放格式的存储层，为数据湖同时提供流式和批处理的操作，这允许我们在数据湖上直接运行BI等应用，让数据分析师可以即时查询新的实时数据，从而对您的业务产生即时的洞察

·2021-12-03 19:07

从消息到数据湖：看 Apache RocketMQ、Hudi、Kyuubi 最新进展

本场活动聚焦ApacheRocketMQ及Hudi，Kyuubi数据湖结合，帮助开发者能更好地

·2021-11-22 12:50

从消息到数据湖：看 Apache RocketMQ、Hudi、Kyuubi 最新进展

本场活动聚焦ApacheRocketMQ及Hudi，Kyuubi数据湖结合，帮助开发者能更好地应对业务挑战。活动将邀请喜马拉雅、平安证券、网易、阿里云的众多技术专家，共同为大家分享Ap

·2021-11-17 20:45

hudi clustering 数据聚集（三 zorder使用）

努力爬呀爬·2021-11-13 15:00

hudi clustering 数据聚集（二）

小文件合并解析执行代码：importorg.apache.hudi.QuickstartUtils._importscala.collection.JavaConversions.

努力爬呀爬·2021-11-12 18:00

hudi clustering 数据聚集（一）

概要数据湖的业务场景主要包括对数据库、日志、文件的分析，而管理数据湖有两点比较重要：写入的吞吐量和查询性能，这里主要说明以下问题：1、为了获得更好的写入吞吐量，通常把数据直接写入文件中，这种情况下会产生很多小的数据文件。虽然小文件的使用可以增加写入的并行度，且能够并行读取文件以提高读取速度，但会出现一个数据量很小，需要从多个小文件中读取数据，增加了很多IO。2、数据按照进入数据湖的方式写入到文件中

努力爬呀爬·2021-11-11 09:00

Flink+Hudi 构架湖仓一体化解决方案

本文转载自公众号【麒思妙想】，详细介绍了Flink+Hudi湖仓一体化方案的原型构建。

·2021-11-05 12:38

顺丰科技 Hudi on Flink 实时数仓实践

本文作者为刘杰，介绍了顺丰科技数仓的架构，趟过的一些问题、使用Hudi来优化整个job状态的实践细节，以及未来的一些规划。

·2021-11-05 11:34

Flink-CDC 同步Mysql数据到S3 Hudi

软件版本Mysql:5.7Hadoop:3.1.3Flink:1.12.2Hudi:0.9.0Hive:2.3.71.Mysql建表并开启bin_logcreatetableusers(idbigintauto_incrementprimarykey

阿猫阿狗Hakuna·2021-10-27 15:36

基于Delta lake、Hudi格式的湖仓一体方案

简介：DeltaLake和Hudi是流行的开放格式的存储层，为数据湖同时提供流式和批处理的操作，这允许我们在数据湖上直接运行BI等应用，让数据分析师可以即时查询新的实时数据，从而对您的业务产生即时的洞察

·2021-10-27 14:04

顺丰科技 Hudi on Flink 实时数仓实践

简介：介绍了顺丰科技数仓的架构，趟过的一些问题、使用Hudi来优化整个job状态的实践细节，以及未来的一些规划。

·2021-10-12 11:28

37 手游基于 Flink CDC + Hudi 湖仓一体方案实践

简介：介绍了37手游为何选择Flink作为计算引擎，并如何基于FlinkCDC+Hudi构建新的湖仓一体方案。

·2021-09-24 11:36

推荐频道

Hudi

Apache Hudi - 初步了解

基于Apache Hudi在Google云构建数据湖平台

基于Apache Hudi和Debezium构建CDC入湖管道

Robinhood基于Apache Hudi的下一代数据湖实践

Robinhood基于Apache Hudi的下一代数据湖实践

Apache Hudi集成Spark SQL操作hide表

Apache Pulsar结合Hudi构建Lakehouse方案分析

Apache Hudi的多版本清理服务彻底讲解

深入解析Apache Hudi内核文件标记机制

Z-Order加速Hudi大规模数据集方案分析

Apache Hudi数据布局黑科技降低一半查询时间

Apache Hudi基于华米科技应用湖仓一体化改造

Apache Hudi异步Clustering部署操作的掌握

Apache教程Hudi与Hive集成手册

OnZoom基于Apache Hudi的一体架构实践解析

Apache Hudi结合Flink的亿级数据入湖实践解析

Apache Hudi性能提升三倍的查询优化

Apache Hudi灵活的Payload机制硬核解析

Vertica集成Apache Hudi重磅使用指南

字节跳动基于 Apache Hudi 的多流拼接实践方案

Vertica集成Apache Hudi指南

Apache Hudi灵活的Payload机制

华为云FusionInsight MRS实战 - Hudi实时入湖之DeltaStreamer工具最佳实践

懒癌患者基于 YCSB 构造 hudi upsert 数据集（上篇）

Apache hudi 源码分析 - 写时处理优化小文件问题（flink)

基于MRS-Hudi构建数据湖的典型应用场景介绍

华为云MRS基于Hudi和HetuEngine构建实时数据湖最佳实践

懒癌患者基于 YCSB 构造 hudi upsert 数据集（上篇）

HoodieWriteHandle 数据写入处理

Apache hudi 源码分析 - 写时处理优化小文件问题（flink)

Apache Hudi 查询优化了解下？

Hudi Bucket Index 在字节跳动的设计与实践

Hudi 0.5.2 Hudi 写时复制 读时合并表区别联系

使用 Flink Hudi 构建流式数据湖平台

Apache RocketMQ + Hudi 快速构建 Lakehouse

Apache hudi 源码分析 - zorder 布局优化

Apache RocketMQ + Hudi 快速构建 Lakehouse

Flink Hudi 0.10.0 发布，多项重要更新，稳定性大幅提升

基于Delta lake、Hudi格式的湖仓一体方案

从消息到数据湖：看 Apache RocketMQ、Hudi、Kyuubi 最新进展

从消息到数据湖：看 Apache RocketMQ、Hudi、Kyuubi 最新进展

hudi clustering 数据聚集（三 zorder使用）

hudi clustering 数据聚集（二）

hudi clustering 数据聚集（一）

Flink+Hudi 构架湖仓一体化解决方案

顺丰科技 Hudi on Flink 实时数仓实践

Flink-CDC 同步Mysql数据到S3 Hudi

基于Delta lake、Hudi格式的湖仓一体方案

顺丰科技 Hudi on Flink 实时数仓实践

37 手游基于 Flink CDC + Hudi 湖仓一体方案实践

Hudi 0.5.2 Hudi 写时复制读时合并表区别联系