hudi

数据湖和Apache Iceberg，Apache Hudi，Delta Lake

1什么是数据湖？数据湖这个词目前已经流行开来，逐步被数据相关的从业者接受，可能还有很多人不太清楚它和Hadoop，Hive，Spark这些大数据系统的区别，简单说数据湖是个业务概念，主要是为了区别传统数仓这个概念的（传统数仓的定义：datawarehouse，是用于报告和数据分析的系统，被认为是商业智能的核心组件）。为什么说是“传统数仓”，因为Hadoop于2006年诞生至今已有10多年了，在这期

西土城计划·2025-03-27 05:17

Flink+Paimon/Hudi+Doris湖仓架构在各大公司落地的一些总结

记录一下各大公司落地湖仓项目的主要解决的问题和收益，从这些已经有的实践中吸收一些经验。参考的分享文档在文章末尾。一些背景阿里妈妈：实时广告决策驱动淘天集团商业数智营销中台，阿里妈妈日均处理千亿级广告请求，传统Lambda架构导致实时与离线数据割裂，无法满足分钟级预算调控需求。广告归因分析需跨时段行为关联，要求数据更新延迟低于50ms，同时需支持700GB/h的高并发写入。腾讯视频：指标治理与时效压

王知无(import_bigdata)·2025-03-26 20:07

第三十五篇缓慢变化维（SCD）全类型解析与应用实战指南

新增记录）4.Type3（新增字段）5.Type4（历史表分离）6.Type5（微型维度）7.Type6（混合型）三、扩展实现模式1.全量快照2.渐变快照四、选型决策矩阵五、现代数据栈实现方案1.基于Hudi

随缘而动，随遇而安·2025-03-26 09:19

数据湖Iceberg、Hudi和Paimon比较_数据湖框架对比(1)

ApacheIcebergApacheHudiApachePaimonSchemaEvolutionALLback-compatibleback-compatibleSelf-definedschemaobjectYESNO(spark-schema)NO（我理解，不准确）SchemaEvolution：指schema变更的支持情况，我的理解是hudi

2301_79098963·2025-03-23 17:45

第三十篇维度建模：从理论到落地的企业级实践

1.1Kimball方法论四大支柱1.2关键概念对比矩阵二、四步建模法全流程解析2.1选择业务过程（以电商为例）2.2声明原子粒度（订单案例）2.3维度设计规范时间维度（含财年逻辑）SCDType2完整实现（Hudi

随缘而动，随遇而安·2025-03-21 13:25

老板既要又要还要......我用Doris+Hudi把不可能变成了日常

老板既要又要还要......我用Doris+Hudi把不可能变成了日常探索Doris与Hudi的完美融合智能查询优化华丽转身-不止于快的进化Doris+Hudi湖仓一体的"艺术之美"大数据江湖中流传着这样一个传说

一臻数据·2025-03-15 15:42

六月份阶段性大总结之Doris/Clickhouse/Hudi一网打尽

点击上方蓝色字体，选择“设为星标”回复"面试"获取更多惊喜全网最全大数据面试提升手册！这是个阶段性小总结，后面会持续更新。ClickHouse「Clickhouse系列」分布式表&本地表详解「ClickHouse系列」ClickHouse之MergeTree原理「ClickHouse系列」Replication机制详解「ClickHouse系列」ClickHouseSQL基本语法和导入导出实战「C

王知无(import_bigdata)·2025-03-15 15:11

doris:Hudi Catalog

使用限制Hudi表支持的查询类型如下：表类型支持的查询类型CopyOnWriteSnapshotQuery,TimeTravel,IcrementalReadMergeOnReadSnapshotQueries

向阳1218·2025-03-15 15:40

如何设计高效的数据湖架构？

本篇文章将深入探讨数据湖架构的设计方法，结合Hudi、Iceberg、DeltaLake等技术

晴天彩虹雨·2025-03-14 02:41

数据湖架构与实时数仓实践：Hudi、Iceberg、Kafka + Flink + Spark

1.引言：数据湖与数据仓库的融合趋势在大数据时代，传统的数据仓库（DataWarehouse,DW）因其强一致性和高效查询能力，一直是企业数据分析的核心。然而，随着数据量和数据类型的爆炸式增长，传统数据仓库的存储成本和数据管理难度逐渐增加。为了解决这些问题，数据湖（DataLake）概念应运而生。数据湖能够存储原始数据，支持半结构化和非结构化数据，提供更灵活的计算框架，但其缺乏事务管理和数据一致性

晴天彩虹雨·2025-03-10 03:22

Apache Iceberg 与 Apache Hudi：数据湖领域的双雄对决

在数据存储和处理不断发展的领域中，数据湖仓的概念已经崭露头角，成为了一种变革性的力量。数据湖仓结合了数据仓库和数据湖的最佳元素，提供了一个统一的平台，支持数据科学、商业智能、人工智能/机器学习以及临时报告等多种关键功能。这种创新的方法不仅促进了实时分析，还显著降低了平台成本，增强了数据治理，并加速了用例的实现。数据存储和处理的演变催生了被称为数据湖仓的现代分析平台。这些平台旨在解决传统架构的局限性

夜里慢慢行456·2025-02-15 12:35

【hudi】基于hive2.1.1的编译hudi-1.0.0源码

hudi版本1.0.0需要使用较低版本的hive，编译hudi只需要修改下类即可：org.apache.hudi.hadoop.hive.HoodieCombineHiveInputFormat一、复制

lisacumt·2025-02-10 22:10

【Apache Paimon】-- 2 -- 核心特性（0.9.0）

目录1、实时更新1.1、实时大批量更新1.2、支持定义合并引擎1.3、支持定义更新日志生成器2、海量数据追加处理2.1、appendtable2.2、快速查询3、数据湖功能（类比：hudi、iceberg

oo寻梦in记·2025-02-09 16:38

Hudi VS Doris 使用分析

Hudi（HadoopUpsertsDeletesandIncrementals）定位-面向数据湖的增量写入、更新与删除技术。

sunxunyong·2025-02-07 01:13

Flink整合Hudi及使用

1、jar包上传上传jar包即可完成整合#1、将hudi-flink1.15-bundle-0.15.0.jar包上传到flink的lib目录下/usr/local/soft/flink-1.15.3/

我的K8409·2025-02-01 17:23

【Flink 实战系列】Flink CDC 实时同步 Mysql 全量加增量数据到 Hudi

【Flink实战系列】FlinkCDC实时同步Mysql全量加增量数据到Hudi前言FlinkCDC是基于Flink开发的变化数据获取组件（Changedatacapture），简单的说就是来捕获变更的数据

JasonLee实时计算·2025-01-24 09:31

基于MRS-Hudi构建数据湖的典型应用场景介绍

一、传统数据湖存在的问题与挑战传统数据湖解决方案中，常用Hive来构建T+1级别的数据仓库，通过HDFS存储实现海量数据的存储与水平扩容，通过Hive实现元数据的管理以及数据操作的SQL化。虽然能够在海量批处理场景中取得不错的效果，但依然存在如下现状问题：问题一：不支持事务由于传统大数据方案不支持事务，有可能会读到未写完成的数据，造成数据统计错误。为了规避该问题，通常控制读写任务顺序调用，在保证写

华为云技术精粹·2025-01-23 04:50

HUDI-0.11.0 BUCKET index on Flink 特性试用

当前环境：Flink1.13.2+Hudi0.11.0（master2022.04.11）+COW+HDFS。关键配置项：index.type=BUCKEThoodie.buc

_Magic·2025-01-22 23:06

大数据新视界 --大数据大厂之 Hudi 数据湖框架性能提升：高效处理大数据变更

亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：大数

青云交·2025-01-19 05:49

兼容 Trino Connector，扩展 Apache Doris 数据源接入能力｜Lakehouse 使用手册

ApacheDoris内置支持包括Hive、Iceberg、Hudi、Paimon、LakeSoul、JDBC在内的多种Catalog，并为其提供原生高性能且稳定的访问能力，以满足与数据湖的集成需求。

vvvae1234·2024-09-11 19:17

实时数仓之实时数仓架构(Hudi)(1)

本文针对Flink+Hudi湖仓一体架构进行介绍，这套架构的特点是可以基于一套数据完全实现Lambda架构。

2401_84164527·2024-09-09 19:34

2024年大数据最新实时数仓之实时数仓架构(Hudi)

方式，如果通过Kafka缓冲接入业务数据可以忽略;Flink：用于数据ETL，包括接入数据、处理数据及输出数据全链路数据计算任务；Spark：用于数据ETL，包括处理数据及输出数据全链路数据计算任务；Hudi

2401_84185556·2024-09-09 19:34

实时数仓之实时数仓架构(Hudi)(1)，2024年最新熬夜整理华为最新大数据开发笔试题

+Hudi：湖仓一体数据管理框架，用来管理模型数据，包括ODS/DWD/DWS/DIM/ADS等；+Doris：OLAP引擎，同步数仓结果模型，对外提供数据服务支持；+Hbase：用来存储维表信息，维表数据来源一部分有

2401_84181221·2024-09-09 19:04

Apache Doris + Iceberg 快速搭建指南｜Lakehouse 使用手册（三）

我们将通过一系列文章介绍ApacheDoris与各类主流数据湖格式及存储系统的湖仓一体架构搭建指南，包括Hudi、Paimon、Iceberg、OSS、DeltaLake、K

SelectDB技术团队·2024-08-24 10:25

Apache Hudi 表逻辑结构

便于对Hudi的设计理念和表的组织格式进行直观的理解。数据由官网示例运行后产生。

正东偏西·2024-02-25 19:34

一种Hudi on Flink动态同步元数据变化的方法

文章目录一、背景二、官方SchemaEvolution例子三、Flink+Hudi实现SchemaEvolution四、`HoodieFlinkStreamer`流程浅析及扩展方法4.1FlinkKafkaConsumer4.2RowDataToHoodieFunction4.3StreamWriteFunction4.4StreamWriteOperatorCoordinator4.5Compa

0x3E6·2024-02-20 10:30

Flink Catalog 解读与同步 Hudi 表元数据的最佳实践

博主历时三年精心创作的《大数据平台架构与原型实现：数据中台建设实战》一书现已由知名IT图书品牌电子工业出版社博文视点出版发行，点击《重磅推荐：建大数据平台太难了！给我发个工程原型吧！》了解图书详情，京东购书链接：https://item.jd.com/12677623.html，扫描左侧二维码进入京东手机购书页面。在当前的大数据格局中，Spark/Hive/Flink是最为主流的ETL或Strea

　Laurence·2024-02-20 06:28

Spark 使用之操作Hudi表

HudiSpark使用本篇为大家带来通过Sparkshell和SparkSQL操作Hudi表的方式。

AlienPaul·2024-02-11 14:52

大数据术语系列（1）——COW和MOR，我如何使用chatgpt通俗易懂地理解了hudi这两种表类型

从传统数据库到大数据的转变，首当其冲的是各种术语的理解。所以我与chatgpt发生了一系列对话，以便于我能快速理解这些术语。我先把汇总的结果放在前边，后边会一步步地来说明我是如何获取这些信息的。前边我也发过一些关于chatgpt提示词相关的文章，能更好地帮助我们与chatgpt进行沟通。提示词工程技术CopyonWrite(COW)和MergeonRead(MOR)两种模式的主要特点和区别：特性/

nigulasimao·2024-02-10 09:34

2022-02-07 Iceberg源码阅读（一）

数据湖是近年来比较火热的领域，ApacheIceberg被誉为数据湖技术“三剑客”（DeltaLake、Hudi、Iceberg）之一，而iceberg高度抽象和优雅的设计成为了它最吸引人的优势，这一点也是我阅读

星路旅行者·2024-02-08 07:23

Zeppelin结合Flink查询hudi数据

关于ZeppelinZeppelin是基于Web的notebook，是支持使用SQL、Scala、Python、R等进行数据驱动的交互式数据分析和协作的Notebook。Zeppelin支持多种语言后端，ApacheZeppelin解释器允许将任何语言/数据处理后端插入Zeppelin。目前ApacheZeppelin支持ApacheSpark、ApacheFlink、Python、R、JDBC、

BigDataToAI·2024-02-07 05:38

Apache Zeppelin 整合 Spark 和 Hudi

一环境信息1.1组件版本组件版本Spark3.2.3Hudi0.14.0Zeppelin0.11.0-SNAPSHOT1.2环境准备Zeppelin整合Spark参考：ApacheZeppelin一文打尽

大数据AI·2024-02-07 05:03

FlinkCDC-Hudi:Mysql数据实时入湖全攻略五：FlinkSQL同时输出到kafka与hudi的几种实现

前序：FlinkCDC-Hudi系列文章：FlinkCDC-Hudi:Mysql数据实时入湖全攻略一：初试风云FlinkCDC-Hudi:Mysql数据实时入湖全攻略二：Hudi与Spark整合时所遇异常与解决方案

大数据点灯人·2024-02-06 08:25

Flink CDC 与 Kafka 集成：State Snapshot 还是 Changelog？Kafka 还是 Upsert Kafka？

我们知道，尽管FlinkCDC可以越过Kafka，将关系型数据库中的数据表直接“映射”成数据湖上的一张表（例如Hudi等），但从整体架构上考虑，维护一个Kafka集群作为数据接入的统一管道是非常必要的，

　Laurence·2024-02-06 08:52

Hudi学习6：安装和基本操作

目录1编译Hudi1.1第一步、Maven安装1.2第二步、下载源码包1.3第三步、添加Maven镜像1.4第四步、执行编译命令1.5第五步、HudiCLI测试2环境准备2.1安装HDFS2.2安装Spark3

hzp666·2024-02-05 14:59

Hudi学习1：概述

Hudi概念Hudi跟hive很像，不存储数据，只是管理hdfs数据。

hzp666·2024-02-05 14:59

Hudi学习 6：Hudi使用

1096891432.安装sparkspark学习4：spark安装_hzp666的博客-CSDN博客3.安装ScalaHudi学习6：安装和基本操作_hzp666的博客-CSDN博客spark-shell写入和读取hudi2

hzp666·2024-02-05 14:58

hudi实战-- 核心点解析

目录Hudi基础功能Hudi简介Hudi功能Hudi的特性Hudi的架构Hudi数据管理Hudi表数据结构hoodie文件数据文件数据存储概述Metadata元数据Index索引索引策略Data数据Hudi

阿华田512·2024-02-05 08:17

flink实战--FlinkSQl实时写入hudi表元数据自动同步到hive

简介为了实现hive,trino等组件实时查询hudi表的数据，可以通过使用Hivesync。在Flink操作表的时候，自动同步Hive的元数据。

阿华田512·2024-02-05 08:46

Fink CDC数据同步（六）数据入湖Hudi

数据入湖HudiApacheHudi(简称：Hudi)使得您能在hadoop兼容的存储之上存储大量数据，同时它还提供两种原语，使得除了经典的批处理之外，还可以在数据湖上进行流处理。

大数据_苡~·2024-02-04 16:21

Hadoop2.7.6+Mysql5.7+Hive2.3.2+zookeeper3.4.6+kafka2.11+Hbase1.4.9+Sqoop1.4.7+Kylin2.4单机伪分布式安装及官方案例测

####################################################################最新消息：关于spark和Hudi的安装部署文档，本人已经写完，连接

运维道上奔跑者·2024-02-04 05:43

初识Apache Paimon

ApacheIceberg：由Netflix设计的一种数据湖项目，其采用了异于Hudi的文件布局方式，自身定

Racin_01·2024-02-03 12:30

CDC 整合方案：Flink 集成 Confluent Schema Registry 读取 Debezium 消息写入 Hudi

本文介绍的整体方案选型是：使用KafkaConnect的DebeziumMySQLSourceConnector将MySQL的CDC数据（Avro格式）接入到Kafka之后，通过Flink读取并解析这些CDC数据，其中，数据是以Confluent的Avro格式存储的，也就是说，Avro格式的数据在写入到Kafka以及从Kafka读取时，都需要和ConfluentSchemaRegistry进行交互

　Laurence·2024-02-03 01:35

实时数据湖：Flink CDC流式写入Hudi

点击上方蓝色字体，选择“设为星标”回复"面试"获取更多惊喜1.环境准备•Flink1.12.2_2.11•Hudi0.9.0-SNAPSHOT(master分支)•Spark2.4.5、Hadoop3.1.3

王知无(import_bigdata)·2024-02-02 12:01

使用 Flink Hudi 构建流式数据湖

用户可以通过FlinkSQL将CDC数据实时写入Hudi存储，且在即将发布的0.9版本Hudi原生支持CDCformat。

浪尖聊大数据-浪尖·2024-02-02 12:30

Flink 流式读取 Debezium CDC 数据写入 Hudi 表无法处理 -D / Delete 消息

KafkaConnect的DebeziumMySQLSourceConnector将MySQL的CDC数据（Avro格式）接入到Kafka之后，通过Flink读取并解析这些CDC数据，然后以流式方式写入到Hudi

　Laurence·2024-02-02 12:56

Flink 读取 Kafka 消息写入 Hudi 表无报错但没有写入任何记录的解决方法

博主历时三年精心创作的《大数据平台架构与原型实现：数据中台建设实战》一书现已由知名IT图书品牌电子工业出版社博文视点出版发行，点击《重磅推荐：建大数据平台太难了！给我发个工程原型吧！》了解图书详情，京东购书链接：https://item.jd.com/12677623.html，扫描左侧二维码进入京东手机购书页面。本问题发生的场景是：使用KafkaConnect的DebeziumMySQLSour

　Laurence·2024-02-01 15:24

Flink Hudi 源码之HoodieTableSink

Flink源码分析系列文档目录请点击：Flink源码分析系列文档目录源代码分支release-0.9.0Hudi源代码GitHub地址：apache/hudi:Upserts,DeletesAndIncrementalProcessingonBigData

AlienPaul·2024-01-31 15:09

Flink 添加 / 部署 Jar 包的若干注意事项

Flink添加/部署Jar包可根据Jar包的声明周期、作用范围选择不同的附属方式，从实际应用上来看，可以分成以下几种场景：普遍使用的框架或基础设施级别的Jar包，例如Kafka、Hive、Hudi等Connector

　Laurence·2024-01-31 09:01

推荐频道