iceberg

现代数据湖架构全景解析：存储、表格式、计算引擎与元数据服务的协同生态

本文全面剖析现代数据湖架构的核心组件，深入探讨对象存储（OSS/S3）、表格式（Iceberg/Hudi/DeltaLake）、计算引擎（Spark/Flink/Presto）及元数据服务（HMS/Amoro

讲文明的喜羊羊拒绝pua·2025-06-26 00:46

Apache Doris 3.0.6 版本正式发布

下载官网下载行为变更禁止Unique表使用时序Compaction#49905存算分离场景下AutoBucket单分桶容量调整为10GB#50566新特性Lakehouse支持访问AWSS3TableBuckets中的Iceberg

·2025-06-24 21:00

Apache Doris 3.0.6 版本正式发布

GitHub下载官网下载行为变更禁止Unique表使用时序Compaction存算分离场景下AutoBucket单分桶容量调整为10GB新特性Lakehouse支持访问AWSS3TableBuckets中的Iceberg

SelectDB技术团队·2025-06-23 03:49

Iceberg与Hive集成深度

一、Iceberg在Hive中的ACID事务实现与实战1.1传统Hive的事务局限性Hive原生仅支持非事务表（Non-ACID），存在以下痛点：不支持行级更新/删除并发写入时数据一致性无法保证无事务回滚机制历史版本查询需手动实现

Edingbrugh.南空·2025-06-17 10:53

Doris数据集成 Apache Iceberg

Doris数据集成ApacheIcebergApacheIceberg是一种开源、高性能、高可靠的数据湖表格式，可实现超大规模数据的分析与管理。它支持ApacheDoris在内的多种主流查询引擎，兼容HDFS以及各种对象云存储，具备ACID、Schema演进、高级过滤、隐藏分区和分区布局演进等特性，可确保高性能查询以及数据的可靠性及一致性，其时间旅行和版本回滚功能也为数据管理带来较高的灵活性。Ap

猫猫姐·2025-06-17 10:21

湖仓融合的“最后一公里”：StarRocks 存算分离如何优化湖上实时分析？

现代数据湖格式如Iceberg

镜舟科技·2025-06-09 05:09

iceberg整合hive（从hive读取iceberg表数据）实践02

目录实现目标：1，创建hadoopcatalog在zeppelin创建hadoopcatalog2，创建基于hadoop_catalog的iceberg表3,从hadoop_catalog来创建hive

黄瓜炖啤酒鸭·2025-06-05 17:08

Databend 产品月报（2025年5月）

五月更新亮点重磅功能NgramIndex-让LIKE'%pattern%'查询飞起来，自带bloomfilter加速Iceberg功能增强-新增ORC文件支持，数据缓存和merge-on-read优化AVRO

·2025-05-28 20:47

Hudi、Iceberg 、 Paimon 数据湖选型对比

Hudi、Iceberg和Paimon是当前数据湖领域的三大主流开源框架，均致力于解决数据湖场景下的增量更新、事务支持、元数据管理、流批统一等核心问题，但设计理念和适用场景存在差异。

菜鸟冲锋号·2025-05-19 13:20

Doris + Iceberg 构建冷热分层数据湖架构：架构设计与实战指南

在海量数据治理与存储演进中，冷热数据分层已成为降本增效的关键策略。本篇将深入探讨如何结合ApacheDoris与ApacheIceberg构建一套高性能、可扩展的数据湖架构，支持冷热数据自动分层、快速查询与灵活扩展。一、背景：为什么需要冷热数据分层？在实际的大数据场景中，数据按照访问频率与实时性可分为：类型特征常见场景热数据最近1小时/1天的数据，查询频繁实时指标、监控、运营分析冷数据近7天、30

晴天彩虹雨·2025-04-21 13:49

Seatunnel系列之：Apache Iceberg sink connector和往Iceberg同步数据任务示例

Seatunnel系列之：ApacheIcebergsinkconnector和往Iceberg同步数据任务示例一、支持的Iceberg版本二、支持的引擎三、描述四、支持的数据源信息五、数据库依赖六、数据类型映射七

快乐骑行^_^·2025-04-12 18:01

Flink+Iceberg搭建实时数据湖实战

第一部分：Iceberg核心功能原理剖析：ApacheIceberg摘自官网：Apache Iceberg is an open table format for huge analytic datasets

王知无(import_bigdata)·2025-04-12 18:30

Flink读取Kafka数据写入IceBerg（HiveCatalog）

Readmejava8flink1.13kafka3iceberg0.13链路：Kafka->Flink->IceBerg（HiveCatalog）代码importorg.apache.flink.api.common.serialization.SimpleStringSchema

徐一闪_BigData·2025-04-09 18:34

AutoMQ x OSS 的 Iceberg 数据入湖的最佳实践

背景在数字化转型进程中，用户交互行为产生的多维度数据已成为企业的重要战略资产。以短视频平台为例，基于用户点赞事件的实时推荐算法能显著提升用户活跃度和平台粘性。这类实时数据主要通过ApacheKafka流处理平台进行传输，通过其扇出（Fanout）机制实现多业务系统的并行消费。企业的数据应用需求呈现双重特性：一方面需要实时流处理能力，另一方面需要依托历史数据进行多维聚合分析。大数据分析技术经过多年演

·2025-04-07 22:40

Debezium系列之：使用Debezium和Apache Iceberg构建数据湖

Debezium系列之：使用Debezium和ApacheIceberg构建数据湖DebeziumServerIceberg“DebeziumServerIceberg”消费者设置数据复制Upsert模式保留已删除的记录使用Upsert模式追加模式优化批处理大小在数据分析的世界中，数据湖是存储和管理大量数据以满足数据分析、报告或机器学习需求的流行选择。在这篇博客文章中，我们将描述一种构建数据湖的简

快乐骑行^_^·2025-03-29 17:33

数据湖和Apache Iceberg，Apache Hudi，Delta Lake

1什么是数据湖？数据湖这个词目前已经流行开来，逐步被数据相关的从业者接受，可能还有很多人不太清楚它和Hadoop，Hive，Spark这些大数据系统的区别，简单说数据湖是个业务概念，主要是为了区别传统数仓这个概念的（传统数仓的定义：datawarehouse，是用于报告和数据分析的系统，被认为是商业智能的核心组件）。为什么说是“传统数仓”，因为Hadoop于2006年诞生至今已有10多年了，在这期

西土城计划·2025-03-27 05:17

Apache Iceberg 解析，一文了解Iceberg定义、应用及未来发展

什么是Iceberg？

镜舟科技·2025-03-27 05:17

如何利用 StarRocks 加速 Iceberg 数据湖的查询效率

本文将探讨如何利用开源项目StarRocks来提升Iceberg的查询效率，为企业提供更快速、更灵活的数据分析能力。作为StarRocks社区的主要贡献者和商业化公司，镜舟科技深度参与 S

镜舟科技·2025-03-27 05:16

数据湖Iceberg、Hudi和Paimon比较_数据湖框架对比(1)

4.Schema变更支持对比项ApacheIcebergApacheHudiApachePaimonSchemaEvolutionALLback-compatibleback-compatibleSelf-definedschemaobjectYESNO(spark-schema)NO（我理解，不准确）SchemaEvolution：指schema变更的支持情况，我的理解是hudi仅支持添加可选列

2301_79098963·2025-03-23 17:45

数据湖：Apache Iceberg在腾讯的探索和实践

摘要：今天分享的是ApacheIceberg在腾讯内部的探索和实践。本文结合腾讯大数据技术分享内容和2020全球软件开发大会分享内容进行整理，主要内容包括：1、数据湖技术概述2、ApacheIceberg的简介3、腾讯为什么选择ApacheIceberg4、腾讯看点万亿数据下的业务痛点5、ApacheIceberg在看点实践6、ApacheIceberg读写和删除ApacheIceberg新一代数

学而知之@·2025-03-20 00:15

Apache Doris整合Iceberg + Flink CDC构建实时湖仓体的联邦查询分析架构

在这篇文章中，我们将探讨如何利用ApacheDoris整合Iceberg和FlinkCDC来构建这样一个架构，并提供相应的源代码示例。

MfvShell·2025-03-20 00:10

使用 Doris 和 Iceberg

自0.15版本起，ApacheDoris引入Hive和Iceberg

向阳1218·2025-03-15 15:10

使用 Doris 和 LakeSoul

自0.15版本起，ApacheDoris引入Hive和Iceberg

向阳1218·2025-03-15 15:10

如何设计高效的数据湖架构？

本篇文章将深入探讨数据湖架构的设计方法，结合Hudi、Iceberg、DeltaLake等技术

晴天彩虹雨·2025-03-14 02:41

数据湖架构与实时数仓实践：Hudi、Iceberg、Kafka + Flink + Spark

1.引言：数据湖与数据仓库的融合趋势在大数据时代，传统的数据仓库（DataWarehouse,DW）因其强一致性和高效查询能力，一直是企业数据分析的核心。然而，随着数据量和数据类型的爆炸式增长，传统数据仓库的存储成本和数据管理难度逐渐增加。为了解决这些问题，数据湖（DataLake）概念应运而生。数据湖能够存储原始数据，支持半结构化和非结构化数据，提供更灵活的计算框架，但其缺乏事务管理和数据一致性

晴天彩虹雨·2025-03-10 03:22

架构师论文《论湖仓一体架构及其应用》

本项目采用Iceberg+Spark架构实现湖仓一

pccai-vip·2025-02-25 12:28

Apache Iceberg 与 Apache Hudi：数据湖领域的双雄对决

在数据存储和处理不断发展的领域中，数据湖仓的概念已经崭露头角，成为了一种变革性的力量。数据湖仓结合了数据仓库和数据湖的最佳元素，提供了一个统一的平台，支持数据科学、商业智能、人工智能/机器学习以及临时报告等多种关键功能。这种创新的方法不仅促进了实时分析，还显著降低了平台成本，增强了数据治理，并加速了用例的实现。数据存储和处理的演变催生了被称为数据湖仓的现代分析平台。这些平台旨在解决传统架构的局限性

夜里慢慢行456·2025-02-15 12:35

【Apache Paimon】-- 2 -- 核心特性（0.9.0）

目录1、实时更新1.1、实时大批量更新1.2、支持定义合并引擎1.3、支持定义更新日志生成器2、海量数据追加处理2.1、appendtable2.2、快速查询3、数据湖功能（类比：hudi、iceberg

oo寻梦in记·2025-02-09 16:38

Apache Iceberg数据湖技术在海量实时数据处理、实时特征工程和模型训练的应用技术方案和具体实施步骤及代码

Iceberg支持实时特征工程和模型训练，特别适用于需要处理海量实时数据的机器学习工作流。Iceberg作为数据湖，以支持其机器学习平台中的特征存储。

weixin_30777913·2025-02-03 15:07

Flink Connector 写入 Iceberg 流程源码解析_confluent icebergsinkconnector

//添加Writer算子，有并行度SingleOutputStreamOperatorwriterStream=appendWriter(distributeStream,flinkRowType,equalityFieldIds);//添加Commit算子，并行度固定为1SingleOutputStreamOperatorcommitterStream=appendCommitter(write

字节全栈_mMD·2025-02-01 20:16

StarRocks Lakehouse 快速入门——Apache Iceberg

导读：StarRocksLakehouse快速入门旨在帮助大家快速了解湖仓相关技术，内容涵盖关键特性介绍、独特的优势、使用场景和如何与StarRocks快速构建一套解决方案。最后大家也可以通过用户真实的使用场景来了解StarRocksLakehouse的最佳实践！ApacheIceberg介绍ApacheIceberg是一种为大规模、复杂数据集设计的开源表格式，这些数据集跨越了PB级别的数据。最初

·2025-01-20 22:13

StarRocks分布式元数据源码解析

1.支持元数据表https://github.com/StarRocks/starrocks/pull/44276/files核心类：LogicalIcebergMetadataTable，Iceberg

不甚了然·2024-09-13 15:02

兼容 Trino Connector，扩展 Apache Doris 数据源接入能力｜Lakehouse 使用手册

ApacheDoris内置支持包括Hive、Iceberg、Hudi、Paimon、LakeSoul、JDBC在内的多种Catalog，并为其提供原生高性能且稳定的访问能力，以满足与数据湖的集成需求。

vvvae1234·2024-09-11 19:17

关于Apache Hive 和 Apache Iceberg

ApacheHive和ApacheIceberg都是大数据生态系统中的重要工具，但它们解决的问题和扮演的角色有所不同。我们可以用大白话来比喻它们之间的关系：ApacheHive可以想象成一个“数据仓库超市”，它的货架上摆满了各种商品（数据），并且提供了一个购物车（HiveQL，一种类SQL语言），让你可以方便地从这些商品中挑选你想要的，进行购买（查询）。Hive主要负责将Hadoop的数据组织成表

[听得时光枕水眠]·2024-09-04 17:55

大数据学习｜理解和对比 Apache Hive 和 Apache Iceberg

Iceberg:Iceberg设计为一个现代的表格

进击的小白菜·2024-09-04 16:50

Apache Doris + Iceberg 快速搭建指南｜Lakehouse 使用手册（三）

我们将通过一系列文章介绍ApacheDoris与各类主流数据湖格式及存储系统的湖仓一体架构搭建指南，包括Hudi、Paimon、Iceberg、OSS、DeltaLake、K

SelectDB技术团队·2024-08-24 10:25

关于Apache Iceberg

ApacheIceberg是一种为大数据湖设计的现代化、开放式的表格式。要理解它，我们先来看看它要解决的问题以及为什么需要它。冰山下的问题在大数据领域，数据湖是一个存储原始数据的集中式存储库，数据以接近其原始形式保存，没有经过结构化处理。然而，传统的数据湖面临一些挑战：数据管理困难：数据湖中的数据缺乏结构化的管理，很难追踪数据的变化历史，难以进行有效的数据清理和更新。ACID事务支持缺失：ACID

[听得时光枕水眠]·2024-08-23 02:33

2022-02-07 Iceberg源码阅读（一）

数据湖是近年来比较火热的领域，ApacheIceberg被誉为数据湖技术“三剑客”（DeltaLake、Hudi、Iceberg）之一，而iceberg高度抽象和优雅的设计成为了它最吸引人的优势，这一点也是我阅读

星路旅行者·2024-02-08 07:23

Apache Iceberg 是什么？

前言本文隶属于专栏《大数据技术体系》，该专栏为笔者原创，引用请注明来源，不足和错误之处请在评论区帮忙指出，谢谢！本专栏目录结构和参考文献请见大数据技术体系WHATApacheIceberg是一种用于庞大分析数据集的开放表格式。表格式（TableFormat）的功能是确定该如何管理、组织和跟踪构成表的所有文件。可以将其视为物理数据文件（用Parquet或ORC等编写）以及它们如何结构形成表之间的抽象

Shockang·2024-02-07 10:57

【Iceberg学习一】什么是Iceberg？

Iceberg为包括Spark、Trino、PrestoDB、Flink、Hive和Impala在内的计算引擎增加了表格功能，使用一种高性能的表格格式，其工作方式就像一个SQL表一样。

周润发的弟弟·2024-02-07 10:56

【Iceberg表规范】Manifests(manifest files)、Snapshots和Table Metadata

Snapshots2.1ManifestList2.2ScanPlanning2.3SnapshotReference快照引用3.TableMetadata1.Manifests(manifestfiles)manifestfile也是一个datafile，使用Iceberg

Bulut0907·2024-02-06 07:26

Apache Iceberg 中文教程1-分支和标签

ApacheIceberg中文教程1-分支和标签文章目录ApacheIceberg中文教程1-分支和标签概述使用场景历史标签示例审计分支示例使用方法概述Iceberg表格元数据维护一个快照日志，记录对表格所做的更改

BigDataMLApplication·2024-02-06 07:54

【Iceberg学习三】Reporting和Partitioning原理

MetricsReportingTypeofReports从1.1.0版本开始，Iceberg支持MetricsReporter和MetricsReportAPI。

周润发的弟弟·2024-02-06 07:53

【Iceberg学习四】Evolution和Maintenance在Iceberg的实现

Iceberg不需要像重写表数据或迁移到新表这样耗费资源的操作。例如，Hive表的分区布局无法更改，因此从每日分区布局变更到每小时分区布局需要新建一个表。

周润发的弟弟·2024-02-06 07:53

【Iceberg学习五】Iceberg中性能和可靠性保证

Performance性能Iceberg旨在处理巨大的表格，在生产环境中使用，单个表格可以包含数十PB（拍字节）的数据。

周润发的弟弟·2024-02-06 07:53

【Iceberg学习二】Branch和Tag在Iceberg中的应用

Iceberg表元数据保持一个快照日志，记录了对表所做的更改。快照在Iceberg中至关重要，因为它们是读者隔离和时间旅行查询的基础。

周润发的弟弟·2024-02-06 07:19

开启夏日书籍补完计划

目前打算读的有《梦书之城》《铁鼠之槛》《野果》《博物自在》《东方快车谋杀案》《织色入史笺》先放一张《梦书之城》和新入的尤克里里的图，他们好美尤克里里的名字是Iceberg

逸笔我流·2024-02-03 12:21

Apache Doris 整合 FLINK CDC + Iceberg 构建实时湖仓一体的联邦查询

1概况本文展示如何使用FlinkCDC+Iceberg+Doris构建实时湖仓一体的联邦查询分析，Doris1.1版本提供了Iceberg的支持，本文主要展示Doris和Iceberg怎么使用，大家按照步骤可以一步步完成

京东云技术团队·2024-02-03 02:58

Iceberg从入门到精通系列之二十四：Spark Structured Streaming

Iceberg从入门到精通系列之二十四：SparkStructuredStreaming一、StreamingReads二、StreamingWrites三、Partitionedtable四、流表的维护

最笨的羊羊·2024-02-02 12:52

推荐频道

iceberg

现代数据湖架构全景解析：存储、表格式、计算引擎与元数据服务的协同生态

Apache Doris 3.0.6 版本正式发布

Apache Doris 3.0.6 版本正式发布

Iceberg与Hive集成深度

Doris数据集成 Apache Iceberg

湖仓融合的“最后一公里”：StarRocks 存算分离如何优化湖上实时分析？

iceberg整合hive（从hive读取iceberg表数据）实践02

Databend 产品月报（2025年5月）

Hudi、Iceberg 、 Paimon 数据湖选型对比

Doris + Iceberg 构建冷热分层数据湖架构：架构设计与实战指南

推荐干货 | Apache Iceberg 快速入门课程（视频+代码+资料+学习笔记）.zip

Seatunnel系列之：Apache Iceberg sink connector和往Iceberg同步数据任务示例

Flink+Iceberg搭建实时数据湖实战

Flink读取Kafka数据写入IceBerg（HiveCatalog）

AutoMQ x OSS 的 Iceberg 数据入湖的最佳实践

Debezium系列之：使用Debezium和Apache Iceberg构建数据湖

数据湖和Apache Iceberg，Apache Hudi，Delta Lake

Apache Iceberg 解析，一文了解Iceberg定义、应用及未来发展

如何利用 StarRocks 加速 Iceberg 数据湖的查询效率

数据湖Iceberg、Hudi和Paimon比较_数据湖框架对比(1)

数据湖：Apache Iceberg在腾讯的探索和实践

Apache Doris整合Iceberg + Flink CDC构建实时湖仓体的联邦查询分析架构

使用 Doris 和 Iceberg

使用 Doris 和 LakeSoul

如何设计高效的数据湖架构？

数据湖架构与实时数仓实践：Hudi、Iceberg、Kafka + Flink + Spark

架构师论文《论湖仓一体架构及其应用》

Apache Iceberg 与 Apache Hudi：数据湖领域的双雄对决

【Apache Paimon】-- 2 -- 核心特性 （0.9.0）

Apache Iceberg数据湖技术在海量实时数据处理、实时特征工程和模型训练的应用技术方案和具体实施步骤及代码

Flink Connector 写入 Iceberg 流程源码解析_confluent icebergsinkconnector

StarRocks Lakehouse 快速入门——Apache Iceberg

StarRocks分布式元数据源码解析

兼容 Trino Connector，扩展 Apache Doris 数据源接入能力｜Lakehouse 使用手册

关于Apache Hive 和 Apache Iceberg

大数据学习｜理解和对比 Apache Hive 和 Apache Iceberg

Apache Doris + Iceberg 快速搭建指南｜Lakehouse 使用手册（三）

关于Apache Iceberg

2022-02-07 Iceberg源码阅读（一）

Apache Iceberg 是什么？

【Iceberg学习一】什么是Iceberg？

【Iceberg表规范】Manifests(manifest files)、Snapshots和Table Metadata

Apache Iceberg 中文教程1-分支和标签

【Iceberg学习三】Reporting和Partitioning原理

【Iceberg学习四】Evolution和Maintenance在Iceberg的实现

【Iceberg学习五】Iceberg中性能和可靠性保证

【Iceberg学习二】Branch和Tag在Iceberg中的应用

开启夏日书籍补完计划

Apache Doris 整合 FLINK CDC + Iceberg 构建实时湖仓一体的联邦查询

Iceberg从入门到精通系列之二十四：Spark Structured Streaming

【Apache Paimon】-- 2 -- 核心特性（0.9.0）