paimon

Paimon在各大公司生产实践和优化总结

这是一篇汇总和个人学习文章，主要目的是总结一下Paimon在各大公司的落地做一个学习笔记。

王知无(import_bigdata)·2025-06-27 02:11

Doris 数据集成 Apache Paimon

Doris数据集成ApachePaimon湖仓一体（DataLakehouse）融合了数据仓库的高性能、实时性以及数据湖的低成本、灵活性等优势，帮助用户更加便捷地满足各种数据处理分析的需求。在过去多个版本中，ApacheDoris持续加深与数据湖的融合，已演进出一套成熟的湖仓一体解决方案。为便于用户快速入门，我们将通过系列文章介绍ApacheDoris与各类主流数据湖格式及存储系统的湖仓一体架构搭

猫猫姐·2025-06-20 23:08

Hive集成Paimon

将Hive与Paimon进行集成，能够充分融合两者优势，实现数据的高效存储、实时处理与灵活分析

Edingbrugh.南空·2025-06-20 22:07

Flink读取Kafka写入Paimon

FlinkSQL--1）注册Paimon源CREATECATALOGpaimon_hiveWITH('type'='paimon','warehouse'='hdfs://xxxxx/paimon','

·2025-06-13 17:30

Paimon生产环境问题小总结

本文主要总结一下过去使用Paimon的过程中遇到的一些问题，在这个过程中参考了官网、各大云平台的文档，以及参考了大量Gituhub和社区讨论的内容。

atbigapp.com·2025-06-13 07:12

Paimon（数据湖框架）概述

文章目录一、数据湖二、什么是Paimon三、Paimon中的数据存储格式四、Paimon的核心特性五、Paimon的大规模实时更新六、LSM数据结构的核心思想一、数据湖数据湖就是：一种能够满足海量存储和海量分析的系统架构方案

lzhlizihang·2025-06-10 00:26

Hudi、Iceberg 、 Paimon 数据湖选型对比

Hudi、Iceberg和Paimon是当前数据湖领域的三大主流开源框架，均致力于解决数据湖场景下的增量更新、事务支持、元数据管理、流批统一等核心问题，但设计理念和适用场景存在差异。

菜鸟冲锋号·2025-05-19 13:20

入门向：下一代实时计算基础设施-Fluss

用在数据湖场景，比如配合Paimon，那么就可以当作一个实时层，整个链路的延迟会更低。总体

·2025-05-14 23:00

基于Flink+Hologres搭建实时数仓

Paimon创新地将湖格式与LSM技术结合起来，给数据湖带来了实时流更新以及完整的流处理能力。借助实时计算Flink版与ApachePaimon，可以快速地在云端OSS上构建数据湖存储服务。

soso1968·2025-05-09 08:39

【大数据】服务器上部署Apache Paimon

Java环境:Paimon依赖Java，推荐安装JDK8或更高版本。Flink环境:Paimon是基于ApacheFlink的存储系统，因此需要先部署Flink集群。

大数据追光猿·2025-05-07 09:43

鹰角基于 Flink + Paimon + Trino 构建湖仓一体化平台实践项目

摘要：本文整理自鹰角大数据开发工程师，ApacheHudiContributor朱正军老师在FlinkForwardAsia2024生产实践（二）专场中的分享。主要分为以下四个部分：一、鹰角数据平台架构二、数据湖选型三、湖仓一体建设四、未来展望一、鹰角数据平台架构首先给大家介绍一下鹰角目前的数据平台架构。在介绍之前，关于鹰角我先给大家做简单的介绍。1.1关于鹰角鹰角网络，也称为HYPERGRYPH

·2025-04-17 04:47

一图搞定Flink Oracle CDC 同步至Paimon（持续更新）

一图搞定FlinkOracleCDC同步至Paimon（持续更新）本文以Flink1.18、FLinkCDC3.1为环境，配置FlinkCDC同步Oracle的数据至Paimon环境配置依赖Mavenorg.apache.flinkflink-connector-oracle-cdc3.1.0SQLClient

YJJUPUPUP·2025-04-13 20:13

Flink CDC 同步表至Paimon 写数据流程，write算子和commit算子。

FlinkCDC同步表至Paimon写数据流程，write算子和commit算子。

YJJUPUPUP·2025-04-13 20:13

Paimon 集成Flink CDC (一） MySQL

Paimon集成并封装了flinkCDC,并实现了多种cdc同步功能,如实时增量数据入湖，整库同步，表结构变更等。

祺嘉朱·2025-04-13 19:12

Flink+Paimon/Hudi+Doris湖仓架构在各大公司落地的一些总结

记录一下各大公司落地湖仓项目的主要解决的问题和收益，从这些已经有的实践中吸收一些经验。参考的分享文档在文章末尾。一些背景阿里妈妈：实时广告决策驱动淘天集团商业数智营销中台，阿里妈妈日均处理千亿级广告请求，传统Lambda架构导致实时与离线数据割裂，无法满足分钟级预算调控需求。广告归因分析需跨时段行为关联，要求数据更新延迟低于50ms，同时需支持700GB/h的高并发写入。腾讯视频：指标治理与时效压

王知无(import_bigdata)·2025-03-26 20:07

Apache Paimon：开启实时湖仓存储新时代

ApachePaimon：开启实时湖仓存储新时代前言ApachePaimon前言在当今数字化浪潮汹涌澎湃的时代，数据已成为企业最为宝贵的资产之一。如何高效地处理、存储和利用这些海量数据，成为了企业在激烈竞争中脱颖而出的关键。而在数据处理的广阔领域中，ApachePaimon宛如一颗冉冉升起的新星，以其强大的功能和创新的技术，为实时湖仓存储带来了全新的变革。随着企业业务的不断发展和数据量的急剧增长，

大数据AI智能圈·2025-03-26 19:06

数据湖Iceberg、Hudi和Paimon比较_数据湖框架对比(1)

4.Schema变更支持对比项ApacheIcebergApacheHudiApachePaimonSchemaEvolutionALLback-compatibleback-compatibleSelf-definedschemaobjectYESNO(spark-schema)NO（我理解，不准确）SchemaEvolution：指schema变更的支持情况，我的理解是hudi仅支持添加可选列

2301_79098963·2025-03-23 17:45

【Apache Paimon】-- 13 -- 利用 paimon-flink-action 同步 mysql 表数据

利用PaimonSchemaEvolution核心特性同步变更的mysql表结构和数据1、背景信息在Paimon诞生以前，若mysql/pg等数据源的表结构发生变化时，我们有几种处理方式（1）人工通知（

oo寻梦in记·2025-03-02 04:51

paimon实战 -- 数据写入和更新底层数据流转解读

Paimon的数据结构在Paimon中一张表的所有数据文件都存在一个层级的目录中。其中第一层包含3个文件夹，分别是snapshot、manifest、schema和data。

阿华田512·2025-02-24 03:04

鹰角基于 Flink + Paimon + Trino 构建湖仓一体化平台实践项目

摘要：本文整理自鹰角大数据开发工程师，ApacheHudiContributor朱正军老师在FlinkForwardAsia2024生产实践（二）专场中的分享。主要分为以下四个部分：一、鹰角数据平台架构二、数据湖选型三、湖仓一体建设四、未来展望一、鹰角数据平台架构首先给大家介绍一下鹰角目前的数据平台架构。在介绍之前，关于鹰角我先给大家做简单的介绍。1.1关于鹰角鹰角网络，也称为HYPERGRYPH

·2025-02-21 19:13

Paimon实战 -- paimon原理解析

一.简介ApachePaimon原名FlinkTableStore，2022年1月在ApacheFlink社区从零开始研发，Flink社区希望能够将Flink的Streaming实时计算能力和Lakehouse新架构优势进一步结合，促进数据在数据湖上真正实时流动起来，并为用户提供实时离线一体化的开发体验。二.基本概念1、快照（Snapshot）快照捕获表在某个时间点的状态。用户可以通过最新的快照访

阿华田512·2025-02-13 14:06

paimon实战 --核心原理和Flink应用进阶

简介Flink社区希望能够将Flink的Streaming实时计算能力和Lakehouse新架构优势进一步结合，推出新一代的StreamingLakehouse技术，促进数据在数据湖上真正实时流动起来，并为用户提供实时离线一体化的开发体验。Flink社区内部孵化了FlinkTableStore（简称FTS）子项目，一个真正面向Streaming以及Realtime的数据湖存储项目。2023年3月1

阿华田512·2025-02-13 14:36

【Apache Paimon】-- 16 -- 利用 paimon-flink-action 同步 kafka 数据到 hive paimon 表中

目录引言CDC技术概述2.1什么是CDC2.2CDC的应用场景Kafka作为CDC数据源的原理与优势3.1Kafka的基本架构3.2Kafka在CDC中的角色

oo寻梦in记·2025-02-13 14:02

【Apache Paimon】-- 2 -- 核心特性（0.9.0）

目录1、实时更新1.1、实时大批量更新1.2、支持定义合并引擎1.3、支持定义更新日志生成器2、海量数据追加处理2.1、appendtable2.2、快速查询3、数据湖功能（类比：hudi、iceberg、delta）3.1、支持ACID事务3.2、支持Timetravel（时间旅行）3.3、支持SchemaEvolution（元数据变更）3.4、可扩展元数据：存储PB级大规模数据集和存储大量分区

oo寻梦in记·2025-02-09 16:38

揭秘 Fluss 架构组件

Fluss部署，带领大家部署Fluss环境，体验一下Fluss的功能Fluss整合数据湖的操作，体验Fluss与数据湖的结合讲解了Fluss、Kafka、Paimon之间的区别和联系前面三篇文章可以让大家上手玩起来

大圣数据星球·2025-02-03 20:13

paimon中的Branch

Branchhttps://paimon.apache.org/docs/0.9/maintenance/manage-branches/paimon借鉴了git的管理机制，在我们开发代码的时候，为了不影响主分支的功能

qzWsong·2025-01-21 00:59

Fluss 与数据湖的深度解析（二）

上一篇文章中我们说了Fluss与Paimon数据湖的三个相关问题：如何查询Paimon数据湖中的数据？如何查询Fluss和Paimon数据的“联合视图”？如何只查询Fluss中的数据？

大圣数据星球·2025-01-20 06:29

Fluss 与数据湖的深度解析（二）

上一篇文章中我们说了Fluss与Paimon数据湖的三个相关问题：如何查询Paimon数据湖中的数据？如何查询Fluss和Paimon数据的“联合视图”？如何只查询Fluss中的数据？

·2025-01-19 19:58

揭秘 Fluss 架构组件

Fluss部署，带领大家部署Fluss环境，体验一下Fluss的功能Fluss整合数据湖的操作，体验Fluss与数据湖的结合讲解了Fluss、Kafka、Paimon之间的区别和联系前面三篇文章可以让大家上手玩起来

·2025-01-19 19:57

Apache PAIMON 学习

参考：ApachePAIMON：实时数据湖技术框架及其实践数据湖不仅仅是一个存储不同类数据的技术手段，更是提高数据分析效率、支持数据驱动决策、加速AI发展的基础设施。新一代实时数据湖技术，ApachePAIMON兼容ApacheFlink、Spark等主流计算引擎，并支持流批一体化处理、快速查询和性能优化，成为加速AI转型的重要工具。ApachePAIMON是一个支持大规模实时数据更新的存储和分析

潇锐killer·2025-01-16 22:54

兼容 Trino Connector，扩展 Apache Doris 数据源接入能力｜Lakehouse 使用手册

ApacheDoris内置支持包括Hive、Iceberg、Hudi、Paimon、LakeSoul、JDBC在内的多种Catalog，并为其提供原生高性能且稳定的访问能力，以满足与数据湖的集成需求。

vvvae1234·2024-09-11 19:17

StarRocks Lakehouse 快速入门——Apache Paimon

StarRocksLakehouse快速入门指南为您提供了湖仓技术概览，旨在帮助您迅速掌握其核心特性、独特优势和应用场景。本指南将指导您如何高效地利用StarRocks构建解决方案。文章末尾，我们集合了来自阿里云、饿了么、喜马拉雅和同程旅行等行业领导者在StarRocksxPaimonStreamingLakehouse活动中的实战经验分享。通过这些真实案例，您可以更直观地了解如何在实际应用中发挥

StarRocks_labs·2024-09-08 19:20

flink&paimon开发之一：创建catalog

开发环境IDEAFlink1.17.1Paimon0.5正式本地或HDFS存储参考链接paimonjavaAPIhttps://paimon.apache.org/docs/master/api/flink-api

leichangqing·2024-08-27 16:10

（二十）Flink Paimon

数据湖、湖仓一体是当前大数据领域技术发展的重要趋势。近几年开源数据湖技术如ApacheHudi、ApacheIceberg、ApachePaimon、DeltaLake等不断涌现，基于湖仓一体架构的统一元数据管理、数据治理也越来越受到关注。从传统数仓到数据湖、湖仓一体架构，从流批一体计算到基于数据湖的流批一体存储，越来越多的企业基于开源技术，在集成、计算、存储、查询分析等方面不断优化，建设形成适合

springk·2024-08-27 16:38

Apache Doris + Iceberg 快速搭建指南｜Lakehouse 使用手册（三）

我们将通过一系列文章介绍ApacheDoris与各类主流数据湖格式及存储系统的湖仓一体架构搭建指南，包括Hudi、Paimon、Iceberg、OSS、DeltaLake、K

SelectDB技术团队·2024-08-24 10:25

Apache Paimon-并发写

paimon基于‘merge-engine’='partial-update’和SequenceGroup可以支持并发写，多个job写不同的字段，每个job维护自己的SequenceGroup模拟场景由于本地环境的问题

呵呵小短腿·2024-08-22 09:20

Apache Paimon毕业，湖仓架构的未来发展趋势！

恭喜Paimon进入一个新的篇章，这篇文章也是我个人结合当前

王知无(import_bigdata)·2024-08-22 07:08

Apache Paimon：实时湖仓架构构建工具

ApachePaimon：实时湖仓架构构建工具paimonApachePaimonisalakeformatthatenablesbuildingaRealtimeLakehouseArchitecturewithFlinkandSparkforbothstreamingandbatchoperations.项目地址:https://gitcode.com/gh_mirrors/pai/paimo

乔如黎·2024-08-22 03:15

探索实时湖仓架构的新星：Apache Paimon

探索实时湖仓架构的新星：ApachePaimonpaimonApachePaimonisalakeformatthatenablesbuildingaRealtimeLakehouseArchitecturewithFlinkandSparkforbothstreamingandbatchoperations.项目地址:https://gitcode.com/gh_mirrors/pai/paim

幸愉旎Jasper·2024-08-22 03:39

Apache Paimon 使用之Creating Catalogs

PaimonCatalog目前支持两种类型的metastores：filesystemmetastore(default)，在文件系统中存储元数据和表文件。hivemetastore，将metadata存储在Hivemetastore中。用户可以直接从Hive访问表。1.使用FilesystemMetastore创建CatalogFlink引擎FlinkSQL注册并使用名为my_catalog的P

猫猫爱吃小鱼粮·2024-03-12 03:48

Apache Paimon 文件操作

前提对以下几篇有了解：1、ApachePaimon介绍2、ApachePaimon基础概念3、ApachePaimon文件布局设计4、知道如何在Flink中使用Paimon创建catalog在Fli

zhisheng_blog·2024-02-06 11:27

数据湖Paimon入门指南

一、主键表（PrimaryKeyTable）MergeEnginessink-upsert-realize可能会导致不正常的现象。当输入乱序时，我们建议您使用序列字段来纠正无序。建议设置为Nonesettable.exec.sink.upsert-materialize=NONEDeduplicate（重复数据消除）如果用户建表时不指定merge-engine配置,创建的PK表默认的MergeEn

实时即未来·2024-02-05 21:18

初识Apache Paimon

第0章前言0.1主流数据湖工具Delta：由Spark背后商业公司Databricks出品，因此很多功能强兼容Spark，对其他计算引擎不是很友好。ApacheHudi：由Uber的工程师为满足其内部数据分析的需求而设计的数据湖项目，功能很丰富，但是体系设计也很复杂，目前在国内落地场景较多。ApacheIceberg：由Netflix设计的一种数据湖项目，其采用了异于Hudi的文件布局方式，自身定

Racin_01·2024-02-03 12:30

Apache Paimon 基础概念

Snapshot快照（Snapshot）是在某个时间点上捕捉表状态的方式。用户可以通过最新的快照访问表的最新数据。通过时间回溯，用户还可以通过较早的快照访问表的先前状态。private static final String FIELD_VERSION = "version";private static final String FIELD_ID = "id";private static fi

zhisheng_blog·2024-02-03 12:00

Apache Paimon 文件布局设计

ApachePaimon介绍ApachePaimon基础概念一张表的所有文件都存储在一个基本目录下，Paimon文件以分层方式组织。从快照文件开始，可以递归地访问表中的所有记录。

zhisheng_blog·2024-02-03 12:26

Apache Paimon 介绍

从FlinkTableStore演进而来Flinktablestore架构如下图：（和今天Paimon的架构相比，LogSystem不再被推荐使用，LakeStore的能力大幅强于LogSystem，除了延时

zhisheng_blog·2024-01-31 15:58

使用 Paimon + StarRocks 极速批流一体湖仓分析

本篇内容主要分为以下四部分：StarRocks+Paimon湖仓分析的发展历程使用StarRocks+Paimon进行湖仓分析主要场景和技术原理StarRocks+Paimon湖仓分析能力的性能测试StarRocks

Apache Flink·2024-01-31 11:25

flink写入paimon流程代码

入口是FlinkTableSink，继承自FlinkTableSinkBase然后到了FlinkSinkBuilder的build()以buildForFixedBucket为例FixedBucketSinkextendsFlinkWriteSink而 FlinkWriteSink extends FlinkSink 所以代码走到了FlinkSink的sinkFrom()分别调用了doWrite(

orange大数据技术探索者·2024-01-30 20:42

Apache Paimon基础记录

基本都是在官网的学习，简单记录一下其中的核心特点ApachePaimon官网ApachePaimon|ApachePaimon根据官网介绍去快速了解paimon是用来设计做什么，可以做什么，对比与其他数据湖有什么特点

orange大数据技术探索者·2024-01-30 20:07

流式湖仓增强，Hologres + Flink 构建企业级实时数仓

同时，随着流式湖仓的兴起，Hologres除了支持Delta、Hudi等通用湖格式，在今年新增了对Paimon的深度集成，不断拓展湖仓一体能力。内容主要分为以下三部分：Hologre

Apache Flink·2024-01-26 06:15

推荐频道

paimon

Paimon在各大公司生产实践和优化总结

Doris 数据集成 Apache Paimon

Hive集成Paimon

Flink读取Kafka写入Paimon

Paimon生产环境问题小总结

Paimon（数据湖框架）概述

Hudi、Iceberg 、 Paimon 数据湖选型对比

入门向：下一代实时计算基础设施-Fluss

基于Flink+Hologres搭建实时数仓

【大数据】服务器上部署Apache Paimon

鹰角基于 Flink + Paimon + Trino 构建湖仓一体化平台实践项目

一图搞定Flink Oracle CDC 同步至Paimon（持续更新）

Flink CDC 同步表至Paimon 写数据流程，write算子和commit算子。

Paimon 集成Flink CDC (一） MySQL

Flink+Paimon/Hudi+Doris湖仓架构在各大公司落地的一些总结

Apache Paimon：开启实时湖仓存储新时代

数据湖Iceberg、Hudi和Paimon比较_数据湖框架对比(1)

【Apache Paimon】-- 13 -- 利用 paimon-flink-action 同步 mysql 表数据

paimon实战 -- 数据写入和更新底层数据流转解读

鹰角基于 Flink + Paimon + Trino 构建湖仓一体化平台实践项目

Paimon实战 -- paimon原理解析

paimon实战 --核心原理和Flink应用进阶

【Apache Paimon】-- 16 -- 利用 paimon-flink-action 同步 kafka 数据到 hive paimon 表中

【Apache Paimon】-- 2 -- 核心特性 （0.9.0）

揭秘 Fluss 架构组件

paimon中的Branch

Fluss 与数据湖的深度解析（二）

Fluss 与数据湖的深度解析（二）

揭秘 Fluss 架构组件

Apache PAIMON 学习

兼容 Trino Connector，扩展 Apache Doris 数据源接入能力｜Lakehouse 使用手册

StarRocks Lakehouse 快速入门——Apache Paimon

flink&paimon开发之一：创建catalog

（二十）Flink Paimon

Apache Doris + Iceberg 快速搭建指南｜Lakehouse 使用手册（三）

Apache Paimon-并发写

Apache Paimon毕业，湖仓架构的未来发展趋势！

Apache Paimon：实时湖仓架构构建工具

探索实时湖仓架构的新星：Apache Paimon

Apache Paimon 使用之Creating Catalogs

Apache Paimon 文件操作

数据湖Paimon入门指南

初识Apache Paimon

Apache Paimon 基础概念

Apache Paimon 文件布局设计

Apache Paimon 介绍

使用 Paimon + StarRocks 极速批流一体湖仓分析

flink写入paimon流程代码

Apache Paimon基础记录

流式湖仓增强，Hologres + Flink 构建企业级实时数仓

【Apache Paimon】-- 2 -- 核心特性（0.9.0）