HUDI 第7页

基于Apache Hudi新一代数据湖实践

根据维基百科对数据湖的定义：数据湖（DataLake）是一个以原始格式存储数据的存储库或系统，它按原样存储数据，无需事先对数据进行结构化处理。一个数据湖可以存储结构化数据（如关系型数据库中的表），半结构化数据（如CSV、日志、XML、JSON），非结构化数据（如电子邮件、文档、PDF）和二进制数据（如图形、音频、视频）。在实际的业务应用中，数据湖作为一个集中式存储库，它以更低的存储成本，更方便的方

科杰科技·2023-04-13 16:52

数据湖 | Apache Hudi 设计与架构最强解读

1.简介ApacheHudi(简称：Hudi)允许您在现有的hadoop兼容存储之上存储大量数据，同时提供两种原语，使得除了经典的批处理之外，还可以在数据湖上进行流处理。这两种原语分

王知无(import_bigdata)·2023-04-12 12:45

[Hudi学习笔记] Hudi 与Kudu、Hive Transactions、Hbase及Stream Processing的比较

Hudi是HadoopUpsertsanDIncrementals的缩写，用于管理HDFS上的大型分析数据集存储。Hudi的主要目的是高效的减少入库延时。Hudi是Uber开发的一个开源项目。

Kent_Yao·2023-04-12 00:36

推荐好文：深度对比 Delta、Iceberg 和 Hudi 三大开源数据湖方案（附最新更新）

这篇文章深度对比了3种开源数据湖技术，对每个技术的优缺点做了详细对比。不过当前2022年初，社区情况有了一些变化，会列在文后。文章地址：https://www.infoq.cn/article/fjebconxd2sz9wloykfo截止到2022年1月5日：社区现状ApacheIcebergStar：2.3K提交数：2184最新提交时间：7小时前ApachehudiStar：2.6K提交数：23

曲奇饼·2023-04-11 09:37

Apache Hudi - 1 - quick-start-guide 快速入门

quick-start-guide前言sparkshell配置启动pyspark的hudi环境报错成功启动带hudi的pysparkIDEA代码方式插入数据（表不存在则新建表，upsert）查询数据（查询当前版本的数据

木鱼Gavin·2023-04-11 07:01

Hudi学习01 -- Hudi简介及编译安装

文章目录Hudi简介Hudi概述Hudi特性Hudi使用场景Hudi编译安装安装Maven编译hudi修改pom文件修改源码兼容hadoop3解决spark模块依赖的问题hudi编译命令Hudi简介Hudi

patrick_wang_bigdata·2023-04-11 07:31

探索Apache Hudi核心概念 (1) - File Layouts

但是，抽象概念与实际运行状况还是有不少差异的，相信很多学习和使用Hudi的开发者都曾尝试过：将文档中的概念和Hudi的实际运行状况结合起来推导每个动作背后的逻辑是什么。这个过程非常有意义，因为

　Laurence·2023-04-11 07:58

探索Apache Hudi核心概念 (2) - File Sizing

在本系列的上一篇文章中，我们通过Notebook探索了COW表和MOR表的文件布局，在数据的持续写入与更新过程中，Hudi严格控制着文件的大小，以确保它们始终处于合理的区间范围内，从而避免大量小文件的出现

　Laurence·2023-04-11 07:27

数据湖之Hudi

一、简介Hudi是Uber公司开源的数据湖架构，它是围绕数据库内核构建的流式数据湖。

Ayanha·2023-04-11 01:38

flink sql -mysql cdc 到hudi表在输出到kafka中

1.版本对应的版本mysqlflinkkafkahudi5.7.20-logfink13.52.0.0.30.102.采用架构flink-hudi-kaka.png3.flinksql的mysqlcdc

wudl·2023-04-06 20:20

统一观测丨使用 Prometheus 监控 E-MapReduce，我们该关注哪些指标？

E-MapReduce（简称“EMR”）是云原生开源大数据平台，向客户提供简单易集成的Hadoop、Hive、Spark、Flink、Presto、ClickHouse、StarRocks、Delta、Hudi

阿里云技术·2023-04-06 04:31

Doris (HOLAP)，实时数据仓库的王者。

前文：Uniq模型拳打KUDU、HUDI，Aggregate模型脚踢Kylin、ClickHouse，Duplicate模型跟Hive势不两立。Doris+Flink将会是实时数据仓库的重要基石。

CesarChoy·2023-04-04 06:17

Flink + Iceberg 全场景实时数仓的建设实践

整理｜路培杰（Flink社区志愿者）摘要：ApacheFlink是目前大数据领域非常流行的流批统一的计算引擎，数据湖是顺应云时代发展潮流的新型技术架构，以Iceberg、Hudi、Delta为代表的解决方案应运而生

Apache Flink·2023-04-04 03:23

湖仓一体数据平台架构

随着数字化技术的更新迭代，数据库、数据仓库、数据湖等各种概念层出不穷，MPP数据库、Hadoop、对象存储、Hudi等各种数据技术不断涌现，湖仓一体概念逐步被人们所关注，在国际知名机构Gartner发布的

数据文字工作者·2023-04-03 17:18

数据湖——Hudi基本概念

文章目录Hudi特性场景核心概念基本概念时间轴文件布局索引表类型查询类型数据写upsertinsertinsertoverwritekey的生成策略删除策略数据读Hudi传送门特性可插拔索引机制支持快速的

友培·2023-04-03 05:54

hadoop 3.x大数据集群搭建系列7-安装Hudi

Hadoop3.3.2Hive3.1.2Spark3.3.1Flink1.15.2一.下载并解压hudicd/home/softwarewgethttps://mirrors.tuna.tsinghua.edu.cn/apache/hudi

只是甲·2023-04-03 03:55

Hudi 概念和特性

AlienPaul·2023-04-03 00:26

FlinkCDC-Hudi:Mysql数据实时入湖全攻略七：FlinkSQL常用命令

前序：FlinkCDC-Hudi系列文章：FlinkCDC-Hudi:Mysql数据实时入湖全攻略一：初试风云FlinkCDC-Hudi:Mysql数据实时入湖全攻略二：Hudi与Spark整合时所遇异常与解决方案

大数据点灯人·2023-04-02 10:28

Flink SQL Checkpoint 学习总结

验证方式FlinkSQL流式增量读取Hudi表然后sinkMySQL表，任务启动后处于r

董可伦·2023-04-02 10:25

Apache Hudi重磅特性解读之全局索引

1.摘要Hudi表允许多种类型操作，包括非常常用的upsert，当然为支持upsert，Hudi依赖索引机制来定位记录在哪些文件中。当前，Hudi支持分区和非分区的数据集。

xleesf·2023-04-02 09:05

Apache Hudi 在 B 站构建实时数据湖的实践

本文作者喻兆靖，介绍了为什么B站选择Flink+Hudi的数据湖技术方案，以及针对其做出的优化。

阿里云技术·2023-04-02 08:31

spark对接hudi遇到的坑

1.spark-sql读写MOR的hudi表spark版本：2.4.3hudi版本：0.9.0按照官网文档可正常独写cow表，但读写mor时报错：Causedby:org.apache.hudi.exception.HoodieException

没有文化，啥也不会·2023-04-02 02:13

Flink + Hudi 实现多流拼接(大宽表)

1.背景经典场景Flink侧实现业务侧通常会基于实时计算引擎在流上做多个数据源的JOIN产出这个宽表，但这种解决方案在实践中面临较多挑战，主要可分为以下两种情况：维表JOIN场景挑战：指标数据与维度数据进行关联，其中维度数据量比较大，指标数据QPS比较高，导致数据可能会产出延迟。当前方案：将部分维度数据缓存起起来，缓解高QPS下访问维度数据存储引擎产生的任务背压问题。存在问题：由于业务方的维度数据

简说Linux·2023-04-02 02:39

Hudi系列7:使用SparkSQL操作Hudi

文章目录一.SparkSQL连接Hudi1.1Hive配置1.2SparkSQL连接Hudi二.创建表2.1常规的建表2.2CTAS三.插入数据四.查询数据五.更新数据5.1普通5.2MergeInto

只是甲·2023-04-02 02:28

Apache Hudi 建表需要考虑哪些参数？（Spark）-- 上篇

整体流程选择表类型、主键、预合并字段设置clean和archive参数，对于mor表设置compact参数选择合适的索引设置合适的存储/写入参数确认建表注意事项建表基本参数选择合适的表类型hudi目前支持两种表类型

KnightChess·2023-04-02 02:15

从hudi持久化文件理解其核心概念

【概述】这是hudi系列的第一篇文章，先从核心概念，存储的文件格式加深对概念的理解，后续再逐步对使用（spark/flink入hudi，hudi同步hive等）、原理（压缩机制，索引，聚族等）展开分享～

陈猿解码·2023-04-02 02:34

Hudi 数据湖的插入，更新，查询，分析操作示例

Hudi数据湖的插入，更新，查询，分析操作示例作者：Grey原文地址：博客园：Hudi数据湖的插入，更新，查询，分析操作示例CSDN：Hudi数据湖的插入，更新，查询，分析操作示例前置工作首先，需要先完成

GreyZeng·2023-04-02 02:34

字节跳动基于 Apache Hudi 的多流拼接实践方案

字节跳动数据湖团队在实时数仓构建宽表的业务场景中，探索实践出的一种基于HudiPayload的合并机制提出的全新解决方案。字节跳动数据湖团队在实时数仓构建宽表的业务场景中，探索实践出的一种基于HudiPayload的合并机制提出的全新解决方案。该方案在存储层提供对多流数据的关联能力，旨在解决实时场景下多流JOIN遇到的一系列问题。接下来，本文会详细介绍多流拼接方案的背景以及实践经验。业务面临的挑战

Moonxiyue·2023-04-02 02:54

基于Apache Hudi 和 Apache Spark Sql 的近实时数仓架构之宽表建设

前言无论是在lamda架构还是kappa架构中，实时计算通常是使用flink+mq来实现的，而在这些场景中涉及到多张表join时，一般我们的使用方法是多张流表join如：RegularJoin、IntervalJoin，或者流表+维表的方式join如：Temporaljoin。但无论是那种方式都会存在一些问题，比如窗口开的过小，数据晚到导致数据丢失。窗口开的过大，内存占用过高，成本高，有被打爆的风

scx_white·2023-04-02 02:47

Apache Hudi使用简介

数据实时处理和实时的数据实时分为处理的实时和数据的实时。即席分析是要求对数据实时的处理，马上要得到对应的结果。Flink、SparkStreaming是用来对实时数据的实时处理，数据要求实时，处理也要迅速。数据不实时，处理也不及时的场景则是我们的数仓T+1数据。而本文探讨的ApacheHudi，对应的场景是数据的实时，而非处理的实时。它旨在将Mysql中的数据以近实时的方式映射到大数据平台，比如H

youngflyer·2023-04-01 23:41

flinksql写入hudi 踩坑实录

flinksql写入hudi测试环境：Flink1.11.1hudi0.8.0Hadoop3.0.0Hive2.1.1准备工作：1.安装flink1.11.1,要下载带hadoop版本的；2.下载hudi-flink-bundle

数据湖填坑·2023-04-01 23:38

Apache Hudi异步Compaction部署方式汇总

本篇文章对执行异步Compaction的不同部署模型一探究竟。1.Compaction对于Merge-On-Read表，数据使用列式Parquet文件和行式Avro文件存储，更新被记录到增量文件，然后进行同步/异步compaction生成新版本的列式文件。Merge-On-Read表可减少数据摄入延迟，因而进行不阻塞摄入的异步Compaction很有意义。2.异步Compaction异步Compa

xleesf·2023-04-01 23:38

数据湖技术之Hudi 核心概念

数据湖技术之Hudi核心概念Hudi数据湖框架的基本概念及表类型，属于Hudi框架设计原则和表的设计核心。

潘小磊·2023-04-01 23:07

Apache 数据湖Hudi详解一

—《菜根谭》1.什么是Hudi？ApacheHudi代表HadoopUpsertsanDIncrementals，管理大型分析数据集在HDFS上的存储。

写轮眼之大数据·2023-04-01 23:06

数据湖---hudi核心概念

文章目录TimelineTable&QueryTypesTableTypes查询类型COWMOR索引Hudi索引类型索引选择策略FileLayouts元数据表元数据表的动机研究中的一些数字：支持多模态索引写操作操作类型

夜里慢慢行456·2023-04-01 23:56

数据湖之Hudi基础：核心原理

继续Hudi核心概念参考官网描述与尚硅谷hudi公开资料文章目录基本概念时间轴TimeLine1.Instantsaction在表上执行的操作类型2.Instanttime3.State两个时间概念文件布局

小明同学YYDS·2023-04-01 23:41

hudi系列-文件压缩（compaction）

1.1环境flink1.13.6hudi0.11.01.2触发策略提供4种触发策略，可通过hoodie.comp

矛始·2023-04-01 23:00

数据湖 | Apache Hudi 设计与架构最强解读

目录1.简介2.设计原则2.1流式读/写2.2自管理2.3万物皆日志:2.4键-值数据模型3.表设计3.1时间轴3.2数据文件3.3索引4.表类型4.1写时复制（CopyOnWrite）表4.2读时合并（MergeOnRead）表5.写设计5.1写5.2压缩5.3清理5.4DFS访问优化6.查询6.1快照查询6.2增量查询6.3读优化查询本文将介绍ApacheHudi的基本概念、设计以及总体基础架

Mathieu66·2023-04-01 23:54

Apache hudi 0.10.1学习笔记之压缩Compaction(下篇)——执行压缩计划

之前的压缩计划生成后，被保存在basePath/.hoodie下的instanttime.compaction.request文件里。现在可以继续从执行压缩计划的角度进行。同样使用compactor类来提交spark作业，参数里可以带压缩计划对应的instantTime，也可以不带，不带的话则是找到时间最早对应的压缩计划。本文还是以MOR表，经手动异步压缩作为开始。执行压缩计划部分，需要提前了解下

ImStarBoy·2023-04-01 23:43

Apache hudi 0.10.1学习笔记之压缩Compaction(上篇)——压缩计划的生成

一、基础概念了解过hudi的新手或者专家都知道，hudi不管是COW还是MOR表，其文件还是存储在hdfs上。因为下来介绍我在学习hudi压缩的一些东西，所以下方就以MOR表文件做下介绍。

ImStarBoy·2023-04-01 23:12

HUDI原理及深入探究(二)

接下来讲一讲Hudi这些功能的实现原理：MergeonRead（MOR表）Transactional（事务）IncrementalQuery（增量查询）由于这篇文章会用到上一篇文章中讲到的知识，还没有读过的朋友

shining_yyds·2023-04-01 23:41

数据湖架构Hudi（三）Hudi核心概念

三、ApacheHudi核心概念3.1基本概念Hudi提供了Hudi表的概念，这些表支持CRUD操作，可以利用现有的大数据集群比如HDFS做数据文件存储，然后使用SparkSQL或Hive等分析引擎进行数据分析查询

undo_try·2023-04-01 23:09

hudi spark avro兼容性问题

在学习hudi过程中，参考了：https://hudi.apache.org/docs/quick-start-guide.html，在使用sparkshell执行用例：进入sparkshell:spark-shell

AIgeeksu·2023-03-31 23:27

Hudi系列9:Flink SQL操作hudi表

文章目录一.准备工作二.插入数据三.查询数据四.更新数据五.流查询六.删除数据参考:一.准备工作--启动yarn-session/home/flink-1.15.2/bin/yarn-session.sh-d--在yarnsession模式下启动flinksql/home/flink-1.15.2/bin/sql-client.shembedded-syarn-session二.插入数据代码:--

只是甲·2023-03-29 00:22

Hudi系列16:Hudi核心参数

文章目录一.去重参数二.并发参数三.压缩参数四.文件大小参数五.Hadoop参数六.内存参数七.MOR表相关参数八.COW表相关参数九.Hudi读取方式参数参考:一.去重参数如果需要去重，可以在创建huditable

只是甲·2023-03-29 00:22

数据湖架构Hudi（四）Hudi集成Spark案例详解

四、Hudi集成Spark案例详解之前在hudi快速入门程序中，简单体验了一下spark集成hudi，现在详细讲解下。

undo_try·2023-03-29 00:12

数据湖架构Hudi（五）Hudi集成Flink案例详解

五、Hudi集成Flink案例详解5.1hudi集成flinkflink的下载地址：https://archive.apache.org/dist/flink/HudiSupportedFlinkversion0.12

undo_try·2023-03-28 23:21

Hudi Timeline简析

前言Longtimenosee（鞠躬最近终于开始尝试推广Hudi在部门内部的应用，作为流批一体计划的最后一块拼图，顺便复活许久未更的博客，希望今后至少能保持周更的节奏吧。

LittleMagic·2023-03-27 09:43

统一观测丨使用 Prometheus 监控 E-MapReduce，我们该关注哪些指标？

E-MapReduce（简称“EMR”）是云原生开源大数据平台，向客户提供简单易集成的Hadoop、Hive、Spark、Flink、Presto、ClickHouse、StarRocks、Delta、Hudi

阿里云云栖号·2023-03-23 21:58

Sqoop 安装配置（超详细）

MySQL驱动6.拷贝Hive文件7.验证8.去除警告信息9.Sqoop学习集群其它生态安装与配置：Hadoop完全分布式搭建（超详细）Hive搭建（将MySQL作为元数据库）Spark集群搭建（多种方式）Hudi0.12.0

月亮给我抄代码·2023-03-23 02:55

推荐频道

HUDI

基于Apache Hudi新一代数据湖实践

数据湖 | Apache Hudi 设计与架构最强解读

[Hudi学习笔记] Hudi 与Kudu、Hive Transactions、Hbase及Stream Processing的比较

推荐好文：深度对比 Delta、Iceberg 和 Hudi 三大开源数据湖方案（附最新更新）

Apache Hudi - 1 - quick-start-guide 快速入门

Hudi学习01 -- Hudi简介及编译安装

探索Apache Hudi核心概念 (1) - File Layouts

探索Apache Hudi核心概念 (2) - File Sizing

数据湖之Hudi

flink sql -mysql cdc 到hudi表在输出到kafka中

统一观测丨使用 Prometheus 监控 E-MapReduce，我们该关注哪些指标？

Doris (HOLAP)，实时数据仓库的王者。

Flink + Iceberg 全场景实时数仓的建设实践

湖仓一体数据平台架构

数据湖——Hudi基本概念

hadoop 3.x大数据集群搭建系列7-安装Hudi

Hudi 概念和特性

FlinkCDC-Hudi:Mysql数据实时入湖全攻略七：FlinkSQL常用命令

Flink SQL Checkpoint 学习总结

Apache Hudi重磅特性解读之全局索引

Apache Hudi 在 B 站构建实时数据湖的实践

spark对接hudi遇到的坑

Flink + Hudi 实现多流拼接(大宽表)

Hudi系列7:使用SparkSQL操作Hudi

Apache Hudi 建表需要考虑哪些参数？（Spark）-- 上篇

从hudi持久化文件理解其核心概念

Hudi 数据湖的插入，更新，查询，分析操作示例

字节跳动基于 Apache Hudi 的多流拼接实践方案

基于Apache Hudi 和 Apache Spark Sql 的近实时数仓架构之宽表建设

Apache Hudi使用简介

flinksql写入hudi 踩坑实录

Apache Hudi异步Compaction部署方式汇总

数据湖技术之Hudi 核心概念

Apache 数据湖Hudi详解一

数据湖---hudi核心概念

数据湖之Hudi基础：核心原理

hudi系列-文件压缩（compaction）

数据湖 | Apache Hudi 设计与架构最强解读

Apache hudi 0.10.1学习笔记之压缩Compaction(下篇)——执行压缩计划

Apache hudi 0.10.1学习笔记之压缩Compaction(上篇)——压缩计划的生成

HUDI原理及深入探究(二)

数据湖架构Hudi（三）Hudi核心概念

hudi spark avro兼容性问题

Hudi系列9:Flink SQL操作hudi表

Hudi系列16:Hudi核心参数

数据湖架构Hudi（四）Hudi集成Spark案例详解

数据湖架构Hudi（五）Hudi集成Flink案例详解

Hudi Timeline简析

统一观测丨使用 Prometheus 监控 E-MapReduce，我们该关注哪些指标？

Sqoop 安装配置（超详细）