Hudi 第9页

阿里发布开源大数据热力报告2022——Flink，Superset，Datahub上榜

在这当中听到了太多熟悉的名字，Kibana，Grafana，ClickHouse，Spark，Airflow，Flink，Superset，Kafka，Metabase，DolphinScheduler，Iceberg，Hudi

大数据流动·2022-12-05 11:03

Hudi on Flink 的集成

HudionFlink的集成一、背景二、环境准备三、Batch模式的读写四、Streaming读五、总结一、背景ApacheHudi是目前最流行的数据湖解决方案之一，DataLakeAnalytics[1]集成了Hudi

明月清风，良宵美酒·2022-12-04 19:37

【Hudi】数据湖（四）：Hudi与Spark整合

Hudi与Spark整合一、向Hudi插入数据默认Spark操作Hudi使用表类型为CopyOnWrite模式。

菜鸟蜀黍·2022-12-04 18:43

hudi详解并集成spark实现快照查询和增量读取数据

1.什么是Hudi？2.Hudi对HDFS可以实现哪些操作？3.Hudi与其它组件对比有哪些特点？Hudi是在HDFS的基础上，对HDFS的管理和操作。

总写bug的程序员·2022-12-04 18:43

Hudi社区 | Apache Hudi集成Spark SQL抢先体验

1.摘要社区小伙伴一直期待的Hudi整合SparkSQL的[HUDI-1659](https://github.com/apache/hudi/pull/2645)正在积极Review中并已经快接近尾声

大数据技术架构·2022-12-04 18:13

使用Spark操作Hudi

开发环境:hadoop2.7.6hive2.3.7spark2.4.51、pom文件maven-alihttp://maven.aliyun.com/nexus/content/groups/public//truetruealwaysfailorg.apache.hudihudi-client0.5.3org.apache.hudihudi-hive0.5.3org.apache.hudihud

雾岛与鲸·2022-12-04 18:42

通过Spark操作Hudi(增、删、改、查、增量查)

一、概览Hudi数据湖框架，基于spark计算引擎，对数据进行CRUD操作，使用官方模拟生成出租车出行数据任务一：模拟数据，插入Hudi表，采用COW模式任务二：快照方式查询(SnapshotQuery

嘣嘣嚓·2022-12-04 18:42

第4节 hive spark 查询hudi 数据环境cdh6.3.2

fullnamefrommember_rowhereuid>=0anduid(MapTask.java:175)在源码中查询该类HoodieParquetRealtimeInputFormat是应该是在第3节中引入到hivelib下的hudi-hadoop-mr-bundle

第一次看海·2022-12-04 18:12

Spark SQL增量查询Hudi表

前言由于项目上主要用Hive查询Hudi，所以之前总结过一篇:Hive增量查询Hudi表。

董可伦·2022-12-04 18:41

Spark——0基础入门数据湖Hudi的读写

前言开发环境：spark：3.2.1hive：2.1hudi：0.11.1scala：2.12hudi建表语句CREATEEXTERNALTABLE`tb1_trips_cow_w`(`_hoodie_commit_time

CarsonBigData·2022-12-04 18:41

直播预告ｌApache Hudi 中文社区技术交流会第六弹

ApacheHudi（以下简称Hudi）是新一代流式数据湖平台，支持插入、更新、删除以及增量数据处理，可助力构建高效的企业级数据湖，已被全球多个大型企业在实际生产环境中应用。

StarRocks_labs·2022-12-01 19:04

Apache Hudi X Apache Kyuubi，中国移动云湖仓一体的探索与实践

分享嘉宾：孙方彬中国移动云能力中心软件开发工程师编辑整理：HohXil出品平台：DataFunTalk导读：在云原生+大数据的时代，随着业务数据量的爆炸式增长以及对高时效性的要求，云原生大数据分析技术，经历了从传统数仓到数据湖，再到湖仓一体的演进。本文主要介绍移动云云原生大数据分析LakeHouse的整体架构、核心功能、关键技术点，以及在公有云/私有云的应用场景。主要内容包括：湖仓一体概述移动云L

·2022-12-01 13:51

大数据下一代变革之必研究数据湖技术Hudi原理实战双管齐下-中

文章目录核心原理数据写写操作UPSERT写流程INSERT写流程INSERTOVERWRIT写流程Key生成策略删除策略写流程归纳数据读集成Spark使用环境准备spark-shell使用启动插入数据查询数据更新数据时间旅行查询增量查询指定时间点查询删除数据覆盖数据spark-sql使用启动创建表插入数据时间旅行查询更新数据删除数据覆盖数据其他核心原理数据写写操作UPSERT：默认行为，数据先通过

IT小神·2022-11-26 00:00

Hudi Spark SQL Call Procedures学习总结（一）（查询统计表文件信息）

前言学习总结HudiSparkSQLCallProcedures，CallProcedures在官网被称作存储过程（StoredProcedures），它是在Hudi0.11.0版本由腾讯的ForwardXu

董可伦·2022-11-25 12:10

Hudi 的格式支持开发工作

Hudi的格式支持开发工作主要对FE/BE在外表上的对应功能来针对性实现和优化。FE端改造：在外部表的元信息方面，增加存储Hudi特有的元信息：表类型，用来存储Hudi表类型。

往下看有惊喜·2022-11-24 18:10

通过 Spark thriftserver 操作Hudi表

背景本篇主要讲解如何配置Sparkthriftserver，从而可以使用JDBC方式通过Sparkthriftserver操作Hudi表。

AlienPaul·2022-11-22 17:14

Hudi 0.10.1 编译使用

第一章Hudi框架之0.10.1编译第一章Hudi框架之0.10.1编译文章目录第一章Hudi框架之0.10.1编译前言一、Hudi源码下载1.官网下载2.github获取源码二、编译步骤1.下载Kafka

gg1314723·2022-11-22 03:39

Lakehouse系列 | StarRocks 支持 Apache Hudi 原理解析

StarRocksActiveContributor，阿里云高级研发工程师近年来，随着大数据分析技术的进步，大量业务场景对数据仓库的实时性提出了更高的要求，Lakehouse架构逐渐被各大公司熟悉和接受，ApacheHudi（以下简称Hudi

StarRocks_labs·2022-11-21 09:09

1024，我们干了点儿大事 | StarRocks 2.4 新版本特性介绍

近期发布了2.4版本，核心功能有：多表物化视图，无状态的ComputeNode（CN）以及StarRocksKubernetes(K8s)Operator，catalog支持ApacheHudi（以下简称Hudi

StarRocks_labs·2022-11-21 09:07

三天，撸完Flink+Hudi+Iceberg数据湖落地系统，爽！

数仓技术应对关系型结构化数据游刃有余，但对于多元异构数据，却爱莫能助。最近行业大佬都在聊怎么部署数据湖，这波操作未来走向如何？数据湖技术能够实现全量数据的单一存储，通常存储原始格式的对象块或者文件。不管是传统数仓承载的结构化数据还是半结构化数据、非结构化数据、二进制数据等任意类型的数据，数据湖都可以轻松实现采集、存储和分析。更为人性化的是，数据湖可根据企业的业务需求提供可大可小的弹性扩充，数据可在

Java团长在csdn·2022-11-01 13:43

数据湖之基于flink+hudi+hive的实践（一）

文章目录一、介绍二、环境准备与实验1、环境2、启动步骤3、实验过程三、遇到过的坑四、参考资料一、介绍hudi最新的0.9版本经过众人千呼万唤，终于在9月份出来了。

追风筝的少年-·2022-11-01 13:12

使用 Flink Hudi 构建流式数据湖

用户可以通过FlinkSQL将CDC数据实时写入Hudi存储，且在即将发布的0.9版本Hudi原生支持CDCformat。

阿里云技术·2022-11-01 13:12

FlinkCDC-Hudi:Mysql数据实时入湖全攻略一：初试风云

Hudi是一个流式数据湖平台，使用Hudi可以直接打通数据库与数据仓库，Hudi可以连通Hadoop、hive，支持对数据record粒度的增删改查。

大数据点灯人·2022-11-01 13:42

Flink + Hudi，建设仓湖一体化解决方案

数仓技术应对关系型结构化数据游刃有余，但对于多元异构数据，却爱莫能助。最近行业大佬都在聊怎么部署数据湖，这波操作未来走向如何？数据湖技术能够实现全量数据的单一存储，通常存储原始格式的对象块或者文件。不管是传统数仓承载的结构化数据还是半结构化数据、非结构化数据、二进制数据等任意类型的数据，数据湖都可以轻松实现采集、存储和分析。更为人性化的是，数据湖可根据企业的业务需求提供可大可小的弹性扩充，数据可在

浪尖聊大数据-浪尖·2022-11-01 13:42

[数据湖] 基于flink hudi的批流一体实践

1、业务背景介绍广告主和代理商通过广告投放平台来进行广告投放，由多个媒介进行广告展示，从而触达到潜在用户。整个过程中会产生各种各样的数据，比如展现数据、点击数据。其中非常重要的数据是计费数据，以计费日志为依据向上可统计如行业维度、客户维度的消耗数据，分析不同维度的计费数据有助于业务及时进行商业决策，但目前部门内消耗统计以离线为主，这种T+1延迟的结果已经无法满足商业分析同学的日常分析需求，所以我们

zxfBdd·2022-11-01 13:42

实时数据湖 Flink Hudi 实践探索

导读：首先做个自我介绍，我目前在阿里云云计算平台，从事研究Flink和Hudi结合方向的相关工作。

阿里云大数据AI技术·2022-11-01 13:41

数据湖及湖仓一体化项目学习框架

文章目录数据湖及湖仓一体化项目学习框架前言一、数据湖基础知识介绍1、数据湖技术Hudi2、数据湖技术Iceberg二、湖仓一体化项目数据湖及湖仓一体化项目学习框架前言利用框架的力量，看懂游戏规则，才是入行的前提大多数人不懂

Lansonli·2022-10-18 17:26

Apache Hudi 从入门到放弃(2) —— MOR表的文件结构分析

写在开始本篇带大家分析一下Hudi中MOR表的文件结构刚开始看Hudi一周，有什么不对的地方欢迎大家指出事前准备建表--先准备一张HudiMOR表CREATETABLEhudi_test_dijie(idbigint

狄杰丶·2022-10-18 17:25

Apache Hudi 从入门到放弃(3) —— Flink Sql写过程分析(上)

背景介绍上一期给大家讲述了Hudi中，MOR表的目录文件结构；本打算这一期讲一下COW表的目录文件，不过考虑到目前在实时读写入Hudi的场景下，用的最多的还是MOR表，所以暂时跳过COW表的文件分析，转而对

狄杰丶·2022-10-18 17:25

Flink CDC使用Java DataStream API写入Hudi，实时同步业务库

本篇介绍下，如何使用JavaDataStreamAPI以编码的方式，通过FlinkCDC同步MySQL数据到Hudi，在整个过程中遇到了很多问题，会一并给出解

走码课·2022-10-18 17:24

Hudi

目录数据湖技术选型-Hudi；Iceberg；DataLakeHudiHudi的前世今生：1.1.1什么是ApacheHudi1.1.2Hudi支持的文件格式1.1.3表格式1.1.2使用Hudi的优点

xu-ning·2022-10-18 17:23

hudi_on_flink

hudi_on_flink下载hudi首先在github官网下载hudi的包https://github.com/apache/hudi/tree/release-0.7.0并编译,自己编译可能会出错或者到

向前挺近的菜鸟·2022-10-18 17:53

Hudi async/inline compaction

背景：在使用sparkStructuredStreaming将数据写入到kafka时，hudicompaction未按照相关参数正常执行。无法正常compaction代码如下：valspark=SparkSession.builder.config("spark.serializer","org.apache.spark.serializer.KryoSerializer").appName("t

生无所息heart·2022-10-18 17:20

KLOOK客路旅行基于Apache Hudi的数据湖实践

优质资源分享学习路线指引（点击解锁）知识定位人群定位Python实战微信订餐小程序进阶级本课程是pythonflask+微信小程序的完美结合，从项目搭建到腾讯云部署上线，打造一个全栈订餐系统。Python量化交易实战入门级手把手带你打造一个易扩展、更安全、效率更高的量化交易系统1.业务背景介绍客路旅行（KLOOK）是一家专注于境外目的地旅游资源整合的在线旅行平台，提供景点门票、一日游、特色体验、当

[虚幻私塾】·2022-10-18 17:49

HDFS-Spark-Hudi环境的搭建及测试

HDFS-Spark-Hudi环境的搭建及测试由于需要进行Hudi的详细选型，本文从0开始搭建一个Spark+Hudi的环境，并进行简单使用。

happyredstar·2022-10-18 17:49

Hudi源码|bootstrap源码分析总结（写Hudi）

前言ApacheHudibootstrap源码简要走读，不了解Hudibootstrap的可以参考：利用HudiBootstrap转化现有Hive表的parquet/orc文件为Hudi表版本Hudi0.12.0Spark2.4.4

董可伦·2022-10-18 17:47

Apache Hudi技术与架构-1

Hudi提供的核心功能包括数据表管理服务、事务管理服务、高效的增删改查操作服务、先进的索引系统服务、流式数据采集服务、数据集群与压缩优化服务、高性能的并发控制服务，Hudi数

uesowys·2022-10-08 08:27

技术干货｜基于Apache Hudi 的CDC数据入湖「内附干货PPT下载渠道」

简介：阿里云技术专家李少锋(风泽)在ApacheHudi与ApachePulsar联合Meetup杭州站上的演讲整理稿件，本议题将介绍典型CDC入湖场景，以及如何使用Pulsar/Hudi来构建数据湖，

阿里云云栖号·2022-09-21 18:14

技术干货｜基于Apache Hudi 的CDC数据入湖

简介：阿里云技术专家李少锋(风泽)在ApacheHudi与ApachePulsar联合Meetup杭州站上的演讲整理稿件，本议题将介绍典型CDC入湖场景，以及如何使用Pulsar/Hudi来构建数据湖，

阿里云开发者·2022-09-21 18:12

基于Hudi的湖仓一体技术在Shopee的实践

关注「Shopee技术团队」公众号，探索更多Shopee技术实践目录1.Shopee数据系统建设中面临的典型问题2.为什么选择Hudi3.Shopee在Hudi落地过程中的实践4.社区贡献5.总结与展望湖仓一体

·2022-09-08 11:33

Apache Hudi X Apache Kyuubi，中国移动云湖仓一体的探索与实践

分享嘉宾：孙方彬中国移动云能力中心软件开发工程师编辑整理：HohXil出品平台：DataFunTalk导读：在云原生+大数据的时代，随着业务数据量的爆炸式增长以及对高时效性的要求，云原生大数据分析技术，经历了从传统数仓到数据湖，再到湖仓一体的演进。本文主要介绍移动云云原生大数据分析LakeHouse的整体架构、核心功能、关键技术点，以及在公有云/私有云的应用场景。主要内容包括：湖仓一体概述移动云L

·2022-09-06 17:33

Flink 使用之操作 Hudi 表

AlienPaul·2022-09-05 10:36

使用Apache Flink 和 Apache Hudi 创建低延迟数据湖管道

近年来出现了从单体架构向微服务架构的转变。微服务架构使应用程序更容易扩展和更快地开发，支持创新并加快新功能上线时间。但是这种方法会导致数据存在于不同的孤岛中，这使得执行分析变得困难。为了获得更深入和更丰富的见解，企业应该将来自不同孤岛的所有数据集中到一个地方。AWS提供复制工具，例如AWSD

leesf·2022-09-04 20:00

基于 Apache Hudi 和DBT 构建开放的Lakehouse

本博客的重点展示如何利用增量数据处理和执行字段级更新来构建一个开放式Lakehouse。我们很高兴地宣布，用户现在可以使用ApacheHudi+dbt来构建开放Lakehouse。在深入了解细节之前，让我们先澄清一下本博客中使用的一些术语。什么是ApacheHudi？Apac

leesf·2022-08-21 17:00

基于Apache Hudi构建分析型数据湖

为了有机地发展业务，每个组织都在迅速采用分析。在分析过程的帮助下，产品团队正在接收来自用户的反馈，并能够以更快的速度交付新功能。通过分析提供的对用户的更深入了解，营销团队能够调整他们的活动以针对特定受众。只有当我们能够大规模提供分析时，这一切才有可能。对数据湖的需求在NoBrokerco

leesf·2022-08-20 22:00

重磅发布，阿里云全链路数据湖开发治理解决方案

近日，阿里云EMR重磅推出新版数据湖Datalake，100%兼容社区大数据开源组件，具备极强的弹性能力，支持D数据湖构建DLF，数据湖存储OSS和OSS-HDFS，支持DeltaLake、Hudi、Iceberg

阿里云大数据AI技术·2022-08-18 13:05

重磅发布！阿里云全链路数据湖开发治理解决方案

近日，阿里云EMR重磅推出新版数据湖Datalake，100%兼容社区大数据开源组件，具备极强的弹性能力，支持数据湖构建DLF，数据湖存储OSS和OSS-HDFS，支持DeltaLake、Hudi、Iceberg

·2022-08-17 14:27

第六届 Techo TVP 开发者峰会暨腾讯云大数据峰会来啦！

3年前，面对越来越灵活多样的分析场景，Iceberg、Hudi等数据湖技术成为新贵

·2022-08-16 17:46

Hudi Spark-Shell 实战

1.1启动spark-shell启动,需要指定spark-avro模块，因为默认环境里没有，spark-avro模块版本好需要和spark版本对应，这里都是3.1.3，并且使用Hudi编译好的jar包。

hyunbar·2022-08-09 10:22

Apache Hudi vs Delta Lake：透明TPC-DS Lakehouse性能基准

1.介绍最近几周，人们对比较Hudi、Delta和Iceberg的表现越来越感兴趣。我们认为社区应该得到更透明和可重复的分析。

leesf·2022-08-07 20:00

推荐频道

Hudi

阿里发布开源大数据热力报告2022——Flink，Superset，Datahub上榜

Hudi on Flink 的集成

【Hudi】数据湖（四）：Hudi与Spark整合

hudi详解并集成spark实现快照查询和增量读取数据

Hudi社区 | Apache Hudi集成Spark SQL抢先体验

使用Spark操作Hudi

通过Spark操作Hudi(增、删、改、查、增量查)

第4节 hive spark 查询hudi 数据 环境cdh6.3.2

Spark SQL增量查询Hudi表

Spark——0基础入门数据湖Hudi的读写

直播预告ｌApache Hudi 中文社区技术交流会第六弹

Apache Hudi X Apache Kyuubi，中国移动云湖仓一体的探索与实践

大数据下一代变革之必研究数据湖技术Hudi原理实战双管齐下-中

Hudi Spark SQL Call Procedures学习总结（一）（查询统计表文件信息）

Hudi 的格式支持开发工作

通过 Spark thriftserver 操作Hudi表

Hudi 0.10.1 编译使用

Lakehouse系列 | StarRocks 支持 Apache Hudi 原理解析

1024，我们干了点儿大事 | StarRocks 2.4 新版本特性介绍

三天，撸完Flink+Hudi+Iceberg数据湖落地系统，爽！

数据湖之基于flink+hudi+hive的实践（一）

使用 Flink Hudi 构建流式数据湖

FlinkCDC-Hudi:Mysql数据实时入湖全攻略一：初试风云

Flink + Hudi，建设仓湖一体化解决方案

[数据湖] 基于flink hudi的批流一体实践

实时数据湖 Flink Hudi 实践探索

数据湖及湖仓一体化项目学习框架

Apache Hudi 从入门到放弃(2) —— MOR表的文件结构分析

Apache Hudi 从入门到放弃(3) —— Flink Sql写过程分析(上)

Flink CDC使用Java DataStream API写入Hudi，实时同步业务库

Hudi

hudi_on_flink

Hudi async/inline compaction

KLOOK客路旅行基于Apache Hudi的数据湖实践

HDFS-Spark-Hudi环境的搭建及测试

Hudi源码|bootstrap源码分析总结（写Hudi）

Apache Hudi技术与架构-1

技术干货｜基于Apache Hudi 的CDC数据入湖「内附干货PPT下载渠道」

技术干货｜基于Apache Hudi 的CDC数据入湖

基于Hudi的湖仓一体技术在Shopee的实践

Apache Hudi X Apache Kyuubi，中国移动云湖仓一体的探索与实践

Flink 使用之操作 Hudi 表

使用Apache Flink 和 Apache Hudi 创建低延迟数据湖管道

基于 Apache Hudi 和DBT 构建开放的Lakehouse

基于Apache Hudi构建分析型数据湖

重磅发布 ， 阿里云全链路数据湖开发治理解决方案

重磅发布！阿里云全链路数据湖开发治理解决方案

第六届 Techo TVP 开发者峰会暨腾讯云大数据峰会来啦！

Hudi Spark-Shell 实战

Apache Hudi vs Delta Lake：透明TPC-DS Lakehouse性能基准

第4节 hive spark 查询hudi 数据环境cdh6.3.2

重磅发布，阿里云全链路数据湖开发治理解决方案