HUDI 第12页

使用 Flink Hudi 构建流式数据湖平台

摘要：本文整理自阿里巴巴技术专家陈玉兆(玉兆)、阿里巴巴开发工程师刘大龙(风离)在FlinkForwardAsia2021的分享。主要内容包括：ApacheHudi101FlinkHudiIntegrationFlinkHudiUseCaseApacheHudiRoadmapFFA2021直播回放&演讲PDF下载一、ApacheHudi101提到数据湖，大家都会有这样的疑问，什么是数据湖？为什么数

·2022-02-16 19:12

Apache RocketMQ + Hudi 快速构建 Lakehouse

本文目录背景知识大数据时代的构架演进RocketMQConnector&StreamApacheHudi构建Lakehouse实操本文标题包含三个关键词：Lakehouse、RocketMQ、Hudi。

·2022-02-16 03:34

Apache hudi 源码分析 - zorder 布局优化

本篇文章意在通过某个功能逐步熟悉hudi整体架构上的实现，不会讨论算法的实现细节hudi新人，有问题欢迎指正spark:version,3.1.2hudi:branch,masterTime:2022/

·2022-02-06 12:54

Apache RocketMQ + Hudi 快速构建 Lakehouse

简介：基于RocketMQ和Hudi零代码构建Lakehouse架构，以及RocketMQConnector&RocketMQStream助力ETL数据分析，为大家提供快速构建Lakehouse的技术方案和低运维成本实现实时计算的解决方案

·2022-01-20 10:22

Flink Hudi 0.10.0 发布，多项重要更新，稳定性大幅提升

Flink中文学习网站https://flink-learning.org.cn前言随着云数仓技术的不断成熟，数据湖俨然已成为当下最热门的技术之一，而ApacheHudi是当下最具竞争力的数据湖格式之一：拥有最活跃的开源社区之一，周活跃PR一直维持在50+水平；拥有最活跃的国内用户群之一，目前的ApacheHudi钉钉群用户已超过2200+，国内各大厂商都已经布局ApacheHudi生态。Apac

·2021-12-20 14:35

基于Delta lake、Hudi格式的湖仓一体方案

简介：DeltaLake和Hudi是流行的开放格式的存储层，为数据湖同时提供流式和批处理的操作，这允许我们在数据湖上直接运行BI等应用，让数据分析师可以即时查询新的实时数据，从而对您的业务产生即时的洞察

·2021-12-03 19:07

从消息到数据湖：看 Apache RocketMQ、Hudi、Kyuubi 最新进展

本场活动聚焦ApacheRocketMQ及Hudi，Kyuubi数据湖结合，帮助开发者能更好地

·2021-11-22 12:50

从消息到数据湖：看 Apache RocketMQ、Hudi、Kyuubi 最新进展

本场活动聚焦ApacheRocketMQ及Hudi，Kyuubi数据湖结合，帮助开发者能更好地应对业务挑战。活动将邀请喜马拉雅、平安证券、网易、阿里云的众多技术专家，共同为大家分享Ap

·2021-11-17 20:45

hudi clustering 数据聚集（三 zorder使用）

努力爬呀爬·2021-11-13 15:00

hudi clustering 数据聚集（二）

小文件合并解析执行代码：importorg.apache.hudi.QuickstartUtils._importscala.collection.JavaConversions.

努力爬呀爬·2021-11-12 18:00

hudi clustering 数据聚集（一）

概要数据湖的业务场景主要包括对数据库、日志、文件的分析，而管理数据湖有两点比较重要：写入的吞吐量和查询性能，这里主要说明以下问题：1、为了获得更好的写入吞吐量，通常把数据直接写入文件中，这种情况下会产生很多小的数据文件。虽然小文件的使用可以增加写入的并行度，且能够并行读取文件以提高读取速度，但会出现一个数据量很小，需要从多个小文件中读取数据，增加了很多IO。2、数据按照进入数据湖的方式写入到文件中

努力爬呀爬·2021-11-11 09:00

Flink+Hudi 构架湖仓一体化解决方案

本文转载自公众号【麒思妙想】，详细介绍了Flink+Hudi湖仓一体化方案的原型构建。

·2021-11-05 12:38

顺丰科技 Hudi on Flink 实时数仓实践

本文作者为刘杰，介绍了顺丰科技数仓的架构，趟过的一些问题、使用Hudi来优化整个job状态的实践细节，以及未来的一些规划。

·2021-11-05 11:34

Flink-CDC 同步Mysql数据到S3 Hudi

软件版本Mysql:5.7Hadoop:3.1.3Flink:1.12.2Hudi:0.9.0Hive:2.3.71.Mysql建表并开启bin_logcreatetableusers(idbigintauto_incrementprimarykey

阿猫阿狗Hakuna·2021-10-27 15:36

基于Delta lake、Hudi格式的湖仓一体方案

简介：DeltaLake和Hudi是流行的开放格式的存储层，为数据湖同时提供流式和批处理的操作，这允许我们在数据湖上直接运行BI等应用，让数据分析师可以即时查询新的实时数据，从而对您的业务产生即时的洞察

·2021-10-27 14:04

顺丰科技 Hudi on Flink 实时数仓实践

简介：介绍了顺丰科技数仓的架构，趟过的一些问题、使用Hudi来优化整个job状态的实践细节，以及未来的一些规划。

·2021-10-12 11:28

37 手游基于 Flink CDC + Hudi 湖仓一体方案实践

简介：介绍了37手游为何选择Flink作为计算引擎，并如何基于FlinkCDC+Hudi构建新的湖仓一体方案。

·2021-09-24 11:36

Apache Hudi 在 B 站构建实时数据湖的实践

本文作者喻兆靖，介绍了为什么B站选择Flink+Hudi的数据湖技术方案，以及针对其做出的优化。

·2021-09-23 21:03

Apache Hudi 在 B 站构建实时数据湖的实践

简介：B站选择Flink+Hudi的数据湖技术方案，以及针对其做出的优化。本文作者喻兆靖，介绍了为什么B站选择Flink+Hudi的数据湖技术方案，以及针对其做出的优化。

·2021-09-10 11:16

技术干货｜阿里云基于Hudi构建Lakehouse实践探索

简介：阿里云高级技术专家王烨(萌豆)在ApacheHudi与ApachePulsar联合Meetup杭州站上的演讲整理稿件，本议题介绍了阿里云如何使用Hudi和OSS对象存储构建Lakehouse，为大家分享了什么是

·2021-09-09 11:12

使用 Flink Hudi 构建流式数据湖

用户可以通过FlinkSQL将CDC数据实时写入Hudi存储，且在即将发布的0.9版本Hudi原生支持CDCformat。

·2021-09-08 18:30

技术干货｜阿里云基于Hudi构建Lakehouse实践探索

简介：阿里云高级技术专家王烨(萌豆)在ApacheHudi与ApachePulsar联合Meetup杭州站上的演讲整理稿件，本议题介绍了阿里云如何使用Hudi和OSS对象存储构建Lakehouse，为大家分享了什么是

·2021-09-07 11:46

技术干货｜基于Apache Hudi 的CDC数据入湖「内附干货PPT下载渠道」

简介：阿里云技术专家李少锋(风泽)在ApacheHudi与ApachePulsar联合Meetup杭州站上的演讲整理稿件，本议题将介绍典型CDC入湖场景，以及如何使用Pulsar/Hudi来构建数据湖，

·2021-09-06 17:03

技术干货｜基于Apache Hudi 的CDC数据入湖

简介：阿里云技术专家李少锋(风泽)在ApacheHudi与ApachePulsar联合Meetup杭州站上的演讲整理稿件，本议题将介绍典型CDC入湖场景，以及如何使用Pulsar/Hudi来构建数据湖，

·2021-09-06 17:25

Hudi On Flink

一、背景传统数仓分为离线和实时两个部分离线部分属于业务驱动，固定的计算逻辑，通过定时调度，最后产出报表；实时部分属于需求驱动，需要灵活开发。传统架构整体还是以离线为主，实时为辅，实时指标的开发是粗放的，没有schema的规范，没有元数据的管理，也没有打通实时和离线数据之间的联系，但两者实际上解决的都是相同的业务问题，最大的区别就在于时效性。二、实时数仓建设首先统一数仓标准，元数据和开发流程。引入H

TOTower·2021-09-06 16:11

今日直播 | Apache Hudi x Apache Pulsar Meetup线上专场如期而至大咖齐聚

简介：ApacheHudi与ApachePulsar联合Meetup线上专场将于2021年8月30日（今天）14:00开启直播，你准备好了吗？ApacheHudi与ApachePulsar联合Meetup线上专场来啦！将于2021年8月30日（今天）14:00开启直播，你准备好了吗？本次Meetup由StreamNative联合阿里云组织发起，并邀请阿里云AnalyticDB数据仓库团队、Zoom

·2021-08-30 13:28

数据湖在大数据场景下应用和实施方案调研笔记(增强版)

网上目前关于Flink集成Hudi、IceBerg的资料较少，社区建设不够完善。且因为迭代版本原因，代码过期严重。后面我会专门写一篇Flink连接Hudi、IceBerg等的文章。炒作概念还是

王知无(import_bigdata)·2021-08-24 08:00

Apache Hudi x Pulsar Meetup杭州站火爆来袭，实践干货就等你来！

简介：ApacheHudi与ApachePulsar联合Meetup杭州站来啦！将于2021年8月28日（周六）13:30，在杭州召开，你准备好了吗？本次Meetup由StreamNative联合阿里云组织发起，并邀请涂鸦智能、阿里云AnalyticDB数据仓库团队、Zoom等合作伙伴共同为大家呈现，ApacheHudi技术专家、ApachePulsarPMC成员、贡献者、社区技术专家汇聚一堂，共

·2021-08-19 20:22

Apache Hudi 是如何维护小文件的

hudi提供的一个关键特性是自我管理文件大小，这样用户就不需要担心手动维护表。拥有大量的小文件将使计算更难获得良好的查询性能，因为查询引擎不得不多次打开/读取/关闭文件以执行查询。

·2021-08-09 00:00

Hudi自带工具DeltaStreamer的实时入湖最佳实践

摘要：本文介绍如何使用Hudi自带入湖工具DeltaStreamer进行数据的实时入湖。

·2021-08-02 15:09

Apache Hudi使用简介

[TOC]数据实时处理和实时的数据实时分为处理的实时和数据的实时即席分析是要求对数据实时的处理，马上要得到对应的结果Flink、SparkStreaming是用来对实时数据的实时处理，数据要求实时，处理也要迅速数据不实时，处理也不及时的场景则是我们的数仓T+1数据而本文探讨的ApacheHudi，对应的场景是数据的实时，而非处理的实时。它旨在将Mysql中的时候以近实时的方式映射到大数据平台，比如

西北偏北·2021-06-26 02:24

百信银行基于 Apache Hudi 实时数据湖演进方案

本文介绍了百信银行实时计算平台的建设情况，实时数据湖构建在Hudi上的方案和实践方法，以及实时计算平台集成Hudi和使用Hudi的方式。

·2021-06-18 21:08

Hudi 0.6.0 源码阅读（数据写入）

源码阅读（数据写入）HoodieSparkSqlWriter.write(){//数据写入checkWriteStatus(){//提交数据client.commit(commitTime,writeStatuses)AbstractHoodieWriteClient.commit(){//提交状态commitStats(instantTime,stats,Option>){//保存完成activ

海南中剑·2021-06-10 23:44

Flink+iceberg环境搭建以及问题处理

目前数据湖方面有Hudi和Iceberg，Hudi属于相对成熟的数据湖方案，

小小一刀·2021-05-11 10:47

Apache Hudi 从入门到放弃(1) —— Hudi的初步尝试

写在开始本篇内容主要是分享一下如何通过FlinkSql流式的读写Hudi表，也会说说我对Hudi的理解IDE选择的是Zeppelin，环境配置可以参考一下我这篇博客环境准备代码编译这里我们使用的是Master

Flink-狄杰·2021-04-28 20:24

融合趋势下基于 Flink Kylin Hudi 湖仓一体的大数据生态体系

简介：本文由T3出行大数据平台负责人杨华和资深大数据平台开发工程师王祥虎介绍Flink、Kylin和Hudi湖仓一体的大数据生态体系以及在T3的相关应用场景。

阿里云云栖号·2021-04-23 14:16

融合趋势下基于 Flink Kylin Hudi 湖仓一体的大数据生态体系

摘要：本文由T3出行大数据平台负责人杨华和资深大数据平台开发工程师王祥虎介绍Flink、Kylin和Hudi湖仓一体的大数据生态体系以及在T3的相关应用场景，内容包括：湖仓一体的架构Flink/Hudi

Ververica·2021-04-15 21:00

Hudi on Flink 快速上手指南

摘要：本文由阿里巴巴的陈玉兆分享，主要介绍Flink集成Hudi的最新版本功能以及快速上手实践指南。

·2021-04-01 12:05

Hudi on Flink 快速上手指南

摘要：本文由阿里巴巴的陈玉兆分享，主要介绍Flink集成Hudi的最新版本功能以及快速上手实践指南。

Apache Flink·2021-03-25 21:00

Flink + Iceberg 全场景实时数仓的建设实践

整理｜路培杰（Flink社区志愿者）摘要：ApacheFlink是目前大数据领域非常流行的流批统一的计算引擎，数据湖是顺应云时代发展潮流的新型技术架构，以Iceberg、Hudi、Delta为代表的解决方案应运而生

·2021-02-01 11:57

Apache Hudi使用简介

ApacheHudi使用简介[TOC]数据实时处理和实时的数据实时分为处理的实时和数据的实时即席分析是要求对数据实时的处理，马上要得到对应的结果Flink、SparkStreaming是用来对实时数据的实时处理，数据要求实时，处理也要迅速数据不实时，处理也不及时的场景则是我们的数仓T+1数据而本文探讨的ApacheHudi，对应的场景是数据的实时，而非处理的实时。它旨在将Mysql中的时候以近实时

·2021-01-24 16:39

数据湖架构--Iceberg

和Hudi类似，Iceberg也提供了数据湖的功能，根据官网的定义，它是一个为分析大数据集开源的表存储格式，可以SQL表一样用Spark、Preso进行查询。

hawk2014bj·2021-01-24 15:33

数仓实时化改造：Hudi on Flink 在顺丰的实践应用

作者|蔡适择（顺丰大数据平台负责人）整理|赵阳（Flink社区志愿者）本文主要介绍顺丰在数据仓库的数据实时化、数据库CDC、HudionFlink上的实践应用及产品化经验。文章主要分为以下几部分：●顺丰业务介绍●HudionFlink●产品化支持●后续计划1、顺丰业务1.1顺丰大数据的应用先来看一下顺丰大数据业务的全景图。大数据平台，中间的基础部分是大数据平台，这块是顺丰结合开源组件自行搭建的。与

ApacheFlink·2021-01-15 19:41

数仓实时化改造：Hudi on Flink 在顺丰的实践应用

作者|蔡适择（顺丰大数据平台负责人）整理|赵阳（Flink社区志愿者）本文主要介绍顺丰在数据仓库的数据实时化、数据库CDC、HudionFlink上的实践应用及产品化经验。文章主要分为以下几部分：●顺丰业务介绍●HudionFlink●产品化支持●后续计划1、顺丰业务1.1顺丰大数据的应用先来看一下顺丰大数据业务的全景图。大数据平台，中间的基础部分是大数据平台，这块是顺丰结合开源组件自行搭建的。与

ApacheFlink·2021-01-06 19:14

NoSuchObjectException(message:ods_db.event table not found)

hudi同步数据报错org.apache.hudi.hive.HoodieHiveSyncException:Failedtogetupdatelastcommittimesyncedto20210103154432atorg.apache.hudi.hive.HoodieHiveClient.updateLastCommitTimeSynced

鸭梨山大哎·2021-01-03 15:05

数据湖和数据仓库区别介绍

基于Hudi的数据湖数据是以什么方式存储的？Hudi有元数据吗？元数据存储在哪儿？Hudi是以什么方式

hzp666·2020-12-30 16:30

Apache Hudi使用简介

目录ApacheHudi使用简介数据实时处理和实时的数据业务场景和技术选型Apachehudi简介使用AapcheHudi整体思路Hudi表数据结构数据文件.hoodie文件Hudi记录IdCOW和MORCopyOnWriteTableMergeOnReadTable

skaljdakdjw·2020-12-28 21:22

Apache Hudi使用简介

ApacheHudi使用简介[TOC]数据实时处理和实时的数据实时分为处理的实时和数据的实时即席分析是要求对数据实时的处理，马上要得到对应的结果Flink、SparkStreaming是用来对实时数据的实时处理，数据要求实时，处理也要迅速数据不实时，处理也不及时的场景则是我们的数仓T+1数据而本文探讨的ApacheHudi，对应的场景是数据的实时，而非处理的实时。它旨在将Mysql中的时候以近实时

西北偏北·2020-12-28 00:47

【大数据开发】Hudi——Hudi快速入门

Hudi快速入门Hudi中文文档Hudi介绍（含有测试代码，见博客github）spark2.4版本以上才能整合Hudi文章目录一、设计原则二、表类型三、kafka数据落地Hudi一、设计原则流式读/写

这个妹妹我见过·2020-11-09 10:01

划重点！AWS的湖仓一体使用哪种数据湖格式进行衔接？

此前ApacheHudi社区一直有小伙伴询问能否使用AmazonRedshift查询Hudi表，现在它终于来了。

leesf·2020-09-27 20:00

推荐频道

HUDI

使用 Flink Hudi 构建流式数据湖平台

Apache RocketMQ + Hudi 快速构建 Lakehouse

Apache hudi 源码分析 - zorder 布局优化

Apache RocketMQ + Hudi 快速构建 Lakehouse

Flink Hudi 0.10.0 发布，多项重要更新，稳定性大幅提升

基于Delta lake、Hudi格式的湖仓一体方案

从消息到数据湖：看 Apache RocketMQ、Hudi、Kyuubi 最新进展

从消息到数据湖：看 Apache RocketMQ、Hudi、Kyuubi 最新进展

hudi clustering 数据聚集（三 zorder使用）

hudi clustering 数据聚集（二）

hudi clustering 数据聚集（一）

Flink+Hudi 构架湖仓一体化解决方案

顺丰科技 Hudi on Flink 实时数仓实践

Flink-CDC 同步Mysql数据到S3 Hudi

基于Delta lake、Hudi格式的湖仓一体方案

顺丰科技 Hudi on Flink 实时数仓实践

37 手游基于 Flink CDC + Hudi 湖仓一体方案实践

Apache Hudi 在 B 站构建实时数据湖的实践

Apache Hudi 在 B 站构建实时数据湖的实践

技术干货｜ 阿里云基于Hudi构建Lakehouse实践探索

使用 Flink Hudi 构建流式数据湖

技术干货｜ 阿里云基于Hudi构建Lakehouse实践探索

技术干货｜基于Apache Hudi 的CDC数据入湖「内附干货PPT下载渠道」

技术干货｜基于Apache Hudi 的CDC数据入湖

Hudi On Flink

今日直播 | Apache Hudi x Apache Pulsar Meetup线上专场如期而至 大咖齐聚

数据湖在大数据场景下应用和实施方案调研笔记(增强版)

Apache Hudi x Pulsar Meetup杭州站火爆来袭，实践干货就等你来！

Apache Hudi 是如何维护小文件的

Hudi自带工具DeltaStreamer的实时入湖最佳实践

Apache Hudi使用简介

百信银行基于 Apache Hudi 实时数据湖演进方案

Hudi 0.6.0 源码阅读（数据写入）

Flink+iceberg环境搭建以及问题处理

Apache Hudi 从入门到放弃(1) —— Hudi的初步尝试

融合趋势下基于 Flink Kylin Hudi 湖仓一体的大数据生态体系

融合趋势下基于 Flink Kylin Hudi 湖仓一体的大数据生态体系

Hudi on Flink 快速上手指南

Hudi on Flink 快速上手指南

Flink + Iceberg 全场景实时数仓的建设实践

Apache Hudi使用简介

数据湖架构--Iceberg

数仓实时化改造：Hudi on Flink 在顺丰的实践应用

数仓实时化改造：Hudi on Flink 在顺丰的实践应用

NoSuchObjectException(message:ods_db.event table not found)

数据湖和数据仓库区别介绍

Apache Hudi使用简介

Apache Hudi使用简介

【大数据开发】Hudi——Hudi快速入门

划重点！AWS的湖仓一体使用哪种数据湖格式进行衔接？

技术干货｜阿里云基于Hudi构建Lakehouse实践探索

技术干货｜阿里云基于Hudi构建Lakehouse实践探索

今日直播 | Apache Hudi x Apache Pulsar Meetup线上专场如期而至大咖齐聚