---Hudi 第12页

Apache Hudi 在 B 站构建实时数据湖的实践

本文作者喻兆靖，介绍了为什么B站选择Flink+Hudi的数据湖技术方案，以及针对其做出的优化。

·2021-09-23 21:03

Apache Hudi 在 B 站构建实时数据湖的实践

简介：B站选择Flink+Hudi的数据湖技术方案，以及针对其做出的优化。本文作者喻兆靖，介绍了为什么B站选择Flink+Hudi的数据湖技术方案，以及针对其做出的优化。

·2021-09-10 11:16

技术干货｜阿里云基于Hudi构建Lakehouse实践探索

简介：阿里云高级技术专家王烨(萌豆)在ApacheHudi与ApachePulsar联合Meetup杭州站上的演讲整理稿件，本议题介绍了阿里云如何使用Hudi和OSS对象存储构建Lakehouse，为大家分享了什么是

·2021-09-09 11:12

使用 Flink Hudi 构建流式数据湖

用户可以通过FlinkSQL将CDC数据实时写入Hudi存储，且在即将发布的0.9版本Hudi原生支持CDCformat。

·2021-09-08 18:30

技术干货｜阿里云基于Hudi构建Lakehouse实践探索

简介：阿里云高级技术专家王烨(萌豆)在ApacheHudi与ApachePulsar联合Meetup杭州站上的演讲整理稿件，本议题介绍了阿里云如何使用Hudi和OSS对象存储构建Lakehouse，为大家分享了什么是

·2021-09-07 11:46

技术干货｜基于Apache Hudi 的CDC数据入湖「内附干货PPT下载渠道」

简介：阿里云技术专家李少锋(风泽)在ApacheHudi与ApachePulsar联合Meetup杭州站上的演讲整理稿件，本议题将介绍典型CDC入湖场景，以及如何使用Pulsar/Hudi来构建数据湖，

·2021-09-06 17:03

技术干货｜基于Apache Hudi 的CDC数据入湖

简介：阿里云技术专家李少锋(风泽)在ApacheHudi与ApachePulsar联合Meetup杭州站上的演讲整理稿件，本议题将介绍典型CDC入湖场景，以及如何使用Pulsar/Hudi来构建数据湖，

·2021-09-06 17:25

Hudi On Flink

一、背景传统数仓分为离线和实时两个部分离线部分属于业务驱动，固定的计算逻辑，通过定时调度，最后产出报表；实时部分属于需求驱动，需要灵活开发。传统架构整体还是以离线为主，实时为辅，实时指标的开发是粗放的，没有schema的规范，没有元数据的管理，也没有打通实时和离线数据之间的联系，但两者实际上解决的都是相同的业务问题，最大的区别就在于时效性。二、实时数仓建设首先统一数仓标准，元数据和开发流程。引入H

TOTower·2021-09-06 16:11

今日直播 | Apache Hudi x Apache Pulsar Meetup线上专场如期而至大咖齐聚

简介：ApacheHudi与ApachePulsar联合Meetup线上专场将于2021年8月30日（今天）14:00开启直播，你准备好了吗？ApacheHudi与ApachePulsar联合Meetup线上专场来啦！将于2021年8月30日（今天）14:00开启直播，你准备好了吗？本次Meetup由StreamNative联合阿里云组织发起，并邀请阿里云AnalyticDB数据仓库团队、Zoom

·2021-08-30 13:28

数据湖在大数据场景下应用和实施方案调研笔记(增强版)

网上目前关于Flink集成Hudi、IceBerg的资料较少，社区建设不够完善。且因为迭代版本原因，代码过期严重。后面我会专门写一篇Flink连接Hudi、IceBerg等的文章。炒作概念还是

王知无(import_bigdata)·2021-08-24 08:00

Apache Hudi x Pulsar Meetup杭州站火爆来袭，实践干货就等你来！

简介：ApacheHudi与ApachePulsar联合Meetup杭州站来啦！将于2021年8月28日（周六）13:30，在杭州召开，你准备好了吗？本次Meetup由StreamNative联合阿里云组织发起，并邀请涂鸦智能、阿里云AnalyticDB数据仓库团队、Zoom等合作伙伴共同为大家呈现，ApacheHudi技术专家、ApachePulsarPMC成员、贡献者、社区技术专家汇聚一堂，共

·2021-08-19 20:22

Apache Hudi 是如何维护小文件的

hudi提供的一个关键特性是自我管理文件大小，这样用户就不需要担心手动维护表。拥有大量的小文件将使计算更难获得良好的查询性能，因为查询引擎不得不多次打开/读取/关闭文件以执行查询。

·2021-08-09 00:00

Hudi自带工具DeltaStreamer的实时入湖最佳实践

摘要：本文介绍如何使用Hudi自带入湖工具DeltaStreamer进行数据的实时入湖。

·2021-08-02 15:09

Apache Hudi使用简介

[TOC]数据实时处理和实时的数据实时分为处理的实时和数据的实时即席分析是要求对数据实时的处理，马上要得到对应的结果Flink、SparkStreaming是用来对实时数据的实时处理，数据要求实时，处理也要迅速数据不实时，处理也不及时的场景则是我们的数仓T+1数据而本文探讨的ApacheHudi，对应的场景是数据的实时，而非处理的实时。它旨在将Mysql中的时候以近实时的方式映射到大数据平台，比如

西北偏北·2021-06-26 02:24

百信银行基于 Apache Hudi 实时数据湖演进方案

本文介绍了百信银行实时计算平台的建设情况，实时数据湖构建在Hudi上的方案和实践方法，以及实时计算平台集成Hudi和使用Hudi的方式。

·2021-06-18 21:08

Hudi 0.6.0 源码阅读（数据写入）

源码阅读（数据写入）HoodieSparkSqlWriter.write(){//数据写入checkWriteStatus(){//提交数据client.commit(commitTime,writeStatuses)AbstractHoodieWriteClient.commit(){//提交状态commitStats(instantTime,stats,Option>){//保存完成activ

海南中剑·2021-06-10 23:44

Flink+iceberg环境搭建以及问题处理

目前数据湖方面有Hudi和Iceberg，Hudi属于相对成熟的数据湖方案，

小小一刀·2021-05-11 10:47

Apache Hudi 从入门到放弃(1) —— Hudi的初步尝试

写在开始本篇内容主要是分享一下如何通过FlinkSql流式的读写Hudi表，也会说说我对Hudi的理解IDE选择的是Zeppelin，环境配置可以参考一下我这篇博客环境准备代码编译这里我们使用的是Master

Flink-狄杰·2021-04-28 20:24

融合趋势下基于 Flink Kylin Hudi 湖仓一体的大数据生态体系

简介：本文由T3出行大数据平台负责人杨华和资深大数据平台开发工程师王祥虎介绍Flink、Kylin和Hudi湖仓一体的大数据生态体系以及在T3的相关应用场景。

阿里云云栖号·2021-04-23 14:16

融合趋势下基于 Flink Kylin Hudi 湖仓一体的大数据生态体系

摘要：本文由T3出行大数据平台负责人杨华和资深大数据平台开发工程师王祥虎介绍Flink、Kylin和Hudi湖仓一体的大数据生态体系以及在T3的相关应用场景，内容包括：湖仓一体的架构Flink/Hudi

Ververica·2021-04-15 21:00

Hudi on Flink 快速上手指南

摘要：本文由阿里巴巴的陈玉兆分享，主要介绍Flink集成Hudi的最新版本功能以及快速上手实践指南。

·2021-04-01 12:05

Hudi on Flink 快速上手指南

摘要：本文由阿里巴巴的陈玉兆分享，主要介绍Flink集成Hudi的最新版本功能以及快速上手实践指南。

Apache Flink·2021-03-25 21:00

Flink + Iceberg 全场景实时数仓的建设实践

整理｜路培杰（Flink社区志愿者）摘要：ApacheFlink是目前大数据领域非常流行的流批统一的计算引擎，数据湖是顺应云时代发展潮流的新型技术架构，以Iceberg、Hudi、Delta为代表的解决方案应运而生

·2021-02-01 11:57

Apache Hudi使用简介

ApacheHudi使用简介[TOC]数据实时处理和实时的数据实时分为处理的实时和数据的实时即席分析是要求对数据实时的处理，马上要得到对应的结果Flink、SparkStreaming是用来对实时数据的实时处理，数据要求实时，处理也要迅速数据不实时，处理也不及时的场景则是我们的数仓T+1数据而本文探讨的ApacheHudi，对应的场景是数据的实时，而非处理的实时。它旨在将Mysql中的时候以近实时

·2021-01-24 16:39

数据湖架构--Iceberg

和Hudi类似，Iceberg也提供了数据湖的功能，根据官网的定义，它是一个为分析大数据集开源的表存储格式，可以SQL表一样用Spark、Preso进行查询。

hawk2014bj·2021-01-24 15:33

数仓实时化改造：Hudi on Flink 在顺丰的实践应用

作者|蔡适择（顺丰大数据平台负责人）整理|赵阳（Flink社区志愿者）本文主要介绍顺丰在数据仓库的数据实时化、数据库CDC、HudionFlink上的实践应用及产品化经验。文章主要分为以下几部分：●顺丰业务介绍●HudionFlink●产品化支持●后续计划1、顺丰业务1.1顺丰大数据的应用先来看一下顺丰大数据业务的全景图。大数据平台，中间的基础部分是大数据平台，这块是顺丰结合开源组件自行搭建的。与

ApacheFlink·2021-01-15 19:41

数仓实时化改造：Hudi on Flink 在顺丰的实践应用

作者|蔡适择（顺丰大数据平台负责人）整理|赵阳（Flink社区志愿者）本文主要介绍顺丰在数据仓库的数据实时化、数据库CDC、HudionFlink上的实践应用及产品化经验。文章主要分为以下几部分：●顺丰业务介绍●HudionFlink●产品化支持●后续计划1、顺丰业务1.1顺丰大数据的应用先来看一下顺丰大数据业务的全景图。大数据平台，中间的基础部分是大数据平台，这块是顺丰结合开源组件自行搭建的。与

ApacheFlink·2021-01-06 19:14

NoSuchObjectException(message:ods_db.event table not found)

hudi同步数据报错org.apache.hudi.hive.HoodieHiveSyncException:Failedtogetupdatelastcommittimesyncedto20210103154432atorg.apache.hudi.hive.HoodieHiveClient.updateLastCommitTimeSynced

鸭梨山大哎·2021-01-03 15:05

数据湖和数据仓库区别介绍

基于Hudi的数据湖数据是以什么方式存储的？Hudi有元数据吗？元数据存储在哪儿？Hudi是以什么方式

hzp666·2020-12-30 16:30

Apache Hudi使用简介

目录ApacheHudi使用简介数据实时处理和实时的数据业务场景和技术选型Apachehudi简介使用AapcheHudi整体思路Hudi表数据结构数据文件.hoodie文件Hudi记录IdCOW和MORCopyOnWriteTableMergeOnReadTable

skaljdakdjw·2020-12-28 21:22

Apache Hudi使用简介

ApacheHudi使用简介[TOC]数据实时处理和实时的数据实时分为处理的实时和数据的实时即席分析是要求对数据实时的处理，马上要得到对应的结果Flink、SparkStreaming是用来对实时数据的实时处理，数据要求实时，处理也要迅速数据不实时，处理也不及时的场景则是我们的数仓T+1数据而本文探讨的ApacheHudi，对应的场景是数据的实时，而非处理的实时。它旨在将Mysql中的时候以近实时

西北偏北·2020-12-28 00:47

【大数据开发】Hudi——Hudi快速入门

Hudi快速入门Hudi中文文档Hudi介绍（含有测试代码，见博客github）spark2.4版本以上才能整合Hudi文章目录一、设计原则二、表类型三、kafka数据落地Hudi一、设计原则流式读/写

这个妹妹我见过·2020-11-09 10:01

划重点！AWS的湖仓一体使用哪种数据湖格式进行衔接？

此前ApacheHudi社区一直有小伙伴询问能否使用AmazonRedshift查询Hudi表，现在它终于来了。

leesf·2020-09-27 20:00

Apache Hudi和Presto的前世今生

1.概述ApacheHudi是一个快速迭代的数据湖存储系统，可以帮助企业构建和管理PB级数据湖，Hudi通过引入upserts、deletes和增量查询等原语将流式能力带入了批处理。

leesf·2020-09-22 07:00

Hudi：初识Hudi

Hudi是什么？可以说Hudi是一个数据湖或是数据库，但它又不是数据湖或是数据库。笔者理解为Hudi是除开计算引擎的Hive。

x950913·2020-09-17 05:56

Apache Hudi在医疗大数据中的应用

本篇文章主要介绍ApacheHudi在医疗大数据中的应用，主要分为５个部分进行介绍：1.建设背景，2.为什么选择Hudi，3.Hudi数据同步，4.存储类型选择及查询优化，5.未来发展与思考。

大数据技术架构·2020-09-17 05:38

Hudi原理 | Apache Hudi 典型应用场景介绍

对于RDBMS摄取，Hudi通过Upserts提供了更快的负载，而非昂贵且低效的批量负载。例如你可以读取MySQLbinlog日志或Sqoop增量导入，并将它们应用在DFS上的Hudi表，这比批量合并

大数据技术架构·2020-09-17 05:38

4、Apache Hudi：Spark读取Binlog并写入

1、数据准备使用canal将mysqlbinlog的数据发送到kafka中2、程序编写1、消费kafka中的binlog数据valkafkaParams=Map[String,String]("bootstrap.servers"->"xxx.xxx.xxx.xxx:9092","auto.offset.reset"->"latest","key.deserializer"->"org.apach

星星木有夜·2020-09-17 05:08

1、Apache Hudi简介

1、Hudi简介Hudi是HadoopUpdatesandIncrementals的缩写，用于管理HDFS上的大型分析数据集存储，主要目的是高效的减少入库延时。

星星木有夜·2020-09-17 05:38

Apache Hudi在医疗大数据的应用

ApacheHudi在医疗大数据的应用本篇文章主要介绍hudi在医疗大数据中的应用，主要分为５个部分进行介绍：建设背景，为什么选择hudi,hudi的数据同步，存储类型选择及查询优化，未来发展与思考。

别过来胖到我了·2020-09-17 04:49

Apache Hudi 介绍与应用

ApacheHudiApacheHudi在基于HDFS/S3数据存储之上，提供了两种流原语：插入更新增量拉取一般来说，我们会将大量数据存储到HDFS/S3，新数据增量写入，而旧数据鲜有改动，特别是在经过数据清洗，放入数据仓库的场景。而且在数据仓库如hive中，对于update的支持非常有限，计算昂贵。另一方面，若是有仅对某段时间内新增数据进行分析的场景，则hive、presto、hbase等也未提

ZackFairT·2020-09-17 04:28

Apache Hudi社区新晋多位Committer

1.介绍经过ApacheHudi项目委员会讨论及投票，向UditMehrotra、GaryLi、RaymondXu、PratyakshSharma4人发出Committer邀请，4人均已接受邀请并顺利成为Committer，也使得ApacheHudiCommitter成员在不断发展壮大。UditMehrotra是来自AWSEMR团队的一员，在去年9/10月份开始参与ApacheHudi社区，帮助A

leesf·2020-09-14 18:00

Apache Hudi 架构设计和基本概念

ApacheHudi是一个DataLakes的开源方案，Hudi是HadoopUpdatesandIncrementals的简写，它是由Uber开发并开源的DataLakes解决方案。

大数据技术与架构·2020-09-10 18:26

Apache Hudi 0.6.0版本重磅发布

1.下载信息源码：ApacheHudi0.6.0SourceRelease(asc,sha512)二进制Jar包：nexus2.迁移指南如果您从0.5.3以前的版本迁移至0.6.0，请仔细核对每个版本的迁移指南；0.6.0版本从基于list的rollback策略变更为了基于marker文件的rollback策略，为进行平稳迁移，会在hoodie.properties文件中配置一个新属性hoodie

leesf·2020-08-26 09:00

Apache Hudi：说出来你可能不信，你的ETL任务慢如狗

1.简介ApacheHudi(简称：Hudi)使得您能在hadoop兼容的存储之上存储大量数据，同时它还提供两种原语，使得除了经典的批处理之外，还可以在数据湖上进行流处理。

王知无-大数据技术与架构·2020-08-23 10:03

大数据与云计算技术周报（第152期)

本期会给大家奉献上精彩的：TensorFlow、Flink、Binlog、MVP、spark、知识图谱、数仓、Hudi。全是干货，希望大家喜欢！！！

大数据和云计算技术·2020-08-22 20:42

详解Apache Hudi如何配置各种类型分区

1.引入ApacheHudi支持多种分区方式数据集，如多级分区、单分区、时间日期分区、无分区数据集等，用户可根据实际需求选择合适的分区方式，下面来详细了解Hudi如何配置何种类型分区。

leesf·2020-08-18 09:00

使用Amazon EMR和Apache Hudi在S3上插入，更新，删除数据

将数据存储在AmazonS3中可带来很多好处，包括规模、可靠性、成本效率等方面。最重要的是，你可以利用AmazonEMR中的ApacheSpark，Hive和Presto之类的开源工具来处理和分析数据。尽管这些工具功能强大，但是在处理需要进行增量数据处理以及记录级别插入，更新和删除场景时，仍然非常具有挑战。与客户交谈时，我们发现有些场景需要处理对单条记录的增量更新，例如：遵守数据隐私法规，在该法规

xleesf·2020-08-14 21:35

Apache Hudi表自动同步至阿里云数据湖分析DLA

1.引入Hudi0.6.0版本之前只支持将Hudi表同步到Hive或者兼容Hive的MetaStore中，对于云上其他使用与Hive不同SQL语法MetaStore则无法支持，为解决这个问题，近期社区对原先的同步模块

leesf·2020-08-10 19:00

Apache Hudi 设计与架构最强解读

1.简介ApacheHudi(简称：Hudi)使得您能在hadoop兼容的存储之上存储大量数据，同时它还提供两种原语，使得除了经典的批处理之外，还可以在数据湖上进行流处理。

吃鱼的羊·2020-08-05 21:45

推荐频道

---Hudi

Apache Hudi 在 B 站构建实时数据湖的实践

Apache Hudi 在 B 站构建实时数据湖的实践

技术干货｜ 阿里云基于Hudi构建Lakehouse实践探索

使用 Flink Hudi 构建流式数据湖

技术干货｜ 阿里云基于Hudi构建Lakehouse实践探索

技术干货｜基于Apache Hudi 的CDC数据入湖「内附干货PPT下载渠道」

技术干货｜基于Apache Hudi 的CDC数据入湖

Hudi On Flink

今日直播 | Apache Hudi x Apache Pulsar Meetup线上专场如期而至 大咖齐聚

数据湖在大数据场景下应用和实施方案调研笔记(增强版)

Apache Hudi x Pulsar Meetup杭州站火爆来袭，实践干货就等你来！

Apache Hudi 是如何维护小文件的

Hudi自带工具DeltaStreamer的实时入湖最佳实践

Apache Hudi使用简介

百信银行基于 Apache Hudi 实时数据湖演进方案

Hudi 0.6.0 源码阅读（数据写入）

Flink+iceberg环境搭建以及问题处理

Apache Hudi 从入门到放弃(1) —— Hudi的初步尝试

融合趋势下基于 Flink Kylin Hudi 湖仓一体的大数据生态体系

融合趋势下基于 Flink Kylin Hudi 湖仓一体的大数据生态体系

Hudi on Flink 快速上手指南

Hudi on Flink 快速上手指南

Flink + Iceberg 全场景实时数仓的建设实践

Apache Hudi使用简介

数据湖架构--Iceberg

数仓实时化改造：Hudi on Flink 在顺丰的实践应用

数仓实时化改造：Hudi on Flink 在顺丰的实践应用

NoSuchObjectException(message:ods_db.event table not found)

数据湖和数据仓库区别介绍

Apache Hudi使用简介

Apache Hudi使用简介

【大数据开发】Hudi——Hudi快速入门

划重点！AWS的湖仓一体使用哪种数据湖格式进行衔接？

Apache Hudi和Presto的前世今生

Hudi：初识Hudi

Apache Hudi在医疗大数据中的应用

Hudi原理 | Apache Hudi 典型应用场景介绍

4、Apache Hudi：Spark读取Binlog并写入

1、Apache Hudi简介

Apache Hudi在医疗大数据的应用

Apache Hudi 介绍与应用

Apache Hudi社区新晋多位Committer

Apache Hudi 架构设计和基本概念

Apache Hudi 0.6.0版本重磅发布

Apache Hudi：说出来你可能不信，你的ETL任务慢如狗

大数据与云计算技术周报（第152期)

详解Apache Hudi如何配置各种类型分区

使用Amazon EMR和Apache Hudi在S3上插入，更新，删除数据

Apache Hudi表自动同步至阿里云数据湖分析DLA

Apache Hudi 设计与架构最强解读

技术干货｜阿里云基于Hudi构建Lakehouse实践探索

技术干货｜阿里云基于Hudi构建Lakehouse实践探索

今日直播 | Apache Hudi x Apache Pulsar Meetup线上专场如期而至大咖齐聚