HUDI 第10页

KLOOK客路旅行基于Apache Hudi的数据湖实践

优质资源分享学习路线指引（点击解锁）知识定位人群定位Python实战微信订餐小程序进阶级本课程是pythonflask+微信小程序的完美结合，从项目搭建到腾讯云部署上线，打造一个全栈订餐系统。Python量化交易实战入门级手把手带你打造一个易扩展、更安全、效率更高的量化交易系统1.业务背景介绍客路旅行（KLOOK）是一家专注于境外目的地旅游资源整合的在线旅行平台，提供景点门票、一日游、特色体验、当

[虚幻私塾】·2022-10-18 17:49

HDFS-Spark-Hudi环境的搭建及测试

HDFS-Spark-Hudi环境的搭建及测试由于需要进行Hudi的详细选型，本文从0开始搭建一个Spark+Hudi的环境，并进行简单使用。

happyredstar·2022-10-18 17:49

Hudi源码|bootstrap源码分析总结（写Hudi）

前言ApacheHudibootstrap源码简要走读，不了解Hudibootstrap的可以参考：利用HudiBootstrap转化现有Hive表的parquet/orc文件为Hudi表版本Hudi0.12.0Spark2.4.4

董可伦·2022-10-18 17:47

Apache Hudi技术与架构-1

Hudi提供的核心功能包括数据表管理服务、事务管理服务、高效的增删改查操作服务、先进的索引系统服务、流式数据采集服务、数据集群与压缩优化服务、高性能的并发控制服务，Hudi数

uesowys·2022-10-08 08:27

技术干货｜基于Apache Hudi 的CDC数据入湖「内附干货PPT下载渠道」

简介：阿里云技术专家李少锋(风泽)在ApacheHudi与ApachePulsar联合Meetup杭州站上的演讲整理稿件，本议题将介绍典型CDC入湖场景，以及如何使用Pulsar/Hudi来构建数据湖，

阿里云云栖号·2022-09-21 18:14

技术干货｜基于Apache Hudi 的CDC数据入湖

简介：阿里云技术专家李少锋(风泽)在ApacheHudi与ApachePulsar联合Meetup杭州站上的演讲整理稿件，本议题将介绍典型CDC入湖场景，以及如何使用Pulsar/Hudi来构建数据湖，

阿里云开发者·2022-09-21 18:12

基于Hudi的湖仓一体技术在Shopee的实践

关注「Shopee技术团队」公众号，探索更多Shopee技术实践目录1.Shopee数据系统建设中面临的典型问题2.为什么选择Hudi3.Shopee在Hudi落地过程中的实践4.社区贡献5.总结与展望湖仓一体

·2022-09-08 11:33

Apache Hudi X Apache Kyuubi，中国移动云湖仓一体的探索与实践

分享嘉宾：孙方彬中国移动云能力中心软件开发工程师编辑整理：HohXil出品平台：DataFunTalk导读：在云原生+大数据的时代，随着业务数据量的爆炸式增长以及对高时效性的要求，云原生大数据分析技术，经历了从传统数仓到数据湖，再到湖仓一体的演进。本文主要介绍移动云云原生大数据分析LakeHouse的整体架构、核心功能、关键技术点，以及在公有云/私有云的应用场景。主要内容包括：湖仓一体概述移动云L

·2022-09-06 17:33

Flink 使用之操作 Hudi 表

AlienPaul·2022-09-05 10:36

使用Apache Flink 和 Apache Hudi 创建低延迟数据湖管道

近年来出现了从单体架构向微服务架构的转变。微服务架构使应用程序更容易扩展和更快地开发，支持创新并加快新功能上线时间。但是这种方法会导致数据存在于不同的孤岛中，这使得执行分析变得困难。为了获得更深入和更丰富的见解，企业应该将来自不同孤岛的所有数据集中到一个地方。AWS提供复制工具，例如AWSD

leesf·2022-09-04 20:00

基于 Apache Hudi 和DBT 构建开放的Lakehouse

本博客的重点展示如何利用增量数据处理和执行字段级更新来构建一个开放式Lakehouse。我们很高兴地宣布，用户现在可以使用ApacheHudi+dbt来构建开放Lakehouse。在深入了解细节之前，让我们先澄清一下本博客中使用的一些术语。什么是ApacheHudi？Apac

leesf·2022-08-21 17:00

基于Apache Hudi构建分析型数据湖

为了有机地发展业务，每个组织都在迅速采用分析。在分析过程的帮助下，产品团队正在接收来自用户的反馈，并能够以更快的速度交付新功能。通过分析提供的对用户的更深入了解，营销团队能够调整他们的活动以针对特定受众。只有当我们能够大规模提供分析时，这一切才有可能。对数据湖的需求在NoBrokerco

leesf·2022-08-20 22:00

重磅发布，阿里云全链路数据湖开发治理解决方案

近日，阿里云EMR重磅推出新版数据湖Datalake，100%兼容社区大数据开源组件，具备极强的弹性能力，支持D数据湖构建DLF，数据湖存储OSS和OSS-HDFS，支持DeltaLake、Hudi、Iceberg

阿里云大数据AI技术·2022-08-18 13:05

重磅发布！阿里云全链路数据湖开发治理解决方案

近日，阿里云EMR重磅推出新版数据湖Datalake，100%兼容社区大数据开源组件，具备极强的弹性能力，支持数据湖构建DLF，数据湖存储OSS和OSS-HDFS，支持DeltaLake、Hudi、Iceberg

·2022-08-17 14:27

第六届 Techo TVP 开发者峰会暨腾讯云大数据峰会来啦！

3年前，面对越来越灵活多样的分析场景，Iceberg、Hudi等数据湖技术成为新贵

·2022-08-16 17:46

Hudi Spark-Shell 实战

1.1启动spark-shell启动,需要指定spark-avro模块，因为默认环境里没有，spark-avro模块版本好需要和spark版本对应，这里都是3.1.3，并且使用Hudi编译好的jar包。

hyunbar·2022-08-09 10:22

Apache Hudi vs Delta Lake：透明TPC-DS Lakehouse性能基准

1.介绍最近几周，人们对比较Hudi、Delta和Iceberg的表现越来越感兴趣。我们认为社区应该得到更透明和可重复的分析。

leesf·2022-08-07 20:00

FlinkCDC+Hudi+Hive大数据实时入湖基础实战

目录前言：新架构与湖仓一体一、版本说明二、编译打包hudi0.10.0版本1.使用git克隆github上最新的master2.编译打包三、创建flink工程1.pom文件主要内容2.checkpoint3

阿飞不会飞丶·2022-07-29 10:03

Flink CDC 系列（10）—— MySQL 数据入湖 Hudi

FlinkCDC系列文章：《FlinkCDC系列（1）——什么是FlinkCDC》《FlinkCDC系列（2）——FlinkCDC源码编译》《FlinkCDC系列（3）——FlinkCDCMySQLConnector与FlinkSQL的结合使用案例Demo》《FlinkCDC系列（4）——FlinkCDCMySQLConnector常用参数表》《FlinkCDC系列（5）——FlinkCDCMyS

白月蓝山·2022-07-29 10:33

Flink+Hudi 构架湖仓一体化解决方案

Apache Flink·2022-07-29 10:32

FLINK集成HUDI实战

1.说明1.环境依赖flink版本：flink-1.13.0flink-cdc版本：2.1.0hudi版本：2.11-0.10.0hive版本：3.1.02.使用过程中FLINK中的包3.过程记录注意1

嘎子吱吱吱吱·2022-07-29 10:02

基于Apache Hudi + Flink的亿级数据入湖实践

36074Python实战量化交易理财系统https://edu.csdn.net/course/detail/35475本次分享分为5个部分介绍ApacheHudi的应用与实践实时数据落地需求演进基于Spark+Hudi

虚幻私塾·2022-07-29 10:00

30分钟掌握沧湖一体化：flink+hudi

Hudi解决了以下限制HDFS的可伸缩性限制需要在Hadoop中更快地呈现数据没有直接支持对现有数据的更新和删除快速的ETL和建模要检索所有更新的记录，无论这些更新是添加到最近日期分区的新记录还是对旧数据的更新

前端罗欢·2022-07-29 10:57

flink实战--flinkSQL数据写入hudi

关注微信公众号【BigData512】,了解更多大数据技术，还有免费资料等你哦简介ApacheHudi是目前最流行的数据湖解决方案之一，DataLakeAnalytics集成了Hudi服务高效的数据MERGE

阿华田512·2022-07-29 10:25

Flink SQL Hudi 实战

1、概述官网：https://hudi.apache.orggitee：https://gitee.com/apache/Hudi1.1架构1.2特点Upserts,Deleteswithfast,pluggableindexing.Incrementalqueries

hyunbar·2022-07-29 10:24

详解 Apache Hudi Schema Evolution(模式演进)

SchemaEvolution（模式演进）允许用户轻松更改Hudi表的当前模式，以适应随时间变化的数据。

leesf·2022-07-24 16:00

Apache Hudi数据跳过技术加速查询高达50倍

介绍在Hudi0.10中，我们引入了对高级数据布局优化技术的支持，例如Z-order和希尔伯特空间填充曲线（作为新的聚类算法），即使在经常使用过滤器查询大表的复杂场景中，也可以在多个列而非单个列上进行数据跳过

leesf·2022-07-18 22:00

Flink CDC + Hudi 海量数据入湖在顺丰的实践

主要内容包括：顺丰数据集成背景FlinkCDC实践问题与优化未来规划一、顺丰数据集成背景顺丰是快递物流服务提供商，主营业务包含了时效快递、经济快递、同城配送以及冷链运输等。运输流程背后需要一系列系统的支持，比如订单管理系统、智慧物业系统、以及很多中转场、汽车或飞机上的很多传感器，都会产生大量数据。如果需要对这些数据进行数据分析，那么数据集成是其中很重要的一步。顺丰的数据集成经历了几年的发展，主要分

米朵儿技术屋·2022-07-15 19:30

【2】数据湖架构中 Iceberg 的核心特性

在业界的数据湖方案中有Hudi、Iceberg和Delta三个关键组件可供选择。一、Iceberg是什么？

TRX1024·2022-07-13 08:57

数据湖Apache Hudi、Iceberg、Delta环境搭建

1.引入作为依赖Spark的三个数据湖开源框架Delta，Hudi和Iceberg，本篇文章为这三个框架准备环境，并从ApacheSpark、Hive和Presto的查询角度进行比较。

小胖纸liuhui·2022-07-13 08:26

Flink On Hudi整个系列中可能遇到的问题

1、ERRORorg.apache.hudi.sink.compact.CompactFunction[]-Executorexecutesaction[Executecompactionforinstant20220331114224581fromtask0

一个数据小开发·2022-07-13 08:35

Flink CDC模式写入Hudi

为什么是Hudi_一个数据小开发的博客-CSDN博客从0到1搭建数据湖Hudi环境_一个数据小开发的博客-CSDN博客接下来，就是FlinkonHudi的实战了，这一篇带来的CDC模式的入湖。

一个数据小开发·2022-07-13 08:35

Flink SQL Kafka写入Hudi详解

1、背景前面Hudi的专栏已经详细讲解过本地如何构建这套Hudi的运行环境，在此就不在重复了，如果感兴趣想了解的可以去学习下，从0到1搭建数据湖Hudi环境_一个数据小开发的博客-CSDN博客本次重点是为了能够很好的理解

一个数据小开发·2022-07-13 08:34

从0到1搭建数据湖Hudi环境

一、目标前面一篇博文中已经详细讲解过数据湖Hudi相关的一些基本概念，想学习下的，可以去看下。数据湖基本概念--什么是数据湖，数据湖又能干什么？

一个数据小开发·2022-07-13 08:34

为什么是Hudi

一、什么是数据湖对于经常跟数据打交道的同学，初步听到数据湖这个概念的时候，肯定有点懵，但是相信大家对于数据仓库这个概念并不陌生。到了20世纪80年代以后，基于关系型数据库的事务处理成为了企业IT应用的主流。在这个阶段，企业的IT应用主要还是着重于业务职能的自动化及信息的存储、汇总、统计、查询等方面，而分析能力是比较薄弱的，因此这样的信息处理模式称之为事务处理。进而，在网络应用和实时交互处理功能日益

一个数据小开发·2022-07-13 08:01

[Delta][SQL] Delta开源付费功能，最全分析ZOrder的源码实现流程

不管是Hudi、Iceberg还是Delta都实现了基于min-max索引的Data-skiping技术。

Tim在路上·2022-07-09 19:23

hudi中zorder采样分区流程分析——《DEEPNOVA开发者社区》

作者：吴文池背景hudi在数据聚集方面，支持使用zorder对数据进行重排。做zorder排序主要流程分为三步：-对于用户指定的每个zorder字段，生成对应的z值。

·2022-07-08 16:35

深入理解Apache Hudi异步索引机制

在我们之前的文章中，我们讨论了多模式索引的设计，这是一种用于Lakehouse架构的无服务器和高性能索引子系统，以提高查询和写入性能。在这篇博客中，我们讨论了构建如此强大的索引所需的机制，异步索引机制的设计，类似于PostgreSQL和MySQL等流行的数据库系统，它支持索引构建而不会阻塞写

leesf·2022-07-07 06:00

阿里云云原生一体化数仓 — 分析服务一体化新能力解读

简介：本文主要介绍如何通过Hologres在分析和服务场景下的新功能，包括资源隔离，数据湖（Delta、Hudi）的支持、JSON优化支持等。

·2022-07-05 18:43

Flink CDC + Hudi 海量数据入湖在顺丰的实践

简介：覃立辉在5.21FlinkCDCMeetup的分享。本文整理自顺丰大数据研发工程师覃立辉在5月21日FlinkCDCMeetup的演讲。主要内容包括：顺丰数据集成背景FlinkCDC实践问题与优化未来规划点击查看直播回放&演讲PDF一、顺丰数据集成背景顺丰是快递物流服务提供商，主营业务包含了时效快递、经济快递、同城配送以及冷链运输等。运输流程背后需要一系列系统的支持，比如订单管理系统、智慧物

阿里云开发者·2022-06-17 22:45

IDEA 中使用 Hudi的示例代码

目录环境准备核心代码测试参考资料环境准备创建Maven项目创建服务器远程连接Tools------Delployment-----BrowseRemoteHost设置如下内容：在这里输入服务器的账号和密码点击TestConnection，提示Successfully的话，就说明配置成功。复制Hadoop的core-site.xml、hdfs-site.xml以及log4j.properties三个

·2022-06-17 17:34

Apache Hudi多模索引对查询优化高达30倍

与许多其他事务数据系统一样，索引一直是ApacheHudi不可或缺的一部分，并且与普通表格式抽象不同。在这篇博客中，我们讨论了我们如何重新构想索引并在ApacheHudi0.11.0版本中构建新的多模式索引，这是用于Lakehouse架构的首创高性能索引子系统，以优化查询和写入事

leesf·2022-06-12 17:00

Halodoc使用 Apache Hudi 构建 Lakehouse的关键经验

Halodoc数据工程已经从传统的数据平台1.0发展到使用LakeHouse架构的现代数据平台2.0的改造。在我们之前的博客中，我们提到了我们如何在Halodoc实施Lakehouse架构来服务于大规模的分析工作负载。我们提到了平台2.0构建过程中的设计注意事项、最佳实践

leesf·2022-06-09 14:00

Flink CDC + Hudi + Hive + Presto 构建实时数据湖最佳实践

▼关注「ApacheFlink」，获取更多技术干货▼摘要：本文作者罗龙文，分享了如何通过FlinkCDC、Hudi、Hive、Presto等构建数据湖。

Apache Flink·2022-05-31 07:45

数据湖技术Hudi0.10master测试流程

Hudi0.10master测试流程Hudi粗糙介绍hudi同步hive底层大概是什么原理，都是指向同一份存储没有拷贝数据吗，hive是怎么实现update、delete逻辑。

我去探险了·2022-05-31 07:45

Flink写数据到 hudi中,hive读取

#%20%E3%80%8AHive%20On%20Hudi%E3%80%8B在/data/app/hive/auxlib目录放入hudijar–>hudi-hadoop-mr-bundle-0.10.0

xiaolin_xinji·2022-05-31 07:14

「Hudi系列」Apache Hudi入门指南 | SparkSQL+Hive+Presto集成

一、各种整合hive集成hudi方法：将hudijar复制到hivelib下cp .

王知无(import_bigdata)·2022-05-31 07:14

数据湖：Hudi构建中台

Hudi和DaltaLake对spark强绑定，建议使用Saprk。

榛西·2022-05-31 07:13

hudi同步到hive的数据问题

使用：/opt1/app/history-data/action-history-bnode1:9092-sd2021-01-02-ed2021-01-06-tnews203造数时，如果第一次造数的量时1000条，那么同步到hive表也是1000条，最大值就是1000条。如果第二次造数小于最大值，数据就添加不进去，所以还是1000条，如果第三次造数是1500条，你就会在hive中看到有数据增加了，

当贝壳离开了海�·2022-05-31 07:43

Hudi 集成 Hive

环境:hudi0.10.1spark2.4.5hive2.3.7hadoop2.7.5将编译好的hudijar,copy到hivelib目录下:cp/Users/xxx/cloudera/lib/hudi

雾岛与鲸·2022-05-31 07:42

推荐频道

HUDI

KLOOK客路旅行基于Apache Hudi的数据湖实践

HDFS-Spark-Hudi环境的搭建及测试

Hudi源码|bootstrap源码分析总结（写Hudi）

Apache Hudi技术与架构-1

技术干货｜基于Apache Hudi 的CDC数据入湖「内附干货PPT下载渠道」

技术干货｜基于Apache Hudi 的CDC数据入湖

基于Hudi的湖仓一体技术在Shopee的实践

Apache Hudi X Apache Kyuubi，中国移动云湖仓一体的探索与实践

Flink 使用之操作 Hudi 表

使用Apache Flink 和 Apache Hudi 创建低延迟数据湖管道

基于 Apache Hudi 和DBT 构建开放的Lakehouse

基于Apache Hudi构建分析型数据湖

重磅发布 ， 阿里云全链路数据湖开发治理解决方案

重磅发布！阿里云全链路数据湖开发治理解决方案

第六届 Techo TVP 开发者峰会暨腾讯云大数据峰会来啦！

Hudi Spark-Shell 实战

Apache Hudi vs Delta Lake：透明TPC-DS Lakehouse性能基准

FlinkCDC+Hudi+Hive大数据实时入湖基础实战

Flink CDC 系列（10）—— MySQL 数据入湖 Hudi

Flink+Hudi 构架湖仓一体化解决方案

FLINK集成HUDI实战

基于Apache Hudi + Flink的亿级数据入湖实践

30分钟掌握沧湖一体化：flink+hudi

flink实战--flinkSQL数据写入hudi

Flink SQL Hudi 实战

详解 Apache Hudi Schema Evolution(模式演进)

Apache Hudi数据跳过技术加速查询高达50倍

Flink CDC + Hudi 海量数据入湖在顺丰的实践

【2】数据湖架构中 Iceberg 的核心特性

数据湖Apache Hudi、Iceberg、Delta环境搭建

Flink On Hudi整个系列中可能遇到的问题

Flink CDC模式写入Hudi

Flink SQL Kafka写入Hudi详解

从0到1搭建数据湖Hudi环境

为什么是Hudi

[Delta][SQL] Delta开源付费功能，最全分析ZOrder的源码实现流程

hudi中zorder采样分区流程分析——《DEEPNOVA开发者社区》

深入理解Apache Hudi异步索引机制

阿里云云原生一体化数仓 — 分析服务一体化新能力解读

Flink CDC + Hudi 海量数据入湖在顺丰的实践

IDEA 中使用 Hudi的示例代码

Apache Hudi多模索引对查询优化高达30倍

Halodoc使用 Apache Hudi 构建 Lakehouse的关键经验

Flink CDC + Hudi + Hive + Presto 构建实时数据湖最佳实践

数据湖技术Hudi0.10master测试流程

Flink写数据到 hudi中,hive读取

「Hudi系列」Apache Hudi入门指南 | SparkSQL+Hive+Presto集成

数据湖：Hudi构建中台

hudi同步到hive的数据问题

Hudi 集成 Hive

重磅发布，阿里云全链路数据湖开发治理解决方案