E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
Hudi
Apache
Hudi
- 初步了解
背景
Hudi
是Uber主导开发的开源数据湖框架。所以大部分的出发点都来源于Uber自身场景,比如司机数据和乘客数据通过订单Id来做Join等。在
Hudi
过去的使用场景里,和大
万州客
·
2022-04-07 09:41
基于Apache
Hudi
在Google云构建数据湖平台
自从计算机出现以来,我们一直在尝试寻找计算机存储一些信息的方法,存储在计算机上的信息(也称为数据)有多种形式,数据变得如此重要,以至于信息现在已成为触手可及的商品。多年来数据以多种方式存储在计算机中,包括数据库、blob存储和其他方法,为了进行有效的业务分析,必须对现代应用程序创建的数据进行处理和分
leesf
·
2022-04-07 08:00
基于Apache
Hudi
和Debezium构建CDC入湖管道
从Hudiv0.10.0开始,我们很高兴地宣布推出适用于Deltastreamer的Debezium源,它提供从Postgres和MySQL数据库到数据湖的变更捕获数据(CDC)的摄取。有关详细信息请参阅原始RFC1.背景当想要对来自事务数据库(如Postgres或MySQL)的数据执行分析时,通常需要通过称为更改数据捕获CDC的过程将此数据引入数据仓库或数据湖等OLAP系统。Debezium是一
leesf
·
2022-04-05 20:00
Robinhood基于Apache
Hudi
的下一代数据湖实践
摘要Robinhood的使命是使所有人的金融民主化。Robinhood内部不同级别的持续数据分析和数据驱动决策是实现这一使命的基础。我们有各种数据源——OLTP数据库、事件流和各种第3方数据源。需要快速、可靠、安全和以隐私为中心的数据湖摄取服务来支持各种报告、关键业务管道和仪表板。不仅在数据存储规模和查询方面,也在我们在数据湖支持的用例方面,我们从最初的数据湖版本[1]都取得了很大的进展。在这篇博
·
2022-04-02 11:03
Robinhood基于Apache
Hudi
的下一代数据湖实践
1.摘要Robinhood的使命是使所有人的金融民主化。Robinhood内部不同级别的持续数据分析和数据驱动决策是实现这一使命的基础。我们有各种数据源——OLTP数据库、事件流和各种第3方数据源。需要快速、可靠、安全和以隐私为中心的数据湖摄取服务来支持各种报告、关键业务管道和仪表板。不仅在数据存储规模和查询方面,也在我们在数据湖支持的用例方面,我们从最初的数据湖版本都取得了很大的进展。在这篇博客
leesf
·
2022-03-31 15:00
Apache
Hudi
集成Spark SQL操作hide表
目录1.摘要2.环境准备2.1启动spark-sql2.2设置并发度3.CreateTable4.InsertInto4.1Insert4.2Select5.Update5.1Update5.2Select6.Delete6.1Delete6.2Select7.MergeInto7.1MergeIntoInsert7.2Select7.4MergeIntoUpdate7.5Select7.6Mer
·
2022-03-31 12:06
Apache Pulsar结合
Hudi
构建Lakehouse方案分析
目录1.动机2.分析3.当前方案4.新的Lakehouse存储方案4.1新的存储布局4.2支持高效Upserts4.3将
Hudi
表当做PulsarTopic4.4可扩展的元数据管理5.引用1.动机Lakehouse
·
2022-03-31 10:55
Apache
Hudi
的多版本清理服务彻底讲解
目录1.回收空间以控制存储成本2.问题描述3.深入了解
Hudi
清理服务4.清理服务5.例子6.配置7.运行命令8.未来计划ApacheHudi提供了MVCC并发模型,保证写入端和读取端之间快照级别隔离。
·
2022-03-30 22:42
深入解析Apache
Hudi
内核文件标记机制
目录1.摘要2.为何引入Markers机制3.现有的直接标记机制及其局限性4.基于时间线服务器的标记机制提高写入性能5.标记相关的写入选项6.性能7.总结1.摘要
Hudi
支持在写入时自动清理未成功提交的数据
·
2022-03-30 22:11
Z-Order加速
Hudi
大规模数据集方案分析
目录1.背景2.Z-Order介绍3.具体实现3.1z-value的生成和排序3.1.1基于映射策略的z值生成方法3.1.2基于RangeBounds的z-value生成策略3.2与
Hudi
结合3.2.1
·
2022-03-30 22:41
Apache
Hudi
数据布局黑科技降低一半查询时间
目录1.背景2.Clustering架构2.1调度Clustering2.2运行Clustering2.3Clustering配置3.表查询性能3.1进行Clustering之前3.2进行Clustering之后4.总结1.背景ApacheHudi将流处理带到大数据,相比传统批处理效率高一个数量级,提供了更新鲜的数据。在数据湖/仓库中,需要在摄取速度和查询性能之间进行权衡,数据摄取通常更喜欢小文件
·
2022-03-30 20:07
Apache
Hudi
基于华米科技应用湖仓一体化改造
目录1.应用背景及痛点介绍2.技术方案选型3.问题与解决方案3.1.增量数据字段对齐问题3.2全球存储兼容性问题3.3云主机时区统一问题3.4升级新版本问题3.5多分区Upsert性能问题3.6数据特性适应问题4.上线收益4.1成本方面4.2效率方面4.3稳定性层面4.4查询性能层面5.总结与展望1.应用背景及痛点介绍华米科技是一家基于云的健康服务提供商,拥有全球领先的智能可穿戴技术。在华米科技,
·
2022-03-30 20:06
Apache
Hudi
异步Clustering部署操作的掌握
目录1.摘要2.介绍3.Clustering策略3.1计划策略3.2执行策略3.3更新策略4.异步Clustering4.1HoodieClusteringJob4.2HoodieDeltaStreamer4.3SparkStructuredStreaming5.总结和未来工作1.摘要在之前的一篇博客中,我们介绍了Clustering(聚簇)的表服务来重新组织数据来提供更好的查询性能,而不用降低摄
·
2022-03-30 20:35
Apache教程
Hudi
与Hive集成手册
目录1.
Hudi
表对应的Hive外部表介绍2.Hive对
Hudi
的集成3.创建
Hudi
表对应的hive外部表4.查询
Hudi
表对应的Hive外部表4.1操作前提4.2COW类型
Hudi
表的查询4.2.1COW
·
2022-03-30 18:27
OnZoom基于Apache
Hudi
的一体架构实践解析
1.背景OnZoom是Zoom新产品,是基于ZoomMeeting的一个独一无二的在线活动平台和市场。作为Zoom统一通信平台的延伸,OnZoom是一个综合性解决方案,为付费的Zoom用户提供创建、主持和盈利的活动,如健身课、音乐会、站立表演或即兴表演,以及Zoom会议平台上的音乐课程。在OnZoomdataplatform中,source数据主要分为MySQLDB数据和Log数据。其中Kafka
·
2022-03-30 18:26
Apache
Hudi
结合Flink的亿级数据入湖实践解析
目录1.实时数据落地需求演进2.基于Spark+
Hudi
的实时数据落地应用实践3.基于Flink自定义实时数据落地实践4.基于Flink+
Hudi
的落地数据实践5.后续应用规划及展望5.1取代离线报表,
·
2022-03-30 18:23
Apache
Hudi
性能提升三倍的查询优化
目录1.背景2.设置3.测试4.结果5.总结从
Hudi
0.10.0版本开始,我们很高兴推出在数据库领域中称为Z-Order和Hilbert空间填充曲线的高级数据布局优化技术的支持。
·
2022-03-30 18:21
Apache
Hudi
灵活的Payload机制硬核解析
HudiPayload在写入和读取
Hudi
表时对数据进行去重、过滤、合并等操作的工具类,通过使用参数"hoodie.datasource.write.payload.class"指定我们需要使用的Payloadclass
·
2022-03-30 15:42
Vertica集成Apache
Hudi
重磅使用指南
目录1.摘要2.ApacheHudi介绍3.环境准备4.Vertica和ApacheHudi集成4.1在ApacheSpark上配置ApacheHudi和AWSS34.2配置Vertica和ApacheHUDI集成4.3如何让Vertica查看更改的数据4.3.1写入数据4.3.2更新数据4.3.3创建和查看数据的历史快照1.摘要本文演示了使用外部表集成Vertica和ApacheHudi。在演示
·
2022-03-30 15:40
字节跳动基于 Apache
Hudi
的多流拼接实践方案
字节跳动数据湖团队在实时数仓构建宽表的业务场景中,探索实践出的一种基于HudiPayload的合并机制提出的全新解决方案。作者:字节跳动数据湖团队字节跳动数据湖团队在实时数仓构建宽表的业务场景中,探索实践出的一种基于HudiPayload的合并机制提出的全新解决方案。该方案在存储层提供对多流数据的关联能力,旨在解决实时场景下多流JOIN遇到的一系列问题。接下来,本文会详细介绍多流拼接方案的背景以及
·
2022-03-30 14:46
数据湖apache字节跳动
Vertica集成Apache
Hudi
指南
Hudi
代表HadoopUpsertsDeletesandIncrementals,是一个开源框架。Hud
leesf
·
2022-03-29 15:00
Apache
Hudi
灵活的Payload机制
HudiPayload在写入和读取
Hudi
表时对数据进行去重、过滤、合并等操作的工具类,通过使用参数"hoodie.datasource.write.payload.class"指定我们需要使用的Payloadclass
leesf
·
2022-03-28 19:00
华为云FusionInsight MRS实战 -
Hudi
实时入湖之DeltaStreamer工具最佳实践
背景传统大数据平台的组织架构是针对离线数据处理需求设计的,常用的数据导入方式为采用sqoop定时作业批量导入。随着数据分析对实时性要求不断提高,按小时、甚至分钟级的数据同步越来越普遍。由此展开了基于spark/flink流处理机制的(准)实时同步系统的开发。然而实时同步从一开始就面临如下几个挑战:小文件问题。不论是spark的microbatch模式,还是flink的逐条处理模式,每次写入HDFS
·
2022-03-25 10:09
程序员
懒癌患者基于 YCSB 构造
hudi
upsert 数据集(上篇)
实时小白一枚,在线求更加强大和方便的工具需求对
hudi
进行upsert压测,简单的链路为flink消费kafka直接灌入
hudi
表,需要构造10亿条数据,可控制insert和update的配比YCSB调研引言
·
2022-03-24 15:39
大数据数据湖flink
Apache
hudi
源码分析 - 写时处理优化小文件问题(flink)
Flink:0.12(引擎版本影响不大)
hudi
:0.11.0-SNAPSHOTTime:2022/03/14spark适配同理整体流程flink对每一行数据进行处理,构造recorderKey(包含分区路径
·
2022-03-24 14:46
大数据数据湖flink
基于MRS-
Hudi
构建数据湖的典型应用场景介绍
一、传统数据湖存在的问题与挑战传统数据湖解决方案中,常用Hive来构建T+1级别的数据仓库,通过HDFS存储实现海量数据的存储与水平扩容,通过Hive实现元数据的管理以及数据操作的SQL化。虽然能够在海量批处理场景中取得不错的效果,但依然存在如下现状问题:问题一:不支持事务由于传统大数据方案不支持事务,有可能会读到未写完成的数据,造成数据统计错误。为了规避该问题,通常控制读写任务顺序调用,在保证写
·
2022-03-23 10:02
程序员
华为云MRS基于
Hudi
和HetuEngine构建实时数据湖最佳实践
数据湖与实时数据湖是什么?各个行业企业都在构建企业级数据湖,将企业内多种格式数据源汇聚的大数据平台,通过严格的数据权限和资源管控,将数据和算力开放给各种使用者。一份数据支持多种分析,是数据湖最大的特点。如果数据湖的数据,从数据源产生后,可以在1分钟以内实时进入到数据湖存储,支持各种交互式分析,这种数据湖通常叫做实时数据湖,如果可以做到15分钟之内,也可称为准实时数据湖。构建实时数据湖,正在成为5G
·
2022-03-23 09:56
程序员
懒癌患者基于 YCSB 构造
hudi
upsert 数据集(上篇)
实时小白一枚,在线求更加强大和方便的工具需求对
hudi
进行upsert压测,简单的链路为flink消费kafka直接灌入
hudi
表,需要构造10亿条数据,可控制insert和update的配比YCSB调研引言
·
2022-03-22 09:22
大数据数据湖flink
HoodieWriteHandle 数据写入处理
项目中使用FlinkSQL将离线数据、流数据写入
Hudi
,自下而上分析写
hudi
的流程。
hudi
版本0.10.0-patch。
todd5167
·
2022-03-19 13:37
Apache
hudi
源码分析 - 写时处理优化小文件问题(flink)
Flink:0.12(引擎版本影响不大)
hudi
:0.11.0-SNAPSHOTTime:2022/03/14spark适配同理整体流程flink对每一行数据进行处理,构造recorderKey(包含分区路径
·
2022-03-14 23:28
大数据数据湖flink
Apache
Hudi
查询优化了解下?
从
Hudi
0.10.0版本开始,我们很高兴推出在数据库领域中称为Z-Order和Hilbert空间填充曲线的高级数据布局优化技术的支持。
leesf
·
2022-03-06 17:00
Hudi
Bucket Index 在字节跳动的设计与实践
由字节跳动数据湖团队贡献的RFC-29BucketIndex在近期合入
Hudi
主分支,本文详细介绍HudiBucketIndex产生的背景与实践经验。
·
2022-02-28 13:06
字节跳动
Hudi
0.5.2
Hudi
写时复制 读时合并表区别联系
表类型写时复制(CopyOnWrite):仅使用列式文件格式(parquet,基本文件)存储数据。通过在写入过程中执行同步合并,仅更新版本并重写新文件。读时合并(MergeOnReader):使用列式文件格式(parquet,基本文件)+基于行(例如avro,增量文件)的文件格式的组合来存储数据。更新记录到增量文件中,然后压缩以同步或异步生成新的列式文件格式。查询类型快照查询(实时查询):查询给定
海南中剑
·
2022-02-22 00:26
使用 Flink
Hudi
构建流式数据湖平台
摘要:本文整理自阿里巴巴技术专家陈玉兆(玉兆)、阿里巴巴开发工程师刘大龙(风离)在FlinkForwardAsia2021的分享。主要内容包括:ApacheHudi101FlinkHudiIntegrationFlinkHudiUseCaseApacheHudiRoadmapFFA2021直播回放&演讲PDF下载一、ApacheHudi101提到数据湖,大家都会有这样的疑问,什么是数据湖?为什么数
·
2022-02-16 19:12
Apache RocketMQ +
Hudi
快速构建 Lakehouse
本文目录背景知识大数据时代的构架演进RocketMQConnector&StreamApacheHudi构建Lakehouse实操本文标题包含三个关键词:Lakehouse、RocketMQ、
Hudi
。
·
2022-02-16 03:34
阿里云云原生开源消息队列
Apache
hudi
源码分析 - zorder 布局优化
本篇文章意在通过某个功能逐步熟悉
hudi
整体架构上的实现,不会讨论算法的实现细节
hudi
新人,有问题欢迎指正spark:version,3.1.2
hudi
:branch,masterTime:2022/
·
2022-02-06 12:54
数据湖spark大数据
Apache RocketMQ +
Hudi
快速构建 Lakehouse
简介:基于RocketMQ和
Hudi
零代码构建Lakehouse架构,以及RocketMQConnector&RocketMQStream助力ETL数据分析,为大家提供快速构建Lakehouse的技术方案和低运维成本实现实时计算的解决方案
·
2022-01-20 10:22
apache数据库
Flink
Hudi
0.10.0 发布,多项重要更新,稳定性大幅提升
Flink中文学习网站https://flink-learning.org.cn前言随着云数仓技术的不断成熟,数据湖俨然已成为当下最热门的技术之一,而ApacheHudi是当下最具竞争力的数据湖格式之一:拥有最活跃的开源社区之一,周活跃PR一直维持在50+水平;拥有最活跃的国内用户群之一,目前的ApacheHudi钉钉群用户已超过2200+,国内各大厂商都已经布局ApacheHudi生态。Apac
·
2021-12-20 14:35
flink大数据编程后端数据湖
基于Delta lake、
Hudi
格式的湖仓一体方案
简介:DeltaLake和
Hudi
是流行的开放格式的存储层,为数据湖同时提供流式和批处理的操作,这允许我们在数据湖上直接运行BI等应用,让数据分析师可以即时查询新的实时数据,从而对您的业务产生即时的洞察
·
2021-12-03 19:07
从消息到数据湖:看 Apache RocketMQ、
Hudi
、Kyuubi 最新进展
本场活动聚焦ApacheRocketMQ及
Hudi
,Kyuubi数据湖结合,帮助开发者能更好地
·
2021-11-22 12:50
阿里云开发者
从消息到数据湖:看 Apache RocketMQ、
Hudi
、Kyuubi 最新进展
本场活动聚焦ApacheRocketMQ及
Hudi
,Kyuubi数据湖结合,帮助开发者能更好地应对业务挑战。活动将邀请喜马拉雅、平安证券、网易、阿里云的众多技术专家,共同为大家分享Ap
·
2021-11-17 20:45
hudi
clustering 数据聚集(三 zorder使用)
目前最新的
hudi
版本为0.9,暂时还不支持zorder功能,但master分支已经合入了(RFC-28),所以可以自己编译master分支,提前体验下zorder效果。
努力爬呀爬
·
2021-11-13 15:00
hudi
clustering 数据聚集(二)
小文件合并解析执行代码:importorg.apache.
hudi
.QuickstartUtils._importscala.collection.JavaConversions.
努力爬呀爬
·
2021-11-12 18:00
hudi
clustering 数据聚集(一)
概要数据湖的业务场景主要包括对数据库、日志、文件的分析,而管理数据湖有两点比较重要:写入的吞吐量和查询性能,这里主要说明以下问题:1、为了获得更好的写入吞吐量,通常把数据直接写入文件中,这种情况下会产生很多小的数据文件。虽然小文件的使用可以增加写入的并行度,且能够并行读取文件以提高读取速度,但会出现一个数据量很小,需要从多个小文件中读取数据,增加了很多IO。2、数据按照进入数据湖的方式写入到文件中
努力爬呀爬
·
2021-11-11 09:00
Flink+
Hudi
构架湖仓一体化解决方案
本文转载自公众号【麒思妙想】,详细介绍了Flink+
Hudi
湖仓一体化方案的原型构建。
·
2021-11-05 12:38
Flink大数据实时计算
顺丰科技
Hudi
on Flink 实时数仓实践
本文作者为刘杰,介绍了顺丰科技数仓的架构,趟过的一些问题、使用
Hudi
来优化整个job状态的实践细节,以及未来的一些规划。
·
2021-11-05 11:34
Flink大数据
Flink-CDC 同步Mysql数据到S3
Hudi
软件版本Mysql:5.7Hadoop:3.1.3Flink:1.12.2
Hudi
:0.9.0Hive:2.3.71.Mysql建表并开启bin_logcreatetableusers(idbigintauto_incrementprimarykey
阿猫阿狗Hakuna
·
2021-10-27 15:36
基于Delta lake、
Hudi
格式的湖仓一体方案
简介:DeltaLake和
Hudi
是流行的开放格式的存储层,为数据湖同时提供流式和批处理的操作,这允许我们在数据湖上直接运行BI等应用,让数据分析师可以即时查询新的实时数据,从而对您的业务产生即时的洞察
·
2021-10-27 14:04
数据仓库
顺丰科技
Hudi
on Flink 实时数仓实践
简介:介绍了顺丰科技数仓的架构,趟过的一些问题、使用
Hudi
来优化整个job状态的实践细节,以及未来的一些规划。
·
2021-10-12 11:28
Flinkspark
37 手游基于 Flink CDC +
Hudi
湖仓一体方案实践
简介:介绍了37手游为何选择Flink作为计算引擎,并如何基于FlinkCDC+
Hudi
构建新的湖仓一体方案。
·
2021-09-24 11:36
flink数据库
上一页
7
8
9
10
11
12
13
14
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他