E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
HUDI
KLOOK客路旅行基于Apache
Hudi
的数据湖实践
优质资源分享学习路线指引(点击解锁)知识定位人群定位Python实战微信订餐小程序进阶级本课程是pythonflask+微信小程序的完美结合,从项目搭建到腾讯云部署上线,打造一个全栈订餐系统。Python量化交易实战入门级手把手带你打造一个易扩展、更安全、效率更高的量化交易系统1.业务背景介绍客路旅行(KLOOK)是一家专注于境外目的地旅游资源整合的在线旅行平台,提供景点门票、一日游、特色体验、当
[虚幻私塾】
·
2022-10-18 17:49
python
apache
flask
python
计算机
HDFS-Spark-
Hudi
环境的搭建及测试
HDFS-Spark-
Hudi
环境的搭建及测试由于需要进行
Hudi
的详细选型,本文从0开始搭建一个Spark+
Hudi
的环境,并进行简单使用。
happyredstar
·
2022-10-18 17:49
大数据和云计算
大数据
新数据库
hdfs
spark
hadoop
Hudi
源码|bootstrap源码分析总结(写
Hudi
)
前言ApacheHudibootstrap源码简要走读,不了解Hudibootstrap的可以参考:利用HudiBootstrap转化现有Hive表的parquet/orc文件为
Hudi
表版本
Hudi
0.12.0Spark2.4.4
董可伦
·
2022-10-18 17:47
Hudi
源码
Spark
bootstrap
大数据
Hudi
Apache
Hudi
技术与架构-1
Hudi
提供的核心功能包括数据表管理服务、事务管理服务、高效的增删改查操作服务、先进的索引系统服务、流式数据采集服务、数据集群与压缩优化服务、高性能的并发控制服务,
Hudi
数
uesowys
·
2022-10-08 08:27
大数据技术与架构
apache
架构
大数据
数据湖
技术干货|基于Apache
Hudi
的CDC数据入湖「内附干货PPT下载渠道」
简介:阿里云技术专家李少锋(风泽)在ApacheHudi与ApachePulsar联合Meetup杭州站上的演讲整理稿件,本议题将介绍典型CDC入湖场景,以及如何使用Pulsar/
Hudi
来构建数据湖,
阿里云云栖号
·
2022-09-21 18:14
云栖号技术分享
apache
kafka
数据库
技术干货|基于Apache
Hudi
的CDC数据入湖
简介:阿里云技术专家李少锋(风泽)在ApacheHudi与ApachePulsar联合Meetup杭州站上的演讲整理稿件,本议题将介绍典型CDC入湖场景,以及如何使用Pulsar/
Hudi
来构建数据湖,
阿里云开发者
·
2022-09-21 18:12
SQL
存储
消息中间件
分布式计算
Kafka
基于
Hudi
的湖仓一体技术在Shopee的实践
关注「Shopee技术团队」公众号,探索更多Shopee技术实践目录1.Shopee数据系统建设中面临的典型问题2.为什么选择
Hudi
3.Shopee在
Hudi
落地过程中的实践4.社区贡献5.总结与展望湖仓一体
·
2022-09-08 11:33
data后端
Apache
Hudi
X Apache Kyuubi,中国移动云湖仓一体的探索与实践
分享嘉宾:孙方彬中国移动云能力中心软件开发工程师编辑整理:HohXil出品平台:DataFunTalk导读:在云原生+大数据的时代,随着业务数据量的爆炸式增长以及对高时效性的要求,云原生大数据分析技术,经历了从传统数仓到数据湖,再到湖仓一体的演进。本文主要介绍移动云云原生大数据分析LakeHouse的整体架构、核心功能、关键技术点,以及在公有云/私有云的应用场景。主要内容包括:湖仓一体概述移动云L
·
2022-09-06 17:33
大数据
Flink 使用之操作
Hudi
表
Flink使用介绍相关文档目录Flink使用介绍相关文档目录前言因业务要求对采集来的数据进行统一存储,因此引入了FlinkCDC-
Hudi
方案。
AlienPaul
·
2022-09-05 10:36
使用Apache Flink 和 Apache
Hudi
创建低延迟数据湖管道
近年来出现了从单体架构向微服务架构的转变。微服务架构使应用程序更容易扩展和更快地开发,支持创新并加快新功能上线时间。但是这种方法会导致数据存在于不同的孤岛中,这使得执行分析变得困难。为了获得更深入和更丰富的见解,企业应该将来自不同孤岛的所有数据集中到一个地方。AWS提供复制工具,例如AWSD
leesf
·
2022-09-04 20:00
基于 Apache
Hudi
和DBT 构建开放的Lakehouse
本博客的重点展示如何利用增量数据处理和执行字段级更新来构建一个开放式Lakehouse。我们很高兴地宣布,用户现在可以使用ApacheHudi+dbt来构建开放Lakehouse。在深入了解细节之前,让我们先澄清一下本博客中使用的一些术语。什么是ApacheHudi?Apac
leesf
·
2022-08-21 17:00
基于Apache
Hudi
构建分析型数据湖
为了有机地发展业务,每个组织都在迅速采用分析。在分析过程的帮助下,产品团队正在接收来自用户的反馈,并能够以更快的速度交付新功能。通过分析提供的对用户的更深入了解,营销团队能够调整他们的活动以针对特定受众。只有当我们能够大规模提供分析时,这一切才有可能。对数据湖的需求在NoBrokerco
leesf
·
2022-08-20 22:00
重磅发布 , 阿里云全链路数据湖开发治理解决方案
近日,阿里云EMR重磅推出新版数据湖Datalake,100%兼容社区大数据开源组件,具备极强的弹性能力,支持D数据湖构建DLF,数据湖存储OSS和OSS-HDFS,支持DeltaLake、
Hudi
、Iceberg
阿里云大数据AI技术
·
2022-08-18 13:05
大数据
hadoop
mapreduce
重磅发布!阿里云全链路数据湖开发治理解决方案
近日,阿里云EMR重磅推出新版数据湖Datalake,100%兼容社区大数据开源组件,具备极强的弹性能力,支持数据湖构建DLF,数据湖存储OSS和OSS-HDFS,支持DeltaLake、
Hudi
、Iceberg
·
2022-08-17 14:27
阿里云数据分析数据湖
第六届 Techo TVP 开发者峰会暨腾讯云大数据峰会来啦!
3年前,面对越来越灵活多样的分析场景,Iceberg、
Hudi
等数据湖技术成为新贵
·
2022-08-16 17:46
数据库大数据
Hudi
Spark-Shell 实战
1.1启动spark-shell启动,需要指定spark-avro模块,因为默认环境里没有,spark-avro模块版本好需要和spark版本对应,这里都是3.1.3,并且使用
Hudi
编译好的jar包。
hyunbar
·
2022-08-09 10:22
数据糊
spark
大数据
hadoop
Apache
Hudi
vs Delta Lake:透明TPC-DS Lakehouse性能基准
1.介绍最近几周,人们对比较
Hudi
、Delta和Iceberg的表现越来越感兴趣。我们认为社区应该得到更透明和可重复的分析。
leesf
·
2022-08-07 20:00
FlinkCDC+
Hudi
+Hive大数据实时入湖基础实战
目录前言:新架构与湖仓一体一、版本说明二、编译打包
hudi
0.10.0版本1.使用git克隆github上最新的master2.编译打包三、创建flink工程1.pom文件主要内容2.checkpoint3
阿飞不会飞丶
·
2022-07-29 10:03
flink
hive
big
data
大数据
flink
数据仓库
Flink CDC 系列(10)—— MySQL 数据入湖
Hudi
FlinkCDC系列文章:《FlinkCDC系列(1)——什么是FlinkCDC》《FlinkCDC系列(2)——FlinkCDC源码编译》《FlinkCDC系列(3)——FlinkCDCMySQLConnector与FlinkSQL的结合使用案例Demo》《FlinkCDC系列(4)——FlinkCDCMySQLConnector常用参数表》《FlinkCDC系列(5)——FlinkCDCMyS
白月蓝山
·
2022-07-29 10:33
湖仓
Flink
Hudi
大数据
实时大数据
big
data
flink
Flink+
Hudi
构架湖仓一体化解决方案
▼关注「Flink中文社区」,获取更多技术干货▼摘要:本文详细介绍了Flink+
Hudi
湖仓一体化方案的原型构建。
Apache Flink
·
2022-07-29 10:32
数据仓库
大数据
mysql
java
数据库
FLINK集成
HUDI
实战
1.说明1.环境依赖flink版本:flink-1.13.0flink-cdc版本:2.1.0
hudi
版本:2.11-0.10.0hive版本:3.1.02.使用过程中FLINK中的包3.过程记录注意1
嘎子吱吱吱吱
·
2022-07-29 10:02
hudi
flink
hive
big
data
基于Apache
Hudi
+ Flink的亿级数据入湖实践
36074Python实战量化交易理财系统https://edu.csdn.net/course/detail/35475本次分享分为5个部分介绍ApacheHudi的应用与实践实时数据落地需求演进基于Spark+
Hudi
虚幻私塾
·
2022-07-29 10:00
python
apache
flink
big
data
30分钟掌握沧湖一体化:flink+
hudi
Hudi
解决了以下限制HDFS的可伸缩性限制需要在Hadoop中更快地呈现数据没有直接支持对现有数据的更新和删除快速的ETL和建模要检索所有更新的记录,无论这些更新是添加到最近日期分区的新记录还是对旧数据的更新
前端罗欢
·
2022-07-29 10:57
Java
经验分享
架构
java
flink实战--flinkSQL数据写入
hudi
关注微信公众号【BigData512】,了解更多大数据技术,还有免费资料等你哦简介ApacheHudi是目前最流行的数据湖解决方案之一,DataLakeAnalytics集成了
Hudi
服务高效的数据MERGE
阿华田512
·
2022-07-29 10:25
Flink学习必读系列
flink
大数据
big
data
Flink SQL
Hudi
实战
1、概述官网:https://
hudi
.apache.orggitee:https://gitee.com/apache/
Hudi
1.1架构1.2特点Upserts,Deleteswithfast,pluggableindexing.Incrementalqueries
hyunbar
·
2022-07-29 10:24
大数据
flink
sql
大数据
详解 Apache
Hudi
Schema Evolution(模式演进)
SchemaEvolution(模式演进)允许用户轻松更改
Hudi
表的当前模式,以适应随时间变化的数据。
leesf
·
2022-07-24 16:00
Apache
Hudi
数据跳过技术加速查询高达50倍
介绍在
Hudi
0.10中,我们引入了对高级数据布局优化技术的支持,例如Z-order和希尔伯特空间填充曲线(作为新的聚类算法),即使在经常使用过滤器查询大表的复杂场景中,也可以在多个列而非单个列上进行数据跳过
leesf
·
2022-07-18 22:00
Flink CDC +
Hudi
海量数据入湖在顺丰的实践
主要内容包括:顺丰数据集成背景FlinkCDC实践问题与优化未来规划一、顺丰数据集成背景顺丰是快递物流服务提供商,主营业务包含了时效快递、经济快递、同城配送以及冷链运输等。运输流程背后需要一系列系统的支持,比如订单管理系统、智慧物业系统、以及很多中转场、汽车或飞机上的很多传感器,都会产生大量数据。如果需要对这些数据进行数据分析,那么数据集成是其中很重要的一步。顺丰的数据集成经历了几年的发展,主要分
米朵儿技术屋
·
2022-07-15 19:30
综合技术探讨及方案专栏
flink
kafka
大数据
【2】数据湖架构中 Iceberg 的核心特性
在业界的数据湖方案中有
Hudi
、Iceberg和Delta三个关键组件可供选择。一、Iceberg是什么?
TRX1024
·
2022-07-13 08:57
数据湖
大数据
数据湖Apache
Hudi
、Iceberg、Delta环境搭建
1.引入作为依赖Spark的三个数据湖开源框架Delta,
Hudi
和Iceberg,本篇文章为这三个框架准备环境,并从ApacheSpark、Hive和Presto的查询角度进行比较。
小胖纸liuhui
·
2022-07-13 08:26
apache
iceberg
查询效率
Flink On
Hudi
整个系列中可能遇到的问题
1、ERRORorg.apache.
hudi
.sink.compact.CompactFunction[]-Executorexecutesaction[Executecompactionforinstant20220331114224581fromtask0
一个数据小开发
·
2022-07-13 08:35
大数据
Hudi
数据湖
Hudi
Flink
大数据
Flink CDC模式写入
Hudi
为什么是
Hudi
_一个数据小开发的博客-CSDN博客从0到1搭建数据湖
Hudi
环境_一个数据小开发的博客-CSDN博客接下来,就是FlinkonHudi的实战了,这一篇带来的CDC模式的入湖。
一个数据小开发
·
2022-07-13 08:35
大数据
Hudi
大数据
数据湖
Hudi
Flink
Flink SQL Kafka写入
Hudi
详解
1、背景前面
Hudi
的专栏已经详细讲解过本地如何构建这套
Hudi
的运行环境,在此就不在重复了,如果感兴趣想了解的可以去学习下,从0到1搭建数据湖
Hudi
环境_一个数据小开发的博客-CSDN博客本次重点是为了能够很好的理解
一个数据小开发
·
2022-07-13 08:34
大数据
Hudi
Hudi
Flink
大数据
数据湖
从0到1搭建数据湖
Hudi
环境
一、目标前面一篇博文中已经详细讲解过数据湖
Hudi
相关的一些基本概念,想学习下的,可以去看下。数据湖基本概念--什么是数据湖,数据湖又能干什么?
一个数据小开发
·
2022-07-13 08:34
大数据
Hudi
大数据
数据湖
Hudi
Flink
Spark
为什么是
Hudi
一、什么是数据湖对于经常跟数据打交道的同学,初步听到数据湖这个概念的时候,肯定有点懵,但是相信大家对于数据仓库这个概念并不陌生。到了20世纪80年代以后,基于关系型数据库的事务处理成为了企业IT应用的主流。在这个阶段,企业的IT应用主要还是着重于业务职能的自动化及信息的存储、汇总、统计、查询等方面,而分析能力是比较薄弱的,因此这样的信息处理模式称之为事务处理。进而,在网络应用和实时交互处理功能日益
一个数据小开发
·
2022-07-13 08:01
Hudi
大数据
Hudi
[Delta][SQL] Delta开源付费功能,最全分析ZOrder的源码实现流程
不管是
Hudi
、Iceberg还是Delta都实现了基于min-max索引的Data-skiping技术。
Tim在路上
·
2022-07-09 19:23
hudi
中zorder采样分区流程分析——《DEEPNOVA开发者社区》
作者:吴文池背景
hudi
在数据聚集方面,支持使用zorder对数据进行重排。做zorder排序主要流程分为三步:-对于用户指定的每个zorder字段,生成对应的z值。
·
2022-07-08 16:35
数据库
深入理解Apache
Hudi
异步索引机制
在我们之前的文章中,我们讨论了多模式索引的设计,这是一种用于Lakehouse架构的无服务器和高性能索引子系统,以提高查询和写入性能。在这篇博客中,我们讨论了构建如此强大的索引所需的机制,异步索引机制的设计,类似于PostgreSQL和MySQL等流行的数据库系统,它支持索引构建而不会阻塞写
leesf
·
2022-07-07 06:00
阿里云云原生一体化数仓 — 分析服务一体化新能力解读
简介:本文主要介绍如何通过Hologres在分析和服务场景下的新功能,包括资源隔离,数据湖(Delta、
Hudi
)的支持、JSON优化支持等。
·
2022-07-05 18:43
后端
Flink CDC +
Hudi
海量数据入湖在顺丰的实践
简介:覃立辉在5.21FlinkCDCMeetup的分享。本文整理自顺丰大数据研发工程师覃立辉在5月21日FlinkCDCMeetup的演讲。主要内容包括:顺丰数据集成背景FlinkCDC实践问题与优化未来规划点击查看直播回放&演讲PDF一、顺丰数据集成背景顺丰是快递物流服务提供商,主营业务包含了时效快递、经济快递、同城配送以及冷链运输等。运输流程背后需要一系列系统的支持,比如订单管理系统、智慧物
阿里云开发者
·
2022-06-17 22:45
IDEA 中使用
Hudi
的示例代码
目录环境准备核心代码测试参考资料环境准备创建Maven项目创建服务器远程连接Tools------Delployment-----BrowseRemoteHost设置如下内容:在这里输入服务器的账号和密码点击TestConnection,提示Successfully的话,就说明配置成功。复制Hadoop的core-site.xml、hdfs-site.xml以及log4j.properties三个
·
2022-06-17 17:34
Apache
Hudi
多模索引对查询优化高达30倍
与许多其他事务数据系统一样,索引一直是ApacheHudi不可或缺的一部分,并且与普通表格式抽象不同。在这篇博客中,我们讨论了我们如何重新构想索引并在ApacheHudi0.11.0版本中构建新的多模式索引,这是用于Lakehouse架构的首创高性能索引子系统,以优化查询和写入事
leesf
·
2022-06-12 17:00
Halodoc使用 Apache
Hudi
构建 Lakehouse的关键经验
Halodoc数据工程已经从传统的数据平台1.0发展到使用LakeHouse架构的现代数据平台2.0的改造。在我们之前的博客中,我们提到了我们如何在Halodoc实施Lakehouse架构来服务于大规模的分析工作负载。我们提到了平台2.0构建过程中的设计注意事项、最佳实践
leesf
·
2022-06-09 14:00
Flink CDC +
Hudi
+ Hive + Presto 构建实时数据湖最佳实践
▼关注「ApacheFlink」,获取更多技术干货▼摘要:本文作者罗龙文,分享了如何通过FlinkCDC、
Hudi
、Hive、Presto等构建数据湖。
Apache Flink
·
2022-05-31 07:45
大数据
hadoop
数据库
mysql
java
数据湖技术
Hudi
0.10master测试流程
Hudi
0.10master测试流程
Hudi
粗糙介绍
hudi
同步hive底层大概是什么原理,都是指向同一份存储没有拷贝数据吗,hive是怎么实现update、delete逻辑。
我去探险了
·
2022-05-31 07:45
数据湖技术
hive
hadoop
数据仓库
Flink写数据到
hudi
中,hive读取
#%20%E3%80%8AHive%20On%20
Hudi
%E3%80%8B在/data/app/hive/auxlib目录放入hudijar–>
hudi
-hadoop-mr-bundle-0.10.0
xiaolin_xinji
·
2022-05-31 07:14
Flink
Hudi
Hive
hive
flink
hadoop
hudi0.9
「
Hudi
系列」Apache
Hudi
入门指南 | SparkSQL+Hive+Presto集成
一、各种整合hive集成
hudi
方法:将hudijar复制到hivelib下cp .
王知无(import_bigdata)
·
2022-05-31 07:14
大数据
数据库
hive
mysql
java
数据湖:
Hudi
构建中台
Hudi
和DaltaLake对spark强绑定,建议使用Saprk。
榛西
·
2022-05-31 07:13
技术比较
big
data
hudi
同步到hive的数据问题
使用:/opt1/app/history-data/action-history-bnode1:9092-sd2021-01-02-ed2021-01-06-tnews203造数时,如果第一次造数的量时1000条,那么同步到hive表也是1000条,最大值就是1000条。如果第二次造数小于最大值,数据就添加不进去,所以还是1000条,如果第三次造数是1500条,你就会在hive中看到有数据增加了,
当贝壳离开了海�
·
2022-05-31 07:43
大数据
Hudi
集成 Hive
环境:
hudi
0.10.1spark2.4.5hive2.3.7hadoop2.7.5将编译好的hudijar,copy到hivelib目录下:cp/Users/xxx/cloudera/lib/
hudi
雾岛与鲸
·
2022-05-31 07:42
数据湖
spark
sql
big
data
上一页
6
7
8
9
10
11
12
13
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他