E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
HUDI
Hive 集成
Hudi
实践(含代码)| 可能是全网最详细的数据湖系列
关于数据湖的资料网络上还是比较少的,特别是实践系列,对于新技术来说,基础的入门文档还是很有必要的,所以这一篇希望能够帮助到想使用
Hudi
的同学入门。
老蒙大数据
·
2020-05-28 09:00
线上Presto查询
Hudi
表异常排查
1.引入线上用户反馈使用Presto查询
Hudi
表出现错误,而将
Hudi
表的文件单独创建parquet类型表时查询无任何问题,关键报错信息如下40931f6e-3422-4ffd-a692-6c70f75c9380
leesf
·
2020-05-23 18:00
线上Presto查询
Hudi
表异常排查
1.引入线上用户反馈使用Presto查询
Hudi
表出现错误,而将
Hudi
表的文件单独创建parquet类型表时查询无任何问题,关键报错信息如下40931f6e-3422-4ffd-a692-6c70f75c9380
leesf
·
2020-05-23 18:00
Apache
Hudi
典型应用场景知多少?
对于RDBMS摄取,
Hudi
通过Upserts提供了更快的负载,而非昂贵且低效的批量负载。例如你可以读取MySQLbinlog日志或Sqoop增量导入,并将它们应用在DFS上的
Hudi
表,这比批量合并
leesf
·
2020-05-19 18:00
Apache
Hudi
典型应用场景知多少?
对于RDBMS摄取,
Hudi
通过Upserts提供了更快的负载,而非昂贵且低效的批量负载。例如你可以读取MySQLbinlog日志或Sqoop增量导入,并将它们应用在DFS上的
Hudi
表,这比批量合并
leesf
·
2020-05-19 18:00
PySpark整合Apache
Hudi
实战
1.准备
Hudi
支持Spark-2.x版本,你可以点击如下链接安装Spark,并使用pyspark启动#pysparkexportPYSPARK_PYTHON=$(whichpython3)spark-
leesf
·
2020-05-10 16:00
Apache
Hudi
又双叕被国内顶级云服务提供商集成了!
是的,最近国内云服务提供商腾讯云在其EMR-V2.2.0版本中优先集成了
Hudi
0.5.1版本作为其云上的数据湖解决方案对外提供服务ApacheHudi在HDFS的数据集上提供了插入更新和增量拉取的流原语
leesf
·
2020-05-09 13:00
Apache
Hudi
又双叕被国内顶级云服务提供商集成了!
是的,最近国内云服务提供商腾讯云在其EMR-V2.2.0版本中优先集成了
Hudi
0.5.1版本作为其云上的数据湖解决方案对外提供服务ApacheHudi在HDFS的数据集上提供了插入更新和增量拉取的流原语
leesf
·
2020-05-09 13:00
Apache
Hudi
集成Apache Zeppelin实战
当前Hive与SparkSQL已经支持查询
Hudi
的读优化视图和实时视图。所以理论上Zeppelin的n
leesf
·
2020-04-28 09:00
实战 | 将Apache
Hudi
数据集写入阿里云OSS
1.引入云上对象存储的廉价让不少公司将其作为主要的存储方案,而
Hudi
作为数据湖解决方案,支持对象存储也是必不可少。之前AWSEMR已经内置集成
Hudi
,也意味着可以在S3上无缝使用
Hudi
。
leesf
·
2020-04-25 14:00
实战 | 将Apache
Hudi
数据集写入阿里云OSS
1.引入云上对象存储的廉价让不少公司将其作为主要的存储方案,而
Hudi
作为数据湖解决方案,支持对象存储也是必不可少。之前AWSEMR已经内置集成
Hudi
,也意味着可以在S3上无缝使用
Hudi
。
leesf
·
2020-04-25 14:00
Apache
Hudi
的写时复制和读时合并
ApacheHudihttp://
hudi
.apache.org/http://
hudi
.apache.org/docs/quick-start-guide.htmlHudi是什么
Hudi
将流处理带到大数据
21aspnet
·
2020-04-22 18:41
大数据
实战|使用Spark Structured Streaming写入
Hudi
1.项目背景传统数仓的组织架构是针对离线数据的OLAP(联机事务分析)需求设计的,常用的导入数据方式为采用sqoop或spark定时作业逐批将业务库数据导入数仓。随着数据分析对实时性要求的不断提高,按小时、甚至分钟级的数据同步越来越普遍。由此展开了基于spark/flink流处理机制的(准)实时同步系统的开发。然而实时同步数仓从一开始就面临如下几个挑战:小文件问题。不论是spark的microba
leesf
·
2020-04-18 22:00
实战|使用Spark Structured Streaming写入
Hudi
1.项目背景传统数仓的组织架构是针对离线数据的OLAP(联机事务分析)需求设计的,常用的导入数据方式为采用sqoop或spark定时作业逐批将业务库数据导入数仓。随着数据分析对实时性要求的不断提高,按小时、甚至分钟级的数据同步越来越普遍。由此展开了基于spark/flink流处理机制的(准)实时同步系统的开发。然而实时同步数仓从一开始就面临如下几个挑战:小文件问题。不论是spark的microba
leesf
·
2020-04-18 22:00
Apache
Hudi
设计与架构最强解读
1.简介ApacheHudi(简称:
Hudi
)使得您能在hadoop兼容的存储之上存储大量数据,同时它还提供两种原语,使得除了经典的批处理之外,还可以在数据湖上进行流处理。
leesf
·
2020-04-16 05:00
Apache
Hudi
设计与架构最强解读
1.简介ApacheHudi(简称:
Hudi
)使得您能在hadoop兼容的存储之上存储大量数据,同时它还提供两种原语,使得除了经典的批处理之外,还可以在数据湖上进行流处理。
leesf
·
2020-04-16 05:00
贝拉•塔尔:时间的工作-关于《撒旦探戈》
雅克•朗西埃(JacquesRancière)著,眼睛的故事(
HuDi
)译(BélaTarr:letravaildutemps)雅克·朗西埃,法国当代著名哲学家,著有《阿尔杜塞的教训》、《无知的大师》、
慧小田哲思学
·
2020-03-07 02:07
(转)Kudu、
Hudi
和Delta Lake的比较
目录Kudu、
Hudi
和DeltaLake的比较存储机制读数据更新数据其他如何选择合适的存储方案Kudu、
Hudi
和DeltaLake的比较kudu、
hudi
和deltalake是目前比较热门的支持行级别数据增删改查的存储方案
达微
·
2020-02-20 17:26
Apache
Hudi
0.5.1版本重磅发布
历经大约3个月时间,ApacheHudi社区终于发布了0.5.1版本,这是ApacheHudi发布的第二个Apache版本,该版本中一些关键点如下版本升级将Spark版本从2.1.0升级到2.4.4将Avro版本从1.7.7升级到1.8.2将Parquet版本从1.8.1升级到1.10.1将Kafka版本从0.8.2.1升级到2.0.0,这是由于将spark-streaming-kafkaarti
ApacheHudi
·
2020-02-01 00:00
Apache
Hudi
使用问题汇总(一)
1.如何写入
Hudi
数据集通常,你会从源获取部分更新/插入,然后对
Hudi
数据集执行写入操作。
ApacheHudi
·
2020-01-16 15:00
ApacheHudi常见问题汇总
欢迎关注公众号:ApacheHudi1.ApacheHudi对个人和组织何时有用如果你希望将数据快速提取到HDFS或云存储中,
Hudi
可以提供帮助。
ApacheHudi
·
2020-01-04 19:00
写入Apache
Hudi
数据集
这一节我们将介绍使用DeltaStreamer工具从外部源甚至其他
Hudi
数据集摄取新更改的方法,以及通过使用
Hudi
数据源的upserts加快大型Spark作业的方法。
ApacheHudi
·
2019-12-16 20:00
Hudi
基本概念
时间轴在它的核心,
Hudi
维护一条包含在不同的即时时间所有对数据集操作的时间轴,从而提供,从不同时间点出发得到不同的视图下的数据集。
Hudi
即时包含以下组件操作类型:对数据集执行的
ApacheHudi
·
2019-12-10 09:00
生产者-消费者模型在
Hudi
中的应用
介绍生产者-消费者模型用于解耦生产者与消费者,平衡两者之间的能力不平衡,该模型广泛应用于各个系统中,
Hudi
也使用了该模型控制对记录的处理,即记录会被生产者生产至队列中,然后由消费者从队列中消费,更具体一点
ApacheHudi
·
2019-11-26 19:00
BloomFilter在
Hudi
中的应用
BloomFilter在
Hudi
中的应用介绍BloomFilter可以用于检索一个元素是否在一个集合中。
ApacheHudi
·
2019-11-25 19:00
使用Amazon EMR和Apache
Hudi
在S3上插入,更新,删除数据
将数据存储在AmazonS3中可带来很多好处,包括规模、可靠性、成本效率等方面。最重要的是,你可以利用AmazonEMR中的ApacheSpark,Hive和Presto之类的开源工具来处理和分析数据。尽管这些工具功能强大,但是在处理需要进行增量数据处理以及记录级别插入,更新和删除场景时,仍然非常具有挑战。与客户交谈时,我们发现有些场景需要处理对单条记录的增量更新,例如:遵守数据隐私法规,在该法规
ApacheHudi
·
2019-11-25 12:00
Amazon EMR正式支持Apache
Hudi
通过高效管理AmazonS3中数据的布局方式,
Hudi
允许近乎实时地提取和更新数据。
Hudi
维护在数据集上所执行的操作的元数据,以确保这些操作的
ApacheHudi
·
2019-11-22 11:00
上一页
7
8
9
10
11
12
13
14
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他