E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
HUDI
Apache
Hudi
在 B 站构建实时数据湖的实践
本文作者喻兆靖,介绍了为什么B站选择Flink+
Hudi
的数据湖技术方案,以及针对其做出的优化。
阿里云技术
·
2023-04-02 08:31
apache
big
data
hadoop
spark对接
hudi
遇到的坑
1.spark-sql读写MOR的
hudi
表spark版本:2.4.3
hudi
版本:0.9.0按照官网文档可正常独写cow表,但读写mor时报错:Causedby:org.apache.
hudi
.exception.HoodieException
没有文化,啥也不会
·
2023-04-02 02:13
hudi
spark
spark
big
data
分布式
Flink +
Hudi
实现多流拼接(大宽表)
1.背景经典场景Flink侧实现业务侧通常会基于实时计算引擎在流上做多个数据源的JOIN产出这个宽表,但这种解决方案在实践中面临较多挑战,主要可分为以下两种情况:维表JOIN场景挑战:指标数据与维度数据进行关联,其中维度数据量比较大,指标数据QPS比较高,导致数据可能会产出延迟。当前方案:将部分维度数据缓存起起来,缓解高QPS下访问维度数据存储引擎产生的任务背压问题。存在问题:由于业务方的维度数据
简说Linux
·
2023-04-02 02:39
C/C++后端开发
flink
大数据
架构
算法
服务器
Hudi
系列7:使用SparkSQL操作
Hudi
文章目录一.SparkSQL连接
Hudi
1.1Hive配置1.2SparkSQL连接
Hudi
二.创建表2.1常规的建表2.2CTAS三.插入数据四.查询数据五.更新数据5.1普通5.2MergeInto
只是甲
·
2023-04-02 02:28
大数据和数据仓库
#
数据湖
hive
大数据
spark
Apache
Hudi
建表需要考虑哪些参数?(Spark)-- 上篇
整体流程选择表类型、主键、预合并字段设置clean和archive参数,对于mor表设置compact参数选择合适的索引设置合适的存储/写入参数确认建表注意事项建表基本参数选择合适的表类型
hudi
目前支持两种表类型
KnightChess
·
2023-04-02 02:15
hudi
apache
spark
大数据
从
hudi
持久化文件理解其核心概念
【概述】这是
hudi
系列的第一篇文章,先从核心概念,存储的文件格式加深对概念的理解,后续再逐步对使用(spark/flink入
hudi
,
hudi
同步hive等)、原理(压缩机制,索引,聚族等)展开分享~
陈猿解码
·
2023-04-02 02:34
大数据
数据库
java
hive
python
Hudi
数据湖的插入,更新,查询,分析操作示例
Hudi
数据湖的插入,更新,查询,分析操作示例作者:Grey原文地址:博客园:
Hudi
数据湖的插入,更新,查询,分析操作示例CSDN:
Hudi
数据湖的插入,更新,查询,分析操作示例前置工作首先,需要先完成
GreyZeng
·
2023-04-02 02:34
大数据
大数据
数据湖
Hudi
字节跳动基于 Apache
Hudi
的多流拼接实践方案
字节跳动数据湖团队在实时数仓构建宽表的业务场景中,探索实践出的一种基于HudiPayload的合并机制提出的全新解决方案。字节跳动数据湖团队在实时数仓构建宽表的业务场景中,探索实践出的一种基于HudiPayload的合并机制提出的全新解决方案。该方案在存储层提供对多流数据的关联能力,旨在解决实时场景下多流JOIN遇到的一系列问题。接下来,本文会详细介绍多流拼接方案的背景以及实践经验。业务面临的挑战
Moonxiyue
·
2023-04-02 02:54
数据库
字节
big
data
kafka
数据仓库
基于Apache
Hudi
和 Apache Spark Sql 的近实时数仓架构之宽表建设
前言无论是在lamda架构还是kappa架构中,实时计算通常是使用flink+mq来实现的,而在这些场景中涉及到多张表join时,一般我们的使用方法是多张流表join如:RegularJoin、IntervalJoin,或者流表+维表的方式join如:Temporaljoin。但无论是那种方式都会存在一些问题,比如窗口开的过小,数据晚到导致数据丢失。窗口开的过大,内存占用过高,成本高,有被打爆的风
scx_white
·
2023-04-02 02:47
数据湖
大数据
spark
数据湖
hudi
Apache
Hudi
使用简介
数据实时处理和实时的数据实时分为处理的实时和数据的实时。即席分析是要求对数据实时的处理,马上要得到对应的结果。Flink、SparkStreaming是用来对实时数据的实时处理,数据要求实时,处理也要迅速。数据不实时,处理也不及时的场景则是我们的数仓T+1数据。而本文探讨的ApacheHudi,对应的场景是数据的实时,而非处理的实时。它旨在将Mysql中的数据以近实时的方式映射到大数据平台,比如H
youngflyer
·
2023-04-01 23:41
flinksql写入
hudi
踩坑实录
flinksql写入
hudi
测试环境:Flink1.11.1
hudi
0.8.0Hadoop3.0.0Hive2.1.1准备工作:1.安装flink1.11.1,要下载带hadoop版本的;2.下载
hudi
-flink-bundle
数据湖填坑
·
2023-04-01 23:38
数据湖踩坑实例
大数据
flink
Apache
Hudi
异步Compaction部署方式汇总
本篇文章对执行异步Compaction的不同部署模型一探究竟。1.Compaction对于Merge-On-Read表,数据使用列式Parquet文件和行式Avro文件存储,更新被记录到增量文件,然后进行同步/异步compaction生成新版本的列式文件。Merge-On-Read表可减少数据摄入延迟,因而进行不阻塞摄入的异步Compaction很有意义。2.异步Compaction异步Compa
xleesf
·
2023-04-01 23:38
ApacheHudi
数据湖技术之
Hudi
核心概念
数据湖技术之
Hudi
核心概念
Hudi
数据湖框架的基本概念及表类型,属于
Hudi
框架设计原则和表的设计核心。
潘小磊
·
2023-04-01 23:07
数据湖
大数据
hive
hadoop
Apache 数据湖
Hudi
详解一
—《菜根谭》1.什么是
Hudi
?ApacheHudi代表HadoopUpsertsanDIncrementals,管理大型分析数据集在HDFS上的存储。
写轮眼之大数据
·
2023-04-01 23:06
Hudi
大数据
数据湖---
hudi
核心概念
文章目录TimelineTable&QueryTypesTableTypes查询类型COWMOR索引
Hudi
索引类型索引选择策略FileLayouts元数据表元数据表的动机研究中的一些数字:支持多模态索引写操作操作类型
夜里慢慢行456
·
2023-04-01 23:56
大数据
数据库
服务器
大数据
数据湖之
Hudi
基础:核心原理
继续
Hudi
核心概念参考官网描述与尚硅谷
hudi
公开资料文章目录基本概念时间轴TimeLine1.Instantsaction在表上执行的操作类型2.Instanttime3.State两个时间概念文件布局
小明同学YYDS
·
2023-04-01 23:41
Hudi
大数据
大数据
Hudi
数据湖
数据仓库
hudi
系列-文件压缩(compaction)
1.1环境flink1.13.6
hudi
0.11.01.2触发策略提供4种触发策略,可通过hoodie.comp
矛始
·
2023-04-01 23:00
hudi系列
hudi
compact
压缩
数据湖 | Apache
Hudi
设计与架构最强解读
目录1.简介2.设计原则2.1流式读/写2.2自管理2.3万物皆日志:2.4键-值数据模型3.表设计3.1时间轴3.2数据文件3.3索引4.表类型4.1写时复制(CopyOnWrite)表4.2读时合并(MergeOnRead)表5.写设计5.1写5.2压缩5.3清理5.4DFS访问优化6.查询6.1快照查询6.2增量查询6.3读优化查询本文将介绍ApacheHudi的基本概念、设计以及总体基础架
Mathieu66
·
2023-04-01 23:54
Apache
Hudi
Hudi设计与架构
Apache
hudi
0.10.1学习笔记之压缩Compaction(下篇)——执行压缩计划
之前的压缩计划生成后,被保存在basePath/.hoodie下的instanttime.compaction.request文件里。现在可以继续从执行压缩计划的角度进行。同样使用compactor类来提交spark作业,参数里可以带压缩计划对应的instantTime,也可以不带,不带的话则是找到时间最早对应的压缩计划。本文还是以MOR表,经手动异步压缩作为开始。执行压缩计划部分,需要提前了解下
ImStarBoy
·
2023-04-01 23:43
hudi
大数据
hive
数据仓库
hadoop
Apache
hudi
0.10.1学习笔记之压缩Compaction(上篇)——压缩计划的生成
一、基础概念了解过
hudi
的新手或者专家都知道,
hudi
不管是COW还是MOR表,其文件还是存储在hdfs上。因为下来介绍我在学习
hudi
压缩的一些东西,所以下方就以MOR表文件做下介绍。
ImStarBoy
·
2023-04-01 23:12
hudi
hdfs
hadoop
数据仓库
大数据
HUDI
原理及深入探究(二)
接下来讲一讲
Hudi
这些功能的实现原理:MergeonRead(MOR表)Transactional(事务)IncrementalQuery(增量查询)由于这篇文章会用到上一篇文章中讲到的知识,还没有读过的朋友
shining_yyds
·
2023-04-01 23:41
数据湖
hadoop
大数据
数据湖架构
Hudi
(三)
Hudi
核心概念
三、ApacheHudi核心概念3.1基本概念
Hudi
提供了
Hudi
表的概念,这些表支持CRUD操作,可以利用现有的大数据集群比如HDFS做数据文件存储,然后使用SparkSQL或Hive等分析引擎进行数据分析查询
undo_try
·
2023-04-01 23:09
#
spark_sql
大数据
hadoop
hudi
spark avro兼容性问题
在学习
hudi
过程中,参考了:https://
hudi
.apache.org/docs/quick-start-guide.html,在使用sparkshell执行用例:进入sparkshell:spark-shell
AIgeeksu
·
2023-03-31 23:27
spark
hadoop
Hudi
系列9:Flink SQL操作
hudi
表
文章目录一.准备工作二.插入数据三.查询数据四.更新数据五.流查询六.删除数据参考:一.准备工作--启动yarn-session/home/flink-1.15.2/bin/yarn-session.sh-d--在yarnsession模式下启动flinksql/home/flink-1.15.2/bin/sql-client.shembedded-syarn-session二.插入数据代码:--
只是甲
·
2023-03-29 00:22
大数据和数据仓库
#
数据湖
大数据
数据湖
hudi
Flink
SQL
Hudi
系列16:
Hudi
核心参数
文章目录一.去重参数二.并发参数三.压缩参数四.文件大小参数五.Hadoop参数六.内存参数七.MOR表相关参数八.COW表相关参数九.
Hudi
读取方式参数参考:一.去重参数如果需要去重,可以在创建huditable
只是甲
·
2023-03-29 00:22
大数据和数据仓库
#
数据湖
数据库
java
sql
数据湖架构
Hudi
(四)
Hudi
集成Spark案例详解
四、
Hudi
集成Spark案例详解之前在
hudi
快速入门程序中,简单体验了一下spark集成
hudi
,现在详细讲解下。
undo_try
·
2023-03-29 00:12
#
spark_sql
spark
大数据
数据湖架构
Hudi
(五)
Hudi
集成Flink案例详解
五、
Hudi
集成Flink案例详解5.1
hudi
集成flinkflink的下载地址:https://archive.apache.org/dist/flink/HudiSupportedFlinkversion0.12
undo_try
·
2023-03-28 23:21
#
spark_sql
flink
hadoop
Hudi
Timeline简析
前言Longtimenosee(鞠躬最近终于开始尝试推广
Hudi
在部门内部的应用,作为流批一体计划的最后一块拼图,顺便复活许久未更的博客,希望今后至少能保持周更的节奏吧。
LittleMagic
·
2023-03-27 09:43
统一观测丨使用 Prometheus 监控 E-MapReduce,我们该关注哪些指标?
E-MapReduce(简称“EMR”)是云原生开源大数据平台,向客户提供简单易集成的Hadoop、Hive、Spark、Flink、Presto、ClickHouse、StarRocks、Delta、
Hudi
阿里云云栖号
·
2023-03-23 21:58
云栖号技术分享
hadoop
大数据
hdfs
云计算
Sqoop 安装配置(超详细)
MySQL驱动6.拷贝Hive文件7.验证8.去除警告信息9.Sqoop学习集群其它生态安装与配置:Hadoop完全分布式搭建(超详细)Hive搭建(将MySQL作为元数据库)Spark集群搭建(多种方式)
Hudi
0.12.0
月亮给我抄代码
·
2023-03-23 02:55
sqoop
hive
hadoop
大数据
flink 1.12.0 +
hudi
0.9.0 官网demo
121843701https://cloud.tencent.com/developer/article/1812592http://it.ckcest.cn/article-4007002-1.htmlhttps://
hudi
.apache.org
你的努力时光不会辜负
·
2023-03-21 11:57
flink cdc 整合 数据湖
hudi
同步 hive
1.版本说明组件版本
hudi
10.0flink13.5hive3.1.02.实现效果通过flinkcdc整合
hudi
到hiveflinkcdc讲解flinkcdc1.2实例flinkcdc2.0实例3.
wudl5566
·
2023-03-19 11:32
大数据之--数据湖
Flink
hive
flink
kafka
flink操作
hudi
数据表
基于flink1.14、spark3.2、
hudi
0.11,演示flink往
hudi
数据湖流式地写数据,hive和spark从数据湖读数据文章目录一、为hadoop、hive、flink添加
hudi
存储格式的支持二
百战天王
·
2023-03-19 11:32
scala
java
flink
大数据
kafka
hudi
Flink-cdc写入
hudi
并使用hive和spark-sql查询(基于flink1.13.5和
hudi
0.10.0,flink-cdc2.1.1)
一、环境准备flink1.13.5flink-cdc2.1.1
hudi
-0.10.0spark-3.1.2、hadoop-2.6.5、hive-1.1.0(cdh5.16版本)jar包:
hudi
-spark3
小三你妹
·
2023-03-19 11:32
大数据
hive
spark
sql
flink
linux
Spark SQL操作
HUDI
表实践
HUDI
表相关概念表类型cowmor分区表/不分区表用户可以在SparkSQL中创建分区表和非分区表。要创建分区表,需要使用partitionedby语句指定分区列来创建分区表。
BigDataToAI
·
2023-03-19 11:28
hudi
spark
sql
大数据
解决
hudi
hms catalog中flink建表,spark无法写入问题
问题描述在
hudi
0.12.0版本,flink和spark都可以基于hivemetastore进行元数据管理,更多信息可参考:hudiHMSCatalog指南。
BigDataToAI
·
2023-03-19 11:27
hudi
spark
flink
hive
Flink CDC +
Hudi
+ Hive + Presto构建实时数据湖最佳实践
1.测试过程环境版本说明Flink1.13.1Scala2.11CDH6.2.0Hadoop3.0.0Hive2.1.1
Hudi
0.10(master)PrestoDB0.256Mysql5.72.集群服务器基础环境
大数据技术架构
·
2023-03-19 11:26
hadoop
数据库
mysql
java
大数据
flink-cdc写入
hudi
,使用hive或者spark-sql统计分析
hudi
的数据
一、环境准备:flink1.12.2_2.11
hudi
-0.9.0(master分支)spark-2.4.5、hadoop-3.1.3、hive-3.1.2(选择的是阿里云emr-2.4.5)二、flink-cdc
明喆_sama
·
2023-03-19 11:55
hudi
数据湖
Hudi
系列14:
Hudi
元数据持久化
从
Hudi
0.12.0开始支持,通过catalog可以管理flink创建的表,避免重复建表操作,另外hms模式的catalog支持自动补全hive同步参数。
只是甲
·
2023-03-19 11:24
大数据和数据仓库
#
数据湖
hive
大数据
hadoop
Hudi
系列15:
Hudi
元数据同步到Hive
在这种情况下,最好从命令行或在一个独立的jvm中运行,
Hudi
提供了一个HiveSyncTool,一旦你构建了
Hudi
-hiv
只是甲
·
2023-03-19 11:24
大数据和数据仓库
#
数据湖
hive
大数据
hadoop
【
Hudi
数据湖应用】手把手带你应用
hudi
的hive sync tool与避坑
应用
hudi
不可避免地要创建对应的hive表以方便查询
hudi
数据。一般我们使用flink、spark写入数据时,可以配置自动建表、同步元数据。
大数据点灯人
·
2023-03-19 11:18
Hudi
Flink
hive
hadoop
big
data
大数据
flink
大数据下一代变革之必研究数据湖技术
Hudi
原理实战双管齐下-下
集成Spark开发Spark编程读写示例通过IDE如Idea编程实质上和前面的spark-shell和spark-sql相似,其他都是Spark编程的知识,下面以scala语言为示例,idea新建scala的maven项目pom文件添加如下依赖4.0.0cn.itxshoodie-spark-demo1.0UTF-82.12.102.123.3.00.12.13.3.4org.scala-lang
jh035512
·
2023-03-19 11:47
大数据
scala
spark
flink smallint类型不兼容
hudi
1.问题现象flink1.14.5
hudi
0.11.1通过flinkcdc同步了一个mysql表到
hudi
,并且数据compact到了parquet文件,此时通过flinksql去查询该
hudi
表时报以下异常
矛始
·
2023-03-19 11:44
flink
hudi系列
flink
hudi
Flink SQL通过
Hudi
HMS Catalog读写
Hudi
并同步Hive表(强烈推荐这种方式)
点击跳转到网站:https://www.captainai.net/dongkelun前言上篇文章FlinkSQL操作
Hudi
并同步Hive使用总结总结了如何使用FlinkSQL读写
Hudi
并同步Hive
董可伦
·
2023-03-19 11:37
Flink
Hudi
flink
hudi
数据湖
Flink SQL操作
Hudi
并同步Hive使用总结
点击跳转到网站:https://www.captainai.net/dongkelun前言记录总结自己第一次如何使用FlinkSQL读写
Hudi
并同步Hive,以及遇到的问题及解决过程。
董可伦
·
2023-03-19 11:07
Flink
Hudi
flink
hudi
数据湖
基于Apache
Hudi
构建智能湖仓实践(附亚马逊工程师代码)
本文来源于网络,如有侵权,联系浪尖删除:langjianliaodashuju转自:
hudi
数据仓库的数据体系严格、治理容易,业务规模越大,ROI越高;数据湖的数据种类丰富,治理困难,业务规模越大,ROI
浪尖聊大数据-浪尖
·
2023-03-15 08:50
大数据
hadoop
数据库
java
分布式
Hudi
的核心概念 —— 文件布局(File Layout)
文章目录文件布局(FileLayout)
Hudi
存储分为两个部分文件布局(FileLayout)
Hudi
将一个表映射为如下文件结构
Hudi
存储分为两个部分(1)元数据:.hoodie目录对应着表的元数据信息
Alienware^
·
2023-03-14 11:29
Hudi
大数据
Hudi
数据湖技术之
Hudi
框架概述
第一章
Hudi
框架概述先了解什么是数据湖DataLake,及
Hudi
数据湖框架功能及各个版本特性。
潘小磊
·
2023-03-14 11:58
数据湖
数据仓库
大数据
hadoop
「Apache
Hudi
系列」核心概念与架构设计总结
同时基于下面两个原语,
Hudi
可以解决流批一体的存储问题。
王知无(import_bigdata)
·
2023-03-14 11:23
大数据
数据库
python
java
分布式
Hudi
数据管理和存储概述
半岛铁子_数据管理.hoodieamricas和asiaHudi存储概述Metadata元数据Index索引Data数据参考资料:数据管理**
Hudi
是如何管理数据?
zxfBdd
·
2023-03-14 11:53
大数据
大数据
hadoop
hive
上一页
3
4
5
6
7
8
9
10
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他