简介
Apache Hudi(发音为"Hoodie")在DFS的数据集上提供以下流原语
插入更新 (如何改变数据集?)
增量拉取 (如何获取变更的数据?)
Hudi维护在数据集上执行的所有操作的时间轴(timeline),以提供数据集的即时视图。Hudi将数据集组织到与Hive表非常相似的基本路径下的目录结构中。数据集分为多个分区,文件夹包含该分区的文件。每个分区均由相对于基本路径的分区路径唯一标识。
分区记录会被分配到多个文件。每个文件都有一个唯一的文件ID和生成该文件的提交(commit)。如果有更新,则多个文件共享相同的文件ID,但写入时的提交(commit)不同。
存储类型–处理数据的存储方式
写时复制
纯列式
创建新版本的文件
读时合并
近实时
视图–处理数据的读取方式
读取优化视图-输入格式仅选择压缩的列式文件
parquet文件查询性能
500 GB的延迟时间约为30分钟
导入现有的Hive表
近实时视图
混合、格式化数据
约1-5分钟的延迟
提供近实时表
增量视图
数据集的变更
启用增量拉取
Hudi存储层由三个不同的部分组成
元数据–它以时间轴的形式维护了在数据集上执行的所有操作的元数据,该时间轴允许将数据集的即时视图存储在基本路径的元数据目录下。时间轴上的操作类型包括
提交(commit),一次提交表示将一批记录原子写入数据集中的过程。单调递增的时间戳,提交表示写操作的开始。
清理(clean),清理数据集中不再被查询中使用的文件的较旧版本。
压缩(compaction),将行式文件转化为列式文件的动作。
索引,将传入的记录键快速映射到文件(如果已存在记录键)。索引实现是可插拔的,Bloom过滤器-由于不依赖任何外部系统,因此它是默认配置,索引和数据始终保持一致。Apache HBase-对少量key更高效。在索引标记过程中可能会节省几秒钟。
数据,Hudi以两种不同的存储格式存储数据。实际使用的格式是可插入的,但要求具有以下特征–读优化的列存储格式(ROFormat),默认值为Apache Parquet;写优化的基于行的存储格式(WOFormat),默认值为Apache Avro。
Hudi解决了以下限制
HDFS的可伸缩性限制
需要在Hadoop中更快地呈现数据
没有直接支持对现有数据的更新和删除
快速的ETL和建模
要检索所有更新的记录,无论这些更新是添加到最近日期分区的新记录还是对旧数据的更新,Hudi都允许用户使用最后一个检查点时间戳。此过程不用执行扫描整个源表的查询
HDFS中的可伸缩性限制。
Hadoop中数据的快速呈现
支持对于现有数据的更新和删除
快速的ETL和建模
通过湖仓一体、流批一体,准实时场景下做到了:数据同源、同计算引擎、同存储、同计算口径。数据的时效性可以到分钟级,能很好的满足业务准实时数仓的需求。下面是架构图:
MySQL 数据通过 Flink CDC 进入到 Kafka。之所以数据先入 Kafka 而不是直接入 Hudi,是为了实现多个实时任务复用 MySQL 过来的数据,避免多个任务通过 Flink CDC 接 MySQL 表以及 Binlog,对 MySQL 库的性能造成影响。
通过 CDC 进入到 Kafka 的数据除了落一份到离线数据仓库的 ODS 层之外,会同时按照实时数据仓库的链路,从 ODS->DWD->DWS->OLAP 数据库,最后供报表等数据服务使用。实时数仓的每一层结果数据会准实时的落一份到离线数仓,通过这种方式做到程序一次开发、指标口径统一,数据统一。
从架构图上,可以看到有一步数据修正 (重跑历史数据) 的动作,之所以有这一步是考虑到:有可能存在由于口径调整或者前一天的实时任务计算结果错误,导致重跑历史数据的情况。
而存储在 Kafka 的数据有失效时间,不会存太久的历史数据,重跑很久的历史数据无法从 Kafka 中获取历史源数据。再者,如果把大量的历史数据再一次推到 Kafka,走实时计算的链路来修正历史数据,可能会影响当天的实时作业。所以针对重跑历史数据,会通过数据修正这一步来处理。
总体上说,这个架构属于 Lambda 和 Kappa 混搭的架构。流批一体数据仓库的各个数据链路有数据质量校验的流程。第二天对前一天的数据进行对账,如果前一天实时计算的数据无异常,则不需要修正数据,Kappa 架构已经足够。
版本选择,这个问题可能会成为困扰大家的第一个绊脚石,下面是hudi中文社区推荐的版本适配:
flink | hudi |
---|---|
1.12.2 | 0.9.0 |
1.13.1 | 0.10.0 |
建议用 hudi master +flink 1.13 这样可以和 cdc connector 更好地适配。
https://mvnrepository.com/artifact/org.apache.hudi/hudi-flink-bundle
目前maven中央仓库,最新版本是0.9.0 ,如果需要下载0.10.0版本 , 可以加入社区群,在共享文件中下载,也可以下载源码自行编译。
如果将 hudi-flink-bundle_2.11-0.10.0.jar
放到了 flink/lib
下,则只需要如下执行即可,否则会出现各种找不到类的异常
bin/sql-client.sh embedded
新建maven工程,修改pom如下
4.0.0
org.example
flink_hudi_test
1.0-SNAPSHOT
8
8
1.13.1
0.10.0
2.10.1
org.apache.hadoop
hadoop-client
${hadoop.version}
org.apache.hadoop
hadoop-hdfs
${hadoop.version}
org.apache.hadoop
hadoop-common
${hadoop.version}
org.apache.flink
flink-core
${flink.version}
org.apache.flink
flink-streaming-java_2.11
${flink.version}
org.apache.flink
flink-connector-jdbc_2.11
${flink.version}
org.apache.flink
flink-java
${flink.version}
org.apache.flink
flink-clients_2.11
${flink.version}
org.apache.flink
flink-table-api-java-bridge_2.11
${flink.version}
org.apache.flink
flink-table-common
${flink.version}
org.apache.flink
flink-table-planner_2.11
${flink.version}
org.apache.flink
flink-table-planner-blink_2.11
${flink.version}
org.apache.flink
flink-table-planner-blink_2.11
${flink.version}
test-jar
com.ververica
flink-connector-mysql-cdc
2.0.0
org.apache.hudi
hudi-flink-bundle_2.11
${hudi.version}
system
${project.basedir}/libs/hudi-flink-bundle_2.11-0.10.0-SNAPSHOT.jar
mysql
mysql-connector-java
5.1.49
我们通过构建查询insert into t2 select replace(uuid(),'-',''),id,name,description,now() from mysql_binlog
将创建的mysql表,插入到hudi里。
package name.lijiaqi;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.table.api.EnvironmentSettings;
import org.apache.flink.table.api.SqlDialect;
import org.apache.flink.table.api.TableResult;
import org.apache.flink.table.api.bridge.java.StreamTableEnvironment;
public class MysqlToHudiExample {
public static void main(String[] args) throws Exception {
EnvironmentSettings fsSettings = EnvironmentSettings.newInstance()
.useBlinkPlanner()
.inStreamingMode()
.build();
StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
env.setParallelism(1);
StreamTableEnvironment tableEnv = StreamTableEnvironment.create(env, fsSettings);
tableEnv.getConfig().setSqlDialect(SqlDialect.DEFAULT);
// 数据源表
String sourceDDL =
"CREATE TABLE mysql_binlog (\n" +
" id INT NOT NULL,\n" +
" name STRING,\n" +
" description STRING\n" +
") WITH (\n" +
" 'connector' = 'jdbc',\n" +
" 'url' = 'jdbc:mysql://127.0.0.1:3306/test', \n"+
" 'driver' = 'com.mysql.jdbc.Driver', \n"+
" 'username' = 'root',\n" +
" 'password' = 'dafei1288', \n" +
" 'table-name' = 'test_cdc'\n" +
")";
// 输出目标表
String sinkDDL =
"CREATE TABLE t2(\n" +
"\tuuid VARCHAR(20),\n"+
"\tid INT NOT NULL,\n" +
"\tname VARCHAR(40),\n" +
"\tdescription VARCHAR(40),\n" +
"\tts TIMESTAMP(3)\n"+
// "\t`partition` VARCHAR(20)\n" +
")\n" +
// "PARTITIONED BY (`partition`)\n" +
"WITH (\n" +
"\t'connector' = 'hudi',\n" +
"\t'path' = 'hdfs://172.19.28.4:9000/hudi_t4/',\n" +
"\t'table.type' = 'MERGE_ON_READ'\n" +
")" ;
// 简单的聚合处理
String transformSQL =
"insert into t2 select replace(uuid(),'-',''),id,name,description,now() from mysql_binlog";
tableEnv.executeSql(sourceDDL);
tableEnv.executeSql(sinkDDL);
TableResult result = tableEnv.executeSql(transformSQL);
result.print();
env.execute("mysql-to-hudi");
}
}
查询hudi
package name.lijiaqi;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.table.api.EnvironmentSettings;
import org.apache.flink.table.api.SqlDialect;
import org.apache.flink.table.api.TableResult;
import org.apache.flink.table.api.bridge.java.StreamTableEnvironment;
public class ReadHudi {
public static void main(String[] args) throws Exception {
EnvironmentSettings fsSettings = EnvironmentSettings.newInstance()
.useBlinkPlanner()
.inStreamingMode()
.build();
StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
env.setParallelism(1);
StreamTableEnvironment tableEnv = StreamTableEnvironment.create(env, fsSettings);
tableEnv.getConfig().setSqlDialect(SqlDialect.DEFAULT);
String sourceDDL =
"CREATE TABLE t2(\n" +
"\tuuid VARCHAR(20),\n"+
"\tid INT NOT NULL,\n" +
"\tname VARCHAR(40),\n" +
"\tdescription VARCHAR(40),\n" +
"\tts TIMESTAMP(3)\n"+
// "\t`partition` VARCHAR(20)\n" +
")\n" +
// "PARTITIONED BY (`partition`)\n" +
"WITH (\n" +
"\t'connector' = 'hudi',\n" +
"\t'path' = 'hdfs://172.19.28.4:9000/hudi_t4/',\n" +
"\t'table.type' = 'MERGE_ON_READ'\n" +
")" ;
tableEnv.executeSql(sourceDDL);
TableResult result2 = tableEnv.executeSql("select * from t2");
result2.print();
env.execute("read_hudi");
}
}
展示结果
Flink CDC 2.0 on Hudi上一章节,我们使用代码形式构建实验,在本章节里,我们直接使用官网下载的flink包来构建实验环境。
添加如下依赖到$FLINK_HOME/lib下
hudi-flink-bundle_2.11-0.10.0-SNAPSHOT.jar (修改 Master 分支的 Hudi Flink 版本为 1.13.2 然后构建)
hadoop-mapreduce-client-core-2.7.3.jar (解决 Hudi ClassNotFoundException)
flink-sql-connector-mysql-cdc-2.0.0.jar
flink-format-changelog-json-2.0.0.jar
flink-sql-connector-kafka_2.11-1.13.2.jar
注意,在寻找jar的时候,cdc 2.0
更新过group id
,不再试 com.alibaba.ververica
而是改成了 com.ververica
创建mysql cdc表
CREATE TABLE mysql_users (
id BIGINT PRIMARY KEY NOT ENFORCED ,
name STRING,
birthday TIMESTAMP(3),
ts TIMESTAMP(3)
) WITH (
'connector' = 'mysql-cdc',
'hostname' = 'localhost',
'port' = '3306',
'username' = 'root',
'password' = 'dafei1288',
'server-time-zone' = 'Asia/Shanghai',
'database-name' = 'test',
'table-name' = 'users'
);
创建hudi表
CREATE TABLE hudi_users5(
id BIGINT PRIMARY KEY NOT ENFORCED,
name STRING,
birthday TIMESTAMP(3),
ts TIMESTAMP(3),
`partition` VARCHAR(20)
) PARTITIONED BY (`partition`) WITH (
'connector' = 'hudi',
'table.type' = 'MERGE_ON_READ',
'path' = 'hdfs://localhost:9009/hudi/hudi_users5'
);
修改配置,让查询模式输出为表,设置checkpoint
set execution.result-mode=tableau;
set execution.checkpointing.interval=10sec;
进行输入导入
INSERT INTO hudi_users5(id,name,birthday,ts,
partition
) SELECT id,name,birthday,ts,DATE_FORMAT(birthday, 'yyyyMMdd') FROM mysql_users;
查询数据
select * from hudi_users5;
执行结果
这个问题坑了我好几天,一度都打算放弃hudi了,表面上很正常,日志也没有任何报错,也可以看出来cdc起作用了,有数据写入,但是就是卡在 hoodie_stream_write
上一动不动了,没有数据下发了。感谢社区大佬 Danny Chan
的提点,可能是 checkpoint的问题,于是做了设置
set execution.checkpointing.interval=10sec;
终于正常了
致此,Flink + Hudi 仓湖一体化方案的原型构建完成,感谢大家看到这里。
Hi,我是王知无,一个大数据领域的原创作者。
放心关注我,获取更多行业的一手消息。
八千里路云和月 | 从零到大数据专家学习路径指南
互联网最坏的时代可能真的来了
我在B站读大学,大数据专业
我们在学习Flink的时候,到底在学习什么?
193篇文章暴揍Flink,这个合集你需要关注一下
Flink生产环境TOP难题与优化,阿里巴巴藏经阁YYDS
Flink CDC我吃定了耶稣也留不住他!| Flink CDC线上问题小盘点
我们在学习Spark的时候,到底在学习什么?
在所有Spark模块中,我愿称SparkSQL为最强!
硬刚Hive | 4万字基础调优面试小总结
数据治理方法论和实践小百科全书
标签体系下的用户画像建设小指南
4万字长文 | ClickHouse基础&实践&调优全视角解析
【面试&个人成长】2021年过半,社招和校招的经验之谈
大数据方向另一个十年开启 |《硬刚系列》第一版完结
我写过的关于成长/面试/职场进阶的文章
当我们在学习Hive的时候在学习什么?「硬刚Hive续集」