实践数据湖iceberg 第十二课 catalog是什么

系列文章目录

实践数据湖iceberg 第一课 入门
实践数据湖iceberg 第二课 iceberg基于hadoop的底层数据格式
实践数据湖iceberg 第三课 在sqlclient中,以sql方式从kafka读数据到iceberg
实践数据湖iceberg 第四课 在sqlclient中,以sql方式从kafka读数据到iceberg(升级版本到flink1.12.7)
实践数据湖iceberg 第五课 hive catalog特点
实践数据湖iceberg 第六课 从kafka写入到iceberg失败问题 解决
实践数据湖iceberg 第七课 实时写入到iceberg
实践数据湖iceberg 第八课 hive与iceberg集成
实践数据湖iceberg 第九课 合并小文件
实践数据湖iceberg 第十课 快照删除
实践数据湖iceberg 第十一课 测试分区表完整流程(造数、建表、合并、删快照)
实践数据湖iceberg 第十二课 catalog是什么
实践数据湖iceberg 第十三课 metadata比数据文件大很多倍的问题


提示:写完文章后,目录可以自动生成,如何生成可参考右边的帮助文档

文章目录

  • 系列文章目录
  • 概要
  • 1. 从建立catalog的语句,了解catalog
  • 2.hiveCatalog与hadoopCatalog异同
  • 3.通过hive客户端访问iceberg
  • 总结


概要

了解catalog是什么

1. 从建立catalog的语句,了解catalog

建catalog,db,表的语句。

CREATE CATALOG hive_catalog6 WITH (
  'type'='iceberg',
  'catalog-type'='hive',
  'uri'='thrift://hadoop101:9083',
  'clients'='5',
  'property-version'='1',
  'warehouse'='hdfs:user/hive/warehouse/hive_catalog6'
);

 database 各个catalog是共享的
use catalog hive_catalog6;
create database iceberg_db6;

create table `hive_catalog6`.`iceberg_db6`.`behavior_log_ib`(
 log STRING
)

catalog只是声明了,该catalog的文件存储格式是iceberg以及在hive中实际存储的路径。
使用哪个catalog,就是使用对应的数据格式、以及文件存储路径
具体的表需要建立在不同的database上。
database只需建立一次(例如mysql)。
catalog每次进入客户端都需要建一次catalog.

2.hiveCatalog与hadoopCatalog异同

相同点: 都在hadoop上创建元数据
不同点:hiveCatalog会把元数据写一份到hive的metadata中
删除表时:直接删除hiveCatalog对应的hadoop文件,再用sql drop表会报错(报错信息大意是:通过元数据找到表,但hdfs的文件已经不存在)。

3.通过hive客户端访问iceberg

hive支持catalog的语法,能show database,use db, show tables;查到里面的表


总结

catalog只是声明了,该catalog的文件存储格式是iceberg以及在hive中实际存储的路径。

你可能感兴趣的:(iceberg,flink,数据湖,iceberg,flink)