Direction_Wind

Iceberg 基础知识与基础使用

1 Iceber简介

1.1 概述

为了解决数据存储和计算引擎之间的适配的问题，Netflix开发了Iceberg，2018年11月16日进入Apache孵化器，2020 年5月19日从孵化器毕业，成为Apache的顶级项目。
Iceberg是一个面向海量数据分析场景的开放表格式（Table Format）。表格式（Table Format）可以理解为元数据以及数据文件的一种组织方式，处于计算框架（Flink，Spark…）之下，数据文件之上。

1.2 特性

1.2.1 数据存储、计算引擎插件化

Iceberg提供一个开放通用的表格式（Table Format）实现方案，不和特定的数据存储、计算引擎绑定。目前大数据领域的常见数据存储（HDFS、S3…），计算引擎（Flink、Spark…）都可以接入Iceberg。
在生产环境中，可选择不同的组件搭使用。甚至可以不通过计算引擎，直接读取存在文件系统上的数据。

1.2.2 实时流批一体

Iceberg上游组件将数据写入完成后，下游组件及时可读，可查询。可以满足实时场景.并且Iceberg同时提供了流/批读接口、流/批写接口。可以在同一个流程里, 同时处理流数据和批数据，大大简化了ETL链路。

1.2.3 数据表演化（Table Evolution）

Iceberg可以通过SQL的方式进行表级别模式演进。进行这些操作的时候，代价极低。不存在读出数据重新写入或者迁移数据这种费时费力的操作。比如在常用的Hive中，如果我们需要把一个按天分区的表，改成按小时分区。此时，不能再原表之上直接修改，只能新建一个按小时分区的表，然后再把数据Insert到新的小时分区表。而且，即使我们通过Rename的命令把新表的名字改为原表，使用原表的上次层应用, 也可能由于分区字段修改，导致需要修改 SQL，这样花费的经历是非常繁琐的。

1.2.4 模式演化（Schema Evolution）

Iceberg支持下面几种模式演化：
ADD：向表或者嵌套结构增加新列
Drop：从表中或者嵌套结构中移除一列
Rename：重命名表中或者嵌套结构中的一列
Update：将复杂结构(struct, map, list)中的基本类型扩展类型长度, 比如tinyint修改成int.
Reorder：改变列或者嵌套结构中字段的排列顺序
Iceberg保证模式演化（Schema Evolution）是没有副作用的独立操作流程, 一个元数据操作, 不会涉及到重写数据文件的过程。具体的如下:
增加列时候，不会从另外一个列中读取已存在的的数据
删除列或者嵌套结构中字段的时候，不会改变任何其他列的值
更新列或者嵌套结构中字段的时候，不会改变任何其他列的值
改变列列或者嵌套结构中字段顺序的时候，不会改变相关联的值
在表中Iceberg 使用唯一ID来定位每一列的信息。新增一个列的时候,会新分配给它一个唯一ID, 并且绝对不会使用已经被使用的ID。
使用名称或者位置信息来定位列的, 都会存在一些问题, 比如使用名称的话,名称可能会重复, 使用位置的话, 不能修改顺序并且废弃的字段也不能删除。

1.2.5 分区演化（Partition Evolution）

Iceberg可以在一个已存在的表上直接修改，因为Iceberg的查询流程并不和分区信息直接关联。
当我们改变一个表的分区策略时，对应修改分区之前的数据不会改变, 依然会采用老的分区策略，新的数据会采用新的分区策略，也就是说同一个表会有两种分区策略，旧数据采用旧分区策略，新数据采用新新分区策略, 在元数据里两个分区策略相互独立，不重合。
在查询数据的时候，如果存在跨分区策略的情况，则会解析成两个不同执行计划，如Iceberg官网提供图所示：

图中booking_table表2008年按月分区，进入2009年后改为按天分区，这两中分区策略共存于该表中。

借助Iceberg的隐藏分区（Hidden Partition），在写SQL 查询的时候，不需要在SQL中特别指定分区过滤条件，Iceberg会自动分区，过滤掉不需要的数据。

Iceberg分区演化操作同样是一个元数据操作, 不会重写数据文件。

1.2.6 列顺序演化（Sort Order Evolution）

Iceberg可以在一个已经存在的表上修改排序策略。修改了排序策略之后, 旧数据依旧采用老排序策略不变。往Iceberg里写数据的计算引擎总是会选择最新的排序策略, 但是当排序的代价极其高昂的时候, 就不进行排序了。

1.2.7 隐藏分区（Hidden Partition）

Iceberg的分区信息并不需要人工维护, 它可以被隐藏起来. 不同其他类似Hive 的分区策略, Iceberg的分区字段/策略（通过某一个字段计算出来），可以不是表的字段和表数据存储目录也没有关系。在建表或者修改分区策略之后，新的数据会自动计算所属于的分区。在查询的时候同样不用关系表的分区是什么字段/策略，只需要关注业务逻辑，Iceberg会自动过滤不需要的分区数据。

正是由于Iceberg的分区信息和表数据存储目录是独立的，使得Iceberg的表分区可以被修改,而且不和涉及到数据迁移。

1.2.8 镜像数据查询（Time Travel）

其实就是快照查询

Iceberg提供了查询表历史某一时间点数据镜像（snapshot）的能力。通过该特性可以将最新的SQL逻辑，应用到历史数据上。

1.2.9 支持事务（ACID）

Iceberg通过提供事务（ACID）的机制，使其具备了upsert的能力并且使得边写边读成为可能，从而数据可以更快的被下游组件消费。通过事务保证了下游组件只能消费已commit的数据，而不会读到部分甚至未提交的数据。

1.2.10 基于乐观锁的并发支持

Iceberg基于乐观锁提供了多个程序并发写入的能力并且保证数据线性一致。

1.2.11 文件级数据剪裁

Iceberg的元数据里面提供了每个数据文件的一些统计信息，比如最大值，最小值，Count计数等等。因此，查询SQL的过滤条件除了常规的分区，列过滤，甚至可以下推到文件级别，大大加快了查询效率。

1.3 其他数据湖框架的对比

2 存储结构

2.1 数据文件 data files

数据文件是Apache Iceberg表真实存储数据的文件，一般是在表的数据存储目录的data目录下，如果我们的文件格式选择的是parquet,那么文件是以“.parquet”结尾。
例如：00000-0-atguigu_20230203160458_22ee74c9-643f-4b27-8fc1-9cbd5f64dad4-job_1675409881387_0007-00001.parquet 就是一个数据文件。
Iceberg每次更新会产生多个数据文件（data files）。

2.2 表快照 Snapshot

快照代表一张表在某个时刻的状态。每个快照里面会列出表在某个时刻的所有 data files 列表。data files是存储在不同的manifest files里面，manifest files是存储在一个Manifest list文件里面，而一个Manifest list文件代表一个快照。

2.3 清单列表 Manifest list

manifest list是一个元数据文件，它列出构建表快照（Snapshot）的清单（Manifest file）。这个元数据文件中存储的是Manifest file列表，每个Manifest file占据一行。每行中存储了Manifest file的路径、其存储的数据文件（data files）的分区范围，增加了几个数文件、删除了几个数据文件等信息，这些信息可以用来在查询时提供过滤，加快速度。
例如：snap-6746266566064388720-1-52f2f477-2585-4e69-be42-bbad9a46ed17.avro就是一个Manifest List文件。

2.4 清单文件 Manifest file

Manifest file也是一个元数据文件，它列出组成快照（snapshot）的数据文件（data files）的列表信息。每行都是每个数据文件的详细描述，包括数据文件的状态、文件路径、分区信息、列级别的统计信息（比如每列的最大最小值、空值数等）、文件的大小以及文件里面数据行数等信息。其中列级别的统计信息可以在扫描表数据时过滤掉不必要的文件。
Manifest file是以avro格式进行存储的，以“.avro”后缀结尾，例如：52f2f477-2585-4e69-be42-bbad9a46ed17-m0.avro。

3 与 Hive集成

3.1 环境准备

1）Hive与Iceberg的版本对应关系如下

Iceberg与Hive 2和Hive 3.1.2/3的集成，支持以下特性：
创建表
删除表
读取表
插入表（INSERT into）
更多功能需要Hive 4.x（目前alpha版本）才能支持。
2）上传jar包，拷贝到Hive的auxlib目录中
mkdir auxlib
cp iceberg-hive-runtime-1.1.0.jar /opt/module/hive/auxlib
cp libfb303-0.9.3.jar /opt/module/hive/auxlib
3）修改hive-site.xml，添加配置项

iceberg.engine.hive.enabled
true

hive.aux.jars.path /opt/module/hive/auxlib 使用TEZ引擎注意事项：（1）使用Hive版本>=3.1.2，需要TEZ版本>=0.10.1 （2）指定tez更新配置： tez.mrreader.config.update.properties hive.io.file.readcolumn.names,hive.io.file.readcolumn.ids （3）从Iceberg 0.11.0开始，如果Hive使用Tez引擎，需要关闭向量化执行： hive.vectorized.execution.enabled false 4）启动HMS服务 5）启动 Hadoop ## 3.2 创建和管理 Catalog Iceberg支持多种不同的Catalog类型，例如:Hive、Hadoop、亚马逊的AWS Glue和自定义Catalog。根据不同配置，分为三种情况： 没有设置iceberg.catalog，默认使用HiveCatalog 设置了 iceberg.catalog的类型，使用指定的Catalog类型，如下表格： ![在这里插入图片描述](https://img-blog.csdnimg.cn/a2b32b990e6b40499652dd998a3a1f00.png)

设置 iceberg.catalog=location_based_table，直接通过指定的根路径来加载Iceberg表

3.1.1 默认使用 HiveCatalog

CREATE TABLE iceberg_test1 (i int)
STORED BY ‘org.apache.iceberg.mr.hive.HiveIcebergStorageHandler’;

INSERT INTO iceberg_test1 values(1);
查看HDFS可以发现，表目录在默认的hive仓库路径下。

3.1.2 指定 Catalog 类型

1）使用 HiveCatalog

set iceberg.catalog.iceberg_hive.type=hive;
set iceberg.catalog.iceberg_hive.uri=thrift://hadoop1:9083;
set iceberg.catalog.iceberg_hive.clients=10;
set iceberg.catalog.iceberg_hive.warehouse=hdfs://hadoop1:8020/warehouse/iceberg-hive;
CREATE TABLE iceberg_test2 (i int)
STORED BY ‘org.apache.iceberg.mr.hive.HiveIcebergStorageHandler’
TBLPROPERTIES(‘iceberg.catalog’=‘iceberg_hive’);
INSERT INTO iceberg_test2 values(1);

2）使用 HadoopCatalog

set iceberg.catalog.iceberg_hadoop.type=hadoop;
set iceberg.catalog.iceberg_hadoop.warehouse=hdfs://hadoop1:8020/warehouse/iceberg-hadoop;
CREATE TABLE iceberg_test3 (i int)
STORED BY ‘org.apache.iceberg.mr.hive.HiveIcebergStorageHandler’
LOCATION ‘hdfs://hadoop1:8020/warehouse/iceberg-hadoop/default/iceberg_test3’
TBLPROPERTIES(‘iceberg.catalog’=‘iceberg_hadoop’);
INSERT INTO iceberg_test3 values(1);

3.1.3 指定路径加载

如果HDFS中已经存在iceberg格式表，我们可以通过在Hive中创建Icerberg格式表指定对应的location路径映射数据。

CREATE EXTERNAL TABLE iceberg_test4 (i int)
STORED BY ‘org.apache.iceberg.mr.hive.HiveIcebergStorageHandler’
LOCATION ‘hdfs://hadoop1:8020/warehouse/iceberg-hadoop/default/iceberg_test3’
TBLPROPERTIES (‘iceberg.catalog’=‘location_based_table’);

3.3 基本操作

3.3.1 创建表

1）创建外部表

CREATE EXTERNAL TABLE iceberg_create1 (i int)
STORED BY ‘org.apache.iceberg.mr.hive.HiveIcebergStorageHandler’;
describe formatted iceberg_create1;

2）创建内部表

CREATE TABLE iceberg_create2 (i int)
STORED BY ‘org.apache.iceberg.mr.hive.HiveIcebergStorageHandler’;
describe formatted iceberg_create2;

3）创建分区表

CREATE EXTERNAL TABLE iceberg_create3 (id int,name string)
PARTITIONED BY (age int)
STORED BY ‘org.apache.iceberg.mr.hive.HiveIcebergStorageHandler’;
describe formatted iceberg_create3;

Hive语法创建分区表，不会在HMS中创建分区，而是将分区数据转换为Iceberg标识分区。这种情况下不能使用Iceberg的分区转换，例如：days(timestamp)，如果想要使用Iceberg格式表的分区转换标识分区，需要使用Spark或者Flink引擎创建表。

3.3.2 修改表

只支持HiveCatalog表修改表属性，Iceberg表属性和Hive表属性存储在HMS中是同步的。
ALTER TABLE iceberg_create1 SET TBLPROPERTIES(‘external.table.purge’=‘FALSE’);

3.3.3 插入表

支持标准单表INSERT INTO操作
INSERT INTO iceberg_create2 VALUES (1);
INSERT INTO iceberg_create1 select * from iceberg_create2;
在HIVE 3.x中，INSERT OVERWRITE虽然能执行，但其实是追加。

3.3.4 删除表

DROP TABLE iceberg_create1;

第4章与 Spark SQL集成
4.1 环境准备
4.1.1 安装 Spark
1）Spark与Iceberg的版本对应关系如下
Spark 版本 Iceberg 版本
2.4 0.7.0-incubating – 1.1.0
3.0 0.9.0 – 1.0.0
3.1 0.12.0 – 1.1.0
3.2 0.13.0 – 1.1.0
3.3 0.14.0 – 1.1.0
2）上传并解压Spark安装包
tar -zxvf spark-3.3.1-bin-hadoop3.tgz -C /opt/module/
mv /opt/module/spark-3.3.1-bin-hadoop3 /opt/module/spark-3.3.1
3）配置环境变量
sudo vim /etc/profile.d/my_env.sh

export SPARK_HOME=/opt/module/spark-3.3.1
export PATH= $P A T H :$ SPARK_HOME/bin

source /etc/profile.d/my_env.sh
4）拷贝iceberg的jar包到Spark的jars目录
cp /opt/software/iceberg/iceberg-spark-runtime-3.3_2.12-1.1.0.jar /opt/module/spark-3.3.1/jars
4.1.2 启动 Hadoop
（略）
4.2 Spark 配置 Catalog
Spark中支持两种Catalog的设置：hive和hadoop，Hive Catalog就是Iceberg表存储使用Hive默认的数据路径，Hadoop Catalog需要指定Iceberg格式表存储路径。
vim spark-defaults.conf
4.2.1 Hive Catalog
spark.sql.catalog.hive_prod = org.apache.iceberg.spark.SparkCatalog
spark.sql.catalog.hive_prod.type = hive
spark.sql.catalog.hive_prod.uri = thrift://hadoop1:9083

use hive_prod.db;
4.2.2 Hadoop Catalog
spark.sql.catalog.hadoop_prod = org.apache.iceberg.spark.SparkCatalog
spark.sql.catalog.hadoop_prod.type = hadoop
spark.sql.catalog.hadoop_prod.warehouse = hdfs://hadoop1:8020/warehouse/spark-iceberg

use hadoop_prod.db;
4.3 SQL 操作
4.3.1 创建表
use hadoop_prod;
create database default;
use default;

CREATE TABLE hadoop_prod.default.sample1 (
id bigint COMMENT ‘unique id’,
data string)
USING iceberg
PARTITIONED BY (partition-expressions) ：配置分区
LOCATION ‘(fully-qualified-uri)’ ：指定表路径
COMMENT ‘table documentation’ ：配置表备注
TBLPROPERTIES (‘key’=‘value’, …) ：配置表属性
表属性：https://iceberg.apache.org/docs/latest/configuration/
对Iceberg表的每次更改都会生成一个新的元数据文件（json文件）以提供原子性。默认情况下，旧元数据文件作为历史文件保存不会删除。
如果要自动清除元数据文件，在表属性中设置write.metadata.delete-after-commit.enabled=true。这将保留一些元数据文件（直到write.metadata.previous-versions-max），并在每个新创建的元数据文件之后删除旧的元数据文件。
1）创建分区表
（1）分区表
CREATE TABLE hadoop_prod.default.sample2 (
id bigint,
data string,
category string)
USING iceberg
PARTITIONED BY (category)
（2）创建隐藏分区表
CREATE TABLE hadoop_prod.default.sample3 (
id bigint,
data string,
category string,
ts timestamp)
USING iceberg
PARTITIONED BY (bucket(16, id), days(ts), category)
支持的转换有:
years(ts):按年划分
months(ts):按月划分
days(ts)或date(ts):等效于dateint分区
hours(ts)或date_hour(ts):等效于dateint和hour分区
bucket(N, col):按哈希值划分mod N个桶
truncate(L, col):按截断为L的值划分
字符串被截断为给定的长度
整型和长型截断为bin: truncate(10, i)生成分区0,10,20,30，…
2）使用 CTAS 语法建表
CREATE TABLE hadoop_prod.default.sample4
USING iceberg
AS SELECT * from hadoop_prod.default.sample3
不指定分区就是无分区，需要重新指定分区、表属性：
CREATE TABLE hadoop_prod.default.sample5
USING iceberg
PARTITIONED BY (bucket(8, id), hours(ts), category)
TBLPROPERTIES (‘key’=‘value’)
AS SELECT * from hadoop_prod.default.sample3
3）使用 Replace table 建表
REPLACE TABLE hadoop_prod.default.sample5
USING iceberg
AS SELECT * from hadoop_prod.default.sample3

REPLACE TABLE hadoop_prod.default.sample5
USING iceberg
PARTITIONED BY (part)
TBLPROPERTIES (‘key’=‘value’)
AS SELECT * from hadoop_prod.default.sample3

CREATE OR REPLACE TABLE hadoop_prod.default.sample6
USING iceberg
AS SELECT * from hadoop_prod.default.sample3
4.3.2 删除表
对于HadoopCatalog而言，运行DROP TABLE将从catalog中删除表并删除表内容。
CREATE EXTERNAL TABLE hadoop_prod.default.sample7 (
id bigint COMMENT ‘unique id’,
data string)
USING iceberg

INSERT INTO hadoop_prod.default.sample7 values(1,‘a’)
DROP TABLE hadoop_prod.default.sample7
对于HiveCatalog而言：
在0.14之前，运行DROP TABLE将从catalog中删除表并删除表内容。
从0.14开始，DROP TABLE只会从catalog中删除表，不会删除数据。为了删除表内容，应该使用DROP table PURGE。
CREATE TABLE hive_prod.default.sample7 (
id bigint COMMENT ‘unique id’,
data string)
USING iceberg

INSERT INTO hive_prod.default.sample7 values(1,‘a’)
1）删除表
DROP TABLE hive_prod.default.sample7
2）删除表和数据
DROP TABLE hive_prod.default.sample7 PURGE
4.3.3 修改表
Iceberg在Spark 3中完全支持ALTER TABLE，包括:
重命名表
设置或删除表属性
添加、删除和重命名列
添加、删除和重命名嵌套字段
重新排序顶级列和嵌套结构字段
扩大int、float和decimal字段的类型
将必选列变为可选列
此外，还可以使用SQL扩展来添加对分区演变的支持和设置表的写顺序。
CREATE TABLE hive_prod.default.sample1 (
id bigint COMMENT ‘unique id’,
data string)
USING iceberg
1）修改表名（不支持修改HadoopCatalog的表名）
ALTER TABLE hive_prod.default.sample1 RENAME TO hive_prod.default.sample2
2）修改表属性
（1）修改表属性
ALTER TABLE hive_prod.default.sample1 SET TBLPROPERTIES (
‘read.split.target-size’=‘268435456’
)

ALTER TABLE hive_prod.default.sample1 SET TBLPROPERTIES (
‘comment’ = ‘A table comment.’
)
（2）删除表属性
ALTER TABLE hive_prod.default.sample1 UNSET TBLPROPERTIES (‘read.split.target-size’)
3）添加列
ALTER TABLE hadoop_prod.default.sample1
ADD COLUMNS (
category string comment ‘new_column’
)

– 添加struct类型的列
ALTER TABLE hadoop_prod.default.sample1
ADD COLUMN point struct;

– 往struct类型的列中添加字段
ALTER TABLE hadoop_prod.default.sample1
ADD COLUMN point.z double

– 创建struct的嵌套数组列
ALTER TABLE hadoop_prod.default.sample1
ADD COLUMN points array>;

– 在数组中的结构中添加一个字段。使用关键字’element’访问数组的元素列。
ALTER TABLE hadoop_prod.default.sample1
ADD COLUMN points.element.z double

– 创建一个包含Map类型的列，key和value都为struct类型
ALTER TABLE hadoop_prod.default.sample1
ADD COLUMN pointsm map, struct>;

– 在Map类型的value的struct中添加一个字段。
ALTER TABLE hadoop_prod.default.sample1
ADD COLUMN pointsm.value.b int
在Spark 2.4.4及以后版本中，可以通过添加FIRST或AFTER子句在任何位置添加列:
ALTER TABLE hadoop_prod.default.sample1
ADD COLUMN new_column1 bigint AFTER id

ALTER TABLE hadoop_prod.default.sample1
ADD COLUMN new_column2 bigint FIRST
4）修改列
（1）修改列名
ALTER TABLE hadoop_prod.default.sample1 RENAME COLUMN data TO data1
（2）Alter Column修改类型（只允许安全的转换）
ALTER TABLE hadoop_prod.default.sample1
ADD COLUMNS (
idd int
)
ALTER TABLE hadoop_prod.default.sample1 ALTER COLUMN idd TYPE bigint
（3）Alter Column 修改列的注释
ALTER TABLE hadoop_prod.default.sample1 ALTER COLUMN id TYPE double COMMENT ‘a’
ALTER TABLE hadoop_prod.default.sample1 ALTER COLUMN id COMMENT ‘b’
（4）Alter Column修改列的顺序
ALTER TABLE hadoop_prod.default.sample1 ALTER COLUMN id FIRST
ALTER TABLE hadoop_prod.default.sample1 ALTER COLUMN new_column2 AFTER new_column1
（5）Alter Column修改列是否允许为null
ALTER TABLE hadoop_prod.default.sample1 ALTER COLUMN id DROP NOT NULL
ALTER COLUMN不用于更新struct类型。使用ADD COLUMN和DROP COLUMN添加或删除struct类型的字段。
5）删除列
ALTER TABLE hadoop_prod.default.sample1 DROP COLUMN idd
ALTER TABLE hadoop_prod.default.sample1 DROP COLUMN point.z
6）添加分区（Spark3，需要配置扩展）
vim spark-default.conf

spark.sql.extensions = org.apache.iceberg.spark.extensions.IcebergSparkSessionExtensions
重新进入spark-sql shell：
ALTER TABLE hadoop_prod.default.sample1 ADD PARTITION FIELD category

ALTER TABLE hadoop_prod.default.sample1 ADD PARTITION FIELD bucket(16, id)
ALTER TABLE hadoop_prod.default.sample1 ADD PARTITION FIELD truncate(data, 4)
ALTER TABLE hadoop_prod.default.sample1 ADD PARTITION FIELD years(ts)

ALTER TABLE hadoop_prod.default.sample1 ADD PARTITION FIELD bucket(16, id) AS shard
7）删除分区（Spark3，需要配置扩展）
ALTER TABLE hadoop_prod.default.sample1 DROP PARTITION FIELD category
ALTER TABLE hadoop_prod.default.sample1 DROP PARTITION FIELD bucket(16, id)
ALTER TABLE hadoop_prod.default.sample1 DROP PARTITION FIELD truncate(data, 4)
ALTER TABLE hadoop_prod.default.sample1 DROP PARTITION FIELD years(ts)
ALTER TABLE hadoop_prod.default.sample1 DROP PARTITION FIELD shard
注意，尽管删除了分区，但列仍然存在于表结构中。
删除分区字段是元数据操作，不会改变任何现有的表数据。新数据将被写入新的分区，但现有数据将保留在旧的分区布局中。
当分区发生变化时，动态分区覆盖行为也会发生变化。例如，如果按天划分分区，而改为按小时划分分区，那么覆盖将覆盖每小时划分的分区，而不再覆盖按天划分的分区。
删除分区字段时要小心，可能导致元数据查询失败或产生不同的结果。
8）修改分区（Spark3，需要配置扩展）
ALTER TABLE hadoop_prod.default.sample1 REPLACE PARTITION FIELD bucket(16, id) WITH bucket(8, id)
9）修改表的写入顺序
ALTER TABLE hadoop_prod.default.sample1 WRITE ORDERED BY category, id

ALTER TABLE hadoop_prod.default.sample1 WRITE ORDERED BY category ASC, id DESC

ALTER TABLE hadoop_prod.default.sample1 WRITE ORDERED BY category ASC NULLS LAST, id DESC NULLS FIRST
表写顺序不能保证查询的数据顺序。它只影响数据写入表的方式。
WRITE ORDERED BY设置了一个全局排序，即跨任务的行排序，就像在INSERT命令中使用ORDER BY一样:
INSERT INTO hadoop_prod.default.sample1
SELECT id, data, category, ts FROM another_table
ORDER BY ts, category
要在每个任务内排序，而不是跨任务排序，使用local ORDERED BY:
ALTER TABLE hadoop_prod.default.sample1 WRITE LOCALLY ORDERED BY category, id
10）按分区并行写入
ALTER TABLE hadoop_prod.default.sample1 WRITE DISTRIBUTED BY PARTITION

ALTER TABLE hadoop_prod.default.sample1 WRITE DISTRIBUTED BY PARTITION LOCALLY ORDERED BY category, id
4.3.4 插入数据
CREATE TABLE hadoop_prod.default.a (
id bigint,
count bigint)
USING iceberg

CREATE TABLE hadoop_prod.default.b (
id bigint,
count bigint,
flag string)
USING iceberg

1）Insert Into
INSERT INTO hadoop_prod.default.a VALUES (1, 1), (2, 2), (3, 3);
INSERT INTO hadoop_prod.default.b VALUES (1, 1, ‘a’), (2, 2, ‘b’), (4, 4, ‘d’);
2）MERGE INTO行级更新
MERGE INTO hadoop_prod.default.a t
USING (SELECT * FROM hadoop_prod.default.b) u ON t.id = u.id
WHEN MATCHED AND u.flag=‘b’ THEN UPDATE SET t.count = t.count + u.count
WHEN MATCHED AND u.flag=‘a’ THEN DELETE
WHEN NOT MATCHED THEN INSERT (id,count) values (u.id,u.count)
4.3.5 查询数据
1）普通查询
SELECT count(1) as count, data
FROM local.db.table
GROUP BY data
2）查询元数据
// 查询表快照
SELECT * FROM hadoop_prod.default.a.snapshots

// 查询数据文件信息
SELECT * FROM hadoop_prod.default.a.files

// 查询表历史
SELECT * FROM hadoop_prod.default.a.history

// 查询 manifest
ELECT * FROM hadoop_prod.default.a.manifests
4.3.6 存储过程
Procedures可以通过CALL从任何已配置的Iceberg Catalog中使用。所有Procedures都在namespace中。
1）语法
按照参数名传参
CALL catalog_name.system.procedure_name(arg_name_2 => arg_2, arg_name_1 => arg_1)
当按位置传递参数时，如果结束参数是可选的，则只有结束参数可以省略。
CALL catalog_name.system.procedure_name(arg_1, arg_2, … arg_n)
2）快照管理
（1）回滚到指定的快照id
CALL hadoop_prod.system.rollback_to_snapshot(‘default.a’, 7601163594701794741)
（2）回滚到指定时间的快照
CALL hadoop_prod.system.rollback_to_timestamp(‘db.sample’, TIMESTAMP ‘2021-06-30 00:00:00.000’)
（3）设置表的当前快照ID
CALL hadoop_prod.system.set_current_snapshot(‘db.sample’, 1)
（4）从快照变为当前表状态
CALL hadoop_prod.system.cherrypick_snapshot(‘default.a’, 7629160535368763452)

CALL hadoop_prod.system.cherrypick_snapshot(snapshot_id => 7629160535368763452, table => ‘default.a’ )
3）元数据管理
（1）删除早于指定日期和时间的快照，但保留最近100个快照:
CALL hive_prod.system.expire_snapshots(‘db.sample’, TIMESTAMP ‘2021-06-30 00:00:00.000’, 100)
（2）删除Iceberg表中任何元数据文件中没有引用的文件
#列出所有需要删除的候选文件
CALL catalog_name.system.remove_orphan_files(table => ‘db.sample’, dry_run => true)

#删除指定目录中db.sample表不知道的任何文件
CALL catalog_name.system.remove_orphan_files(table => ‘db.sample’, location => ‘tablelocation/data’)
（3）合并数据文件（合并小文件）
CALL catalog_name.system.rewrite_data_files(‘db.sample’)

CALL catalog_name.system.rewrite_data_files(table => ‘db.sample’, strategy => ‘sort’, sort_order => ‘id DESC NULLS LAST,name ASC NULLS FIRST’)

CALL catalog_name.system.rewrite_data_files(table => ‘db.sample’, strategy => ‘sort’, sort_order => ‘zorder(c1,c2)’)

CALL catalog_name.system.rewrite_data_files(table => ‘db.sample’, options => map(‘min-input-files’,‘2’))

CALL catalog_name.system.rewrite_data_files(table => ‘db.sample’, where => ‘id = 3 and name = “foo”’)
（4）重写表清单来优化执行计划
CALL catalog_name.system.rewrite_manifests(‘db.sample’)

#重写表db中的清单。并禁用Spark缓存的使用。这样做可以避免执行程序上的内存问题。
CALL catalog_name.system.rewrite_manifests(‘db.sample’, false)
4）迁移表
（1）快照
CALL catalog_name.system.snapshot(‘db.sample’, ‘db.snap’)
CALL catalog_name.system.snapshot(‘db.sample’, ‘db.snap’, ‘/tmp/temptable/’)
（2）迁移
CALL catalog_name.system.migrate(‘spark_catalog.db.sample’, map(‘foo’, ‘bar’))
CALL catalog_name.system.migrate(‘db.sample’)
（3）添加数据文件
CALL spark_catalog.system.add_files(
table => ‘db.tbl’,
source_table => ‘db.src_tbl’,
partition_filter => map(‘part_col_1’, ‘A’)
)

CALL spark_catalog.system.add_files(
table => ‘db.tbl’,
source_table => ‘parquet.path/to/table’
)
5）元数据信息
（1）获取指定快照的父快照id
CALL spark_catalog.system.ancestors_of(‘db.tbl’)
（2）获取指定快照的所有祖先快照
CALL spark_catalog.system.ancestors_of(‘db.tbl’, 1)
CALL spark_catalog.system.ancestors_of(snapshot_id => 1, table => ‘db.tbl’)
4.4 DataFrame 操作
4.4.1 环境准备
1）创建maven工程，配置pom文件

4.0.0

com.atguigu.iceberg
spark-iceberg-demo
1.0-SNAPSHOT


    2.12
    3.3.1
    8
    8



    
    
        org.apache.spark
        spark-core_${scala.binary.version}
        provided
        ${spark.version}
    
    
        org.apache.spark
        spark-sql_${scala.binary.version}
        provided
        ${spark.version}
    
    
        org.apache.spark
        spark-hive_${scala.binary.version}
        provided
        ${spark.version}
    

    
    
        com.alibaba
        fastjson
        1.2.83
    
    

    
    
        org.apache.iceberg
        iceberg-spark-runtime-3.3_2.12
        1.1.0
    





    
        
        
            org.apache.maven.plugins
            maven-assembly-plugin
            3.0.0
            
                
                    make-assembly
                    package
                    
                        single
                    
                
            
            
                
                    
                    
                
                
                    jar-with-dependencies
                
            
        

        
        
            net.alchim31.maven
            scala-maven-plugin
            3.2.2
            
                
                    
                        compile
                        testCompile

2）配置Catalog val spark: SparkSession = SparkSession.builder().master("local").appName(this.getClass.getSimpleName) //指定hive catalog, catalog名称为iceberg_hive .config("spark.sql.catalog.iceberg_hive", "org.apache.iceberg.spark.SparkCatalog") .config("spark.sql.catalog.iceberg_hive.type", "hive") .config("spark.sql.catalog.iceberg_hive.uri", "thrift://hadoop1:9083") // .config("iceberg.engine.hive.enabled", "true") //指定hadoop catalog，catalog名称为iceberg_hadoop .config("spark.sql.catalog.iceberg_hadoop", "org.apache.iceberg.spark.SparkCatalog") .config("spark.sql.catalog.iceberg_hadoop.type", "hadoop") .config("spark.sql.catalog.iceberg_hadoop.warehouse", "hdfs://hadoop1:8020/warehouse/spark-iceberg") .getOrCreate() 4.4.2 读取表 1）加载表 spark.read .format("iceberg") .load("hdfs://hadoop1:8020/warehouse/spark-iceberg/default/a") .show() 或 // 仅支持Spark3.0以上 spark.table("iceberg_hadoop.default.a") .show() 2）时间旅行：指定时间查询 spark.read .option("as-of-timestamp", "499162860000") .format("iceberg") .load("hdfs://hadoop1:8020/warehouse/spark-iceberg/default/a") .show() 3）时间旅行：指定快照id查询 spark.read .option("snapshot-id", 7601163594701794741L) .format("iceberg") .load("hdfs://hadoop1:8020/warehouse/spark-iceberg/default/a") .show() 4）增量查询 spark.read .format("iceberg") .option("start-snapshot-id", "10963874102873") .option("end-snapshot-id", "63874143573109") .load("hdfs://hadoop1:8020/warehouse/spark-iceberg/default/a") .show() 查询的表只能是append的方式写数据，不支持replace, overwrite, delete操作。 4.4.3 检查表 1）查询元数据 spark.read.format("iceberg").load("iceberg_hadoop.default.a.files")

spark.read.format(“iceberg”).load(“hdfs://hadoop1:8020/warehouse/spark-iceberg/default/a#files”)
2）元数据表时间旅行查询
spark.read
.format(“iceberg”)
.option(“snapshot-id”, 7601163594701794741L)
.load(“iceberg_hadoop.default.a.files”)
4.4.4 写入表
1）创建样例类，准备DF
case class Sample(id:Int,data:String,category:String)

val df: DataFrame = spark.createDataFrame(Seq(Sample(1,‘A’, ‘a’), Sample(2,‘B’, ‘b’), Sample(3,‘C’, ‘c’)))
2）插入数据并建表
df.writeTo(“iceberg_hadoop.default.table1”).create()

import spark.implicits._
df.writeTo(“iceberg_hadoop.default.table1”)
.tableProperty(“write.format.default”, “orc”)
.partitionedBy( $category") .createOrReplace() 3）append追加 df.writeTo("iceberg_hadoop.default.table1").append() 4）动态分区覆盖 df.writeTo("iceberg_hadoop.default.table1").overwritePartitions() 5）静态分区覆盖 import spark.implicits._ df.writeTo("iceberg_hadoop.default.table1").overwrite($ “category” === “c”)
6）插入分区表且分区内排序
df.sortWithinPartitions(“category”)
.writeTo(“iceberg_hadoop.default.table1”)
.append()
4.4.5 维护表
1）获取Table对象
（1）HadoopCatalog
import org.apache.hadoop.conf.Configuration;
import org.apache.iceberg.hadoop.HadoopCatalog;
import org.apache.iceberg.Table;
import org.apache.iceberg.catalog.TableIdentifier;

val conf = new Configuration()
val catalog = new HadoopCatalog(conf,“hdfs://hadoop1:8020/warehouse/spark-iceberg”)
val table: Table = catalog.loadTable(TableIdentifier.of(“db”,“table1”))
（2）HiveCatalog
import org.apache.iceberg.hive.HiveCatalog;
import org.apache.iceberg.Table;
import org.apache.iceberg.catalog.TableIdentifier;

val catalog = new HiveCatalog()
catalog.setConf(spark.sparkContext.hadoopConfiguration)

val properties = new util.HashMapString,String
properties.put(“warehouse”, “hdfs://hadoop1:8020/warehouse/spark-iceberg”)
properties.put(“uri”, “thrift://hadoop1:9083”)

catalog.initialize(“hive”, properties)
val table: Table = catalog.loadTable(TableIdentifier.of(“db”, “table1”))
2）快照过期清理
每次写入Iceberg表都会创建一个表的新快照或版本。快照可以用于时间旅行查询，或者可以将表回滚到任何有效的快照。建议设置快照过期时间，过期的旧快照将从元数据中删除（不再可用于时间旅行查询）。
// 1天过期时间
val tsToExpire: Long = System.currentTimeMillis() - (1000 * 60 * 60 * 24)

table.expireSnapshots()
.expireOlderThan(tsToExpire)
.commit()
或使用SparkActions来设置过期：
//SparkActions可以并行运行大型表的表过期设置
SparkActions.get()
.expireSnapshots(table)
.expireOlderThan(tsToExpire)
.execute()
3）删除无效文件
在Spark和其他分布式处理引擎中，任务或作业失败可能会留下未被表元数据引用的文件，在某些情况下，正常的快照过期可能无法确定不再需要并删除该文件。
SparkActions
.get()
.deleteOrphanFiles(table)
.execute()
4）合并小文件
数据文件过多会导致更多的元数据存储在清单文件中，而较小的数据文件会导致不必要的元数据量和更低效率的文件打开成本。
SparkActions
.get()
.rewriteDataFiles(table)
.filter(Expressions.equal(“category”, “a”))
.option(“target-file-size-bytes”, 1024L.toString) //1KB
.execute()
第5章与 Flink SQL 集成
Apache Iceberg同时支持Apache Flink的DataStream API和Table API。
5.1 环境准备
5.1.1 安装 Flink
1）Flink与Iceberg的版本对应关系如下
Flink 版本 Iceberg 版本
1.11 0.9.0 – 0.12.1
1.12 0.12.0 – 0.13.1
1.13 0.13.0 – 1.0.0
1.14 0.13.0 – 1.1.0
1.15 0.14.0 – 1.1.0
1.16 1.1.0 – 1.1.0
2）上传并解压Flink安装包
tar -zxvf flink-1.16.0-bin-scala_2.12.tgz -C /opt/module/
3）配置环境变量
sudo vim /etc/profile.d/my_env.sh

export HADOOP_CLASSPATH=hadoop classpath

source /etc/profile.d/my_env.sh
4）拷贝iceberg的jar包到Flink的lib目录
cp /opt/software/iceberg/iceberg-flink-runtime-1.16-1.1.0.jar /opt/module/flink-1.16.0/lib
5.1.2 启动 Hadoop
（略）
5.1.3 启动 sql-client
1）修改flink-conf.yaml配置
vim /opt/module/flink-1.16.0/conf/flink-conf.yaml

classloader.check-leaked-classloader: false
taskmanager.numberOfTaskSlots: 4

state.backend: rocksdb
execution.checkpointing.interval: 30000
state.checkpoints.dir: hdfs://hadoop1:8020/ckps
state.backend.incremental: true
2）local模式
（1）修改workers
vim /opt/module/flink-1.16.0/conf/workers
#表示：会在本地启动3个TaskManager的 local集群
localhost
localhost
localhost
（2）启动Flink
/opt/module/flink-1.16.0/bin/start-cluster.sh
查看webui：http://hadoop1:8081
（3）启动Flink的sql-client
/opt/module/flink-1.16.0/bin/sql-client.sh embedded

5.2 创建和使用 Catalog
5.2.1 语法说明
CREATE CATALOG WITH (
‘type’=‘iceberg’,
=
);
type: 必须是iceberg。（必须）
catalog-type: 内置了hive和hadoop两种catalog，也可以使用catalog-impl来自定义catalog。（可选）
catalog-impl: 自定义catalog实现的全限定类名。如果未设置catalog-type，则必须设置。（可选）
property-version: 描述属性版本的版本号。此属性可用于向后兼容，以防属性格式更改。当前属性版本为1。（可选）
cache-enabled: 是否启用目录缓存，默认值为true。（可选）
cache.expiration-interval-ms: 本地缓存catalog条目的时间(以毫秒为单位)；负值，如-1表示没有时间限制，不允许设为0。默认值为-1。（可选）
5.2.2 Hive Catalog
1）上传hive connector到flink的lib中
cp flink-sql-connector-hive-3.1.2_2.12-1.16.0.jar /opt/module/flink-1.16.0/lib/
2）启动hive metastore服务
hive --service metastore
3）创建hive catalog
重启flink集群，重新进入sql-client
CREATE CATALOG hive_catalog WITH (
‘type’=‘iceberg’,
‘catalog-type’=‘hive’,
‘uri’=‘thrift://hadoop1:9083’,
‘clients’=‘5’,
‘property-version’=‘1’,
‘warehouse’=‘hdfs://hadoop1:8020/warehouse/iceberg-hive’
);

use catalog hive_catalog;
uri: Hive metastore的thrift uri。(必选)
clients:Hive metastore客户端池大小，默认为2。(可选)
warehouse: 数仓目录。
hive-conf-dir:包含hive-site.xml配置文件的目录路径，hive-site.xml中hive.metastore.warehouse.dir 的值会被warehouse覆盖。
hadoop-conf-dir:包含core-site.xml和hdfs-site.xml配置文件的目录路径。
5.2.3 Hadoop Catalog
Iceberg还支持HDFS中基于目录的catalog，可以使用’catalog-type’='hadoop’配置。
CREATE CATALOG hadoop_catalog WITH (
‘type’=‘iceberg’,
‘catalog-type’=‘hadoop’,
‘warehouse’=‘hdfs://hadoop1:8020/warehouse/iceberg-hadoop’,
‘property-version’=‘1’
);

use catalog hadoop_catalog;
warehouse:存放元数据文件和数据文件的HDFS目录。（必需）
5.2.4 配置sql-client初始化文件
vim /opt/module/flink-1.16.0/conf/sql-client-init.sql

CREATE CATALOG hive_catalog WITH (
‘type’=‘iceberg’,
‘catalog-type’=‘hive’,
‘uri’=‘thrift://hadoop1:9083’,
‘warehouse’=‘hdfs://hadoop1:8020/warehouse/iceberg-hive’
);

USE CATALOG hive_catalog;
后续启动sql-client时，加上 -i sql文件路径即可完成catalog的初始化。
/opt/module/flink-1.16.0/bin/sql-client.sh embedded -i conf/sql-client-init.sql
5.3 DDL 语句
5.3.1 创建数据库
CREATE DATABASE iceberg_db;
USE iceberg_db;
5.3.2 创建表
CREATE TABLE hive_catalog.default.sample (
id BIGINT COMMENT ‘unique id’,
data STRING
);
建表命令现在支持最常用的flink建表语法，包括:
PARTITION BY (column1, column2, …)：配置分区，apache flink还不支持隐藏分区。
COMMENT ‘table document’：指定表的备注
WITH (‘key’=‘value’, …)：设置表属性
目前，不支持计算列、watermark（支持主键）。
1）创建分区表
CREATE TABLE hive_catalog.default.sample (
id BIGINT COMMENT ‘unique id’,
data STRING
) PARTITIONED BY (data);
Apache Iceberg支持隐藏分区，但Apache flink不支持在列上通过函数进行分区，现在无法在flink DDL中支持隐藏分区。
2）使用LIKE语法建表
LIKE语法用于创建一个与另一个表具有相同schema、分区和属性的表。
CREATE TABLE hive_catalog.default.sample (
id BIGINT COMMENT ‘unique id’,
data STRING
);

CREATE TABLE hive_catalog.default.sample_like LIKE hive_catalog.default.sample;
5.3.3 修改表
1）修改表属性
ALTER TABLE hive_catalog.default.sample SET (‘write.format.default’=‘avro’);
2）修改表名
ALTER TABLE hive_catalog.default.sample RENAME TO hive_catalog.default.new_sample;

5.3.4 删除表
DROP TABLE hive_catalog.default.sample;
5.4 插入语句
5.4.1 INSERT INTO
INSERT INTO hive_catalog.default.sample VALUES (1, ‘a’);
INSERT INTO hive_catalog.default.sample SELECT id, data from sample2;
5.4.2 INSERT OVERWRITE
仅支持Flink的Batch模式
SET execution.runtime-mode = batch;

INSERT OVERWRITE sample VALUES (1, ‘a’);

INSERT OVERWRITE hive_catalog.default.sample PARTITION(data=‘a’) SELECT 6;
5.4.3 UPSERT
当将数据写入v2表格式时，Iceberg支持基于主键的UPSERT。有两种方法可以启用upsert。
1）建表时指定
CREATE TABLE hive_catalog.test1.sample5 (
id INT UNIQUE COMMENT ‘unique id’,
data STRING NOT NULL,
PRIMARY KEY(id) NOT ENFORCED
) with (
‘format-version’=‘2’,
‘write.upsert.enabled’=‘true’
);
2）插入时指定
INSERT INTO tableName /*+ OPTIONS(‘upsert-enabled’=‘true’) */
…
插入的表，format-version需要为2。
OVERWRITE和UPSERT不能同时设置。在UPSERT模式下，如果对表进行分区，则分区字段必须也是主键。
3）读取Kafka流，upsert插入到iceberg表中
create table default_catalog.default_database.kafka(
id int,
data string
) with (
‘connector’ = ‘kafka’
,‘topic’ = ‘test111’
,‘properties.zookeeper.connect’ = ‘hadoop1:2181’
,‘properties.bootstrap.servers’ = ‘hadoop1:9092’
,‘format’ = ‘json’
,‘properties.group.id’=‘iceberg’
,‘scan.startup.mode’=‘earliest-offset’
);

INSERT INTO hive_catalog.test1.sample5 SELECT * FROM default_catalog.default_database.kafka;
5.5 查询语句
Iceberg支持Flink的流式和批量读取。
5.5.1 Batch模式
SET execution.runtime-mode = batch;
select * from sample;
5.5.2 Streaming模式
SET execution.runtime-mode = streaming;
SET table.dynamic-table-options.enabled=true;
SET sql-client.execution.result-mode=tableau;
1）从当前快照读取所有记录，然后从该快照读取增量数据
SELECT * FROM sample5 /+ OPTIONS(‘streaming’=‘true’, ‘monitor-interval’=‘1s’)/ ;
2）读取指定快照id（不包含）后的增量数据
SELECT * FROM sample /+ OPTIONS(‘streaming’=‘true’, ‘monitor-interval’=‘1s’, ‘start-snapshot-id’=‘3821550127947089987’)/ ;
monitor-interval: 连续监控新提交数据文件的时间间隔（默认为10s）。
start-snapshot-id: 流作业开始的快照id。
注意：如果是无界数据流式upsert进iceberg表（读kafka，upsert进iceberg表），那么再去流读iceberg表会存在读不出数据的问题。如果无界数据流式append进iceberg表（读kafka，append进iceberg表），那么流读该iceberg表可以正常看到结果。
5.6 与Flink集成的不足
支持的特性 Flink 备注
SQL create catalog √
SQL create database √
SQL create table √
SQL create table like √
SQL alter table √ 只支持修改表属性，不支持更改列和分区
SQL drop_table √
SQL select √ 支持流式和批处理模式
SQL insert into √ 支持流式和批处理模式
SQL insert overwrite √
DataStream read √
DataStream append √
DataStream overwrite √
Metadata tables 支持Java API，不支持Flink SQL
Rewrite files action √
不支持创建隐藏分区的Iceberg表。
不支持创建带有计算列的Iceberg表。
不支持创建带watermark的Iceberg表。
不支持添加列，删除列，重命名列，更改列。
Iceberg目前不支持Flink SQL 查询表的元数据信息，需要使用Java API 实现。
第6章与 Flink DataStream 集成
6.1 环境准备
6.1.1 配置pom文件
新建Maven工程，pom文件配置如下：

4.0.0

com.atguigu.iceberg
flink-iceberg-demo
1.0-SNAPSHOT



    8
    8
    1.16.0
    1.8
    2.12
    1.7.30




    
        org.apache.flink
        flink-java
        ${flink.version}
        provided   
    
    
        org.apache.flink
        flink-streaming-java
        ${flink.version}
        provided
    
    
        org.apache.flink
        flink-clients
        ${flink.version}
        provided
    

    
    
        org.apache.flink
        flink-table-planner_${scala.binary.version}
        ${flink.version}
        provided
    

    
        org.apache.flink
        flink-connector-files
        ${flink.version}
        provided
    

    
    
        org.apache.flink
        flink-runtime-web
        ${flink.version}
        provided
    

    
        org.slf4j
        slf4j-api
        ${slf4j.version}
        provided
    
    
        org.slf4j
        slf4j-log4j12
        ${slf4j.version}
        provided
    
    
        org.apache.logging.log4j
        log4j-to-slf4j
        2.14.0
        provided
    


    
        org.apache.flink
        flink-statebackend-rocksdb
        ${flink.version}
    

    
        org.apache.hadoop
        hadoop-client
        3.1.3
        provided
    

    
    
        org.apache.iceberg
        iceberg-flink-runtime-1.16
        1.1.0
    





    
        
            org.apache.maven.plugins
            maven-shade-plugin
            3.2.4
            
                
                    package
                    
                        shade
                    
                    
                        
                            
                                com.google.code.findbugs:jsr305
                                org.slf4j:*
                                log4j:*
                                org.apache.hadoop:*
                            
                        
                        
                            
                                
                                *:*
                                
                                    META-INF/*.SF
                                    META-INF/*.DSA
                                    META-INF/*.RSA

6.1.2 配置log4j resources目录下新建log4j.properties。 log4j.rootLogger=error,stdout log4j.appender.stdout=org.apache.log4j.ConsoleAppender log4j.appender.stdout.target=System.out log4j.appender.stdout.layout=org.apache.log4j.PatternLayout log4j.appender.stdout.layout.ConversionPattern=%d %p [%c] - %m%n 6.2 读取数据 6.2.1 常规Source写法 1）Batch方式 StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment(); TableLoader tableLoader = TableLoader.fromHadoopTable("hdfs://hadoop1:8020/warehouse/spark-iceberg/default/a"); DataStream batch = FlinkSource.forRowData() .env(env) .tableLoader(tableLoader) .streaming(false) .build();

batch.map(r -> Tuple2.of(r.getLong(0),r.getLong(1) ))
.returns(Types.TUPLE(Types.LONG,Types.LONG))
.print();

env.execute(“Test Iceberg Read”);
2）Streaming方式
StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
TableLoader tableLoader = TableLoader.fromHadoopTable(“hdfs://hadoop1:8020/warehouse/spark-iceberg/default/a”);
DataStream stream = FlinkSource.forRowData()
.env(env)
.tableLoader(tableLoader)
.streaming(true)
.startSnapshotId(3821550127947089987L)
.build();

stream.map(r -> Tuple2.of(r.getLong(0),r.getLong(1) ))
.returns(Types.TUPLE(Types.LONG,Types.LONG))
.print();

env.execute(“Test Iceberg Read”);
6.2.2 FLIP-27 Source写法
1）Batch方式
StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
TableLoader tableLoader = TableLoader.fromHadoopTable(“hdfs://hadoop1:8020/warehouse/spark-iceberg/default/a”);

    IcebergSource source1 = IcebergSource.forRowData()
            .tableLoader(tableLoader)
            .assignerFactory(new SimpleSplitAssignerFactory())
            .build();

    DataStream batch = env.fromSource(
            Source1,
            WatermarkStrategy.noWatermarks(),
            "My Iceberg Source",
            TypeInformation.of(RowData.class));

    batch.map(r -> Tuple2.of(r.getLong(0), r.getLong(1)))
            .returns(Types.TUPLE(Types.LONG, Types.LONG))
            .print();

    env.execute("Test Iceberg Read");

2）Streaming方式
StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
TableLoader tableLoader = TableLoader.fromHadoopTable(“hdfs://hadoop1:8020/warehouse/spark-iceberg/default/a”);

    IcebergSource source2 = IcebergSource.forRowData()
            .tableLoader(tableLoader)
            .assignerFactory(new SimpleSplitAssignerFactory())
            .streaming(true)
            .streamingStartingStrategy(StreamingStartingStrategy.INCREMENTAL_FROM_LATEST_SNAPSHOT)
            .monitorInterval(Duration.ofSeconds(60))
            .build();

    DataStream stream = env.fromSource(
            Source2,
            WatermarkStrategy.noWatermarks(),
            "My Iceberg Source",
            TypeInformation.of(RowData.class));

    stream.map(r -> Tuple2.of(r.getLong(0), r.getLong(1)))
            .returns(Types.TUPLE(Types.LONG, Types.LONG))
            .print();

    env.execute("Test Iceberg Read");

6.3 写入数据
目前支持DataStream和DataStream格式的数据流写入Iceberg表。
1）写入方式支持 append、overwrite、upsert
StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
env.setParallelism(1);

    SingleOutputStreamOperator input = env.fromElements("")
            .map(new MapFunction() {
                @Override
                public RowData map(String s) throws Exception {
                    GenericRowData genericRowData = new GenericRowData(2);
                    genericRowData.setField(0, 99L);
                    genericRowData.setField(1, 99L);

                    return genericRowData;
                }
            });

    TableLoader tableLoader = TableLoader.fromHadoopTable("hdfs://hadoop1:8020/warehouse/spark-iceberg/default/a");

FlinkSink.forRowData(input)
.tableLoader(tableLoader)
.append() // append方式
//.overwrite(true) // overwrite方式
//.upsert(true) // upsert方式
;

env.execute(“Test Iceberg DataStream”);
2）写入选项
FlinkSink.forRowData(input)
.tableLoader(tableLoader)
.set(“write-format”, “orc”)
.set(FlinkWriteOptions.OVERWRITE_MODE, “true”);
可配置选项如下：
选项默认值说明
write-format Parquet
同write.format.default 写入操作使用的文件格式：Parquet, avro或orc
target-file-size-bytes 536870912（512MB）
同write.target-file-size-bytes 控制生成的文件的大小，目标大约为这么多字节
upsert-enabled 同write.upsert.enabled，

overwrite-enabled false 覆盖表的数据，不能和UPSERT模式同时开启
distribution-mode None
同 write.distribution-mode 定义写数据的分布方式:
none:不打乱行;
hash:按分区键散列分布;
range：如果表有SortOrder，则通过分区键或排序键分配
compression-codec 同 write.(fileformat).compression-codec
compression-level 同 write.(fileformat).compression-level
compression-strategy 同write.orc.compression-strategy
6.4 合并小文件
Iceberg现在不支持在flink sql中检查表，需要使用Iceberg提供的Java API来读取元数据来获得表信息。可以通过提交Flink批处理作业将小文件重写为大文件：
import org.apache.iceberg.flink.actions.Actions;

    // 1.获取 Table对象
    // 1.1 创建 catalog对象
    Configuration conf = new Configuration();
    HadoopCatalog hadoopCatalog = new HadoopCatalog(conf, "hdfs://hadoop1:8020/warehouse/spark-iceberg");

    // 1.2 通过 catalog加载 Table对象
    Table table = hadoopCatalog.loadTable(TableIdentifier.of("default", "a"));

    // 有Table对象，就可以获取元数据、进行维护表的操作

// System.out.println(table.history());
// System.out.println(table.expireSnapshots().expireOlderThan());

    // 2.通过 Actions 来操作 合并
    Actions.forTable(table)
            .rewriteDataFiles()
            .targetSizeInBytes(1024L)
            .execute();

得到Table对象，就可以获取元数据、进行维护表的操作。更多Iceberg提供的API操作，参考：https://iceberg.apache.org/docs/latest/api/

你可能感兴趣的:(数据仓库)

Hive 分区实战指南：动态分区 vs 静态分区的深度解析自然术算 Hive面试100篇 hive hadoop 数据仓库
一、为什么需要分区？在Hive数据仓库中，表数据通常以**分区（Partition）**形式组织。想象一个存储了10年电商订单的表，如果没有分区，所有数据会集中在一个目录下：/user/hive/warehouse/orders/├──part-00000├──part-00001└──...（百万个文件）这种情况下，即使执行WHEREdt='2023-12-31'的查询，Hive也需要扫描全表数
Hadoop 集群规划与部署最佳实践 AI天才研究院 Python实战 DeepSeek R1 &大数据AI人工智能大模型自然语言处理人工智能语言模型编程实践开发语言架构设计
作者：禅与计算机程序设计艺术1.简介2009年2月2日，ApacheHadoop项目诞生。它是一个开源的分布式系统基础架构，用于存储、处理和分析海量的数据。Hadoop具有高容错性、可靠性、可扩展性、适应性等特征，因而广泛应用于数据仓库、日志分析、网络流量监测、推荐引擎、搜索引擎等领域。由于Hadoop采用“分而治之”的架构设计理念，因此可以轻松应对数据量、计算能力和存储成本的增长。2013年底，
MySQL 到 Hadoop：Sqoop 数据迁移 ETL Ice星空 ETL
文章目录ETL：Extract-Transform-Load数据迁移过程一、Extract数据抽取1.ODS：OperationalDataStore-可操作数据存储2.DW：DataWarehouse-数据仓库3.DM：DataMart-数据集市二、Transform数据清洗和转换1.数据清洗2.数据转换三、Load数据加载四、数据迁移方法1.Sqoop1.1MySQL->Hive1.1.1im
第三十一篇数据仓库（DW）与商业智能（BI）架构设计与实践指南随缘而动，随遇而安数据库 sql 数据仓库大数据数据库架构
目录一、DW/BI架构核心理论与选型策略1.1主流架构模式对比（1）Kimball维度建模架构（2）Inmon企业工厂架构（3）混合架构二、架构设计方法论与实施步骤2.1维度建模实战指南（1）模型选择决策树（2）ETL开发规范2.2实时BI技术栈选型三、全链路实施与优化策略3.1五阶段实施框架3.2数据治理体系构建四、行业场景深度实践4.1电商用户行为分析4.2金融风控实时预警五、关键问题解析Q1
AWS SAP学习笔记-概念 HainesFreeman AWS aws
1、什么是ETL应用程序，举个例子说明？ETL（Extract,Transform,Load）应用程序是一种用于数据处理和迁移的工具或程序，它主要负责从多个数据源提取数据，对数据进行转换和清洗，然后将处理后的数据加载到目标数据仓库或数据库中。ETL应用程序广泛应用于数据集成、数据仓库构建、数据分析和数据迁移等场景。ETL的三个主要步骤：Extract（提取）：从各种数据源（如数据库、文件、API等
基于Azure云平台构建实时数据仓库 weixin_30777913 云计算 azure 开发语言 spark python
设计Azure云架构方案实现AzureDeltaLake和AzureDatabricks，结合电商网站的流数据，构建实时数据仓库，支持T+0报表（如电商订单分析），具以及具体实现的详细步骤和关键PySpark代码。一、架构设计[电商网站]→[AzureEventHubs]→[AzureDatabricksStreaming]↓[AzureDeltaLake]←→[DatabricksSQLAnal
家庭 & 企业数据仓库：如何配置和管理 NAS 系统 Echo_Wish 运维探秘让你快速入坑运维数据仓库运维开发缓存
家庭&企业数据仓库：如何配置和管理NAS系统引言在数据为王的时代，我们的照片、视频、文档、代码，甚至企业级文件，都是无价之宝。那么，如何安全、可靠、低成本地存储这些数据？云存储太贵？移动硬盘不方便？别慌，今天我们就聊聊NAS（NetworkAttachedStorage，网络附加存储），教你如何从零配置一个高效的NAS系统，并且掌握它的日常管理技巧，让你的数据存储既安全又高效！1.选择合适的NAS
PostgreSQL_实例项目总述程序猿与金融与科技数据库 postgresql
目录前置：实例项目总述：前置：1最近新入PostgreSQL，打算用PostgreSQL存储股票日数据，以此为实例记录整个PostgreSQL使用过程2所以这次的博文是一个序列，都放在数据库专栏里，以PostgreSQL_打头3PostgreSQL的安装在这个系列里就不赘述了，安装过程简单。（如果有人实在搞不懂怎么安装，可以留言）实例项目总述：项目描述：股票日数据仓库数据来源：优矿1数据表结构设计
SQLMesh SCD Type 2 深度解析：时间戳与列级跟踪的实战指南梦想画家数据分析工程 #python 数据工程分析工程 sqlmesh
在数据仓库架构中，缓慢变化维度（SlowlyChangingDimensions,SCD）是处理历史数据追踪的核心技术。SQLMesh作为新一代数据编织平台，其支持的SCDType2模型通过valid_from和valid_to双时间戳机制，为开发者提供了灵活的历史状态管理能力。本文将深入解析SQLMeshSCDType2的两种实现模式（基于时间戳与列级变更检测）、关键配置项及删除操作处理逻辑，让
LakeHouse湖仓一体成为下一站灯塔，数仓、数据湖架构即将退出群聊科杰科技大数据数据仓库
摘要：当前的大数据技术应用趋势表明，客户对单一的数据湖和数仓架构并不满意。近年来几乎所有的数据仓库都增加了对Parquet和ORC格式的外部表支持，这使数仓用户可以从相同的SQL引擎查询数据湖表，但它不会使数据湖表更易于管理，也不会消除仓库中数据的ETL复杂性、陈旧性和高级分析挑战。KeenDataLakeHouse（湖仓一体）作为新一代大数据技术架构，将逐渐取代单一数据湖和数仓架构，成为大数据架
【赵渝强老师】达梦数据库MPP集群的架构数据库信创
为了支持海量数据存储和处理等方面的需求，为高端数据仓库提供解决方案，达梦数据库提供了大规模并行处理MPP架构，以极低的成本代价，提供高性能的并行计算。通过使用MPP可以解决以下问题：需要较高的系统性能支持以支持大量的复杂查询操作硬件束缚对数据库响应能力的影响降低数据库成本视频讲解如下：https://www.bilibili.com/video/BV1dBftYoEkk/?aid=11386961
第二十九篇数据仓库与商务智能：技术演进与前沿趋势深度解析随缘而动，随遇而安数据库数据仓库大数据数据库架构数据库开发
声明：文章内容仅供参考，需仔细甄别。文中技术名称属相关方商标，仅作技术描述；代码示例为交流学习用途，部分参考开源文档（Apache2.0/GPLv3）；案例数据已脱敏，技术推荐保持中立；法规解读仅供参考，请以《网络安全法》《数据安全法》官方解释为准。目录一、核心差异：技术定位与实现路径1.1核心能力矩阵二、协同关系：现代数据供应链的双引擎2.1数据价值链协同2.2典型技术栈集成三、前沿技术动态（2
高级管理人员信息系统和数据仓库以及外部数据/非结构化数据与数据仓库牧码文数据仓库 hive 数据仓库数据挖掘数据库
内容目录高级管理人员信息系统和数据仓库以及外部数据/非结构化数据与数据仓库一、高级管理人员信息系统和数据仓库二、外部数据/非结构化数据与数据仓库高级管理人员信息系统和数据仓库以及外部数据/非结构化数据与数据仓库一、高级管理人员信息系统和数据仓库EIS-高级管理人员信息系统-计算机饿最有效形式之一。EIS处理，处于帮助高级管理人员制定决策的目的而设计的。比较典型的用途：趋势分析和发现关键比例指示器度
数据仓库和非结构化数据。 weixin_30631587 数据库
数据仓库包含标准化数据。还包含外部数据/非结构化数据如果外部数据量小可以保持数据库内部或者专用服务器。如果量大只能记住地址，在etl加载当然也有需求是实时数据比如股票汇率拿只能etl过程处理非结构化数据包含图片，视频音频如果是传统数据库db2oracle存在里面是不合适的。存储影响性能如果是hadoop无所谓影响不大，但是从使用者的角度非结构化数据只能转换关系使用建一张元数据表存储非结构化存储位置
如果企业数据仓库全部使用 Couchbase Analytics 服务，可能会面临哪些问题？ PersistDZ 数据存储数据仓库
如果企业数据仓库全部使用CouchbaseAnalytics服务，可能会面临哪些问题？一、概述CouchbaseAnalytics服务是一项强大的工具，旨在为NoSQL数据提供近实时的分析能力。然而，如果企业的数据仓库全部依赖于CouchbaseAnalytics服务，可能会遇到一些问题和挑战。以下将从多个角度详细分析这些可能的问题。二、可能的问题和挑战资源消耗和成本高资源需求：Couchbase
Flink 通过 Chunjun Oracle LogMiner 实时读取 Oracle 变更日志并写入 Doris 的方案 roman_日积跬步-终至千里 #flink 实战 flink oracle 大数据
文章目录一、技术背景二、关键技术1、OracleLogMiner2、Chunjun的LogMiner关键流程3、修复ChunjunOracleLogMiner问题一、技术背景在大数据实时同步场景中，需要将Oracle数据库的变更数据（CDC）采集并写入ApacheDoris，以支持数据分析、BI报表、实时数据仓库等应用。本方案基于Flink+Chunjun，通过OracleLogMiner解析Re
Apache Doris整合Iceberg + Flink CDC构建实时湖仓体的联邦查询分析架构 MfvShell apache flink 架构 Flink
随着大数据技术的迅猛发展，构建实时湖仓体并进行联邦查询分析成为了许多企业的迫切需求。在这篇文章中，我们将探讨如何利用ApacheDoris整合Iceberg和FlinkCDC来构建这样一个架构，并提供相应的源代码示例。简介实时湖仓体是一种灵活、可扩展的数据架构，结合了数据湖和数据仓库的优势。ApacheDoris是一款开源的分布式SQL引擎，专注于实时分析和查询。Iceberg是一种开放式表格格式
Hive函数大全：从核心内置函数到自定义UDF实战指南（附详细案例与总结）一个天蝎座白勺程序猿大数据开发从入门到实战合集 hive hadoop 数据仓库
目录背景‌一、Hive函数分类与核心函数表‌1.内置函数分类‌2.用户自定义函数（UDF）分类二、常用函数详解与实战案例‌1.数学函数‌2.字符串函数‌3.窗口函数‌4.自定义UDF实战‌三、总结与优化建议‌1.核心总结2.性能优化建议‌3.常问问题背景‌Hive作为Hadoop生态中最常用的数据仓库工具，其强大的函数库是高效处理和分析海量数据的核心能力之一。Hive函数分为‌内置函数‌和‌用户自
hive-进阶版-1 数据牧马人 hive hadoop 数据仓库
第6章hive内部表与外部表的区别Hive是一个基于Hadoop的数据仓库工具，用于对大规模数据集进行数据存储、查询和分析。Hive支持内部表（ManagedTable）和外部表（ExternalTable）两种表类型，它们在数据存储、管理方式和生命周期等方面存在显著区别。以下是内部表和外部表的主要区别：1.数据存储位置内部表：数据存储在Hive的默认存储目录下，通常位于HDFS（HadoopDi
使用 Doris 和 Iceberg 向阳1218 大数据 doris
作为一种全新的开放式的数据管理架构，湖仓一体（DataLakehouse）融合了数据仓库的高性能、实时性以及数据湖的低成本、灵活性等优势，帮助用户更加便捷地满足各种数据处理分析的需求，在企业的大数据体系中已经得到越来越多的应用。在过去多个版本中，ApacheDoris持续加深与数据湖的融合，当前已演进出一套成熟的湖仓一体解决方案。自0.15版本起，ApacheDoris引入Hive和Iceberg
使用 Doris 和 LakeSoul 向阳1218 大数据 doris
作为一种全新的开放式的数据管理架构，湖仓一体（DataLakehouse）融合了数据仓库的高性能、实时性以及数据湖的低成本、灵活性等优势，帮助用户更加便捷地满足各种数据处理分析的需求，在企业的大数据体系中已经得到越来越多的应用。在过去多个版本中，ApacheDoris持续加深与数据湖的融合，当前已演进出一套成熟的湖仓一体解决方案。自0.15版本起，ApacheDoris引入Hive和Iceberg
为什么要进行数据仓库分层？ BenBen尔 #建模方法 spark 大数据分布式
对数据仓库进行分层（如常见的ODS、DWD、DWS、ADS等层次）是为了解决复杂数据处理场景中的效率、可维护性、易用性问题。以下是分层的主要目的和优势：1、职责分离，逻辑解耦分层能够沉淀公共的数据模型，实现了逻辑解耦。有以下好处：减少重复开发，提升研发效率从数仓模型角度能够提升数据一致性。减少了冗余计算，高频查询或者高频开发无需使用原始数据，直接使用公共的数据模型查询或者开发即可，减少了对计算资源
数据仓库有哪些建模方法？ BenBen尔 #数据仓库数据仓库大数据
数据仓库的建模方法主要分为关系建模和多维建模两大类，不同方法适用于不同的业务场景和目标。以下是常见的建模方法及其特点：一、关系建模（规范化建模）基于关系型数据库的规范化理论，强调减少数据冗余，适合复杂的企业级数据仓库（EDW）。第三范式（3NF）定义：通过规范化将数据分解为多个关联表，确保每个字段仅依赖主键。优点：数据冗余低，一致性高，适合复杂事务处理。缺点：查询需要多表关联，性能较低；业务理解成
现代数据栈：秽土重生？——从 SAP x Databricks 看数据世界的轮回数据库
由SAP官宣与Databricks合作想开去。现代数据栈（ModernDataStack）曾一度是数据行业最炙手可热的概念。Snowflake、Databricks、Fivetran、dbt……一众明星公司描绘出一个美好的未来：所有数据汇集到云端数据仓库，所有分析、BI和AI应用直接连接仓库数据，再无数据孤岛，数据流转自由，一切井然有序。但现实并没有这么美好。现代数据栈经历了一轮狂热，又在短短几年
Hive高级SQL技巧及实际应用场景小技工丨大数据随笔 sql hive 数据仓库大数据
Hive高级SQL技巧及实际应用场景引言ApacheHive是一个建立在Hadoop之上的数据仓库基础设施，它提供了一个用于查询和管理分布式存储中的大型数据集的机制。通过使用类似于SQL（称为HiveQL）的语言，Hive使得数据分析变得更加简单和高效。本文将详细探讨一些Hive高级SQL技巧，并结合实际的应用场景进行说明。HiveSQL的高级使用技巧1.窗口函数描述：窗口函数允许我们在不使用GR
如何设计高效的数据湖架构？晴天彩虹雨架构大数据数据仓库
1.引言在大数据时代，数据湖（DataLake）逐渐成为企业存储和处理海量数据的重要基础设施。相比于传统数据仓库，数据湖能够支持结构化、半结构化和非结构化数据，同时提供更灵活的存储与计算能力。然而，如何合理设计数据湖架构，优化存储策略、Schema演进以及数据生命周期管理，是数据架构师必须深入思考的问题。本篇文章将深入探讨数据湖架构的设计方法，结合Hudi、Iceberg、DeltaLake等技术
初识开源云原生数仓Databend 开源项目精选云原生
Databend是一款开源的数据仓库产品，主要定位于OLAP场景，采用云原生架构理念（可对比snowflake），有非常好的扩展性、同时具备低成本、高性能的优势，兼容MySQL协议。Stars数8,245Forks数765主要特点针对对象存储平台进行优化的云原生架构。符合SQL:2011标准，支持复杂查询和数据版本回溯（时间旅行）功能。与流行的商业智能（BI）、提取、转换和加载（ETL）以及数据科
一文理清概念：数据中台(DMP)-数据仓库(DW)-数据湖(DL)-湖仓一体-数据治理(DG) Debug_Snail Hadoop Big Data Data Science 数据仓库大数据数据中台数据湖数据治理
数据仓库、数据中台、数据湖、湖仓一体是数据管理和分析领域的重要概念，它们在功能、架构和应用场景上各有特点，同时也在演进中相互关联和补充。以下是对它们的定义和关系的详细解析：1.核心概念（1）数据仓库（DataWarehouse,DW）定义：一种面向主题的、集成的、稳定的数据存储系统，用于支持企业决策分析（如BI、报表）。数据通常经过ETL（抽取、转换、加载）处理，以结构化形式存储，采用Schema
doris：阿里云 MaxCompute 向阳1218 大数据 doris
MaxCompute是阿里云上的企业级SaaS（SoftwareasaService）模式云数据仓库。什么是MaxCompute连接MaxCompute示例--1.创建Catalog。CREATECATALOGmcPROPERTIES("type"="max_compute","mc.default.project"="xxx","mc.access_key"="xxxx","mc.secret_
使用Activeloop Deep Lake构建深度学习数据仓库与向量存储 dgay_hua 深度学习人工智能 python
技术背景介绍随着深度学习技术的发展，数据的存储与管理成为了一个重要的问题。尤其是对于需要处理大量数据的应用，例如自然语言处理和图像识别，传统的数据存储方式已经无法满足需求。ActiveloopDeepLake是专为深度学习设计的数据仓库，可以作为向量存储使用，支持多模态数据的存储和处理，并且可以直接用于细调大型语言模型（LLMs）。此外，它还提供自动版本控制，无需依赖其他服务，兼容主要云服务提供商
统一思想认识永夜-极光思想
1.统一思想认识的基础,才能有的放矢原因: 总有一种描述事物的方式最贴近本质,最容易让人理解. 如何让教育更轻松,在于找到最适合学生的方式. 难点在于,如何模拟对方的思维基础选择合适的方式. &
Joda Time使用笔记 bylijinnan java joda time
Joda Time的介绍可以参考这篇文章： http://www.ibm.com/developerworks/cn/java/j-jodatime.html 工作中也常常用到Joda Time，为了避免每次使用都查API，记录一下常用的用法： /** * DateTime变化（增减） */ @Tes
FileUtils API eksliang FileUtils FileUtils API
转载请出自出处：http://eksliang.iteye.com/blog/2217374 一、概述这是一个Java操作文件的常用库，是Apache对java的IO包的封装，这里面有两个非常核心的类FilenameUtils跟FileUtils，其中FilenameUtils是对文件名操作的封装;FileUtils是文件封装，开发中对文件的操作，几乎都可以在这个框架里面找到。非常的好用。
各种新兴技术不懂事的小屁孩技术
1:gradle Gradle 是以 Groovy 语言为基础，面向Java应用为主。基于DSL（领域特定语言）语法的自动化构建工具。现在构建系统常用到maven工具，现在有更容易上手的gradle，搭建java环境: http://www.ibm.com/developerworks/cn/opensource/os-cn-gradle/ 搭建android环境： http://m
tomcat6的https双向认证酷的飞上天空 tomcat6
1.生成服务器端证书 keytool -genkey -keyalg RSA -dname "cn=localhost,ou=sango,o=none,l=china,st=beijing,c=cn" -alias server -keypass password -keystore server.jks -storepass password -validity 36
托管虚拟桌面市场势不可挡蓝儿唯美
用户还需要冗余的数据中心，dinCloud的高级副总裁兼首席营销官Ali Din指出。该公司转售一个MSP可以让用户登录并管理和提供服务的用于DaaS的云自动化控制台，提供服务或者MSP也可以自己来控制。在某些情况下，MSP会在dinCloud的云服务上进行服务分层，如监控和补丁管理。 MSP的利润空间将根据其参与的程度而有所不同，Din说。 “我们有一些合作伙伴负责将我们推荐给客户作为个
spring学习——xml文件的配置 a-john spring
在Spring的学习中，对于其xml文件的配置是必不可少的。在Spring的多种装配Bean的方式中，采用XML配置也是最常见的。以下是一个简单的XML配置文件： <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.or
HDU 4342 History repeat itself 模拟 aijuans 模拟
来源：http://acm.hdu.edu.cn/showproblem.php?pid=4342 题意：首先让求第几个非平方数，然后求从1到该数之间的每个sqrt(i)的下取整的和。思路：一个简单的模拟题目，但是由于数据范围大，需要用__int64。我们可以首先把平方数筛选出来，假如让求第n个非平方数的话，看n前面有多少个平方数，假设有x个，则第n个非平方数就是n+x。注意两种特殊情况，即
java中最常用jar包的用途 asia007 java
java中最常用jar包的用途 jar包用途axis.jarSOAP引擎包commons-discovery-0.2.jar用来发现、查找和实现可插入式接口，提供一些一般类实例化、单件的生命周期管理的常用方法.jaxrpc.jarAxis运行所需要的组件包saaj.jar创建到端点的点到点连接的方法、创建并处理SOAP消息和附件的方法，以及接收和处理SOAP错误的方法. w
ajax获取Struts框架中的json编码异常和Struts中的主控制器异常的解决办法百合不是茶 js json编码返回异常
一:ajax获取自定义Struts框架中的json编码出现以下问题: 1,强制flush输出 json编码打印在首页 2, 不强制flush js会解析json 打印出来的是错误的jsp页面却没有跳转到错误页面 3, ajax中的dataType的json 改为text 会
JUnit使用的设计模式 bijian1013 java 设计模式 JUnit
JUnit源代码涉及使用了大量设计模式 1、模板方法模式（Template Method）定义一个操作中的算法骨架，而将一些步骤延伸到子类中去，使得子类可以不改变一个算法的结构，即可重新定义该算法的某些特定步骤。这里需要复用的是算法的结构，也就是步骤，而步骤的实现可以在子类中完成。
Linux常用命令（摘录） sunjing crond chkconfig
chkconfig --list 查看linux所有服务 chkconfig --add servicename 添加linux服务 netstat -apn | grep 8080 查看端口占用 env 查看所有环境变量 echo $JAVA_HOME 查看JAVA_HOME环境变量安装编译器 yum install -y gcc
【Hadoop一】Hadoop伪集群环境搭建 bit1129 hadoop
结合网上多份文档，不断反复的修正hadoop启动和运行过程中出现的问题，终于把Hadoop2.5.2伪分布式安装起来，跑通了wordcount例子。Hadoop的安装复杂性的体现之一是，Hadoop的安装文档非常多，但是能一个文档走下来的少之又少，尤其是Hadoop不同版本的配置差异非常的大。Hadoop2.5.2于前两天发布，但是它的配置跟2.5.0，2.5.1没有分别。 &nb
Anychart图表系列五之事件监听白糖_ chart
创建图表事件监听非常简单：首先是通过addEventListener('监听类型',js监听方法)添加事件监听，然后在js监听方法中定义具体监听逻辑。以钻取操作为例，当用户点击图表某一个point的时候弹出point的name和value，代码如下： <script> //创建AnyChart var chart = new AnyChart(); //添加钻取操作&quo
Web前端相关段子 braveCS web前端
Web标准：结构、样式和行为分离使用语义化标签 0）标签的语义：使用有良好语义的标签，能够很好地实现自我解释，方便搜索引擎理解网页结构，抓取重要内容。去样式后也会根据浏览器的默认样式很好的组织网页内容，具有很好的可读性，从而实现对特殊终端的兼容。 1）div和span是没有语义的：只是分别用作块级元素和行内元素的区域分隔符。当页面内标签无法满足设计需求时，才会适当添加div
编程之美-24点游戏 bylijinnan 编程之美
import java.util.ArrayList; import java.util.Arrays; import java.util.HashSet; import java.util.List; import java.util.Random; import java.util.Set; public class PointGame { /**编程之美
主页面子页面传值总结 chengxuyuancsdn 总结
1、showModalDialog returnValue是javascript中html的window对象的属性,目的是返回窗口值,当用window.showModalDialog函数打开一个IE的模式窗口时,用于返回窗口的值主界面 var sonValue=window.showModalDialog("son.jsp"); 子界面 window.retu
[网络与经济]互联网+的含义 comsci 互联网+
互联网+后面是一个人的名字 = 网络控制系统互联网+你的名字 = 网络个人数据库每日提示:如果人觉得不舒服,千万不要外出到处走动,就呆在床上,玩玩手游,更不能够去开车,现在交通状况不
oracle 创建视图 with check option daizj 视图 view oralce
我们来看下面的例子： create or replace view testview as select empno,ename from emp where ename like ‘M%’ with check option; 这里我们创建了一个视图，并使用了with check option来限制了视图。然后我们来看一下视图包含的结果： select * from testv
ToastPlugin插件在cordova3.3下使用 dibov Cordova
自己开发的Todos应用，想实现“ 再按一次返回键退出程序 ”的功能，采用网上的ToastPlugins插件，发现代码或文章基本都是老版本，运行问题比较多。折腾了好久才弄好。下面吧基于cordova3.3下的ToastPlugins相关代码共享。 ToastPlugin.java package&nbs
C语言22个系统函数 dcj3sjt126com c function
C语言系统函数一、数学函数下列函数存放在math.h头文件中Double floor(double num) 求出不大于num的最大数。Double fmod(x, y) 求整数x/y的余数。Double frexp(num, exp); double num; int *exp; 将num分为数字部分（尾数）x和以2位的指数部分n，即num=x*2n，指数n存放在exp指向的变量中，返回x。D
开发一个类的流程 dcj3sjt126com 开发
本人近日根据自己的开发经验总结了一个类的开发流程。这个流程适用于单独开发的构件，并不适用于对一个项目中的系统对象开发。开发出的类可以存入私人类库，供以后复用。以下是开发流程： 1. 明确类的功能，抽象出类的大概结构 2. 初步设想类的接口 3. 类名设计（驼峰式命名） 4. 属性设置(权限设置) 判断某些变量是否有必要作为成员属
java 并发 shuizhaosi888 java 并发
能够写出高伸缩性的并发是一门艺术在JAVA SE5中新增了3个包 java.util.concurrent java.util.concurrent.atomic java.util.concurrent.locks 在java的内存模型中，类的实例字段、静态字段和构成数组的对象元素都会被多个线程所共享，局部变量与方法参数都是线程私有的，不会被共享。
Spring Security（11）——匿名认证 234390216 Spring Security ROLE_ANNOYMOUS 匿名
匿名认证目录 1.1 配置 1.2 AuthenticationTrustResolver 对于匿名访问的用户，Spring Security支持为其建立一个匿名的AnonymousAuthenticat
NODEJS项目实践0.2[ express,ajax通信...] 逐行分析JS源代码 Ajax nodejs express
一、前言通过上节学习，我们已经 ubuntu系统搭建了一个可以访问的nodejs系统，并做了nginx转发。本节原要做web端服务及 mongodb的存取，但写着写着，web端就
在Struts2 的Action中怎样获取表单提交上来的多个checkbox的值 lhbthanks java html struts checkbox
第一种方法：获取结果String类型在 Action 中获得的是一个 String 型数据，每一个被选中的 checkbox 的 value 被拼接在一起，每个值之间以逗号隔开(,)。所以在 Action 中定义一个跟 checkbox 的 name 同名的属性来接收这些被选中的 checkbox 的 value 即可。以下是实现的代码：前台 HTML 代码：
003.Kafka基本概念 nweiren hadoop kafka
Kafka基本概念：Topic、Partition、Message、Producer、Broker、Consumer。 Topic：消息源（Message）的分类。 Partition： Topic物理上的分组，一
Linux环境下安装JDK roadrunners jdk linux
1、准备工作创建JDK的安装目录： mkdir -p /usr/java/ 下载JDK，找到适合自己系统的JDK版本进行下载： http://www.oracle.com/technetwork/java/javase/downloads/index.html 把JDK安装包下载到/usr/java/目录，然后进行解压： tar -zxvf jre-7
Linux忘记root密码的解决思路 tomcat_oracle linux
1：使用同版本的linux启动系统，chroot到忘记密码的根分区passwd改密码　　2：grub启动菜单中加入init=/bin/bash进入系统，不过这时挂载的是只读分区。根据系统的分区情况进一步判断. 　　3: grub启动菜单中加入 single以单用户进入系统. 　　4:用以上方法mount到根分区把/etc/passwd中的root密码去除　　例如: 　　ro
跨浏览器 HTML5 postMessage 方法以及 message 事件模拟实现 xueyou jsonp jquery 框架 UI html5
postMessage 是 HTML5 新方法，它可以实现跨域窗口之间通讯。到目前为止，只有 IE8+, Firefox 3, Opera 9, Chrome 3和 Safari 4 支持，而本篇文章主要讲述 postMessage 方法与 message 事件跨浏览器实现。postMessage 方法 JSONP 技术不一样，前者是前端擅长跨域文档数据即时通讯，后者擅长针对跨域服务端数据通讯，p