yangwei_sir

大数据架构师——数据湖技术（一）

文章目录

数据湖技术
- 概述
- - 什么是数据湖？
  - 大数据为什么需要数据湖？
- 数据湖技术之Iceberg
- - Iceberg概念及特点
  - Iceberg数据存储格式
  - - 1. Iceberg术语
    - 2. 表格式
  - Iceberg特点详述
  - - 1. Iceberg分区与隐藏分区(Hidden Partition)
    - 2. Iceberg表演化(Table Evolution)
    - 3. 模式演化(Schema Evolution)
    - 4. 分区演化(Partition Evolution)
    - 5. 列顺序演化(Sort Order Evolution)
  - Iceberg数据类型
  - Hive 与 Iceberg 整合
  - - 1. 开启Hive支持Iceberg
    - 2. Hive中操作Iceberg表格式
  - Iceberg表数据组织结构
  - - 1. 在 Hive 中创建 Iceberg 表并插入数据
    - 2. 查看 Iceberg 底层数据存储
  - Iceberg表数据查询
  - - 1. 查询最新快照数据
    - 2. 查询指定快照数据
    - 3. 根据时间戳查看某个快照的数据

数据湖技术

概述

什么是数据湖？

数据湖是一个集中式的存储库，允许你以任意规模存储多个来源、所有结构化和非结构化数据，可以按照原样存储数据，无需对数据进行结构化处理，并运行不同类型的分析，对数据进行加工，例如：大数据处理、实时分析、机器学习，以指导做出更好地决策。

大数据为什么需要数据湖？

当前基于 Hive 的离线数据仓库已经非常成熟，在传统的离线数据仓库中对记录级别的数据进行更新是非常麻烦的，需要对待更新的数据所属的整个分区，甚至是整个表进行全面覆盖才行，由于离线数仓多级逐层加工的架构设计，数据更新时也需要从贴源层开始逐层反应到后续的派生表中去。
随着实时计算引擎的不断发展以及业务对于实时报表的产出需求不断膨胀，业界最近几年就一直聚焦并探索于实时数仓建设。根据数仓架构演变过程，在 Lambda 架构中含有离线处理与实时处理两条链路，其架构图如下：

正是由于两条链路处理数据导致数据不一致等一些列问题所以才有了 Kappa 架构，Kappa 架构如下：

Kappa 架构可以称为真正的实时数仓，目前在业界最常用实现就是 Kafka + Flink，然而基于 Kafka + Flink 的实时数仓方案也有几个非常明显的缺陷，所以在目前很多企业中实时数仓构建中经常使用混合架构，没有实现所有业务都采用 Kappa 架构中实时处理实现。Kappa架构缺陷如下：
- Kafka 无法支持海量数据存储：对于海量数据量的业务线来说，Kafka 一般只能存储非常短时间的数据，比如最近一周，甚至最近一天。
- Kafka无法支持高效的OLAP查询：大多数业务都希望能在 DWD、DWS 层支持即席查询的，但是 Kafka 无法非常友好地支持这样的需求。
- 无法复用目前已经非常成熟的基于离线数仓的数据血缘、数据质量管理体系：需要重新实现一套数据血缘、数据质量管理体系。
- Kafka不支持update/upsert，目前Kafka仅支持append。
为了解决 Kappa 架构的痛点问题，业界最主流是采用“批流一体”方式，这里批流一体可以理解为批和流使用 SQL 同一处理，也可以理解为处理框架的统一，例如：Spark、Flink。但这里更重要指的是存储层上的统一，只要存储层面上做到“批流一体”就可以解决以上 Kappa 遇到的各种问题。数据湖技术可以很好的实现存储层面上的“批流一体”，这就是为什么大数据中需要数据湖的原因。

数据湖技术之Iceberg

Iceberg概念及特点

Apache Iceberg是一种用于大型数据分析场景的开放表格式（Table Format）。Iceberg使用一种类似于SQL表的高性能表格式，Iceberg格式表单表可以存储数十PB数据，适配Spark、Trino、PrestoDB、Flink和Hive等计算引擎提供高性能的读写和元数据管理功能，Iceberg是一种数据湖解决方案。

注意：Trino 就是原来的 PrestoSQL，2020 年 12 月 27 日，PrestoSQL 项目更名为 Trino，Presto 分成两大分支：PrestoDB、PrestorSQL。

Iceberg 非常轻量级，可以作为 lib 与 Spark、Flink 进行集成，Iceberg 官网：https://iceberg.apache.org/，Iceberg具备以下特点：
- Iceberg 支持实时/批量数据写入和读取，支持 Spark、Flink 计算引擎。
- Iceberg 支持事务 ACID，支持添加、删除、更新数据。
- 不绑定任务底层存储，支持 Parquet、ORC、Avro 格式兼容行存储和列存储。
- Iceberg 支持隐藏分区和分区变更，方便业务进行数据区分策略。
- Iceberg 支持快照数据重复查询，具备版本回滚功能。
- Iceberg 扫描计划很快，读取表或者查询文件可以不需要分布式 SQL 引擎。
- Iceberg 通过元数据来对查询进行高效过滤。
- 基于乐观锁的并发支持，提供多线程并发写入能力，并保证数据线性一致。

Iceberg数据存储格式

1. Iceberg术语

data files(数据文件)：
- 数据文件是 Apache Iceberg 表真实存储数据的文件，一般是在表的数据存储目录的 data 目录下，如果我们的文件格式选择的是 parquet，那么文件是以“.parquet”结尾，例如：
- 00000-0-root_20211212192602_8036d31b-9598-4e30-8e67-ce6c39f034da-job_1639237002345_0025-00001.parquet 就是一个数据文件。
- Iceberg 每次更新会产生多个数据文件(data files)。
Snapshot(快快照)：
- 快照代表一张表在某个时刻的状态。每个快照里面会列出表在某个时刻的所有 data files 列表。data files是存储在不同的 manifest files 里面，manifest files 是存储在一个 manifest list 文件里面，而一个Manifest list 文件代表一个快照。
Manifest list(清单列表)：
- manifest list 是一个元数据文件，它列出构建表快照(Snapshot)的清单(Manifest file)。这个元数据文件中存储的是 manifest file 列表，每个 manifest file 占据一行。每行中存储了 manifest file 的路径、其存储的数据文件(data files)的分区范围，增加了几个数文件、删除了几个数据文件等信息，这些信息可以用来在查询时提供过滤，加快速度。
Manifest file(清单文件)：
- manifest file也是一个元数据文件，它列出组成快照(Snapshot)的数据文件(data files)的列表信息。每行都是每个数据文件的详细描述，包括数据文件的状态、文件路径、分区信息、列级别的统计信息(比如每列的最大最小值、空值数等)、文件的大小以及文件里面数据行数等信息。其中列级别的统计信息可以在扫描表数据时过滤掉不必要的文件。
- manifest file 是以 avro 格式进行存储的，以“.avro”后缀结尾，例如：8138fce4-40f7-41d7-82a5-922274d2abba-m0.avro。

2. 表格式

Apache Iceberg 作为一款数据湖解决方案，是一种用于大型分析数据集的开放表格式(Table Format)，表格式可以理解为元数据及数据文件的一种组织方式。Iceberg 底层数据存储可以对接 HDFS，S3 文件系统，并支持多种文件格式，处于计算框架(Spark、Flink)之下，数据文件之上。

下面介绍下 Iceberg 底层文件组织方式，下图是 Iceberg 中表格式，s0、s1 代表的是表 Snapshot 信息，每个表示当前操作的一个快照，每次 commit 都会生成一个快照 Snapshot，每个 Snapshot 快照对应一个manifest list 元数据文件，每个 manifest list 中包含多个 manifest 元数据文件，manifest 中记录了当前操作生成数据所对应的文件地址，也就是 data file 的地址。
基于 snapshot 的管理方式，Iceberg 能够获取表历史版本数据、对表增量读取操作，data files 存储支持不同的文件格式，目前支持 parquet、ORC、Avro 格式。

Iceberg特点详述

1. Iceberg分区与隐藏分区(Hidden Partition)

Iceberg 支持分区来加快数据查询，在 Iceberg 中设置分区后，可以在写入数据时将相似的行分组，在查询时加快查询速度。Iceberg 中可以按照年、月、日和小时粒度划分时间戳组织分区。
在 Hive 中也支持分区，但是要想使分区能加快查询速度，需要在写 SQL 时指定对应的分区条件过滤数据，在 Iceberg 中写 SQL 查询时不需要再在 SQL 中特别指定分区过滤条件，Iceberg 会自动分区，过滤掉不需要的数据。
在 Iceberg 中分区信息可以被隐藏起来，Iceberg 的分区字段可以通过一个字段计算出来，在建表或者修改分区策略之后，新的数据会自动计算所属的分区，在查询时同样不用关心表的分区是什么字段，只需要关心业务逻辑，Iceberg 会自动过滤不需要的分区数据。
正是由于 Iceberg 的分区信息和表数据存储目录是独立的，使得 Iceberg 的表分区可以被修改，而且不会涉及到数据迁移。

2. Iceberg表演化(Table Evolution)

在 Hive 分区中，如果把一个按照天分区的表改成按小时分区，那么没有办法在原有表上进行修改，需要创建一个按照小时分区的表，然后把数据加载到此表中。
Iceberg 支持就地表演化，可以通过 SQL 的方式进行表级别模式演化。例如：更改表分区布局。Iceberg 进行以上操作时，代价极低，不存在读出数据重新写入或者迁移数据这种费时费力的操作。

3. 模式演化(Schema Evolution)

Iceberg 支持一些几种 Schema 的演化：
- Add：向表或者嵌套结构增加列
- Drop：从表或者嵌套结构中移除列
- Rename：重命名表中或者嵌套结构中的列
- Update：将复杂结构(Struct、Map, list) 中的基本类型扩展类型长度，比如：tinyint 修改成 int。
- Reorder：改变列的顺序，也可以改变嵌套结构中字段的排列顺序。
注意：
- Iceberg Schema 的改变只是元数据的操作改变，不会涉及到重写数据文件。Map 结构类型不支持 Add 和 Drop 字段。
- Iceberg 保证 Schema 演化是没有副作用的独立操作，不会涉及到重写数据文件，具体如下：
  - 增加列时不会从另一个列中读取已存在的数据；
  - 删除列或者嵌套结构中的字段时，不会改变任何其他列的值；
  - 更新列或者嵌套结构中的字段时，不会改变任何其他列的值；
  - 改变列或者嵌套结构中的字段顺序时，不会改变相关联的值。
- Iceberg 实现以上的原因使用唯一的 id 来追踪表中的每一列，当添加一个列时，会分配新的 ID，因此列对应的数据不会被错误使用。

4. 分区演化(Partition Evolution)

Iceberg 分区可以在现有表中更新，因为 Iceberg 查询流程并不和分区信息直接关联。
当我们改变一个表的分区策略时，对应修改分区之前的数据不会改变，依然会采用老的分区策略，新的数据会采用新的分区策略，也就是说同一个表会有两种分区策略，旧数据采用旧分区策略，新数据采用新分区策略，在元数据里两个分区策略相互独立，不重合。
因此，在我们写 SQL 进行数据查询时，如果存在跨分区策略的情况，则会解析成两个不同执行计划，如 Iceberg 官网提供图所示：

图中 booking_table 表 2008 年按月分区，进入 2009 年后改为按天分区，这两种分区策略共存于该表中。得益于 Iceberg 的隐藏分区(Hidden Partition)，针对上图中的 SQL 查询，不需要在 SQL 中特别指定指定分区过滤条件(是按照月还是按照天)，Iceberg 会自动分区，过滤掉不需要的数据。

5. 列顺序演化(Sort Order Evolution)

Iceberg 可以在一个已存在的表上修改排序策略。修改了排序策略之后，旧数据依旧采用老排序策略不变。往 Iceberg 里写数据的计算引擎总是会选择最新的排序策略，但是当排序的代价极其高昂的时候，就不进行排序了。

Iceberg数据类型

Iceberg表支持以下数据类型：

类型	描述	注意点
boolean	布尔类型，true或者false
int	32位有符号整形	可以转换成long类型
long	64位有符号整形
float	单精度浮点型	可以转换成double类型
double	双精度浮点型
decimal(P,S)	decimal(P,S)	P代表精度，决定总位数 S代表规模，决定小数位数。 P必须小于等于38。
date	日期，不含时间和时区
time	时间，不含日期和时区	以微秒存储，1000微秒 = 1毫秒
timestamp	不含时区的timestamp	以微秒存储，1000微秒 = 1毫秒
timestamptz	含时区的timestamp	以微秒存储，1000微秒 = 1毫秒
string	任意长度的字符串类型	UTF-8编码
fixed(L)	长度为L的固定长度字节数组
binary	任意长度的字节数组
struct<…>	任意数据类型组成的一个结构化字段
list	任意数据类型组成的List
map	任意类型组成的K,V的Map

Hive 与 Iceberg 整合

Iceberg 就是一种表格式，支持使用 Hive 对 Iceberg 进行读写操作，但是对 Hive 的版本有要求，如下：

操作	Hive 2.x	Hive 3.1.2
CREATE EXTERNAL TABLE	✔️	✔️
CREATE TABLE	✔️	✔️
DROP TABLE	✔️	✔️
SELECT	✔️	✔️
INSERT INTO	✔️	✔️

这里基于 Hive 3.1.2 版本进行 Hive 操作 Iceberg 表。

1. 开启Hive支持Iceberg

下载 iceberg-hive-runtime.jar：想要使用Hive支持查询Iceberg表，首先需要下载“iceberg-hive-runtime.jar”，Hive 通过该 Jar 可以加载 Hive 或者更新 Iceberg 表元数据信息。下载地址：https://iceberg.apache.org/releases/：

将以上 jar 包下载，并上传到 Hive 服务端和客户端对应的 lib 目录下。另外再向 Hive 中 Iceberg 格式表插入数据时需要用到“libfb303-0.9.3.jar”，将此包也上传到 Hive 服务端和客户端 lib 目录下。
② 配置hive-site.xml文件：添加如下配置

<property>
    <name>iceberg.engine.hive.enabledname>
    <value>truevalue>
property>

2. Hive中操作Iceberg表格式

在 node03 启动 Hive 的 MetaStore 服务

hive --service metastore &

从 Hive 引擎的角度来看，在运行环境中有 Catalog 概念(catalog主要描述了数据集的位置信息，就是元数据)，Hive 与 Iceberg 整合时，Iceberg 支持多种不同的 Catalog 类型，例如：Hive、Hadoop、第三方厂商的 AWS Glue 和自定义 Catalog。
在实际应用场景中，Hive 可能使用上述任意 Catalog，甚至跨不同 Catalog 类型 join 数据，为此 Hive 提供了 org.apache.iceberg.mr.hive.HiveIcebergStorageHandler(位于包 iceberg-hive-runtime.jar)来支持读写 Iceberg 表，并通过在 Hive 中设置 “iceberg.catalog..type” 属性来决定加载 Iceberg 表的方式，该属性可以配置：hive、hadoop，其中“”是自己随便定义的名称，主要是在 hive 中创建 Iceberg 格式表时配置 iceberg.catalog 属性使用。
在 Hive 中创建 Iceberg 格式表时，根据创建 Iceberg 格式表时是否指定 iceberg.catalog 属性值，有以下三种方式决定 Iceberg 格式表如何加载(数据存储在什么位置)。
① 如果没有设置 iceberg.catalog 属性，默认使用 HiveCatalog 来加载：这种方式就是说如果在Hive中创建Iceberg格式表时，不指定iceberg.catalog属性，那么数据存储在对应的hive warehouse路径下。在 Hive 客户端node3节点进入Hive，操作如下：

# 在 Hive 中创建 iceberg 格式表
create table test_iceberg_tbl1(
    id int,
    name string,
    age int
) partitioned by (dt string)
stored by 'org.apache.iceberg.mr.hive.HiveIcebergStorageHandler';

# 在 Hive 中加载如下两个包，在向 Hive 中插入数据时执行 MR 程序时需要使用到
hive (datalake)> add jar /bigdata/install/hive-3.1.2/lib/iceberg-hive-runtime-0.13.2.jar;
hive (datalake)> add jar /bigdata/install/hive-3.1.2/lib/libfb303-0.9.3.jar;

# 向表中插入数据
hive (datalake)> insert into test_iceberg_tbl1 values (1, 'zhangsan', 32, '20220706');

#查询表中的数据
hive (datalake)> select * from test_iceberg_tbl1;
OK
test_iceberg_tbl1.id	test_iceberg_tbl1.name	test_iceberg_tbl1.age	test_iceberg_tbl1.dt
1	zhangsan	32	20220706
Time taken: 0.707 seconds, Fetched: 1 row(s)

在 Hive 默认的 warehouse 目录下可以看到创建的表目录：

② 如果设置了 iceberg.catalog 对应的 catalog 名字，就用对应类型的 catalog 加载：
- 这种情况就是说在 Hive 中创建 Iceberg 格式表时，如果指定了 iceberg.catalog 属性值，那么数据存储在指定的 catalog 名称对应配置的目录下。在 Hive 客户端node3节点进入Hive，操作如下：

# 注册一个 HiveCatalog 叫 another_hive
hive (datalake)> set iceberg.catalog.another_hive.type = hive;

# 在 Hive 中创建 iceberg 格式表
create table test_iceberg_tbl2(
    id int,
    name string,
    age int
) partitioned by (dt string)
stored by 'org.apache.iceberg.mr.hive.HiveIcebergStorageHandler'
tblproperties('iceberg.catalog'='another_hive');

# 插入数据，并查询
hive (datalake)> insert into test_iceberg_tbl2 values(2, 'lisi', 14, '20220706');
hive (datalake)> select * from test_iceberg_tbl2;
OK
test_iceberg_tbl2.id	test_iceberg_tbl2.name	test_iceberg_tbl2.age	test_iceberg_tbl2.dt
2	lisi	14	20220706
Time taken: 0.371 seconds, Fetched: 1 row(s)

以上方式指定 “iceberg.catalog.another_hive.type=hive” 后，实际上就是使用的 hive 的 catalog，这种方式与第一种方式不设置效果一样，创建后的表存储在 hive 默认的 warehouse 目录下。也可以在建表时指定 location 写上路径，将数据存储在自定义对应路径上。

除了可以将 catalog 类型指定成 hive 之外，还可以指定成 hadoop，在 Hive 中创建对应的 iceberg 格式表时需要指定 location 来指定 iceberg 数据存储的具体位置，这个位置是具有一定格式规范的自定义路径。在 Hive 客户端node3节点进入Hive，操作如下：

# 注册一个 HadoopCatalog 叫 hadoop
hive (datalake)> set iceberg.catalog.hadoop.type = hadoop;

# 使用 HadoopCatalog 时，必须设置“iceberg.catalog..warehouse”指定warehouse路径
hive (datalake)> set iceberg.catalog.hadoop.warehouse=hdfs://node01:8020/iceberg_data; 

# 在 Hive 中创建 iceberg 格式表，这里创建成外表
create external table test_iceberg_tbl3(
    id int,
    name string,
    age int
) partitioned by (dt string)
stored by 'org.apache.iceberg.mr.hive.HiveIcebergStorageHandler'
location 'hdfs://node01:8020/iceberg_data/datalake/test_iceberg_tbl3'
tblproperties('iceberg.catalog'='hadoop');

注意：以上 location 指定的路径必须是 “iceberg.catalog.hadoop.warehouse” 指定路径的子路径，格式必须是 ${iceberg.catalog.hadoop.warehouse}/${当前建表使用的hive库}/${创建的当前iceberg表名}。

# 插入数据，并查询
hive (datalake)> insert into test_iceberg_tbl3 values (3, "wangwu", 35, "20220706");

hive (datalake)> select * from test_iceberg_tbl3;
OK
test_iceberg_tbl3.id	test_iceberg_tbl3.name	test_iceberg_tbl3.age	test_iceberg_tbl3.dt
3	wangwu	35	20220706
Time taken: 0.402 seconds, Fetched: 1 row(s)

在指定的“iceberg.catalog.hadoop.warehouse”路径下可以看到创建的表目录：

如果 iceberg.catalog 属性设置为 “location_based_table”，可以从指定的根路径下加载 Iceberg 表。这种情况就是说如果 HDFS 中已经存在 iceberg 格式表，我们可以通过在 Hive 中创建 Icerberg 格式表指定对应的 location 路径映射数据。在Hive客户端中操作如下：

create table test_iceberg_tbl4(
    id int,
    name string,
    age int,
    dt string
) stored by 'org.apache.iceberg.mr.hive.HiveIcebergStorageHandler'
location 'hdfs://node01:8020/spark/person'
tblproperties('iceberg.catalog'='location_based_table');

注意：指定的 location 路径下必须是 iceberg 格式表数据，并且需要有元数据目录才可以。不能将其他数据映射到 Hive iceberg 格式表。
由于 Hive 建表语句分区语法 “Partitioned by” 的限制，如果使用 Hive 创建 Iceberg 格式表，目前只能按照 Hive 语法来写，底层转换成 Iceberg 标识分区，这种情况下不能使用 Iceberge 的分区转换，例如：days(timestamp)，如果想要使用 Iceberg 格式表的分区转换标识分区，需要使用 Spark 或者 Flink 引擎创建表。

Iceberg表数据组织结构

1. 在 Hive 中创建 Iceberg 表并插入数据

# 在 Hive 中创建 iceberg 格式表
create table test_iceberg_tbl(
    id int,
    name string,
    age int
) partitioned by (dt string)
stored by 'org.apache.iceberg.mr.hive.HiveIcebergStorageHandler';

# 向表中插入数据
hive (datalake)> insert into test_iceberg_tbl values (1, 'zs', 13, '20220706');
hive (datalake)> insert into test_iceberg_tbl values (2, 'ls', 24, '20220706');
hive (datalake)> insert into test_iceberg_tbl values (3, 'ww', 35, '20220707');
hive (datalake)> insert into test_iceberg_tbl values (4, 'zl', 66, '20220707');
hive (datalake)> insert into test_iceberg_tbl values (5, 'tq', 47, '20220707');

# 查询
hive (datalake)> select * from test_iceberg_tbl;
OK
test_iceberg_tbl.id	test_iceberg_tbl.name	test_iceberg_tbl.age	test_iceberg_tbl.dt
5	tq	47	20220707
1	zs	13	20220706
3	ww	35	20220707
4	zl	66	20220707
2	ls	24	20220706
Time taken: 0.382 seconds, Fetched: 5 row(s)

2. 查看 Iceberg 底层数据存储

hdfs dfs -get /user/hive/warehouse/datalake.db/test_iceberg_tbl
# 树形结构查看
tree test_iceberg_tbl/

通过上图我们可以看到有 5 个 Snapshot 快照，以上 5 个 Snapshot 实际上就是对应了 5 个 Manifest list 清单列表。

Iceberg表数据查询

我们可以通过 avro-tools.jar 来查看 avro 数据内容，下载地址：https://mvnrepository.com/artifact/org.apache.avro/avro-tools，这里选择 avro-tools-1.11.0.jar。
使用：

java -jar /bigdata/soft/avro-tools-1.11.0.jar tojson snap-*.avro

1. 查询最新快照数据

查询最新快照数据原理如下图所示：

查询 Iceberg 表数据时，首先获取最新的 metadata 信息，这里先获取到 00005-0e6ad893-fd11-49e2-9dce-fd1d1d9091ea.metadata.json 元数据信息，解析当前元数据文件可以拿到当前表的快照id：“3196813301730135187” 以及这张表的所有快照信息，也就是 json 信息中 snapshots 数组对应的值。

根据当前表的快照 id 值可以获取对应的 snapshot 对应的 avro 文件信息：snap-3196813301730135187-1-1a71733b-232d-409d-9846-a626cb44593f.avro。我们可以找到当前快照对应的路径，看到其包含的Manifest 清单文件有5个：

读取该Iceberg格式表最新数据就是读取这几个文件中描述对应的parquet数据文件即可。

我们可以看到快照文件中不仅包含了 manifest 路径信息，还包含以 added_data_files_count、existing_data_files_count、deleted_data_files_count 等属性信息，Iceberg 根据 deleted_data_files_count 大于 0 来判断对应的 manifest 清单文件里面是不是被删除的数据，如果一个 manifest 清单文件该值大于 0 代表数据删除，读数据时就无需读这个 manifest 清单文件对应的数据文件。
根据 Manifest list 找到了各个对应的 manifest 清单文件，每个文件中描述了对应 parquet 文件存储的位置信息，可以看到在对应的avro文件中有“status”属性，该属性为 1 代表对应的 parquet 文件为新增文件，需要读取，为 2 代表parquet文件被删除。

2. 查询指定快照数据

Apache Iceberg 支持查询历史上任何时刻的快照，在查询时需要指定 snapshot-id 属性即可，这个只能通过 Spark/Flink 来查询实现，例如在 Spark 中查询某个快照数据如下：

spark.read.option("snapshot-id", 4259769591722561320L).format("iceberg").load("path")

查询指定快照数据的原理如下图所示：

通过上图可以看出，实际上读取历史快照数据和读取最新数据不同之处就是找到的 snapshot-id 不同而已，原理都是一样。

3. 根据时间戳查看某个快照的数据

Apache iceberg 还支持通过 as-of-timestamp 参数执行时间戳来读取某个快照的数据，同样也是通过 Spark/Flink 来读取，Spark 读取代码如下：

spark.read.option("as-of-timestamp", "时间戳").format("iceberg").load("path")

实际上通过时间戳找到对应数据文件的原理与通过 snapshot-id 找到数据文件原理一样，在 *.metadata.json 文件中，除了有“current-snapshot-id”、“snapshots”属性外还有“snapshot-log”属性，该属性对应的值如下：

我们可以看到其中有个 timestamp-ms 属性和 snapshot-id 属性，并且是按照 timestamp-ms 升序的。在 Iceberg 内部实现中，它会将 as-of-timestamp 指定的时间和 snapshot-log 数组里面每个元素的 timestamp-ms 进行比较，找出最后一个满足 timestamp-ms <= as-of-timestamp 对应的 snapshot-id，原理同上，通过snapshot-id再找到要读取的数据文件。

C++11堆操作深度解析：std::is_heap与std::is_heap_until原理解析与实践
文章目录堆结构基础与函数接口堆的核心性质函数签名与核心接口std::is_heapstd::is_heap_until实现原理深度剖析std::is_heap的验证逻辑std::is_heap_until的定位策略算法优化细节代码实践与案例分析基础用法演示自定义比较器实现最小堆检查边缘情况处理性能分析与实际应用时间复杂度对比典型应用场景与手动实现的对比注意事项与最佳实践迭代器要求比较器设计C++标
为什么会出现“与此站点的连接不安全”警告？
当浏览器弹出“与此站点的连接不安全”的红色警告时，不仅会让访客感到不安，还可能直接导致用户流失、品牌信誉受损，甚至引发数据泄露风险。作为网站运营者，如何快速解决这一问题？一、为什么会出现“与此站点的连接不安全”警告？浏览器提示“不安全连接”，本质上是检测到当前网站与用户之间的数据传输未经过加密保护。以下是触发警告的常见原因：1.未安装SSL证书SSL（SecureSocketsLayer）证书是网
WHQL签名怎么申请 GDCA SSL证书 windows
WHQL（WindowsHardwareQualityLabs）签名是微软对硬件和驱动程序进行认证的一种方式，以确保它们与Windows操作系统的兼容性和稳定性。以下是申请WHQL签名的基本步骤，供您参考：1.准备阶段准备硬件设备和驱动程序：确保您的硬件设备已经准备好，并且对应的驱动程序已经经过充分的测试，能够在各种配置和环境下正常工作。获取EV代码签名证书：根据微软的要求，驱动程序进行WHQL认
JSON 与 AJAX Auscy json ajax 前端
一、JSON（JavaScriptObjectNotation）1.数据类型与语法细节支持的数据类型：基本类型：字符串（需用双引号）、数字、布尔值（true/false）、null。复杂类型：数组（[]）、对象（{}）。严格语法规范：键名必须用双引号包裹（如"name":"张三"）。数组元素用逗号分隔，最后一个元素后不能有多余逗号。数字不能以0开头（如012会被解析为12），不支持八进制/十六进制
发票合并工具小朋的软件园前端 javascript java html 服务器
"发票合并工具"是一款专为高效整理票据设计的实用工具，支持将来自不同渠道的发票文件（如PDF文档、各类图片格式）快速整合为排版规范的PDF文件，尤其适用于财务报销场景下的批量票据处理需求。核心功能亮点多格式兼容：无缝导入PDF文件及常见图片格式（.png/.jpg/.jpeg/.bmp），适配多来源发票整合需求。智能布局配置：提供灵活的页面布局选项（每页2/3/4张发票），其中"2合1"模式针对报
C++ 11 Lambda表达式和min_element()与max_element()的使用_c++ lamda函数 min_element((1) 2401_84976182 程序员 c语言 c++学习
既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上CC++开发知识点，真正体系化！由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新如果你需要这些资料，可以戳这里获取#include#include#includeusingnamespacestd;boolcmp(int
C++ 11 Lambda表达式和min_element()与max_element()的使用_c++ lamda函数 min_element(
网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化的资料的朋友，可以添加戳这里获取一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！intmain(){vectormyvec{3,
JavaScript 树形菜单总结 Auscy microsoft
树形菜单是前端开发中常见的交互组件，用于展示具有层级关系的数据（如文件目录、分类列表、组织架构等）。以下从核心概念、实现方式、常见功能及优化方向等方面进行总结。一、核心概念层级结构：数据以父子嵌套形式存在，如{id:1,children:[{id:2}]}。节点：树形结构的基本单元，包含自身信息及子节点（若有）。展开/折叠：子节点的显示与隐藏切换，是树形菜单的核心交互。递归渲染：因数据层级不固定，
基于定制开发开源AI智能名片S2B2C商城小程序的社群游戏定制策略研究说私域人工智能小程序游戏
摘要：本文聚焦社群游戏定制领域，深入探讨以社群文化和用户偏好为导向的定制策略。通过分析互动游戏活动、社群文化塑造等关键要素，结合定制开发开源AI智能名片S2B2C商城小程序的技术特性，提出针对性游戏定制方案。研究旨在提升社群用户参与度与游戏体验，为社群游戏发展提供理论支持与实践指导。关键词：社群游戏定制；定制开发开源AI智能名片S2B2C商城小程序；社群文化；用户偏好一、引言在数字化社交蓬勃发展的
冒泡、选择、插入排序：三大基础排序算法深度解析（C语言实现） xienda 算法排序算法数据结构
在算法学习道路上，排序算法是每位程序员必须掌握的基石。本文将深入解析冒泡排序、选择排序和插入排序这三种基础排序算法，通过C语言代码实现和对比分析，帮助读者彻底理解它们的差异与应用场景。算法原理与代码实现1.冒泡排序（BubbleSort）工作原理：通过重复比较相邻元素，将较大元素逐步"冒泡"到数组末尾。voidbubbleSort(intarr[],intn){ for(inti=0;iarr[
全面触摸屏输入法设计与实现长野君
本文还有配套的精品资源，点击获取简介：触摸屏输入法是针对触摸设备优化的文字输入方案，包括虚拟键盘、手写、语音识别和手势等多种输入方式。本方案通过提供主程序文件、用户手册、界面截图、示例图、说明文本和音效文件，旨在为用户提供一个完整的、多样的文字输入体验。开发者通过持续优化算法和用户界面，使用户在无物理键盘环境下也能高效准确地进行文字输入。1.触摸屏输入法概述简介在现代信息技术飞速发展的今天，触摸屏
前端项目架构设计要领
1.架构设计的核心目标在设计前端项目架构时，核心目标是模块化、可维护、可扩展、可测试，以及开发效率的最大化。这些目标可以通过以下几个方面来实现：组件化：将UI功能封装为可复用的组件。模块化：将业务逻辑分解为独立的模块或服务。自动化构建与部署：实现自动化构建、测试和部署流程，减少人为操作的错误。代码规范化与检查：确保团队协作时，代码风格和质量一致。2.项目目录结构设计一个清晰合理的目录结构对大型项目
高效批量单词翻译工具的设计与应用
本文还有配套的精品资源，点击获取简介：在信息技术飞速发展的今天，批量单词翻译工具通过计算机的数据处理能力，大大提高了语言学习和文字处理的效率。用户通过简单输入单词列表到一个文本文件，并运行翻译程序，即可获得翻译结果并保存至指定文件。该工具集成了内置或外部翻译引擎，利用自然语言处理技术实现快速准确的翻译，并可能提供词性识别等附加功能。尽管机器翻译无法完全取代人工校对，但它为用户提供了一种高效的翻译解
嵌入式系统LCD显示模块编程实践
本文还有配套的精品资源，点击获取简介：本文档提供了一个具有800x480分辨率的3.5英寸液晶显示模块LW350AC9001的驱动程序代码，以及嵌入式系统中使用C/C++语言进行硬件编程的实践指南。该模块的2mm厚度使其适用于空间受限的便携式设备。内容包括驱动程序源代码、硬件控制接口使用方法，以及如何在嵌入式系统中进行图形处理、电源管理与性能优化。1.嵌入式系统原理1.1嵌入式系统概念嵌入式系统是
Android 开源组件和第三方库汇总 gyyzzr Android Android 开源框架
转载1、github排名https://github.com/trending,github搜索：https://github.com/search2、https://github.com/wasabeef/awesome-android-ui目录UIUI卫星菜单节选器下拉刷新模糊效果HUD与Toast进度条UI其它动画网络相关响应式编程地图数据库图像浏览及处理视频音频处理测试及调试动态更新热更新
PyTorch & TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）阿牛的药铺算法移植部署 pytorch tensorflow fpga开发
PyTorch&TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）引言：为什么算法移植工程师必须掌握框架基础？针对光学类产品算法FPGA移植岗位需求（如可见光/红外图像处理），深度学习框架是算法落地的"桥梁"——既要用PyTorch/TensorFlow验证算法可行性，又要将训练好的模型（如CNN、目标检测）转换为FPGA可部署的格式（ONNX、TFLite）。本文采用"
22、文档：Google Docs的强大与易用性 pear55 探索云技术的无限可能 Google Docs 云端文档语音输入
文档：GoogleDocs的强大与易用性1.GoogleDocs简介GoogleDocs是Google提供的在线办公套件的一部分，它是一个基于云端的文字处
ARM嵌入式可编程控制器技术开发拉勾科研工作室 arm开发
PLC自动化设计|毕业设计指导|工业自动化解决方案✨专业领域：PLC程序设计与调试工业自动化控制系统HMI人机界面开发工业传感器应用电气控制系统设计工业网络通信擅长工具：西门子S7系列PLC编程三菱/欧姆龙PLC应用触摸屏界面设计电气CAD制图工业现场总线技术自动化设备调试主要内容：PLC控制系统设计工业自动化方案规划电气原理图绘制控制程序编写与调试毕业论文指导毕业设计题目与程序设计✅具体问题可以
Android ViewBinding 使用与封装教程积跬步DEV Android 开发实战大全 android
AndroidViewBinding使用与封装教程：一、ViewBinding是什么？核心功能：为每个XML布局文件自动生成一个绑定类（如ActivityMainBinding），直接暴露所有带ID的视图引用。优点：避免繁琐的findViewById()，类型安全且编译时检查。对比DataBinding：ViewBinding仅处理视图引用，无数据绑定功能。DataBinding支持双向数据绑定，
理解TCP连接中的进程阻塞与CPU调度机制 109702008 编程 #C语言网络 tcp/ip 网络人工智能
引言在计算机网络通信中，TCP连接的建立是一个经典的三次握手过程。当用户调用connect()函数发起连接时，内核会发送SYN报文并等待对方的SYN-ACK响应。此时，调用进程通常会进入阻塞状态，暂停执行直至连接成功或超时。这一机制看似简单，但其背后的内核实现却涉及进程调度、等待队列管理和CPU资源分配等复杂操作。本文将深入探讨阻塞状态的实现原理，并解析CPU在进程阻塞期间的行为。一、进程阻塞的实
基于链家网的二手房数据采集清洗与可视化分析 Mint_Datazzh 项目 selenium 网络爬虫
个人学习内容笔记，仅供参考。项目链接：https://gitee.com/rongwu651/lianjia原文链接：基于链家网的二手房数据采集清洗与可视化分析–笔墨云烟研究内容该课题的主要目的是通过将二手房网站上的存量与已销售房源，构建一个二手房市场行情情况与房源特点的可视化平台。该平台通过HTML架构和Echarts完成可视化的搭建。因此，该课题的主要研究内容就是如何利用相关技术设计并实现这样
Java大厂面试实录：谢飞机的电商场景技术问答（Spring Cloud、MyBatis、Redis、Kafka、AI等）
Java大厂面试实录：谢飞机的电商场景技术问答（SpringCloud、MyBatis、Redis、Kafka、AI等）本文模拟知名互联网大厂Java后端岗位面试流程，以电商业务为主线，由严肃面试官与“水货”程序员谢飞机展开有趣的对话，涵盖SpringCloud、MyBatis、Redis、Kafka、SpringSecurity、AI等热门技术栈，并附详细解析，助力求职者备战大厂面试。故事设定谢
【超硬核】JVM源码解读：Java方法main在虚拟机上解释执行 HeapDump性能社区 java 开发语言后端 jvm
本文由HeapDump性能社区首席讲师鸠摩（马智）授权整理发布第1篇-关于Java虚拟机HotSpot，开篇说的简单点开讲Java运行时，这一篇讲一些简单的内容。我们写的主类中的main()方法是如何被Java虚拟机调用到的？在Java类中的一些方法会被由C/C++编写的HotSpot虚拟机的C/C++函数调用，不过由于Java方法与C/C++函数的调用约定不同，所以并不能直接调用，需要JavaC
算法学习笔记：17.蒙特卡洛算法 ——从原理到实战，涵盖 LeetCode 与考研 408 例题
在计算机科学和数学领域，蒙特卡洛算法（MonteCarloAlgorithm）以其独特的随机抽样思想，成为解决复杂问题的有力工具。从圆周率的计算到金融风险评估，从物理模拟到人工智能，蒙特卡洛算法都发挥着不可替代的作用。本文将深入剖析蒙特卡洛算法的思想、解题思路，结合实际应用场景与Java代码实现，并融入考研408的相关考点，穿插图片辅助理解，帮助你全面掌握这一重要算法。蒙特卡洛算法的基本概念蒙特卡
算法学习笔记：15.二分查找 ——从原理到实战，涵盖 LeetCode 与考研 408 例题呆呆企鹅仔算法学习算法学习笔记考研二分查找
在计算机科学的查找算法中，二分查找以其高效性占据着重要地位。它利用数据的有序性，通过不断缩小查找范围，将原本需要线性时间的查找过程优化为对数时间，成为处理大规模有序数据查找问题的首选算法。二分查找的基本概念二分查找（BinarySearch），又称折半查找，是一种在有序数据集合中查找特定元素的高效算法。其核心原理是：通过不断将查找范围减半，快速定位目标元素。与线性查找逐个遍历元素不同，二分查找依赖
（Python基础篇）了解和使用分支结构 EternityArt 基础篇 python
目录一、引言二、Python分支结构的类型与语法（一）if语句（单分支）（二）if-else语句（双分支）（三）if-elif-else语句（多分支）三、分支结构的应用场景（一）提示用户输入用户名，然后再提示输入密码，如果用户名是“admin”并且密码是“88888”则提示正确，否则，如果用户名不是admin还提示用户用户名不存在,（二）提示用户输入用户名，然后再提示输入密码，如果用户名是“adm
LeetCode算法题：电话号码的字母组合吱屋猪_ 算法 leetcode java
题目描述：给定一个仅包含数字2-9的字符串，返回所有它能表示的字母组合。答案可以按任意顺序返回。给出数字到字母的映射如下（与电话按键相同）。注意1不对应任何字母。2->"abc"3->"def"4->"ghi"5->"jkl"6->"mno"7->"pqrs"8->"tuv"9->"wxyz"例如，给定digits="23"，返回["ad","ae","af","bd","be","bf","cd
基于开源AI智能名片链动2+1模式与S2B2C商城小程序的渠道选择策略研究说私域人工智能小程序
摘要：在数字化商业环境下，品牌与产品的渠道选择对其市场推广和运营成功至关重要。本文聚焦于如何依据自身品牌和产品特性，结合开源AI智能名片链动2+1模式与S2B2C商城小程序，运用科学的渠道选择方法，慎重挑选1-2个适宜平台，集中资源发力并取得成绩后再拓展其他渠道。通过理论分析与案例研究，探讨该策略的有效性和可行性，为企业渠道布局提供参考。关键词：渠道选择；开源AI智能名片；链动2+1模式；S2B2
深入解析 TCP 连接状态与进程挂起、恢复与关闭誰能久伴不乏 tcp/ip 网络服务器
文章目录深入解析TCP连接状态与进程挂起、恢复与关闭一、TCP连接的各种状态1.**`LISTEN`**（监听）2.**`SYN_SENT`**（SYN已发送）3.**`SYN_RECEIVED`**（SYN已接收）4.**`ESTABLISHED`**（已建立）5.**`FIN_WAIT_1`**（关闭等待1）6.**`FIN_WAIT_2`**（关闭等待2）7.**`CLOSE_WAIT`**
基于架构的软件设计（Architecture-Based Software Design，ABSD）是一种以架构为核心的软件开发方法
ABSD方法与生命周期基于架构的软件设计（Architecture-BasedSoftwareDesign，ABSD）是一种以架构为核心的软件开发方法，强调在开发的各个阶段都要以架构为中心，确保系统的整体结构和质量属性得到有效管理。ABSD方法是一个自顶向下、递归细化的过程，软件系统的架构通过该方法得到细化，直到能产生软件构件和类。ABSD方法的三个基础功能的分解：使用基于模块的内聚和耦合技术，将
深入浅出Java Annotation(元注解和自定义注解） Josh_Persistence Java Annotation 元注解自定义注解
一、基本概述　　 Annontation是Java5开始引入的新特征。中文名称一般叫注解。它提供了一种安全的类似注释的机制，用来将任何的信息或元数据（metadata）与程序元素（类、方法、成员变量等）进行关联。　　更通俗的意思是为程序的元素（类、方法、成员变量）加上更直观更明了的说明，这些说明信息是与程序的业务逻辑无关，并且是供指定的工具或
mysql优化特定类型的查询 annan211 java 工作 mysql
本节所介绍的查询优化的技巧都是和特定版本相关的，所以对于未来mysql的版本未必适用。 1 优化count查询对于count这个函数的网上的大部分资料都是错误的或者是理解的都是一知半解的。在做优化之前我们先来看看真正的count()函数的作用到底是什么。 count()是一个特殊的函数，有两种非常不同的作用，他可以统计某个列值的数量，也可以统计行数。在统
MAC下安装多版本JDK和切换几种方式棋子chessman jdk
环境： MAC AIR,OS X 10.10,64位历史：过去 Mac 上的 Java 都是由 Apple 自己提供，只支持到 Java 6，并且OS X 10.7 开始系统并不自带（而是可选安装）（原自带的是1.6）。后来 Apple 加入 OpenJDK 继续支持 Java 6，而 Java 7 将由 Oracle 负责提供。在终端中输入jav
javaScript （1） Array_06 JavaScript java 浏览器
JavaScript 1、运算符　　运算符就是完成操作的一系列符号，它有七类：　　赋值运算符（=,+=,-=,*=,/=,%=,<<=,>>=,|=,&=）、算术运算符(+,-,*,/,++,--,%)、比较运算符(>,<,<=,>=,==,===,!=,!==)、逻辑运算符(||,&&,!)、条件运算(?:)、位
国内顶级代码分享网站袁潇含 java jdk oracle .net PHP
现在国内很多开源网站感觉都是为了利益而做的当然利益是肯定的,否则谁也不会免费的去做网站 &
Elasticsearch、MongoDB和Hadoop比较随意而生 mongodb hadoop 搜索引擎
IT界在过去几年中出现了一个有趣的现象。很多新的技术出现并立即拥抱了“大数据”。稍微老一点的技术也会将大数据添进自己的特性，避免落大部队太远，我们看到了不同技术之间的边际的模糊化。假如你有诸如Elasticsearch或者Solr这样的搜索引擎，它们存储着JSON文档，MongoDB存着JSON文档，或者一堆JSON文档存放在一个Hadoop集群的HDFS中。你可以使用这三种配
mac os 系统科研软件总结张亚雄 mac os
1.1 Microsoft Office for Mac 2011 大客户版，自行搜索。 1.2 Latex （MacTex）: 系统环境：https://tug.org/mactex/ &nb
Maven实战（四）生命周期 AdyZhang maven
1. 三套生命周期 Maven拥有三套相互独立的生命周期，它们分别为clean，default和site。每个生命周期包含一些阶段，这些阶段是有顺序的，并且后面的阶段依赖于前面的阶段，用户和Maven最直接的交互方式就是调用这些生命周期阶段。以clean生命周期为例，它包含的阶段有pre-clean, clean 和 post
Linux下Jenkins迁移 aijuans Jenkins
1. 将Jenkins程序目录copy过去源程序在/export/data/tomcatRoot/ofctest-jenkins.jd.com下面 tar -cvzf jenkins.tar.gz ofctest-jenkins.jd.com &
request.getInputStream()只能获取一次的问题 ayaoxinchao request Inputstream
问题：在使用HTTP协议实现应用间接口通信时，服务端读取客户端请求过来的数据，会用到request.getInputStream()，第一次读取的时候可以读取到数据，但是接下来的读取操作都读取不到数据原因： 1. 一个InputStream对象在被读取完成后，将无法被再次读取，始终返回-1； 2. InputStream并没有实现reset方法（可以重
数据库SQL优化大总结之百万级数据库优化方案 BigBird2012 SQL优化
网上关于SQL优化的教程很多，但是比较杂乱。近日有空整理了一下，写出来跟大家分享一下，其中有错误和不足的地方，还请大家纠正补充。这篇文章我花费了大量的时间查找资料、修改、排版，希望大家阅读之后，感觉好的话推荐给更多的人，让更多的人看到、纠正以及补充。 1.对查询进行优化，要尽量避免全表扫描，首先应考虑在 where 及 order by 涉及的列上建立索引。 2.应尽量避免在 where
jsonObject的使用 bijian1013 java json
在项目中难免会用java处理json格式的数据，因此封装了一个JSONUtil工具类。 JSONUtil.java package com.bijian.json.study; import java.util.ArrayList; import java.util.Date; import java.util.HashMap;
[Zookeeper学习笔记之六]Zookeeper源代码分析之Zookeeper.WatchRegistration bit1129 zookeeper
Zookeeper类是Zookeeper提供给用户访问Zookeeper service的主要API，它包含了如下几个内部类首先分析它的内部类，从WatchRegistration开始，为指定的znode path注册一个Watcher， /** * Register a watcher for a particular p
【Scala十三】Scala核心七：部分应用函数 bit1129 scala
何为部分应用函数？ Partially applied function: A function that’s used in an expression and that misses some of its arguments.For instance, if function f has type Int => Int => Int, then f and f(1) are p
Tomcat Error listenerStart 终极大法 ronin47 tomcat
Tomcat报的错太含糊了，什么错都没报出来，只提示了Error listenerStart。为了调试，我们要获得更详细的日志。可以在WEB-INF/classes目录下新建一个文件叫logging.properties，内容如下 Java代码 handlers = org.apache.juli.FileHandler, java.util.logging.ConsoleHa
不用加减符号实现加减法 BrokenDreams 实现
今天有群友发了一个问题，要求不用加减符号(包括负号)来实现加减法。分析一下，先看最简单的情况，假设1+1，按二进制算的话结果是10，可以看到从右往左的第一位变为0，第二位由于进位变为1。
读《研磨设计模式》-代码笔记-状态模式-State bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* 当一个对象的内在状态改变时允许改变其行为，这个对象看起来像是改变了其类状态模式主要解决的是当控制一个对象状态的条件表达式过于复杂时的情况把状态的判断逻辑转移到表示不同状态的一系列类中，可以把复杂的判断逻辑简化如果在
CUDA程序block和thread超出硬件允许值时的异常 cherishLC CUDA
调用CUDA的核函数时指定block 和 thread大小，该大小可以是dim3类型的（三维数组），只用一维时可以是usigned int型的。以下程序验证了当block或thread大小超出硬件允许值时会产生异常！！！GPU根本不会执行运算！！！所以验证结果的正确性很重要！！！在VS中创建CUDA项目会有一个模板，里面有更详细的状态验证。以下程序在K5000GPU上跑的。
诡异的超长时间GC问题定位 chenchao051 jvm cms GC hbase swap
HBase的GC策略采用PawNew+CMS, 这是大众化的配置，ParNew经常会出现停顿时间特别长的情况，有时候甚至长到令人发指的地步，例如请看如下日志： 2012-10-17T05:54:54.293+0800: 739594.224: [GC 739606.508: [ParNew: 996800K->110720K(996800K), 178.8826900 secs] 3700
maven环境快速搭建 daizj 安装 mavne 环境配置
一下载maven 安装maven之前，要先安装jdk及配置JAVA_HOME环境变量。这个安装和配置java环境不用多说。 maven下载地址：http://maven.apache.org/download.html，目前最新的是这个apache-maven-3.2.5-bin.zip，然后解压在任意位置，最好地址中不要带中文字符，这个做java 的都知道，地址中出现中文会出现很多
PHP网站安全，避免PHP网站受到攻击的方法 dcj3sjt126com PHP
对于PHP网站安全主要存在这样几种攻击方式:1、命令注入(Command Injection)2、eval注入(Eval Injection)3、客户端脚本攻击(Script Insertion)4、跨网站脚本攻击(Cross Site Scripting, XSS)5、SQL注入攻击(SQL injection)6、跨网站请求伪造攻击(Cross Site Request Forgerie
yii中给CGridView设置默认的排序根据时间倒序的方法 dcj3sjt126com GridView
public function searchWithRelated() { $criteria = new CDbCriteria; $criteria->together = true; //without th
Java集合对象和数组对象的转换 dyy_gusi java集合
在开发中，我们经常需要将集合对象（List，Set）转换为数组对象，或者将数组对象转换为集合对象。Java提供了相互转换的工具，但是我们使用的时候需要注意，不能乱用滥用。 1、数组对象转换为集合对象最暴力的方式是new一个集合对象，然后遍历数组，依次将数组中的元素放入到新的集合中，但是这样做显然过
nginx同一主机部署多个应用 geeksun nginx
近日有一需求，需要在一台主机上用nginx部署2个php应用，分别是wordpress和wiki，探索了半天，终于部署好了，下面把过程记录下来。 1. 在nginx下创建vhosts目录，用以放置vhost文件。 mkdir vhosts 2. 修改nginx.conf的配置，在http节点增加下面内容设置，用来包含vhosts里的配置文件 #
ubuntu添加admin权限的用户账号 hongtoushizi ubuntu useradd
ubuntu创建账号的方式通常用到两种：useradd 和adduser . 本人尝试了useradd方法，步骤如下： 1:useradd 使用useradd时，如果后面不加任何参数的话，如：sudo useradd sysadm 创建出来的用户将是默认的三无用户：无home directory ,无密码,无系统shell。顾应该如下操作：
第五章常用Lua开发库2-JSON库、编码转换、字符串处理 jinnianshilongnian nginx lua
JSON库在进行数据传输时JSON格式目前应用广泛，因此从Lua对象与JSON字符串之间相互转换是一个非常常见的功能；目前Lua也有几个JSON库，本人用过cjson、dkjson。其中cjson的语法严格（比如unicode \u0020\u7eaf），要求符合规范否则会解析失败（如\u002），而dkjson相对宽松，当然也可以通过修改cjson的源码来完成
Spring定时器配置的两种实现方式OpenSymphony Quartz和java Timer详解 yaerfeng1989 timer quartz 定时器
原创整理不易，转载请注明出处：Spring定时器配置的两种实现方式OpenSymphony Quartz和java Timer详解代码下载地址：http://www.zuidaima.com/share/1772648445103104.htm 有两种流行Spring定时器配置：Java的Timer类和OpenSymphony的Quartz。 1.Java Timer定时首先继承jav
Linux下df与du两个命令的差别？ pda158 linux
　一、df显示文件系统的使用情况，与du比較，就是更全盘化。　　最经常使用的就是 df -T，显示文件系统的使用情况并显示文件系统的类型。　　举比例如以下：　　[root@localhost ~]# df -T 　　Filesystem Type &n
[转]SQLite的工具类 ---- 通过反射把Cursor封装到VO对象 ctfzh VO android sqlite 反射 Cursor
在写DAO层时，觉得从Cursor里一个一个的取出字段值再装到VO(值对象)里太麻烦了，就写了一个工具类，用到了反射，可以把查询记录的值装到对应的VO里，也可以生成该VO的List。使用时需要注意：考虑到Android的性能问题，VO没有使用Setter和Getter，而是直接用public的属性。表中的字段名需要和VO的属性名一样，要是不一样就得在查询的SQL中
该学习笔记用到的Employee表 vipbooks oracle sql 工作
这是我在学习Oracle是用到的Employee表，在该笔记中用到的就是这张表，大家可以用它来学习和练习。 drop table Employee; -- 员工信息表 create table Employee( -- 员工编号 EmpNo number(3) primary key, -- 姓

大数据架构师——数据湖技术（一）

文章目录

数据湖技术

概述

什么是数据湖？

大数据为什么需要数据湖？

数据湖技术之Iceberg

Iceberg概念及特点

Iceberg数据存储格式

1. Iceberg术语

2. 表格式

Iceberg特点详述

1. Iceberg分区与隐藏分区(Hidden Partition)

2. Iceberg表演化(Table Evolution)

3. 模式演化(Schema Evolution)

4. 分区演化(Partition Evolution)

5. 列顺序演化(Sort Order Evolution)

Iceberg数据类型

Hive 与 Iceberg 整合

1. 开启Hive支持Iceberg

2. Hive中操作Iceberg表格式

Iceberg表数据组织结构

1. 在 Hive 中创建 Iceberg 表并插入数据

2. 查看 Iceberg 底层数据存储

Iceberg表数据查询

1. 查询最新快照数据

2. 查询指定快照数据

3. 根据时间戳查看某个快照的数据

你可能感兴趣的:(大数据,大数据,Iceberg,表格式,Hive与Iceberg整合)