Light Gao

Flink实时数仓同步：拉链表实战详解

一、背景

在大数据领域，初始阶段业务数据通常被存储于关系型数据库，如MySQL。然而，为满足日常分析和报表等需求，大数据平台采用多种同步方式，以适应这些业务数据的不同存储需求。这些同步存储方式包括离线仓库和实时仓库等，选择取决于业务需求和数据特性。

一项常见需求是，业务使用人员需要大数据分析平台中查看历史某一天的表数据，示例如下：

[Mysql] 业务数据 - 用户表全量数据：

id	name	phone	gender	create_time	update_time
1	jack	111	男	2023-06-01 13:00:00	2023-06-01 13:00:00
2	jason	222	男	2023-06-01 13:00:00	2023-06-01 13:00:00
3	tom	333	男	2023-06-01 13:00:00	2023-06-01 13:00:00

[Mysql] 2023-06-02 业务数据新增了一名用户，且更改了tom的手机号，此时表数据如下：

id	name	phone	gender	create_time	update_time
1	jack	111	男	2023-06-01 13:00:00	2023-06-01 13:00:00
2	jason	222	男	2023-06-01 13:00:00	2023-06-01 13:00:00
3	tom	444	男	2023-06-01 13:00:00	2023-06-02 09:00:00
4	tony	555	男	2023-06-02 10:00:00	2023-06-02 10:00:00

加粗为更新/新增数据

[大数据平台] 2023-06-02日业务人员在大数据平台中查看用户表实时数据，期望数据和Mysql业务数据一致，如下：

id	name	phone	gender	create_time	update_time
1	jack	111	男	2023-06-01 13:00:00	2023-06-01 13:00:00
2	jason	222	男	2023-06-01 13:00:00	2023-06-01 13:00:00
3	tom	444	男	2023-06-01 13:00:00	2023-06-02 09:00:00
4	tony	555	男	2023-06-02 10:00:00	2023-06-02 10:00:00

[大数据平台] 2023-06-03 日业务人员在大数据平台中查看2023-06-02日用户表的历史数据，期望数据如下：

id	name	phone	gender	create_time	update_time
1	jack	111	男	2023-06-01 13:00:00	2023-06-01 13:00:00
2	jason	222	男	2023-06-01 13:00:00	2023-06-01 13:00:00
3	tom	333	男	2023-06-01 13:00:00	2023-06-01 13:00:00

根据以上需求，业务人员希望既能够查看当天的实时数据，又希望查看以天为粒度的历史数据。这类需求比较常见，通常可以采用两种解决方式：

Lambda架构
实时同步 + 拉链表架构

二、Lambda架构

实时领域的Lambda架构是一种大数据架构模式，旨在处理实时数据流和历史数据批处理，以满足同时满足实时查询和历史数据分析的需求。Lambda架构的核心思想是将数据分成两个独立的流程：实时流程和批处理流程，并在最终层将它们合并，以提供一致的查询结果，如下：

实时流程（Real-time Layer）：实时流程负责处理实时产生的数据流。它通常包括以下关键组件：
- 数据源：实时数据源，如binlog日志等。
- 实时引擎：用于实时数据的处理和转换，例如Apache Kafka、Apache Flink等。
- 存储层：用于存储实时数据，特点是插入快，支持OLAP查询。
离线处理流程（Batch Layer）：离线处理流程用于处理历史数据，通常以 T+1 凌晨跑批方式运行，主要包括以下组件：
- 数据仓库：批处理数据存储，通常使用分布式数据仓库，如Apache Hadoop HDFS、Apache Hive等。
- 批处理作业：用于处理历史数据的定期批处理作业，例如数据清洗、转换和聚合。
合并层（Serving Layer）：合并层负责将实时和历史数据合并以提供一致的查询接口：
- 数据服务：根据用户查询内容选择性调用不同存储服务，用于将实时数据和批处理数据合并以生成一致的视图。
Lambda架构的主要优点包括：
- 实时性：能够提供近实时的数据处理和反馈，适用于需要快速决策和实时监控的场景。
- 容错性：通过将数据存储在持久性存储中，保证了数据的可靠性和可恢复性。
- 灵活性：可以应对多种不同的数据类型和查询需求，适用于各种大数据应用。

注意：尽管Lambda架构可以满足业务人员查看用户的实时或历史数据的需求，但离线数据仓库通常采用T+1批处理方式运行，因此在需要高度一致性的场景下会出现数据不一致问题。故本文未采用Lambda架构；

若想详细了解一致性问题的情况，请参考笔者另一篇文章：深入数仓离线数据同步：问题分析与优化措施

三、实时同步+拉链表架构

为了满足业务人员对实时或历史数据的高度一致性需求，并且为了简化架构，这里采用了实时+拉链表的技术方案。在这个架构中，只使用了一种计算引擎，具体的技术组件为 Flink-cdc-2.x + Doris。以下是我们架构的设计概述：

此架构的关键在于实时同步逻辑及拉链表设计这两块的实现。

3.1、拉链表设计

拉链表是一种维护历史状态以及最新状态数据的表，与快照表类似，算是在快照表的基础上去除了重复状态的数据；使用拉链表在更新频率和比例不是很大的情况下会十分节省存储。

3.1.1、示例

我们以背景需求为例，[Mysql]业务数据用户表如下：

id	name	phone	gender	create_time	update_time
1	jack	111	男	2023-06-01 13:00:00	2023-06-01 13:00:00
2	jason	222	男	2023-06-01 13:00:00	2023-06-01 13:00:00
3	tom	333	男	2023-06-01 13:00:00	2023-06-01 13:00:00

[Doris]此时实时同步到Doris的拉链表数据为：

id	name	phone	gender	create_time	update_time	start date	end date
1	jack	111	男	2023-06-01 13:00:00	2023-06-01 13:00:00	2023-06-01	9999-12-31
2	jason	222	男	2023-06-01 13:00:00	2023-06-01 13:00:00	2023-06-01	9999-12-31
3	tom	333	男	2023-06-01 13:00:00	2023-06-01 13:00:00	2023-06-01	9999-12-31

可以看到拉链表多了expire，start date，end date 三个字段，用于表示该条数据是否过期、开始时间及有效时间，下面会有说明

[Mysql] 2023-06-02 业务数据新增了一名用户，更新了tom的手机号，此时表数据如下：

id	name	phone	gender	create_time	update_time
1	jack	111	男	2023-06-01 13:00:00	2023-06-01 13:00:00
2	jason	222	男	2023-06-01 13:00:00	2023-06-01 13:00:00
3	tom	444	男	2023-06-01 13:00:00	2023-06-02 09:00:00
4	tony	555	男	2023-06-02 10:00:00	2023-06-02 10:00:00

加粗为更改/新增数据

[Doris]此时实时同步到Doris的拉链表数据为：

id	name	phone	gender	create_time	update_time	start_date	end_date	备注
1	jack	111	男	2023-06-01 13:00:00	2023-06-01 13:00:00	2023-06-01	9999-12-31
2	jason	222	男	2023-06-01 13:00:00	2023-06-01 13:00:00	2023-06-01	9999-12-31
3	tom	333	男	2023-06-01 13:00:00	2023-06-01 13:00:00	2023-06-01	2023-06-01	(由9999-12-31改为2023-06-01)
3	tom	444	男	2023-06-01 13:00:00	2023-06-02 09:00:00	2023-06-02	9999-12-31	(新增一条拉链数据)
4	tony	555	男	2023-06-02 10:00:00	2023-06-02 10:00:00	2023-06-02	9999-12-31	(新增一条最新用户数据)

由于tom的手机号被修改，根据拉链表特性此时会新增一条最新的tom数据，且过期时间为9999-12-31，旧数据不会删除而是将有效时间end date改为2023-06-01

[Mysql] 2023-06-03 当天多次更新业务数据jason用户的手机号，sql及表数据如下：

UPDATE `user` SET `phone`='333', `update_time`='2023-06-03 10:00:00' WHERE `id`=2;
UPDATE `user` SET `phone`='444', `update_time`='2023-06-03 12:00:00' WHERE `id`=2;
UPDATE `user` SET `phone`='555', `update_time`='2023-06-03 14:00:00' WHERE `id`=2;

id	name	phone	gender	create_time	update_time	备注
1	jack	111	男	2023-06-01 13:00:00	2023-06-01 13:00:00
2	jason	555	男	2023-06-01 13:00:00	2023-06-03 14:00:00	(jason手机号从222 -> 333 -> 444 -> 555更改了三次)
3	tom	444	男	2023-06-01 13:00:00	2023-06-02 09:00:00
4	tony	555	男	2023-06-02 10:00:00	2023-06-02 10:00:00

[Doris]此时实时同步到Doris的拉链表数据为：

id	name	phone	gender	create_time	update_time	expire	start_date	end_date	备注
1	jack	111	男	2023-06-01 13:00:00	2023-06-01 13:00:00	0	2023-06-01	9999-12-31
2	jason	222	男	2023-06-01 13:00:00	2023-06-01 13:00:00	0	2023-06-01	2023-06-02	(由9999-12-31改为2023-06-02)
2	jason	333	男	2023-06-01 13:00:00	2023-06-03 10:00:00	1	2023-06-03	2023-06-03	(当天更新多次的过期数据)
2	jason	444	男	2023-06-01 13:00:00	2023-06-03 12:00:00	1	2023-06-03	2023-06-03	(当天更新多次的过期数据)
2	jason	555	男	2023-06-01 13:00:00	2023-06-03 14:00:00	0	2023-06-03	9999-12-31	(新增一条拉链数据)
3	tom	333	男	2023-06-01 13:00:00	2023-06-01 13:00:00	0	2023-06-01	2023-06-01
3	tom	444	男	2023-06-01 13:00:00	2023-06-02 09:00:00	0	2023-06-02	9999-12-31
4	tony	555	男	2023-06-02 10:00:00	2023-06-02 10:00:00	0	2023-06-02	9999-12-31

使用 expire 字段来表示记录是否过期，下面会说明

说明

start_date表示该条记录的生命周期开始时间【第一次全量同步时为系统时间，增量同步时为update_time时间】，end_date表示该条记录的生命周期结束时间
end_date = '9999-12-31’表示该条记录为最新数据
end_date = '2023-06-02’表示该条记录仅在2023-06-02当日有效
expire字段用于标识记录的状态，1表示记录已过期，0表示记录有效。该字段目的是用于过滤那些在一天之内多次更新的数据
如果查询当前的最新记录，sql为：select * from user where end_date = ‘9999-12-31’
如果查询2023-06-02的历史快照，sql为：select * from user where start_date <= ‘2023-06-02’ and end_date >= ‘2023-06-02’ and expire = 0（此处是拉链表比较重要的一块）
解释上一条sql：需求是要查2023-06-02的历史快照，故start_date <= ‘2023-06-02’；而end_date = '2023-06-02’表示该条记录在2023-06-02当日是有效的，又因为end_date = '9999-12-31’表示目前一直处于有效状态【有可能从2023-06-02到目前一直有效的数据】，所以end_date >= ‘2023-06-02’
示例：查询2023-06-01日历史数据：select * from user where start_date <= ‘2023-06-01’ and end_date >= ‘2023-06-01’ and expore = 0

id	name	phone	gender	create_time	update_time	start date	end date
1	jack	111	男	2023-06-01 13:00:00	2023-06-01 13:00:00	2023-06-01	9999-12-31
2	jason	222	男	2023-06-01 13:00:00	2023-06-01 13:00:00	2023-06-01	2023-06-02
3	tom	333	男	2023-06-01 13:00:00	2023-06-01 13:00:00	2023-06-01	2023-06-01

示例：查询2023-06-02日历史数据：select * from user where start_date <= ‘2023-06-02’ and end_date >= ‘2023-06-02’ and expore = 0

id	name	phone	gender	create_time	update_time	start date	end date
1	jack	111	男	2023-06-01 13:00:00	2023-06-01 13:00:00	2023-06-01	9999-12-31
2	jason	222	男	2023-06-01 13:00:00	2023-06-01 13:00:00	2023-06-01	2023-06-02
3	tom	444	男	2023-06-01 13:00:00	2023-06-02 09:00:00	2023-06-02	9999-12-31
4	tony	555	男	2023-06-02 10:00:00	2023-06-02 10:00:00	2023-06-02	9999-12-31

示例：查询最新实时数据：select * from user where end_date = ‘9999-12-31’

id	name	phone	gender	create_time	update_time	start date	end date
1	jack	111	男	2023-06-01 13:00:00	2023-06-01 13:00:00	2023-06-01	9999-12-31
2	jason	555	男	2023-06-01 13:00:00	2023-06-03 14:00:00	2023-06-03	9999-12-31
3	tom	444	男	2023-06-01 13:00:00	2023-06-02 09:00:00	2023-06-02	9999-12-31
4	tony	555	男	2023-06-02 10:00:00	2023-06-02 10:00:00	2023-06-02	9999-12-31

3.1.2、建表设计

在Doris中的表设计中，采用了Unique数据模型，这个决策的背后有一个关键因素，即利用唯一Key来处理Flink作业崩溃和重新启动时的数据覆盖操作，以及通过下游的幂等性来确保端到端的数据一致性。

唯一Key的选择在这里起到了至关重要的作用。在拉链表中，由于用户ID可能重复出现的情况【例如2023-06-02号tom就有两条数据】，故选择了一个组合Key: UNIQUE KEY(id, update_time) 来确保数据的唯一性。这种设计使得无论在什么情况下，我们都能够通过这个唯一Key来维护数据的一致性，即使在处理实时数据时发生了异常情况或重新启动作业时也不会出现问题。

以上述为例建表语句如下：

CREATE TABLE IF NOT EXISTS example_user_zip
(
    `id` LARGEINT NOT NULL COMMENT "用户id",
    `update_time` DATETIME COMMENT "用户更新时间",
    `create_time` DATETIME COMMENT "用户注册时间",
    `name` VARCHAR(50) NOT NULL COMMENT "用户昵称",
    `phone` LARGEINT COMMENT "手机号",
    `gender` VARCHAR(5) COMMENT "用户性别",
    `expire` TINYINT DEFAULT '0' COMMENT "数据是否过期:0为有效,1为过期",
    `start_date` DATE COMMENT "开始时间",
    `end_date` DATE COMMENT "有效时间"
)
UNIQUE KEY(`id`, `update_time`) -- UNIQUE模型
COMMENT "用户拉链表"
DISTRIBUTED BY HASH(`id`) BUCKETS 32
PROPERTIES (
"replication_allocation" = "tag.location.default: 1"
);

关于doris更多数据模型可参考官网

3.2、实时同步逻辑【重要】

为了更清晰地解释拉链表的同步逻辑，我将以场景的方式逐步说明，如下：

全量更新
增量更新
1. 新增数据
2. 跨天更新数据
3. 某条数据当天多次更新
4. 删除数据
并发更新

3.2.1、全量更新

需先明确一点：拉链表的历史数据查询范围是从实时任务同步的那天开始，因为只有在实时任务开始同步的那一天之后，拉链表才正式形成，之前的历史数据是不可查询的。因此，当进行第一次全量同步时，我们会将 start_date 设置为当前系统日期。
另外，由于实时拉链表同步需要明确区分全量和增量更新，以及后续对 binlog 数据进行解析及判断增量更新操作类型，因此，Flink CDC SQL 方式的表建立不再满足我们的要求。为了更好地实现这一功能，我们需要采用 API 方式来构建解决方案，代码如下：

import org.apache.flink.api.common.eventtime.WatermarkStrategy;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import com.ververica.cdc.debezium.JsonDebeziumDeserializationSchema;
import com.ververica.cdc.connectors.mysql.source.MySqlSource;

public class MySqlSourceExample {
  public static void main(String[] args) throws Exception {
    MySqlSource<String> mySqlSource = MySqlSource.<String>builder()
        .hostname("yourHostname")
        .port(yourPort)
        .databaseList("yourDatabaseName") // 设置捕获的数据库， 如果需要同步整个数据库，请将 tableList 设置为 ".*".
        .tableList("yourDatabaseName.yourTableName") // 设置捕获的表
        .username("yourUsername")
        .password("yourPassword")
        .deserializer(new JsonDebeziumDeserializationSchema()) // 将 SourceRecord 转换为 JSON 字符串
        .build();

    StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();

    // 设置 3s 的 checkpoint 间隔
    env.enableCheckpointing(3000);

    env
      .fromSource(mySqlSource, WatermarkStrategy.noWatermarks(), "MySQL Source")
      // 设置 source 节点的并行度为 4
      .setParallelism(4)
      .print().setParallelism(1); // 设置 sink 节点并行度为 1 

    env.execute("Print MySQL Snapshot + Binlog");
  }
}

代码摘自mysql-cdc-connector官网示例

这里我们仍以2023-06-01的[Mysql]业务数据为例：

id	name	phone	gender	create_time	update_time
1	jack	111	男	2023-06-01 13:00:00	2023-06-01 13:00:00
2	jason	222	男	2023-06-01 13:00:00	2023-06-01 13:00:00
3	tom	333	男	2023-06-01 13:00:00	2023-06-01 13:00:00

此时Flink应用获取到的数据如下：仅展示一条

{
	"before": null,
	"after": {		 # 实际数据
		"id": 1,
		"name": "jack",
		"phone": "111",
		"gender": "男",
		"create_time": "2023-06-01T05:00:00Z",  # 该日期是UTC时间,只需增加8小时即可转化为北京时间
		"update_time": "2023-06-01T05:00:00Z"	# 该日期是UTC时间,只需增加8小时即可转化为北京时间
	},
	"source": {		 # 元数据
		"version": "1.6.4.Final",
		"connector": "mysql",
		"name": "mysql_binlog_source",
		"ts_ms": 0,
		"snapshot": "false",
		"db": "yushu_dds",
		"sequence": null,
		"table": "user",
		"server_id": 0,
		"gtid": null,
		"file": "",
		"pos": 0,
		"row": 0,
		"thread": null,
		"query": null
	},
	"op": "r",  	 # 记录每条数据的操作类型[重要]
	"ts_ms": 1705471382867,
	"transaction": null
}

在我们使用 Flink CDC MySQL 同步数据时，默认采用 initial 模式，这意味着首先进行全量同步，然后再进行增量同步。因此，在区分全量和增量同步时，关键在于观察获取到的数据中的 op 字段。op 字段是用来记录每条数据的操作类型的标志。具体的操作类型如下：
- op=d 代表删除操作
- op=u 代表更新操作
- op=c 代表新增操作
- op=r 代表全量读取，而不是来自 binlog 的增量读取
在 Flink 程序中，只需要通过 op=r 即可筛选出全量数据。在全量数据同步阶段，Doris 拉链表的 start_date 字段设置为系统当前日期，而 end_date 字段则设置为 ‘9999-12-31’。导入语句如下：

INSERT INTO example_user_zip (id, update_time, create_time, name, phone, gender, expire, start_date, end_date)
VALUES 
(1, '2023-06-01 13:00:00', '2023-06-01 13:00:00', 'jack', 111, '男', 0, '2023-06-01', '9999-12-31'),
(2, '2023-06-01 13:00:00', '2023-06-01 13:00:00', 'jason', 222, '男', 0, '2023-06-01', '9999-12-31'),
(3, '2023-06-01 13:00:00', '2023-06-01 13:00:00', 'tom', 333, '男', 0, '2023-06-01', '9999-12-31');

此时doris拉链表数据如下所示：

id	name	phone	gender	create_time	update_time	start_date	end date
1	jack	111	男	2023-06-01 13:00:00	2023-06-01 13:00:00	2023-06-01	9999-12-31
2	jason	222	男	2023-06-01 13:00:00	2023-06-01 13:00:00	2023-06-01	9999-12-31
3	tom	333	男	2023-06-01 13:00:00	2023-06-01 13:00:00	2023-06-01	9999-12-31

3.2.2、增量更新

当全量更新结束后即为增量更新，请注意以下内容：

在增量更新时，Doris 拉链表中的 start_date 字段【即开始时间】不再使用系统时间，而是业务数据的 update_time 截取后的日期。例如，update_time 为 “2023-06-02 13:00:00”，则对应的 start_date 为 “2023-06-02”。这么做的目的是为了确保使用事件时间来划分数据的开始时间，而不是系统时间。
举例来说，如果采用系统时间，假设实时同步任务某一天宕机并且没有重启，等到隔天再重启，那么 start_date 就会变成隔天日期，从而导致昨天的数据丢失。
为什么不使用业务数据的 create_time 作为拉链表的 start_date 呢？这是因为在业务数据更改时，通常只会更新 update_time。例如，2023-06-02 日更新了 “Tom” 的手机号码，此时同步到 Doris 新增的拉链数据如果使用 create_time，那么 start_date 仍然会是 “2023-06-01”，而实际上该条数据应该从 “2023-06-02” 日开始生效。因此，使用 update_time 更加合理，确保拉链表中的数据始终按照业务数据的更新时间来进行正确的版本管理。

接下来，我们将逐一讲解以下四个场景：新增更新、跨天更新、某条数据当天多次更新以及删除更新。

3.2.2.1、新增更新

我们仍以最初的示例为例：[Mysql] 2023-06-02 业务数据新增了一名用户，此时表数据如下：

id	name	phone	gender	create_time	update_time
1	jack	111	男	2023-06-01 13:00:00	2023-06-01 13:00:00
2	jason	222	男	2023-06-01 13:00:00	2023-06-01 13:00:00
3	tom	333	男	2023-06-01 13:00:00	2023-06-01 13:00:00
4	tony	555	男	2023-06-02 10:00:00	2023-06-02 10:00:00

加粗为更新/新增数据

此时Flink应用获取到的数据如下所示：

{
	"before": null,
	"after": {
		"id": 4,
		"name": "tony",
		"phone": "555",
		"gender": "男",
		"create_time": "2023-06-02T02:00:00Z",
		"update_time": "2023-06-02T02:00:00Z"
	},
	"source": {
		# 此处元数据省略
	},
	"op": "c",
	"ts_ms": 1705477497504,
	"transaction": null
}

可以看到op=c 代表新增操作，对于新增操作doris拉链表的start_end为业务数据的update_time，而end_date均设置为9999-12-31，导入语句如下：

INSERT INTO example_user_zip (id, update_time, create_time, name, phone, gender, expire, start_date, end_date)
VALUES 
(4, '2023-06-02 10:00:00', '2023-06-02 10:00:00', 'tony', 555, '男', 0, '2023-06-02', '9999-12-31');

此时doris拉链表内容如下所示：

id	name	phone	gender	create_time	update_time	start_date	end_date
1	jack	111	男	2023-06-01 13:00:00	2023-06-01 13:00:00	2023-06-01	9999-12-31
2	jason	222	男	2023-06-01 13:00:00	2023-06-01 13:00:00	2023-06-01	9999-12-31
3	tom	333	男	2023-06-01 13:00:00	2023-06-01 13:00:00	2023-06-01	9999-12-31
4	tony	555	男	2023-06-02 10:00:00	2023-06-02 10:00:00	2023-06-02	9999-12-31

加粗表示更新/新增数据

3.2.2.2、跨天更新

首先，解释一下为何要需要区分两种不同的更新场景：跨天更新和当天多次更新。这涉及到拉链表的历史数据粒度，拉链表通常以天为单位。如果一条数据在同一天内多次更新，那么每次更新后的数据的生存时间将只有几小时甚至几分钟。在这种情况下，我们希望在拉链表中将这种多次更新的临时数据设为过期数据；细节在后续会有讲解，先来解释跨天更新场景。

我们仍以最初的示例为例：[Mysql] 2023-06-02 业务数据更新了tom的手机号，此时表数据如下：

id	name	phone	gender	create_time	update_time
1	jack	111	男	2023-06-01 13:00:00	2023-06-01 13:00:00
2	jason	222	男	2023-06-01 13:00:00	2023-06-01 13:00:00
3	tom	444	男	2023-06-01 13:00:00	2023-06-02 09:00:00
4	tony	555	男	2023-06-02 10:00:00	2023-06-02 10:00:00

加粗为更新/新增数据

此时Flink应用获取到的数据如下所示：

{
	"before": {	 # 更新前的数据
		"id": 3,
		"name": "tom",
		"phone": "333",
		"gender": "男",
		"create_time": "2023-06-01T05:00:00Z",
		"update_time": "2023-06-01T05:00:00Z"
	},
	"after": {	# 更新后的数据
		"id": 3,
		"name": "tom",
		"phone": "444",  # 手机号更新
		"gender": "男",
		"create_time": "2023-06-01T05:00:00Z",
		"update_time": "2023-06-02T01:00:00Z"  # 更新时间更新
	},
	"source": {
		# 此处元数据省略
	},
	"op": "u",
	"ts_ms": 1705479637926,
	"transaction": null
}

当我们在Flink应用中遇到op=u（代表更新操作）时，首先需要检查before和after字段中的update_time是否跨越了天粒度。可能跨越一天，也可能跨越多天，我们将在Doris拉链表中执行两条SQL语句：一条更新语句和一条插入语句。
1. 对于更新语句，我们将更新拉链表中旧数据id的end_date字段，将其设置为after字段中update_time的前一天2023-06-01。
2. 对于插入语句，我们将插入after字段中的新数据，将start_date设置为update_time的日期，end_date设置9999-12-31），以确保该数据在拉链表中一直有效。
3. sql如下所示：

-- 更新语句：
UPDATE example_user_zip SET end_date = '2023-06-01' WHERE `id`=3 AND `update_time`='2023-06-01 13:00:00';

-- 插入语句：
INSERT INTO example_user_zip (id, update_time, create_time, name, phone, gender, expire, start_date, end_date)
VALUES 
(3, '2023-06-02 09:00:00', '2023-06-01 13:00:00', 'tom', 444, '男', 0, '2023-06-02', '9999-12-31');

此时doris拉链表内容如下所示：

id	name	phone	gender	create_time	update_time	start_date	end_date
1	jack	111	男	2023-06-01 13:00:00	2023-06-01 13:00:00	2023-06-01	9999-12-31
2	jason	222	男	2023-06-01 13:00:00	2023-06-01 13:00:00	2023-06-01	9999-12-31
3	tom	333	男	2023-06-01 13:00:00	2023-06-01 13:00:00	2023-06-01	2023-06-01
3	tom	444	男	2023-06-01 13:00:00	2023-06-02 09:00:00	2023-06-02	9999-12-31
4	tony	555	男	2023-06-02 10:00:00	2023-06-02 10:00:00	2023-06-02	9999-12-31

加粗表示更新/新增数据

此时若要查看2023-06-01历史数据只需执行：

SELECT * FROM example_user_zip WHERE start_date <= '2023-06-01' AND end_date >= '2023-06-01' AND expire = 0;

id	name	phone	gender	create_time	update_time	start date	end date
1	jack	111	男	2023-06-01 13:00:00	2023-06-01 13:00:00	2023-06-01	9999-12-31
2	jason	222	男	2023-06-01 13:00:00	2023-06-01 13:00:00	2023-06-01	9999-12-31
3	tom	333	男	2023-06-01 13:00:00	2023-06-01 13:00:00	2023-06-01	2023-06-01

3.2.2.3、某条数据当天多次更新

在我们的拉链表中，数据的粒度是以天为单位。如果一条数据在同一天内多次更新，我们的处理策略是取最后一次更新为有效数据，而将之前的更新标记为过期数据。为了标记数据是否过期，我们会将过期数据的expire字段设置为1。

我们仍以最初的示例为例：[Mysql] 2023-06-03 当天多次更新业务数据jason用户的手机号，sql及表数据如下：

UPDATE `user` SET `phone`='333', `update_time`='2023-06-03 10:00:00' WHERE `id`=2;
UPDATE `user` SET `phone`='444', `update_time`='2023-06-03 12:00:00' WHERE `id`=2;
UPDATE `user` SET `phone`='555', `update_time`='2023-06-03 14:00:00' WHERE `id`=2;

id	name	phone	gender	create_time	update_time	备注
1	jack	111	男	2023-06-01 13:00:00	2023-06-01 13:00:00
2	jason	555	男	2023-06-01 13:00:00	2023-06-03 14:00:00	(jason手机号从222 -> 333 -> 444 -> 555更改了三次)
3	tom	444	男	2023-06-01 13:00:00	2023-06-02 09:00:00
4	tony	555	男	2023-06-02 10:00:00	2023-06-02 10:00:00

此时Flink应用获取到的数据如下所示：

{
	"before": {
		"id": 2,
		"name": "jason",
		"phone": "222",
		"gender": "男",
		"create_time": "2023-06-01T05:00:00Z",
		"update_time": "2023-06-01T05:00:00Z"
	},
	"after": {
		"id": 2,
		"name": "jason",
		"phone": "333",
		"gender": "男",
		"create_time": "2023-06-01T05:00:00Z",
		"update_time": "2023-06-03T02:00:00Z"
	},
	"source": {
		# 元数据忽略		
	},
	"op": "u",
	"ts_ms": 1705548298335,
	"transaction": null
},
{
	"before": {
		"id": 2,
		"name": "jason",
		"phone": "333",
		"gender": "男",
		"create_time": "2023-06-01T05:00:00Z",
		"update_time": "2023-06-03T02:00:00Z"
	},
	"after": {
		"id": 2,
		"name": "jason",
		"phone": "444",
		"gender": "男",
		"create_time": "2023-06-01T05:00:00Z",
		"update_time": "2023-06-03T04:00:00Z"
	},
	"source": {
		# 元数据忽略		
	},
	"op": "u",
	"ts_ms": 1705548298392,
	"transaction": null
},
{
	"before": {
		"id": 2,
		"name": "jason",
		"phone": "444",
		"gender": "男",
		"create_time": "2023-06-01T05:00:00Z",
		"update_time": "2023-06-03T04:00:00Z"
	},
	"after": {
		"id": 2,
		"name": "jason",
		"phone": "555",
		"gender": "男",
		"create_time": "2023-06-01T05:00:00Z",
		"update_time": "2023-06-03T06:00:00Z"
	},
	"source": {
		# 元数据忽略
	},
	"op": "u",
	"ts_ms": 1705548298484,
	"transaction": null
}

当我们在Flink应用中遇到op=u（代表更新操作），且检查before和after字段中的update_time属于同一天，我们将在Doris拉链表中执行两条SQL语句：一条更新语句和一条插入语句。

对于更新语句，我们将更新拉链表中旧数据id的expire字段设置为1，将其设置为end_date字段值设置为update_time的当天日期2023-06-03。
对于插入语句，我们将插入after字段中的新数据，将start_date设置为update_time的当天日期，end_date设置9999-12-31），以确保该数据在拉链表中一直有效。
sql如下所示：

-- 222 -> 333 跨天更新语句：
UPDATE example_user_zip SET end_date = '2023-06-02' WHERE `id`=2 AND `update_time`='2023-06-01 13:00:00';

-- 222 -> 333 跨天插入语句：
INSERT INTO example_user_zip (id, update_time, create_time, name, phone, gender, expire, start_date, end_date)
VALUES 
(2, '2023-06-03 10:00:00', '2023-06-01 13:00:00', 'jason', 333, '男', 0, '2023-06-03', '9999-12-31');

-- 333 -> 444 同一天更新语句：
UPDATE example_user_zip SET expire = 1, end_date = '2023-06-03' WHERE `id`=2 AND `update_time`='2023-06-03 10:00:00';

-- 333 -> 444 同一天插入语句：
INSERT INTO example_user_zip (id, update_time, create_time, name, phone, gender, expire, start_date, end_date)
VALUES 
(2, '2023-06-03 12:00:00', '2023-06-01 13:00:00', 'jason', 444, '男', 0, '2023-06-03', '9999-12-31');

-- 444 -> 555 同一天更新语句：
UPDATE example_user_zip SET expire = 1, end_date = '2023-06-03' WHERE `id`=2 AND `update_time`='2023-06-03 12:00:00';

-- 444 -> 555 同一天插入语句：
INSERT INTO example_user_zip (id, update_time, create_time, name, phone, gender, expire, start_date, end_date)
VALUES 
(2, '2023-06-03 14:00:00', '2023-06-01 13:00:00', 'jason', 555, '男', 0, '2023-06-03', '9999-12-31');

此时doris拉链表内容如下所示：

id	name	phone	gender	create_time	update_time	expire	start_date	end_date	备注
1	jack	111	男	2023-06-01 13:00:00	2023-06-01 13:00:00	0	2023-06-01	9999-12-31
2	jason	222	男	2023-06-01 13:00:00	2023-06-01 13:00:00	0	2023-06-01	2023-06-02	(由9999-12-31改为2023-06-02)
2	jason	333	男	2023-06-01 13:00:00	2023-06-03 10:00:00	1	2023-06-03	2023-06-03	(当天更新多次的过期数据)
2	jason	444	男	2023-06-01 13:00:00	2023-06-03 12:00:00	1	2023-06-03	2023-06-03	(当天更新多次的过期数据)
2	jason	555	男	2023-06-01 13:00:00	2023-06-03 14:00:00	0	2023-06-03	9999-12-31	(新增一条最新数据)
3	tom	333	男	2023-06-01 13:00:00	2023-06-01 13:00:00	0	2023-06-01	2023-06-01
3	tom	444	男	2023-06-01 13:00:00	2023-06-02 09:00:00	0	2023-06-02	9999-12-31
4	tony	555	男	2023-06-02 10:00:00	2023-06-02 10:00:00	0	2023-06-02	9999-12-31

此时若要查看2023-06-03历史数据只需执行：

SELECT * FROM example_user_zip WHERE start_date <= '2023-06-03' AND end_date >= '2023-06-03' AND expire = 0;

id	name	phone	gender	create_time	update_time	start_date	end_date
1	jack	111	男	2023-06-01 13:00:00	2023-06-01 13:00:00	2023-06-01	9999-12-31
2	jason	222	男	2023-06-01 13:00:00	2023-06-01 13:00:00	2023-06-01	2023-06-02
3	tom	444	男	2023-06-01 13:00:00	2023-06-02 09:00:00	2023-06-02	9999-12-31
4	tony	555	男	2023-06-02 10:00:00	2023-06-02 10:00:00	2023-06-02	9999-12-31

3.2.2.4、删除更新

由于[Mysql]业务数据都具备唯一键，故业务数据的删除同步至拉链表无需判断是否跨天，只需更新删除数据的end_date日期为前一天即可。

[Mysql] 2023-06-04 当天删除业务数据jack，表数据如下：

id	name	phone	gender	create_time	update_time	备注
2	jason	555	男	2023-06-01 13:00:00	2023-06-03 14:00:00	(jason手机号从222 -> 333 -> 444 -> 555更改了三次)
3	tom	444	男	2023-06-01 13:00:00	2023-06-02 09:00:00
4	tony	555	男	2023-06-02 10:00:00	2023-06-02 10:00:00

此时Flink应用获取到的数据如下所示：

{
	"before": {
		"id": 1,
		"name": "jack",
		"phone": "111",
		"gender": "男",
		"create_time": "2023-06-01T05:00:00Z",
		"update_time": "2023-06-01T05:00:00Z"
	},
	"after": null,
	"source": {
		# 忽略元数据
	},
	"op": "d", 	# 操作类型
	"ts_ms": 1705561813650,
	"transaction": null
}

可以看到op=d 代表删除操作，对于删除操作doris拉链表只需将before数据的date_date日期更新为前一日2023-06-03，导入语句如下：

-- 更新语句
UPDATE example_user_zip SET end_date = '2023-06-03' WHERE `id`=1 AND `update_time`='2023-06-01 13:00:00';

此时doris拉链表内容如下所示：

id	name	phone	gender	create_time	update_time	expire	start_date	end_date	备注
1	jack	111	男	2023-06-01 13:00:00	2023-06-01 13:00:00	0	2023-06-01	2023-06-03	(由9999-12-31改为2023-06-03)
2	jason	222	男	2023-06-01 13:00:00	2023-06-01 13:00:00	0	2023-06-01	2023-06-02
2	jason	333	男	2023-06-01 13:00:00	2023-06-03 10:00:00	1	2023-06-03	2023-06-03
2	jason	444	男	2023-06-01 13:00:00	2023-06-03 12:00:00	1	2023-06-03	2023-06-03
2	jason	555	男	2023-06-01 13:00:00	2023-06-03 14:00:00	0	2023-06-03	9999-12-31
3	tom	333	男	2023-06-01 13:00:00	2023-06-01 13:00:00	0	2023-06-01	2023-06-01
3	tom	444	男	2023-06-01 13:00:00	2023-06-02 09:00:00	0	2023-06-02	9999-12-31
4	tony	555	男	2023-06-02 10:00:00	2023-06-02 10:00:00	0	2023-06-02	9999-12-31

此时若要查看2023-06-04数据只需执行：

SELECT * FROM example_user_zip WHERE start_date <= '2023-06-04' AND end_date >= '2023-06-04' AND expire = 0;

id	name	phone	gender	create_time	update_time	start_date	end_date
2	jason	222	男	2023-06-01 13:00:00	2023-06-01 13:00:00	2023-06-01	2023-06-02
3	tom	444	男	2023-06-01 13:00:00	2023-06-02 09:00:00	2023-06-02	9999-12-31
4	tony	555	男	2023-06-02 10:00:00	2023-06-02 10:00:00	2023-06-02	9999-12-31

3.2.3、并发更新

这里单独强调并发更新场景是因为在关系型数据库中，例如MySQL，通常使用timestamp类型来表示update_time，而该数据类型的最细粒度是秒。因此，当多个并发操作同时更新同一条数据时，update_time的值只会发生一次变化，但会产生多条binlog日志。由于Doris的拉链表以id + update_time作为唯一键，这种情况下会导致同一条数据多次更新。因此，这里单独讲解并发更新的情况。

需要注意的是，并发问题只存在于更新操作，删除和创建操作不会出现上述问题。

[Mysql] 2023-06-05 当天 15:00:00 并发更新业务数据tony的手机号，表数据如下：

id	name	phone	gender	create_time	update_time	备注
2	jason	555	男	2023-06-01 13:00:00	2023-06-03 14:00:00
3	tom	444	男	2023-06-01 13:00:00	2023-06-02 09:00:00
4	tony	777	男	2023-06-02 10:00:00	2023-06-05 15:00:00	(tony手机号从555-> 666-> 777 并发更改两次)

此时Flink应用获取到的数据如下所示：

{
	"before": {
		"id": 4,
		"name": "tony",
		"phone": "555",
		"gender": "男",
		"create_time": "2023-06-02T02:00:00Z",
		"update_time": "2023-06-02T02:00:00Z"
	},
	"after": {
		"id": 4,
		"name": "tony",
		"phone": "666",
		"gender": "男",
		"create_time": "2023-06-02T02:00:00Z",
		"update_time": "2023-06-05T07:00:00Z"
	},
	"source": {
		# 元数据忽略
	},
	"op": "u",
	"ts_ms": 1705564093414,
	"transaction": null
},
{
	"before": {
		"id": 4,
		"name": "tony",
		"phone": "666",
		"gender": "男",
		"create_time": "2023-06-02T02:00:00Z",
		"update_time": "2023-06-05T07:00:00Z"
	},
	"after": {
		"id": 4,
		"name": "tony",
		"phone": "777",
		"gender": "男",
		"create_time": "2023-06-02T02:00:00Z",
		"update_time": "2023-06-05T07:00:00Z"
	},
	"source": {
		# 元数据忽略
	},
	"op": "u",
	"ts_ms": 1705564093478,
	"transaction": null
}

可以看到op=u 代表更新操作，这里我们仍沿用增量更新的逻辑，第一条日志中业务数据555->666属于跨天更新，第二条日志中业务数据666->777属于一条数据当天多次更新，DorisSql如下所示：

-- 555 -> 666 跨天更新语句：
UPDATE example_user_zip SET end_date = '2023-06-04' WHERE `id`=4 AND `update_time`='2023-06-02 10:00:00';

-- 555 -> 666 跨天插入语句：
INSERT INTO example_user_zip (id, update_time, create_time, name, phone, gender, expire, start_date, end_date)
VALUES 
(4, '2023-06-05 15:00:00', '2023-06-02 10:00:00', 'tony', 666, '男', 0, '2023-06-05', '9999-12-31');

-- 666 -> 777 同一天更新语句：
UPDATE example_user_zip SET expire = 1, end_date = '2023-06-05' WHERE `id`=4 AND `update_time`='2023-06-05 15:00:00';

-- 666 -> 777 同一天插入语句：
INSERT INTO example_user_zip (id, update_time, create_time, name, phone, gender, expire, start_date, end_date)
VALUES 
(4, '2023-06-05 15:00:00', '2023-06-02 10:00:00', 'tony', 777, '男', 0, '2023-06-05', '9999-12-31');

此时doris拉链表内容如下所示：

id	name	phone	gender	create_time	update_time	expire	start_date	end_date	备注
1	jack	111	男	2023-06-01 13:00:00	2023-06-01 13:00:00	0	2023-06-01	2023-06-03
2	jason	222	男	2023-06-01 13:00:00	2023-06-01 13:00:00	0	2023-06-01	2023-06-02
2	jason	333	男	2023-06-01 13:00:00	2023-06-03 10:00:00	1	2023-06-03	2023-06-03
2	jason	444	男	2023-06-01 13:00:00	2023-06-03 12:00:00	1	2023-06-03	2023-06-03
2	jason	555	男	2023-06-01 13:00:00	2023-06-03 14:00:00	0	2023-06-03	9999-12-31
3	tom	333	男	2023-06-01 13:00:00	2023-06-01 13:00:00	0	2023-06-01	2023-06-01
3	tom	444	男	2023-06-01 13:00:00	2023-06-02 09:00:00	0	2023-06-02	9999-12-31
4	tony	555	男	2023-06-02 10:00:00	2023-06-02 10:00:00	0	2023-06-02	2023-06-04	(由9999-12-31改为2023-06-04)
4	tony	777	男	2023-06-02 10:00:00	2023-06-05 15:00:00	0	2023-06-05	9999-12-31	(新增一条最新数据)

此时可以看到新增了一条Tony的数据，有些人可能注意到少了一条姓名为Tony、手机号为666、expire字段为1的数据。这是因为最后的更新和插入语句中的id + update_time完全一致，触发了Doris的replace替换操作。因此，最后一条插入语句覆盖了前一条更新语句，即"Tony, 666, expire=1"的数据被覆盖掉了。而这种替换操作反而变相解决了并发更新的问题。

此时若要查看2023-06-04数据只需执行：

SELECT * FROM example_user_zip WHERE start_date <= '2023-06-05' AND end_date >= '2023-06-05' AND expire = 0;

id	name	phone	gender	create_time	update_time	start_date	end_date
2	jason	222	男	2023-06-01 13:00:00	2023-06-01 13:00:00	2023-06-01	2023-06-02
3	tom	444	男	2023-06-01 13:00:00	2023-06-02 09:00:00	2023-06-02	9999-12-31
4	tony	777	男	2023-06-02 10:00:00	2023-06-05 15:00:00	2023-06-05	9999-12-31

此时有些同学会提出问题，即这个情况和上文中的跨天更新以及当天多次更新的逻辑有何不同? 似乎没有特殊的操作逻辑。确实，从逻辑上看，这两种情况是一致的。这是因为我们先执行更新操作，然后再执行新增操作。如果我们反过来，先执行新增操作，然后再执行更新操作，就会导致数据丢失。接下来，让我们看一下如果先执行新增操作再执行更新操作会发生什么情况。首先，我们将Doris拉链表恢复到前一天，如下所示：

id	name	phone	gender	create_time	update_time	expire	start_date	end_date	备注
1	jack	111	男	2023-06-01 13:00:00	2023-06-01 13:00:00	0	2023-06-01	2023-06-03	(由9999-12-31改为2023-06-03)
2	jason	222	男	2023-06-01 13:00:00	2023-06-01 13:00:00	0	2023-06-01	2023-06-02
2	jason	333	男	2023-06-01 13:00:00	2023-06-03 10:00:00	1	2023-06-03	2023-06-03
2	jason	444	男	2023-06-01 13:00:00	2023-06-03 12:00:00	1	2023-06-03	2023-06-03
2	jason	555	男	2023-06-01 13:00:00	2023-06-03 14:00:00	0	2023-06-03	9999-12-31
3	tom	333	男	2023-06-01 13:00:00	2023-06-01 13:00:00	0	2023-06-01	2023-06-01
3	tom	444	男	2023-06-01 13:00:00	2023-06-02 09:00:00	0	2023-06-02	9999-12-31
4	tony	555	男	2023-06-02 10:00:00	2023-06-02 10:00:00	0	2023-06-02	9999-12-31

接下来我们将更新插入操作调换顺序，sql如下所示：

-- 555 -> 666 跨天插入语句：
INSERT INTO example_user_zip (id, update_time, create_time, name, phone, gender, expire, start_date, end_date)
VALUES 
(4, '2023-06-05 15:00:00', '2023-06-02 10:00:00', 'tony', 666, '男', 0, '2023-06-05', '9999-12-31');

-- 555 -> 666 跨天更新语句：
UPDATE example_user_zip SET end_date = '2023-06-04' WHERE `id`=4 AND `update_time`='2023-06-02 10:00:00';

-- 666 -> 777 同一天插入语句：
INSERT INTO example_user_zip (id, update_time, create_time, name, phone, gender, expire, start_date, end_date)
VALUES 
(4, '2023-06-05 15:00:00', '2023-06-02 10:00:00', 'tony', 777, '男', 0, '2023-06-05', '9999-12-31');

-- 666 -> 777 同一天更新语句：
UPDATE example_user_zip SET expire = 1, end_date = '2023-06-05' WHERE `id`=4 AND `update_time`='2023-06-05 15:00:00';

此时doris拉链表内容如下所示：

id	name	phone	gender	create_time	update_time	expire	start_date	end_date	备注
1	jack	111	男	2023-06-01 13:00:00	2023-06-01 13:00:00	0	2023-06-01	2023-06-03
2	jason	222	男	2023-06-01 13:00:00	2023-06-01 13:00:00	0	2023-06-01	2023-06-02
2	jason	333	男	2023-06-01 13:00:00	2023-06-03 10:00:00	1	2023-06-03	2023-06-03
2	jason	444	男	2023-06-01 13:00:00	2023-06-03 12:00:00	1	2023-06-03	2023-06-03
2	jason	555	男	2023-06-01 13:00:00	2023-06-03 14:00:00	0	2023-06-03	9999-12-31
3	tom	333	男	2023-06-01 13:00:00	2023-06-01 13:00:00	0	2023-06-01	2023-06-01
3	tom	444	男	2023-06-01 13:00:00	2023-06-02 09:00:00	0	2023-06-02	9999-12-31
4	tony	555	男	2023-06-02 10:00:00	2023-06-02 10:00:00	0	2023-06-02	2023-06-04	(由9999-12-31改为2023-06-04)
4	tony	777	男	2023-06-02 10:00:00	2023-06-05 15:00:00	1	2023-06-05	2023-06-05	(更新拉链数据)

可以看到已经没有tony的最新数据了。

此时查看2023-06-05数据执行：只有两条数据

SELECT * FROM example_user_zip WHERE start_date <= '2023-06-05' AND end_date >= '2023-06-05' AND expire = 0;

id	name	phone	gender	create_time	update_time	start_date	end_date
2	jason	222	男	2023-06-01 13:00:00	2023-06-01 13:00:00	2023-06-01	2023-06-02
3	tom	444	男	2023-06-01 13:00:00	2023-06-02 09:00:00	2023-06-02	9999-12-31

根据以上的测试结果，我们可以得出以下结论：当涉及到更新操作时，最好的做法是先执行更新，然后再执行插入操作。这种顺序可以有效避免并发更新问题。

此外，在实时引擎中处理数据通常涉及到分布式计算，因此需要特别注意确保相同ID的数据只在一个线程中按顺序执行，而不是让执行器01执行Tony的更新操作，而执行器02执行Tony的插入操作。相反，应该将具有相同ID的数据放置在同一个执行器中执行，以确保顺序性和一致性。这对于处理并发更新场景非常重要。

四、总结

本文我们深入探讨了如何使用Apache Flink实现实时数据仓库中拉链表的同步。拉链表是一种重要的数据模型，用于跟踪数据的历史变化，以便在分析和报告中提供准确的历史视图。我们介绍了如何借助Flink以及其他相关技术构建一个强大的实时同步引擎，以应对多种数据同步场景。

我们首先介绍了传统Lambda架构到实时同步+拉链表单引擎架构它们之间的区别。随后，我们深入讨论了Flink CDC（Change Data Capture）和Doris数据库的结合使用，以实现实时数据同步的基础架构。我们详细讨论了全量同步和增量同步两种关键同步模式，以及如何应对不同的更新场景。

在全文中，强调了以下关键点：

实时同步+拉链表单引擎架构的设计和实施。
全量同步和增量同步是实时数据仓库同步的两种关键模式，详细介绍了它们的实现逻辑。
跨天更新和当天多次更新是需要特别注意的场景，提供了解决方案以确保数据的完整性。
并发更新可能导致数据重复，需要采取适当的措施来应对。

通过深入了解实时同步和拉链表的实现细节，读者可以更好地理解如何构建强大的实时数据仓库，并满足不断变化的业务需求。

五、相关资料

Doris 数据模型
MySQL CDC Connector
深入数仓离线数据同步：问题分析与优化措施

你可能感兴趣的:(大数据,实时数仓,flink,大数据,数据仓库,拉链表,doris)

【LeetCode 热题 100】24. 两两交换链表中的节点——（解法一）迭代+哨兵 xumistore LeetCode leetcode 链表算法 java
Problem:24.两两交换链表中的节点题目：给你一个链表，两两交换其中相邻的节点，并返回交换后链表的头节点。你必须在不修改节点内部的值的情况下完成本题（即，只能进行节点交换）。文章目录整体思路完整代码时空复杂度时间复杂度：O(N)空间复杂度：O(1)整体思路这段代码旨在解决一个经典的链表操作问题：两两交换链表中的节点(SwapNodesinPairs)。问题要求将链表中每两个相邻的节点进行交换
Leetcode 148. 排序链表
文章目录前引题目代码（首刷看题解）代码（8.9二刷部分看解析）代码（9.15三刷部分看解析）前引综合性比较强的一道题，要求时间复杂度必须O(logn)才能通过，最适合链表的排序算法就是归并。这里采用自顶向下的方法步骤：找到链表中点（双指针）对两个子链表排序(递归，直到只有一个结点，记得将子链表最后指向nullptr）归并（引入dummy结点）题目Leetcode148.排序链表代码（首刷看题解）c
LeetCode 148. 排序链表：归并排序的细节解析进击的小白菜 2025 Top100 详解 leetcode 链表算法
文章目录题目描述一、方法思路：归并排序的核心步骤二、关键实现细节：快慢指针分割链表1.快慢指针的初始化问题2.为什么选择`fast=head.next`？示例1：链表长度为偶数（`1->2->3->4`）三、完整代码实现四、复杂度分析五、总结题目描述LeetCode148题要求对链表进行排序，时间复杂度需为O(nlogn)，且空间复杂度为O(logn)。由于链表的特殊结构（无法随机访问），归并排序
rocketmq的重试队列和死信队列还不够 MQ
原文：https://www.jianshu.com/p/1281f7fee69c消费端，一直不回传消费的结果。rocketmq认为消息没收到，consumer下一次拉取，broker依然会发送该消息。所以，任何异常都要捕获返回ConsumeConcurrentlyStatus.RECONSUME_LATERrocketmq会放到重试队列。这个重试TOPIC的名字是%RETRY%+consumer
数字孪生技术为UI前端注入新活力：实现产品设计的沉浸式体验 ui设计前端开发老司机 ui
hello宝子们...我们是艾斯视觉擅长ui设计、前端开发、数字孪生、大数据、三维建模、三维动画10年+经验!希望我的分享能帮助到您!如需帮助可以评论关注私信我们一起探讨!致敬感谢感恩!一、引言：从“平面交互”到“沉浸体验”的UI革命当用户在电商APP中翻看3D家具模型却无法感知其与自家客厅的匹配度，当设计师在2D屏幕上绘制汽车内饰却难以预判实际乘坐体验——传统UI设计的“平面化、静态化、割裂感”
[特殊字符] 实时数据洪流突围战：Flink+Paimon实现毫秒级分析的架构革命（附压测报告）——日均百亿级数据处理成本降低60%的工业级方案 Lucas55555555 flink 大数据
引言：流批一体的时代拐点据阿里云2025白皮书显示，实时数据处理需求年增速达240%，但传统Lambda架构资源消耗占比超运维成本的70%。某电商平台借助Flink+Paimon重构实时数仓后，端到端延迟从分钟级压缩至800ms，计算资源节省5.6万核/月。技术红利窗口期：2025年ApachePaimon1.0正式发布，支持秒级快照与湖仓一体，成为替代Iceberg的新范式一、痛点深挖：实时数仓
LeetCode Hot 100 回文链表源 leetcode 链表算法
给你一个单链表的头节点head，请你判断该链表是否为回文链表。如果是，返回true；否则，返回false。示例1：输入：head=[1,2,2,1]输出：true示例2：输入：head=[1,2]输出：false提示：链表中节点数目在范围[1,105]内0vals;while(head!=nullptr){vals.emplace_back(head->val);head=head->next;}
list的一些特性（C++） 2401_89195731 c++开发语言
C++STL库中的std::list是一个带头双向循环链表，使用之前需要包头文件，它和vector的使用高度类似。构造list支持多种构造方式默认构造函数：创建一个空的列表。拷贝构造函数：从另一个相同类型的列表创建一个新的列表。范围构造函数：从一对迭代器指定的范围内复制元素到新的列表中。初始值列表构造函数：使用初始化列表（initializerlist）创建一个包含指定元素的列表。填充构造函数：创
提升企业级数据处理效率！TDengine 四个集群优化点详解 TDengine （老段） TDengine 运维大数据数据库物联网时序数据库服务器运维 tdengine
为了帮助企业更好地进行大数据处理，我们在此前TDengine3.x系列版本中进行了几项与集群相关的优化和新功能开发，以提升集群的稳定性和在异常情况下的恢复能力。这些优化包括clusterID隔离、leaderrebalance、raftlearner和restorednode。本文将对这几项重要优化进行详细阐述，以解答企业在此领域的疑问，并帮助大家更好地应对相关挑战。clusterID隔离问题fi
【运维实战】解决 K8s 节点无法拉取 pause:3.6 镜像导致 API Server 启动失败的问题 gs80140 各种问题运维 kubernetes 容器
目录【运维实战】解决K8s节点无法拉取pause:3.6镜像导致APIServer启动失败的问题问题分析✅解决方案：替代拉取方式导入pause镜像Step1.从私有仓库拉取pause镜像Step2.重新打tag为Kubernetes默认命名Step3.导出镜像为tar包Step4.拷贝镜像到目标节点Step5.在目标节点导入镜像到containerd的k8s.io命名空间Step6.验证镜像是否导
Ubuntu 安装 RAGFlow 简单流程 steven_41936912 ubuntu linux RAGFlow
Docker拉取镜像慢可以更换镜像源sudotee/etc/docker/daemon.json<<-'EOF'{"registry-mirrors":["https://docker.m.daocloud.io","https://docker.imgdb.de","https://docker-0.unsee.tech","https://docker.hlmirror.com","https
基于 openEuler 24.03 (LTS-SP1)：彻底解决 containerd 拉取私有仓库镜像时的 x509 自签证书报错问题 gs80140 各种问题 ansible ssl x509
目录基于openEuler24.03(LTS-SP1)：彻底解决containerd拉取私有仓库镜像时的x509自签证书报错问题摘要❗️问题背景✅解决方案（官方推荐根证书信任法）步骤一：准备自签CA文件步骤二：复制证书至系统信任目录步骤三：刷新系统信任根证书步骤四：重启containerd服务步骤五：验证拉取是否成功故障排查建议参考配置（非必须）✅总结基于openEuler24.03(LTS-SP
Java中hashmap的原理好好沉淀笔记学习 java 经验分享
是什么hashmap底层是由哈希表组成，用于存储键值对的，其核心就是将哈希值映射到数组索引位置上，通过数组+链条的方式来解决哈希冲突，java8之后优化成数组+链条+红黑树。存放hashmap的哈希值由hashcode方法来进行计算，确定存储在数组上的位置，哈希值进过计算之后可能会重复，此时直接加在链表上即可，防止冲突分布不均。扩容hashmap的数组默认长度是16，负载因子是0.75，当大于16
中国银联豪掷1亿采购海光C86架构服务器信创新态势海光芯片 C86 国产芯片海光信息
近日，中国银联国产服务器采购大单正式敲定，基于海光C86架构的服务器产品中标，项目金额超过1亿元。接下来，C86服务器将用于支撑中国银联的虚拟化、大数据、人工智能、研发测试等技术场景，进一步提升其业务处理能力、用户服务效率和信息安全水平。作为我国重要的银行卡组织和金融基础设施，中国银联在全球183个国家和地区设有银联受理网络，境内外成员机构超过2600家，是世界三大银行卡品牌之一。此次中国银联发力
在拉卡拉分账功能中实现实时更新，需结合异步回调通知和数据库事务来确保数据一致性。以下是具体实现方案肥仔全栈开发拉卡拉支付 php 拉卡拉支付三方支付
一、实时更新的核心逻辑依赖拉卡拉分账回调拉卡拉分账完成后会主动推送回调通知（类似支付回调），需监听该回调并更新订单分账状态。数据库事务保障分账金额更新、状态变更等操作需放在事务中，避免部分失败导致数据不一致。二、代码实现1.分账回调处理接口（监听拉卡拉分账结果推送，实时更新数据库）//文件：application/api/controller/Notify.phppublicfunctionlak
Likeshop单商户高级版对接拉卡拉支付收银台接入全流程详解肥仔全栈开发拉卡拉支付拉卡拉支付小程序
一、前期准备（1-3个工作日）商户认证在拉卡拉官网注册企业商户账号，提交营业执照、法人身份证等材料，完成实名认证并获取商户号（MCHID）和API密钥。在拉卡拉开发者后台下载API文档（含接口参数说明）和SDK工具包（支持Java/PHP等语言）。配置参数在Likeshop后台设置拉卡拉支付参数：商户号、API密钥、异步通知地址（如https://yourdomain.com/notify）。将拉
对接拉卡拉聚合收银台支付指南一叶飘零_sweeeet 果酱紫 java java 支付支付宝支付微信支付拉卡拉支付
今天我将详细介绍如何对接拉卡拉聚合收银台支付，并指出其中应注意的点。我希望这篇文章能够帮助那些正在寻找如何实现这个功能的开发者。一、拉卡拉聚合收银台支付简介拉卡拉聚合收银台支付是一种整合了多种支付方式的支付服务，包括但不限于微信支付、支付宝支付、银联支付等。它为商户提供了一个统一的支付入口，使得商户无需分别接入各种支付方式，从而大大简化了支付过程。二、对接拉卡拉聚合收银台支付的步骤1.注册并配置拉
5G UE注册-建立会话-释放会话-UE注销信令流程 nonamelake 5g
1.画这个流程图的原因3GPP组织估计跟某厂一样部门墙较重，核心网和无线各搞各的标准，为什么内部不拉通一下，搞个端到端的信令流程，好让我等菜鸟能学的容易点。看着3GPP协议里的信令流程，真心看不懂啊，不信你们瞧瞧下面这几张图。2.3GPP里的5GUE注册流程+PDU会话建立流程+PDU会话释放流程+UE注销流程3.自己动手画流程图我看到上面的4张图就头晕呀，实线+虚线+大箭头，而且有些信令的名字和
全面探索Kafka：架构、应用与流处理
Kafka：企业级消息系统与流处理平台的深度解析ApacheKafka作为分布式流处理平台，广泛应用于大数据处理和实时分析领域。本文将基于其官方文档，详细探讨Kafka的核心功能、应用场景以及如何进行有效管理。背景简介Kafka作为高吞吐量的消息系统，支持企业级的发布-订阅模式。它能够处理大量实时数据，并支持高并发读写操作。本文将依据Kafka官方文档的内容，逐层深入，从入门到高级应用，帮助读者全
Doris用户管理 Edingbrugh.南空运维大数据数据库 sql
用户管理是Doris权限体系的核心，所有用户操作均依赖于严格的权限控制。本文将用户管理操作与对应权限要求深度绑定，详细说明用户创建、修改、删除等全流程的权限边界及操作规范。一、用户标识与权限基础用户标识（UserIdentity）唯一标识格式：username@'userhost'，其中：username：用户名称（大小写敏感）userhost：登录IP限制（支持%通配符，如192.168.%）示
Flink 2.0 DataStream算子全景 Edingbrugh.南空大数据 flink flink 人工智能
在实时流处理中，ApacheFlink的DataStreamAPI算子是构建流处理pipeline的基础单元。本文基于Flink2.0，聚焦算子的核心概念、分类及高级特性。一、算子核心概念：流处理的"原子操作1.数据流拓扑（StreamTopology）每个Flink应用可抽象为有向无环图（DAG），由源节点（Source）、算子节点（Operator）和汇节点（Sink）构成，算子通过数据流（S
FlinkSQL 自定义函数详解 Tit先生基础 flink sql 大数据 java
FlinkSQL函数详解自定义函数除了内置函数之外，FlinkSQL还支持自定义函数，我们可以通过自定义函数来扩展函数的使用FlinkSQL当中自定义函数主要分为四大类:1.ScalarFunction:标量函数特点:每次只接收一行的数据，输出结果也是1行1列典型的标量函数如:upper(str),lower(str),abs(salary)2.TableFunction:表生成函数特点:运行时每
Flink自定义函数之聚合函数（UDAGG函数）土豆马铃薯 Flink flink 大数据
1.聚合函数概念聚合函数：将一个表的一个或多个行并且具有一个或多个属性聚合为标量值。聚合函数理解：假设一个关于饮料的表。表里面有三个字段，分别是id、name、price，表里有5行数据。假设你需要找到所有饮料里最贵的饮料的价格，即执行一个max()聚合。你需要遍历所有5行数据，而结果就只有一个数值。2.聚合函数实现聚合函数主要通过扩展AggregateFunction类实现。AggregateF
Flink时间窗口详解 bxlj_jcj Flink flink 大数据
一、引言在大数据流处理的领域中，Flink的时间窗口是一项极为关键的技术，想象一下，你要统计一个电商网站每小时的订单数量。由于订单数据是持续不断产生的，这就形成了一个无界数据流。如果没有时间窗口的概念，你就需要处理无穷无尽的数据，难以进行有效的统计分析。而时间窗口的作用，就是将这无界的数据流按照时间维度切割成一个个有限的“数据块”，方便我们对这些数据进行处理和分析。比如，我们可以定义一个1小时的时
Flink DataStream API详解（一） bxlj_jcj Flink flink 大数据
一、引言Flink的DataStreamAPI，在流处理领域大显身手的核心武器。在很多实时数据处理场景中，如电商平台实时分析用户购物行为以实现精准推荐，金融领域实时监控交易数据以防范风险，DataStreamAPI都发挥着关键作用，能够对源源不断的数据流进行高效处理和分析。接下来，就让我们一起深入探索FlinkDataStreamAPI。二、DataStream编程基础搭建在开始使用FlinkDa
探索实时流处理的未来：Kafka Streams 深度指南秋或依
探索实时流处理的未来：KafkaStreams深度指南项目介绍欢迎进入KafkaStreams：实时流处理的世界！这不仅仅是一本书，更是一个通往流处理领域深层奥秘的门户。由PrashantPandey编著，这本书以ApacheKafka2.1中的KafkaStreams库为核心，为读者铺就了一条从理解基础概念到熟练掌握KafkaStreams编程的路径。无论是软件工程师、数据架构师，还是对大数据处
flink自定义函数逆风飞翔的小叔 flink 入门到精通 flink 大数据 big data
前言在很多情况下，尽管flink提供了丰富的转换算子API可供开发者对数据进行各自处理，比如map()，filter()等，但在实际使用的时候仍然不能满足所有的场景，这时候，就需要开发人员基于常用的转换算子的基础上，做一些自定义函数的处理1、来看一个常用的操作原始待读取的文件核心代码importorg.apache.flink.api.common.functions.FilterFunction
Flink自定义函数的常用方式飞Link Water flink java 大数据
一、实现Flink提供的接口//自定义函数classMyMapFunctionimplementsMapFunction{publicIntegermap(Stringvalue){returnInteger.parseInt(value
Elasticsearch搜索引擎存储：从原理到实践的全景解析 Python×CATIA工业智造搜索引擎 elasticsearch 大数据
引言在大数据时代，数据规模呈指数级增长，传统数据库的模糊查询、实时分析能力逐渐成为瓶颈。Elasticsearch（简称ES）凭借其分布式架构、实时搜索和灵活的数据分析能力，成为企业级搜索与存储的核心引擎。截至2025年，ES在全球日志分析、电商搜索、实时监控等场景的市场占有率超过60%。本文将从存储架构、核心技术、应用场景及优化策略四个维度，深入解析Elasticsearch的设计哲学与实践价值
Flink DataStream API详解（二）
一、引言咱两书接上回，上一篇文章主要介绍了DataStreamAPI一些基本的使用，主要是针对单数据流的场景下，但是在实际的流处理场景中，常常需要对多个数据流进行合并、拆分等操作，以满足复杂的业务需求。Flink的DataStreamAPI提供了一系列强大的多流转换算子，如union、connect和split等，下面我们来详细了解一下它们的功能和用法。二、多流转换2.1union算子union算
Java 并发包之线程池和原子计数 lijingyao8206 Java计数 ThreadPool 并发包 java线程池
对于大数据量关联的业务处理逻辑，比较直接的想法就是用JDK提供的并发包去解决多线程情况下的业务数据处理。线程池可以提供很好的管理线程的方式，并且可以提高线程利用率，并发包中的原子计数在多线程的情况下可以让我们避免去写一些同步代码。这里就先把jdk并发包中的线程池处理器ThreadPoolExecutor 以原子计数类AomicInteger 和倒数计时锁C
java编程思想抽象类和接口百合不是茶 java 抽象类接口
接口c++对接口和内部类只有简介的支持,但在java中有队这些类的直接支持 1 ,抽象类 : 如果一个类包含一个或多个抽象方法,该类必须限定为抽象类(否者编译器报错) 抽象方法 : 在方法中仅有声明而没有方法体 package com.wj.Interface;
[房地产与大数据]房地产数据挖掘系统 comsci 数据挖掘
随着一个关键核心技术的突破,我们已经是独立自主的开发某些先进模块,但是要完全实现,还需要一定的时间... 所以,除了代码工作以外,我们还需要关心一下非技术领域的事件..比如说房地产 &nb
数组队列总结沐刃青蛟数组队列
数组队列是一种大小可以改变，类型没有定死的类似数组的工具。不过与数组相比，它更具有灵活性。因为它不但不用担心越界问题，而且因为泛型（类似c++中模板的东西）的存在而支持各种类型。以下是数组队列的功能实现代码： import List.Student; public class
Oracle存储过程无法编译的解决方法 IT独行者 oracle 存储过程　
今天同事修改Oracle存储过程又导致2个过程无法被编译，流程规范上的东西，Dave 这里不多说，看看怎么解决问题。 1. 查看无效对象 XEZF@xezf(qs-xezf-db1)> select object_name,object_type,status from all_objects where status='IN
重装系统之后oracle恢复文强chu oracle
前几天正在使用电脑，没有暂停oracle的各种服务。突然win8.1系统奔溃，无法修复，开机时系统提示正在搜集错误信息，然后再开机，再提示的无限循环中。无耐我拿出系统u盘准备重装系统，没想到竟然无法从u盘引导成功。晚上到外面早了一家修电脑店，让人家给装了个系统，并且那哥们在我没反应过来的时候，直接把我的c盘给格式化了并且清理了注册表，再装系统。然后的结果就是我的oracl
python学习二（一些基础语法）小桔子 pthon 基础语法
紧接着把！昨天没看继续看django 官方教程，学了下python的基本语法与c类语言还是有些小差别： 1.ptyhon的源文件以UTF-8编码格式 2. / 除结果浮点型 // 除结果整形 % 除取余数 * 乘 ** 乘方 eg 5**2 结果是5的2次方25 _&
svn 常用命令 aichenglong SVN 版本回退
1 svn回退版本 1)在window中选择log,根据想要回退的内容,选择revert this version或revert chanages from this version 两者的区别: revert this version:表示回退到当前版本(该版本后的版本全部作废) revert chanages from this versio
某小公司面试归来 alafqq 面试
先填单子，还要写笔试题，我以时间为急，拒绝了它。。时间宝贵。老拿这些对付毕业生的东东来吓唬我。。面试官很刁难，问了几个问题，记录下； 1，包的范围。。。public,private,protect. --悲剧了 2，hashcode方法和equals方法的区别。谁覆盖谁.结果，他说我说反了。 3，最恶心的一道题，抽象类继承抽象类吗？（察，一般它都是被继承的啊） 4，stru
动态数组的存储速度比较集合框架百合不是茶集合框架
集合框架：自定义数据结构(增删改查等) package 数组; /** * 创建动态数组 * @author 百合 * */ public class ArrayDemo{ //定义一个数组来存放数据 String[] src = new String[0]; /** * 增加元素加入容器 * @param s要加入容器
用JS实现一个JS对象，对象里有两个属性一个方法 bijian1013 js对象
<html> <head> </head> <body> 用js代码实现一个js对象，对象里有两个属性，一个方法 </body> <script> var obj={a:'1234567',b:'bbbbbbbbbb',c:function(x){
探索JUnit4扩展：使用Rule bijian1013 java 单元测试 JUnit Rule
在上一篇文章中，讨论了使用Runner扩展JUnit4的方式，即直接修改Test Runner的实现(BlockJUnit4ClassRunner)。但这种方法显然不便于灵活地添加或删除扩展功能。下面将使用JUnit4.7才开始引入的扩展方式——Rule来实现相同的扩展功能。 1. Rule &n
[Gson一]非泛型POJO对象的反序列化 bit1129 POJO
当要将JSON数据串反序列化自身为非泛型的POJO时，使用Gson.fromJson(String, Class)方法。自身为非泛型的POJO的包括两种： 1. POJO对象不包含任何泛型的字段 2. POJO对象包含泛型字段，例如泛型集合或者泛型类 Data类 a.不是泛型类， b.Data中的集合List和Map都是泛型的 c.Data中不包含其它的POJO
【Kakfa五】Kafka Producer和Consumer基本使用 bit1129 kafka
0.Kafka服务器的配置一个Broker，一个Topic Topic中只有一个Partition（） 1. Producer： package kafka.examples.producers; import kafka.producer.KeyedMessage; import kafka.javaapi.producer.Producer; impor
lsyncd实时同步搭建指南——取代rsync+inotify ronin47
1. 几大实时同步工具比较 1.1 inotify + rsync 最近一直在寻求生产服务服务器上的同步替代方案，原先使用的是 inotify + rsync，但随着文件数量的增大到100W+，目录下的文件列表就达20M，在网络状况不佳或者限速的情况下，变更的文件可能10来个才几M，却因此要发送的文件列表就达20M，严重减低的带宽的使用效率以及同步效率；更为要紧的是，加入inotify
java-9. 判断整数序列是不是二元查找树的后序遍历结果 bylijinnan java
public class IsBinTreePostTraverse{ static boolean isBSTPostOrder(int[] a){ if(a==null){ return false; } /*1.只有一个结点时，肯定是查找树 *2.只有两个结点时，肯定是查找树。例如{5,6}对应的BST是 6 {6,5}对应的BST是
MySQL的sum函数返回的类型 bylijinnan java spring sql mysql jdbc
今天项目切换数据库时，出错访问数据库的代码大概是这样： String sql = "select sum(number) as sumNumberOfOneDay from tableName"; List<Map> rows = getJdbcTemplate().queryForList(sql); for (Map row : rows
java设计模式之单例模式 chicony java设计模式
在阎宏博士的《JAVA与模式》一书中开头是这样描述单例模式的：　　作为对象的创建模式，单例模式确保某一个类只有一个实例，而且自行实例化并向整个系统提供这个实例。这个类称为单例类。单例模式的结构　　单例模式的特点：单例类只能有一个实例。单例类必须自己创建自己的唯一实例。单例类必须给所有其他对象提供这一实例。　　饿汉式单例类 publ
javascript取当月最后一天 ctrain JavaScript
 <script language=javascript> var current = new Date(); var year = current.getYear(); var month = current.getMonth(); showMonthLastDay(year, mont
linux tune2fs命令详解 daizj linux tune2fs 查看系统文件块信息
一.简介： tune2fs是调整和查看ext2/ext3文件系统的文件系统参数，Windows下面如果出现意外断电死机情况，下次开机一般都会出现系统自检。Linux系统下面也有文件系统自检，而且是可以通过tune2fs命令，自行定义自检周期及方式。二.用法： Usage: tune2fs [-c max_mounts_count] [-e errors_behavior] [-g grou
做有中国特色的程序员 dcj3sjt126com 程序员
从出版业说起网络作品排到靠前的，都不会太难看，一般人不爱看某部作品也是因为不喜欢这个类型，而此人也不会全不喜欢这些网络作品。究其原因，是因为网络作品都是让人先白看的，看的好了才出了头。而纸质作品就不一定了，排行榜靠前的，有好作品，也有垃圾。许多大牛都是写了博客，后来出了书。这些书也都不次，可能有人让为不好，是因为技术书不像小说，小说在读故事，技术书是在学知识或温习知识，有
Android：TextView属性大全 dcj3sjt126com textview
android:autoLink 设置是否当文本为URL链接/email/电话号码/map时，文本显示为可点击的链接。可选值(none/web/email/phone/map/all) android:autoText 如果设置，将自动执行输入值的拼写纠正。此处无效果，在显示输入法并输
tomcat虚拟目录安装及其配置 eksliang tomcat配置说明 tomca部署web应用 tomcat虚拟目录安装
转载请出自出处：http://eksliang.iteye.com/blog/2097184 1.-------------------------------------------tomcat 目录结构 config：存放tomcat的配置文件 temp ：存放tomcat跑起来后存放临时文件用的 work ：当第一次访问应用中的jsp
浅谈：APP有哪些常被黑客利用的安全漏洞 gg163 APP
首先，说到APP的安全漏洞，身为程序猿的大家应该不陌生；如果抛开安卓自身开源的问题的话，其主要产生的原因就是开发过程中疏忽或者代码不严谨引起的。但这些责任也不能怪在程序猿头上，有时会因为BOSS时间催得紧等很多可观原因。由国内移动应用安全检测团队爱内测（ineice.com）的CTO给我们浅谈关于Android 系统的开源设计以及生态环境。 1. 应用反编译漏洞：APK 包非常容易被反编译成可读
C#根据网址生成静态页面 hvt Web .net C#asp.net hovertree
HoverTree开源项目中HoverTreeWeb.HVTPanel的Index.aspx文件是后台管理的首页。包含生成留言板首页，以及显示用户名，退出等功能。根据网址生成页面的方法： bool CreateHtmlFile(string url, string path) { //http://keleyi.com/a/bjae/3d10wfax.htm stri
SVG 教程（一）天梯梦 svg
SVG 简介 SVG 是使用 XML 来描述二维图形和绘图程序的语言。学习之前应具备的基础知识：继续学习之前，你应该对以下内容有基本的了解： HTML XML 基础如果希望首先学习这些内容，请在本站的首页选择相应的教程。什么是SVG？ SVG 指可伸缩矢量图形 (Scalable Vector Graphics) SVG 用来定义用于网络的基于矢量
一个简单的java栈 luyulong java 数据结构栈
public class MyStack { private long[] arr; private int top; public MyStack() { arr = new long[10]; top = -1; } public MyStack(int maxsize) { arr = new long[maxsize]; top
基础数据结构和算法八：Binary search sunwinner Algorithm Binary search
Binary search needs an ordered array so that it can use array indexing to dramatically reduce the number of compares required for each search, using the classic and venerable binary search algori
12个C语言面试题，涉及指针、进程、运算、结构体、函数、内存，看看你能做出几个！刘星宇 c 面试
12个C语言面试题，涉及指针、进程、运算、结构体、函数、内存，看看你能做出几个！ 1.gets()函数问：请找出下面代码里的问题： #include<stdio.h> int main(void) { char buff[10]; memset(buff,0,sizeof(buff));
ITeye 7月技术图书有奖试读获奖名单公布 ITeye管理员活动 ITeye 试读
ITeye携手人民邮电出版社图灵教育共同举办的7月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 7月试读活动回顾： http://webmaster.iteye.com/blog/2092746 本次技术图书试读活动的优秀奖获奖名单及相应作品如下（优秀文章有很多，但名额有限，没获奖并不代表不优秀）：《Java性能优化权威指南》