*星星之火*

实践数据湖iceberg 第二十三课 flink-sql从checkpoint重启

系列文章目录

实践数据湖iceberg 第一课入门
实践数据湖iceberg 第二课 iceberg基于hadoop的底层数据格式
实践数据湖iceberg 第三课在sqlclient中，以sql方式从kafka读数据到iceberg
实践数据湖iceberg 第四课在sqlclient中，以sql方式从kafka读数据到iceberg（升级版本到flink1.12.7）
实践数据湖iceberg 第五课 hive catalog特点
实践数据湖iceberg 第六课从kafka写入到iceberg失败问题解决
实践数据湖iceberg 第七课实时写入到iceberg
实践数据湖iceberg 第八课 hive与iceberg集成
实践数据湖iceberg 第九课合并小文件
实践数据湖iceberg 第十课快照删除
实践数据湖iceberg 第十一课测试分区表完整流程(造数、建表、合并、删快照)
实践数据湖iceberg 第十二课 catalog是什么
实践数据湖iceberg 第十三课 metadata比数据文件大很多倍的问题
实践数据湖iceberg 第十四课元数据合并(解决元数据随时间增加而元数据膨胀的问题)
实践数据湖iceberg 第十五课 spark安装与集成iceberg(jersey包冲突)
实践数据湖iceberg 第十六课通过spark3打开iceberg的认知之门
实践数据湖iceberg 第十七课 hadoop2.7,spark3 on yarn运行iceberg配置
实践数据湖iceberg 第十八课多种客户端与iceberg交互启动命令(常用命令)
实践数据湖iceberg 第十九课 flink count iceberg，无结果问题
实践数据湖iceberg 第二十课 flink + iceberg CDC场景(版本问题，测试失败)
实践数据湖iceberg 第二十一课 flink1.13.5 + iceberg0.131 CDC(测试成功INSERT,变更操作失败)
实践数据湖iceberg 第二十二课 flink1.13.5 + iceberg0.131 CDC(CRUD测试成功)
实践数据湖iceberg 第二十三课 flink-sql从checkpoint重启

文章目录

系列文章目录
概要
1. savepoint保存
2. 制造变更数据
3. savepoint恢复命令
4. 从checkpoint恢复测试
5. web ui中看checkpoint恢复信息
总结

概要

问题描述：前面测试过，直接重启insert任务，下次消费，会全量数据同步一份，并进行增量的监听。多次重启的话，会有很多重复数据。本课目的：解决这个问题，下次重启从checkpoint中恢复（测试sql的方式， jar包的方式以前测试过，不想测了）。本课最后效果：成功测试flink-sql以非jar包的方式从checkpoint重启，完成故障恢复测试

1. savepoint保存

从web ui 中找到jobId, 保存
savepoint保存命令： flink savepoint {jobId} {path}

[root@hadoop101 conf]# flink savepoint 365df9287888864066b89d9f5247f654 hdfs:///tmp/savepoint
Triggering savepoint for job 365df9287888864066b89d9f5247f654.
Waiting for response...
Savepoint completed. Path: hdfs://ns/tmp/savepoint/savepoint-365df9-e6719613365a
You can resume your program from this savepoint with the run command.
[root@hadoop101 conf]# hadoop fs -ls /tmp/savepoint
Found 1 items
drwxr-xr-x   - root supergroup          0 2022-02-23 10:25 /tmp/savepoint/savepoint-365df9-e6719613365a
[root@hadoop101 conf]# hadoop fs -ls /tmp/savepoint/*
Found 1 items
-rw-r--r--   2 root supergroup       6368 2022-02-23 10:25 /tmp/savepoint/savepoint-365df9-e6719613365a/_metadata
[root@hadoop101 conf]# hadoop fs -ls /tmp/savepoint/*/*
-rw-r--r--   2 root supergroup       6368 2022-02-23 10:25 /tmp/savepoint/savepoint-365df9-e6719613365a/_metadata
[root@hadoop101 conf]# hadoop fs -du -h /tmp/savepoint/*/*
6.2 K  /tmp/savepoint/savepoint-365df9-e6719613365a/_metadata
[root@hadoop101 conf]#

2. 制造变更数据

第一次savepoint的数据：

                                                                                                                              SQL Query Result (Table)                                                                                                                              
 Refresh: 1 s                                                                                                                     Page: Last of 1                                                                                                             Updated: 10:33:35.233 

                              i                        ts_code                         symbol                           name                           area                       industry                      list_date             actural_controller
                              1                      000002.SZ                         000002                            万科A                             深圳                           全国地产                       19910129                        星星之火!!!
                              2                      000004.SZ                         000004                           国华网安                             深圳                           软件服务                       19910114                            三体人
                              0                      000001.SZ                         000001                           平安银行                             深圳                             银行                       19910403                         (NULL)

制造变更：

INSERT INTO stock_basic VALUES (‘3’, ‘000005.SZ’, ‘000005’, ‘ST星源’, ‘深圳’, ‘环境保护’, ‘19901210’, ‘郑列列,丁芃’);
INSERT INTO stock_basic VALUES (‘4’, ‘000006.SZ’, ‘000006’, ‘深振业A’, ‘深圳’, ‘区域地产’, ‘19920427’, ‘深圳市人民政府国有资产监督管理委员会’);

spark-sql (default)> 
                   > select * from stock_basic_iceberg_sink;
22/02/23 10:37:59 WARN conf.HiveConf: HiveConf of name hive.metastore.event.db.notification.api.auth does not exist
i       ts_code symbol  name    area    industry        list_date       actural_controller
2       000004.SZ       000004  国华网安        深圳    软件服务        19910114        三体人
0       000001.SZ       000001  平安银行        深圳    银行    19910403        NULL
3       000005.SZ       000005  ST星源  深圳    环境保护        19901210        郑列列,丁芃
1       000002.SZ       000002  万科A   深圳    全国地产        19910129        星星之火!!!
4       000006.SZ       000006  深振业A 深圳    区域地产        19920427        深圳市人民政府国有资产监督管理委员会
Time taken: 0.478 seconds, Fetched 5 row(s)

记录savepoint

[root@hadoop101 conf]#  flink savepoint 365df9287888864066b89d9f5247f654 hdfs:///tmp/savepoint
SLF4J: Class path contains multiple SLF4J bindings.
SLF4J: Found binding in [jar:file:/opt/module/flink-1.13.5/lib/log4j-slf4j-impl-2.16.0.jar!/org/slf4j/impl/StaticLoggerBinder.class]
SLF4J: Found binding in [jar:file:/opt/module/hadoop-2.7.2/share/hadoop/common/lib/slf4j-log4j12-1.7.10.jar!/org/slf4j/impl/StaticLoggerBinder.class]
SLF4J: See http://www.slf4j.org/codes.html#multiple_bindings for an explanation.
SLF4J: Actual binding is of type [org.apache.logging.slf4j.Log4jLoggerFactory]
Triggering savepoint for job 365df9287888864066b89d9f5247f654.
Waiting for response...
Savepoint completed. Path: hdfs://ns/tmp/savepoint/savepoint-365df9-6108cf790032
You can resume your program from this savepoint with the run command.
[root@hadoop101 conf]# hadoop fs -ls /tmp/savepoint
Found 2 items
drwxr-xr-x   - root supergroup          0 2022-02-23 10:42 /tmp/savepoint/savepoint-365df9-6108cf790032
drwxr-xr-x   - root supergroup          0 2022-02-23 10:25 /tmp/savepoint/savepoint-365df9-e6719613365a
[root@hadoop101 conf]#

第二次savepoint对应的数据

 Table program finished.                                                                                                          Page: Last of 1                                                                                                             Updated: 10:59:54.536 

                              i                        ts_code                         symbol                           name                           area                       industry                      list_date             actural_controller
                              2                      000004.SZ                         000004                           国华网安                             深圳                           软件服务                       19910114                            三体人
                              0                      000001.SZ                         000001                           平安银行                             深圳                             银行                       19910403                         (NULL)
                              1                      000002.SZ                         000002                            万科A                             深圳                           全国地产                       19910129                        星星之火!!!
                              3                      000005.SZ                         000005                           ST星源                             深圳                           环境保护                       19901210                         郑列列,丁芃
                              4                      000006.SZ                         000006                           深振业A                             深圳                           区域地产                       19920427             深圳市人民政府国有资产监督管理委员会

制造更多的变更

INSERT INTO `stock_basic` VALUES ('5', '000007.SZ', '000007', '*ST全新', '深圳', '酒店餐饮', '19920413', null);
INSERT INTO `stock_basic` VALUES ('6', '000008.SZ', '000008', '神州高铁', '北京', '运输设备', '19920507', '国家开发投资集团有限公司');

变更的结果

spark-sql (default)> select * from stock_basic_iceberg_sink;
22/02/23 11:04:09 WARN conf.HiveConf: HiveConf of name hive.metastore.event.db.notification.api.auth does not exist
i       ts_code symbol  name    area    industry        list_date       actural_controller
0       000001.SZ       000001  平安银行        深圳    银行    19910403        NULL
1       000002.SZ       000002  万科A   深圳    全国地产        19910129        星星之火!!!
4       000006.SZ       000006  深振业A 深圳    区域地产        19920427        深圳市人民政府国有资产监督管理委员会
5       000007.SZ       000007  *ST全新 深圳    酒店餐饮        19920413        NULL
6       000008.SZ       000008  神州高铁        北京    运输设备        19920507        国家开发投资集团有限公司
2       000004.SZ       000004  国华网安        深圳    软件服务        19910114        三体人
3       000005.SZ       000005  ST星源  深圳    环境保护        19901210        郑列列,丁芃
Time taken: 0.331 seconds, Fetched 7 row(s)
spark-sql (default)>

3. savepoint恢复命令

准备了3个检查点

RESET execution.savepoint.path; 
SET execution.savepoint.path = 'hdfs:///tmp/savepoint/savepoint-365df9-e6719613365a;

之后执行insert 语句

RESET execution.savepoint.path; 
SET execution.savepoint.path = 'hdfs:///tmp/savepoint/savepoint-365df9-6108cf790032;

kill insert的job,查看checkpoint目录

[root@hadoop101 flink1.13-iceberg0131]# hadoop fs -ls /flink/checkpoints/*654/chk-17072
Found 1 items
-rw-r--r--   2 root supergroup       6407 2022-02-23 11:07 /flink/checkpoints/365df9287888864066b89d9f5247f654/chk-17072/_metadata

4. 从checkpoint恢复测试

下面测试从最后的 checkpoint 点恢复


Flink SQL> CREATE TABLE stock_basic_source(
>   `i`  INT NOT NULL,
>   `ts_code`     CHAR(10) NOT NULL,
>   `symbol`   CHAR(10) NOT NULL,
>   `name` char(10) NOT NULL,
>   `area`   CHAR(20) NOT NULL,
>   `industry`   CHAR(20) NOT NULL,
>   `list_date`   CHAR(10) NOT NULL,
>   `actural_controller`   CHAR(100),
>     PRIMARY KEY(i) NOT ENFORCED
> ) WITH (
>   'connector' = 'mysql-cdc',
>   'hostname' = 'hadoop103',
>   'port' = '3306',
>   'username' = 'hive',
>   'password' = '123456',
>   'database-name' = 'xxzh_stock',
>   'table-name' = 'stock_basic'
> );
> 
[INFO] Execute statement succeed.

Flink SQL> CREATE CATALOG hive_catalog6 WITH (
>   'type'='iceberg',
>   'catalog-type'='hive',
>   'uri'='thrift://hadoop101:9083',
>   'clients'='5',
>   'property-version'='1',
>   'warehouse'='hdfs:///user/hive/warehouse/hive_catalog6'
> );
[INFO] Execute statement succeed.

Flink SQL> SET execution.checkpointing.interval = 3s;                                                     [INFO] Session property has been set.

Flink SQL> RESET execution.savepoint.path; 
[INFO] Session property has been reset.

Flink SQL> SET execution.savepoint.path = 'hdfs:///flink/checkpoints/365df9287888864066b89d9f5247f654/chk-17072/_metadata';
[INFO] Session property has been set.

Flink SQL> insert into hive_catalog6.xxzh_stock_mysql_db.stock_basic_iceberg_sink select * from stock_basic_source;
[INFO] Submitting SQL update statement to the cluster...
[INFO] SQL update statement has been successfully submitted to the cluster:
Job ID: 1266448a102b17131018e2c47fb8a27b


Flink SQL> select * from hive_catalog6.xxzh_stock_mysql_db.stock_basic_iceberg_sink;
[ERROR] Could not execute SQL statement. Reason:
java.lang.IllegalStateException: Failed to rollback to checkpoint/savepoint hdfs://ns/flink/checkpoints/365df9287888864066b89d9f5247f654/chk-17072. Cannot map checkpoint/savepoint state for operator c27dcf7b54ef6bfd6cff02ca8870b681 to the new program, because the operator is not available in the new program. If you want to allow to skip this, you can set the --allowNonRestoredState option on the CLI.

insert job启动后，还是7行，数据没有翻倍。说明checkpoint恢复测试有效

spark-sql (default)> select * from stock_basic_iceberg_sink order by i;
i       ts_code symbol  name    area    industry        list_date       actural_controller
0       000001.SZ       000001  平安银行        深圳    银行    19910403        NULL
1       000002.SZ       000002  万科A   深圳    全国地产        19910129        星星之火!!!
2       000004.SZ       000004  国华网安        深圳    软件服务        19910114        三体人
3       000005.SZ       000005  ST星源  深圳    环境保护        19901210        郑列列,丁芃
4       000006.SZ       000006  深振业A 深圳    区域地产        19920427        深圳市人民政府国有资产监督管理委员会
5       000007.SZ       000007  *ST全新 深圳    酒店餐饮        19920413        NULL
6       000008.SZ       000008  神州高铁        北京    运输设备        19920507        国家开发投资集团有限公司
Time taken: 0.233 seconds, Fetched 7 row(s)

增加一行，
INSERT INTO stock_basic VALUES (‘7’, ‘000009.SZ’, ‘000009’, ‘中国宝安’, ‘深圳’, ‘电气设备’, ‘19910625’, null);
发现立即被捕捉到。

spark-sql (default)> select * from stock_basic_iceberg_sink order by i;
i       ts_code symbol  name    area    industry        list_date       actural_controller
0       000001.SZ       000001  平安银行        深圳    银行    19910403        NULL
1       000002.SZ       000002  万科A   深圳    全国地产        19910129        星星之火!!!
2       000004.SZ       000004  国华网安        深圳    软件服务        19910114        三体人
3       000005.SZ       000005  ST星源  深圳    环境保护        19901210        郑列列,丁芃
4       000006.SZ       000006  深振业A 深圳    区域地产        19920427        深圳市人民政府国有资产监督管理委员会
5       000007.SZ       000007  *ST全新 深圳    酒店餐饮        19920413        NULL
6       000008.SZ       000008  神州高铁        北京    运输设备        19920507        国家开发投资集团有限公司
7       000009.SZ       000009  中国宝安        深圳    电气设备        19910625        NULL
Time taken: 0.267 seconds, Fetched 8 row(s)

也就是cdc能找到恢复点，单sql-client中，直接查表，失败

5. web ui中看checkpoint恢复信息

发现本insert job的确是从 checkpoint点恢复的

总结

本文测试了使用 sql-client从checkpoint恢复任务。避免每次重启，重写数据

20250120 深入了解 Apache Flink 的 Checkpointing 靈臺清明 Flink apache flink 大数据
ApacheFlink是一种用于实时流处理和批处理的分布式计算框架。在实时流处理任务中，保证数据的一致性和任务的容错性是至关重要的，而Flink的Checkpointing机制正是实现这一目标的核心技术。本文将详细介绍Flink的Checkpointing，包括其概念、原理、配置和实际应用。什么是Checkpointing？Checkpointing是Flink提供的一种用于容错的机制。它会在流处
Flink Standalone 方案中解决挂机问题星尘幻宇科技 flink 大数据
Standalone中可以配置HighAvailability（HA）部署和配置首先了解Flink实际运行时包括两类进程：JobManager（又称为JobMaster）：协调Task的分布式执行，包括调度Task、协调创Checkpoint以及当Jobfailover时协调各个Task从Checkpoint恢复等。TaskManager（又称为Worker）：执行Dataflow中的Tasks，
大数据学习(37)- Flink运行时架构 viperrrrrrr 学习 flink 大数据
&&大数据学习&&系列专栏：哲学语录:承认自己的无知，乃是开启智慧的大门如果觉得博主的文章还不错的话，请点赞+收藏⭐️+留言支持一下博主哦1）作业管理器（JobManager）JobManager是一个Flink集群中任务管理和调度的核心，是控制应用执行的主进程。也就是说，每个应用都应该被唯一的JobManager所控制执行。JobManger又包含3个不同的组件。（1）JobMasterJobM
Flink CDC MySQL同步MySQL错误记录 lingllllove flink mysql 大数据
FlinkCDC简介FlinkCDC（ChangeDataCapture）是一种高效的数据同步工具，利用Flink强大的实时流处理能力，从MySQL等数据库捕获数据变更，并将这些变更实时同步到目标数据库。本文将详细介绍FlinkCDCMySQL同步到MySQL时常见的错误记录及其解决方法。常见错误及解决方法1.连接错误错误信息：FailedtoconnecttoMySQLserver.可能原因：
StarRocks Lakehouse 快速入门——Apache Iceberg
导读：StarRocksLakehouse快速入门旨在帮助大家快速了解湖仓相关技术，内容涵盖关键特性介绍、独特的优势、使用场景和如何与StarRocks快速构建一套解决方案。最后大家也可以通过用户真实的使用场景来了解StarRocksLakehouse的最佳实践！ApacheIceberg介绍ApacheIceberg是一种为大规模、复杂数据集设计的开源表格式，这些数据集跨越了PB级别的数据。最初
大数据湖仓一体架构未来思考王知无(import_bigdata) 架构
湖仓一体架构是最近1-2年时间开始频繁出现在数据开发领域的新名词。也是各大公司竞相投入的对象。网络上关于湖仓一体架构的实践文章很多，看得也很眼花缭乱。我们今天站在一个「接地气」的角度，来说一说湖仓一体架构中未来需要关注的核心框架有哪些。文章内容也没有经过仔细的斟酌，完全是一点不成熟的想法，而且站的角度不是高屋建瓴的而是从下往上的。一个基本判断是湖仓一体架构在形式上不止一种大家可以从网上看到很多关于
FFA 2024 「流批一体」专场：探索在不同场景的流批一体 Apache Flink
FlinkForwardAsia2024即将盛大开幕！作为ApacheFlink社区备受期待的年度盛会之一，本届大会将于11月29至30日在上海隆重举行。FlinkForwardAsia（简称FFA）是由Apache官方授权的社区技术大会，旨在汇聚领先的行业实践与技术动态。在众多合作伙伴和技术开发者的支持下，FFA已成功举办六届。适逢ApacheFlink诞生10周年，今年的FFA将与广大开发者分
Fluss 与数据湖的深度解析（二）大圣数据星球大数据 Flink 设计模式
上一篇文章中我们说了Fluss与Paimon数据湖的三个相关问题：如何查询Paimon数据湖中的数据？如何查询Fluss和Paimon数据的“联合视图”？如何只查询Fluss中的数据？大家可以先去看这一篇文章，其中第二点如何查询Fluss和Paimon数据的“联合视图”中还遗留一个问题：在做数据查询的时候Fluss和Paimon数据湖是怎么保证数据一致性的，也就是事务的。还有第三点如何只查询Flu
Scaleph：基于Kubernetes的开放式数据平台尤淞渊
Scaleph：基于Kubernetes的开放式数据平台scalephOpendataplatformbasedonFlinkandKubernetes,supportsweb-uiclick-and-dropdataintegrationwithSeaTunnelbackendedbyFlinkengine,flinkonlinesqldevelopmentbackendedbyFlinkSql
Fluss 与数据湖的深度解析（二） java
上一篇文章中我们说了Fluss与Paimon数据湖的三个相关问题：如何查询Paimon数据湖中的数据？如何查询Fluss和Paimon数据的“联合视图”？如何只查询Fluss中的数据？大家可以先去看这一篇文章，其中第二点如何查询Fluss和Paimon数据的“联合视图”中还遗留一个问题：在做数据查询的时候Fluss和Paimon数据湖是怎么保证数据一致性的，也就是事务的。还有第三点如何只查询Flu
揭秘 Fluss 架构组件 java
这是Fluss系列的第四篇文章了，我们先回顾一下前面三篇文章主要说了哪些内容。Fluss部署，带领大家部署Fluss环境，体验一下Fluss的功能Fluss整合数据湖的操作，体验Fluss与数据湖的结合讲解了Fluss、Kafka、Paimon之间的区别和联系前面三篇文章可以让大家上手玩起来Fluss这个框架，并说明了它与Kafka、Paimon数据湖的关系，接下来的文章就深入Fluss细节来说一
深入Flink : 源码解读数据倾斜代码落地 java
大家好，我是大圣，很高兴又和大家见面。上篇文章，我们详细说了通过使得Flink每个并行子任务上面都有对应的key来解决数据倾斜。但是我们只说了这个方案的思想和设计理解，还没有把这种方案真正应用到我们的Flink任务当中。这篇文章我们就重点把这种方案实践到我们写的Flink任务当中。什么是数据倾斜解决方案回顾代码如下：publicclassRebalanceKeyCreator{privateint
Flink（十）：DataStream API (七) 状态 Leven199527 Flink flink 大数据
1.状态的定义在ApacheFlink中，状态（State）是指在数据流处理过程中需要持久化和追踪的中间数据，它允许Flink在处理事件时保持上下文信息，从而支持复杂的流式计算任务，如聚合、窗口计算、联接等。状态是Flink处理有状态操作（如窗口、时间戳操作、聚合等）的核心组成部分。2.状态的类型Flink提供了强大的状态管理机制，允许应用程序在分布式环境中处理状态，保证高可用性和容错性。Flin
全面解读 Databricks：从架构、引擎到优化策略克里斯蒂亚诺罗纳尔多阿维罗架构 spark 大数据
导语：Databricks是一家由ApacheSpark创始团队成员创立的公司，同时也是一个统一分析平台，帮助企业构建数据湖与数据仓库一体化（Lakehouse）的架构。在Databricks平台上，数据工程、数据科学与数据分析团队能够协作使用Spark、DeltaLake、MLflow等工具高效处理数据与构建机器学习应用。本文将深入介绍Databricks的平台概念、架构特点、优化机制、功能特性
Apache Flink morcake flink 大数据
"ApacheFlinkistheopensourcestreamprocessingframeworkfordistributed,high-performance,ready-to-use,andaccuratestreamprocessingapplications."ApacheFlinkisaframeworkanddistributedprocessingengineforstatef
一文帮你搞懂flink中窗口的分类（一）知否&知否 flink中窗口及其函数分类 flink 大数据
Window可以分成两类：CountWindow：按照指定的数据条数生成一个Window，与时间无关。滚动计数窗口，每隔N条数据，统计前N条数据滑动计数窗口，每隔N条数据，统计前M条数据TimeWindow：按照时间生成Window。（重点）滚动时间窗口，每隔N时间，统计前N时间范围内的数据，窗口长度N，滑动距离N滑动时间窗口，每隔N时间，统计前M时间范围内的数据，窗口长度M，滑动距离N还有一种特
Java 大视界 -- Java 驱动大数据流处理：Storm 与 Flink 入门（六）青云交大数据新视界 Java 大视界 Flink Storm 大数据流处理实时数据处理架构实时监控数据分析 java
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：大数
大数据新视界 --大数据大厂之 Hudi 数据湖框架性能提升：高效处理大数据变更青云交 Hudi 之道大数据新视界大数据 Hudi 数据湖框架大数据变更数据版本控制性能提升数据存储优化
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：大数
【大数据】Flink CDC 实时同步mysql数据小码农叔叔 springboot 入门到精通大数据 Flink CDC Flink CDC同步数据 Flink CDC数据同步
目录一、前言二、FlinkCDC介绍2.1什么是FlinkCDC2.2FlinkCDC特点2.3FlinkCDC核心工作原理2.4FlinkCDC使用场景三、常用的数据同步方案对比3.1数据同步概述3.1.1数据同步来源3.2常用的数据同步方案汇总3.3为什么推荐FlinkCDC3.4FlinkCDC适用范围3.5FlinkCDC不同版本对比3.5.1FlinkCDC1.x3.5.2FlinkCD
Flink 使用 Kafka 作为数据源时遇到了偏移量提交失败的问题 java我跟你拼了异常笔记 flink kafka 大数据
具体的错误日志21:43:57.069[KafkaFetcherforSource:CustomSource->Map->Filter(1/1)#2]ERRORorg.apache.kafka.clients.consumer.internals.ConsumerCoordinator-[ConsumerclientId=consumer-my-group-6,groupId=my-group]O
2、Flink 在 DataStream 和 Table 之间进行转换猫猫爱吃小鱼粮 Flink SQL flink 大数据
1.概述TableAPI和DataStreamAPI都可以处理有界流和无界流。DataStreamAPI提供了流处理的基础（时间、状态和数据流管理）；TableAPI抽象了许多内部内容，并提供了一个结构化和声明性的API；在处理历史数据时，需要管理有边界的流；无边界流出现在实时处理场景中，这些场景可能需要先使用历史数据进行初始化。为了高效执行，这两个API都以优化的批处理执行模式处理有界流。由于批
Flink 常见面试题知否&知否 flink 大数据 kafka
1、Flink的四大特征（基石）checkpoint:基于Chandy-Lamport算法，实现了分布式一致性快照，提供了一致性的语义。State:丰富的StateAPI。ValueState,ListState,MapState,BroadcastState.Time:实现了Watemark机制，乱序数据处理，迟到数据容忍。Window：开箱即用的滚动、滑动、会话窗口。以及灵活的自定义窗口。2、
大数据-257 离线数仓 - 数据质量监控监控方法 Griffin架构武子康大数据离线数仓大数据数据仓库 java 后端 hadoop hive
点一下关注吧！！！非常感谢！！持续更新！！！Java篇开始了！目前开始更新MyBatis，一起深入浅出！目前已经更新到了：Hadoop（已更完）HDFS（已更完）MapReduce（已更完）Hive（已更完）Flume（已更完）Sqoop（已更完）Zookeeper（已更完）HBase（已更完）Redis（已更完）Kafka（已更完）Spark（已更完）Flink（已更完）ClickHouse（已
Apache Flink 2.0-preview released flink大数据
ApacheFlink社区正在积极准备Flink2.0，这是自Flink1.0发布8年以来的首次大版本发布。作为一个重要的里程碑，Flink2.0将引入许多激动人心的功能和改进，以及一些不兼容的破坏性变更。为了促进用户和上下游项目（例如，连接器）尽早适配这些变更，提前尝试这些令人兴奋的新功能同时收集反馈，我们现在提供了Flink2.0的预览版本。注意:Flink2.0预览版不是稳定版本，请不要应用
传统数据湖和数据仓库的“中心化瓶颈” PersistDZ 数据架构数据仓库数据湖中心化
传统数据湖和数据仓库的**“中心化瓶颈”**，主要是由于其架构设计和治理模式的局限性，无法有效应对现代企业中数据规模的快速增长和组织复杂性。以下是具体表现：1.单点瓶颈（SinglePointBottleneck）传统数据湖/仓库通常由中心化的数据平台团队负责，所有的数据集成、清洗、建模和治理工作都集中在这一个团队中，导致：工作负载过重：数据平台团队需要处理所有领域的数据需求，响应速度慢。扩展性差
2024年最新Python：Page Object设计模式_python page object，BTAJ大厂最新面试题汇集 m0_60707708 程序员 python 设计模式开发语言
最后硬核资料：关注即可领取PPT模板、简历模板、行业经典书籍PDF。技术互助：技术群大佬指点迷津，你的问题可能不是问题，求资源在群里喊一声。面试题库：由技术群里的小伙伴们共同投稿，热乎的大厂面试真题，持续更新中。知识体系：含编程语言、算法、大数据生态圈组件（Mysql、Hive、Spark、Flink）、数据仓库、Python、前端等等。网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是
数据入湖的前提条件：数据标准之元数据注册 goTsHgo 开发技巧大数据大数据设计规范
元数据注册是数据入湖的重要前提条件之一，其核心目的是记录和管理数据的元信息（Metadata），为数据的理解、发现、管理、使用和治理提供依据。元数据是描述数据的“数据”，包括数据的结构、来源、用途等关键信息。下面从底层原理、操作步骤及背后原因进行全面解析。1.为什么需要元数据注册？1.1数据可发现性含义：元数据提供了关于数据的描述信息，使用户能够快速发现和定位所需数据。原理：在数据湖中，没有元数据
案例分享｜快速了解实时湖仓集一体技术如何助力企业降本增效 mysql
1.替代TD仓、Hadoop湖，助力农商行构建一体化数据平台某农商行最初构建了Teradata数据仓库、Oracle小数据平台以及Hadoop数据湖。多平台混合架构开发运维高，存在冗余存储、数据搬迁一致性、跨平台流转数据实时性低等问题。该农商行基于星环科技实时湖仓集一体平台，替代了Teradata数仓、Oracle数据平台和Hadoop数据湖三个平台，一体化架构同时满足数据湖海量汇集、复杂数仓模型
2024年总结：大转向年度总结
本文于2025年1月2号首发于公众号“狗哥琐话”。2024年是个打工人苦命年，我看到几乎每个人都比以往辛苦。这让我想起了六字真言，钱难赚屎难吃。职业转向今年我在职业上尝试做了一个转向，具体的结果可能需要比较长的时间来检验我选择是否正确，所以转向的细节我就不全部展开了，可以确定是我依然会专注在Infra和BigData，比如今年我发布了SparkSQL和FlinkSQL的IDEA提效插件。那么我为什
Flink 批作业如何在 Master 节点出错重启后恢复执行进度？ flink大数据
摘要：本文撰写自阿里云研发工程师李俊睿（昕程），主要介绍Flink1.20版本中引入了批作业在JMfailover后的进度恢复功能。主要分为以下四个内容：背景解决思路使用效果如何启用一、背景在Flink1.20版本之前，如果Flink的JobMaster（JM）发生故障导致被终止，将会发生如下两种情况：如果作业未启用高可用性（HA），作业将失败。如果作业启用了HA，JM会被自动重新拉起（JMfai
java的(PO,VO,TO,BO,DAO,POJO) Cb123456 VO TO BO POJO DAO
转: http://www.cnblogs.com/yxnchinahlj/archive/2012/02/24/2366110.html ------------------------------------------------------------------- O/R Mapping 是 Object Relational Mapping（对象关系映
spring ioc原理（看完后大家可以自己写一个spring） aijuans spring
最近，买了本Spring入门书：spring In Action 。大致浏览了下感觉还不错。就是入门了点。Manning的书还是不错的，我虽然不像哪些只看Manning书的人那样专注于Manning,但怀着崇敬的心情和激情通览了一遍。又一次接受了IOC 、DI、AOP等Spring核心概念。先就IOC和DI谈一点我的看法。IO
MyEclipse 2014中Customize Persperctive设置无效的解决方法 Kai_Ge MyEclipse2014
高高兴兴下载个MyEclipse2014，发现工具条上多了个手机开发的按钮，心生不爽就想弄掉他！结果发现Customize Persperctive失效！！有说更新下就好了，可是国内Myeclipse访问不了，何谈更新... so~这里提供了更新后的一下jar包，给大家使用！ 1、将9个jar复制到myeclipse安装目录\plugins中 2、删除和这9个jar同包名但是版本号较
SpringMvc上传 120153216 springMVC
@RequestMapping(value = WebUrlConstant.UPLOADFILE) @ResponseBody public Map<String, Object> uploadFile(HttpServletRequest request,HttpServletResponse httpresponse) { try { //
Javascript----HTML DOM 事件何必如此 JavaScript html Web
HTML DOM 事件允许Javascript在HTML文档元素中注册不同事件处理程序。事件通常与函数结合使用，函数不会在事件发生前被执行！注：DOM：指明使用的 DOM 属性级别。 1.鼠标事件属性
动态绑定和删除onclick事件 357029540 JavaScript jquery
因为对JQUERY和JS的动态绑定事件的不熟悉，今天花了好久的时间才把动态绑定和删除onclick事件搞定!现在分享下我的过程。在我的查询页面，我将我的onclick事件绑定到了tr标签上同时传入当前行(this值)参数，这样可以在点击行上的任意地方时可以选中checkbox，但是在我的某一列上也有一个onclick事件是用于下载附件的，当
HttpClient|HttpClient请求详解 7454103 apache 应用服务器网络协议网络应用 Security
HttpClient 是 Apache Jakarta Common 下的子项目，可以用来提供高效的、最新的、功能丰富的支持 HTTP 协议的客户端编程工具包，并且它支持 HTTP 协议最新的版本和建议。本文首先介绍 HTTPClient，然后根据作者实际工作经验给出了一些常见问题的解决方法。HTTP 协议可能是现在 Internet 上使用得最多、最重要的协议了，越来越多的 Java 应用程序需
递归逐层统计树形结构数据 darkranger 数据结构
将集合递归获取树形结构: /** * * 递归获取数据 * @param alist:所有分类 * @param subjname:对应统计的项目名称 * @param pk:对应项目主键 * @param reportList: 最后统计的结果集 * @param count:项目级别 */ public void getReportVO(Arr
访问WEB-INF下使用frameset标签页面出错的原因 aijuans struts2
<frameset rows="61,*,24" cols="*" framespacing="0" frameborder="no" border="0">
MAVEN常用命令 avords
Maven库： http://repo2.maven.org/maven2/ Maven依赖查询： http://mvnrepository.com/ Maven常用命令： 1. 创建Maven的普通java项目： mvn archetype:create -DgroupId=packageName
PHP如果自带一个小型的web服务器就好了 houxinyou apache 应用服务器 Web PHP 脚本
最近单位用PHP做网站，感觉PHP挺好的，不过有一些地方不太习惯，比如，环境搭建。PHP本身就是一个网站后台脚本，但用PHP做程序时还要下载apache，配置起来也不太很方便，虽然有好多配置好的apache+php+mysq的环境，但用起来总是心里不太舒服，因为我要的只是一个开发环境，如果是真实的运行环境，下个apahe也无所谓，但只是一个开发环境，总有一种杀鸡用牛刀的感觉。如果php自己的程序中
NoSQL数据库之Redis数据库管理(list类型) bijian1013 redis 数据库 NoSQL
3.list类型及操作 List是一个链表结构，主要功能是push、pop、获取一个范围的所有值等等，操作key理解为链表的名字。Redis的list类型其实就是一个每个子元素都是string类型的双向链表。我们可以通过push、pop操作从链表的头部或者尾部添加删除元素，这样list既可以作为栈，又可以作为队列。 &nbs
谁在用Hadoop？ bingyingao hadoop 数据挖掘公司应用场景
Hadoop技术的应用已经十分广泛了，而我是最近才开始对它有所了解，它在大数据领域的出色表现也让我产生了兴趣。浏览了他的官网，其中有一个页面专门介绍目前世界上有哪些公司在用Hadoop，这些公司涵盖各行各业，不乏一些大公司如alibaba,ebay,amazon,google,facebook,adobe等，主要用于日志分析、数据挖掘、机器学习、构建索引、业务报表等场景,这更加激发了学习它的热情。
【Spark七十六】Spark计算结果存到MySQL bit1129 mysql
package spark.examples.db import java.sql.{PreparedStatement, Connection, DriverManager} import com.mysql.jdbc.Driver import org.apache.spark.{SparkContext, SparkConf} object SparkMySQLInteg
Scala: JVM上的函数编程 bookjovi scala erlang haskell
说Scala是JVM上的函数编程一点也不为过，Scala把面向对象和函数型编程这两种主流编程范式结合了起来，对于熟悉各种编程范式的人而言Scala并没有带来太多革新的编程思想，scala主要的有点在于Java庞大的package优势，这样也就弥补了JVM平台上函数型编程的缺失，MS家.net上已经有了F#，JVM怎么能不跟上呢？对本人而言
jar打成exe bro_feng java jar exe
今天要把jar包打成exe，jsmooth和exe4j都用了。遇见几个问题。记录一下。两个软件都很好使，网上都有图片教程，都挺不错。首先肯定是要用自己的jre的，不然不能通用，其次别忘了把需要的lib放到classPath中。困扰我很久的一个问题是，我自己打包成功后，在一个同事的没有装jdk的电脑上运行，就是不行，报错jvm.dll为无效的windows映像，如截图最后发现
读《研磨设计模式》-代码笔记-策略模式-Strategy bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* 策略模式定义了一系列的算法，并将每一个算法封装起来，而且使它们还可以相互替换。策略模式让算法独立于使用它的客户而独立变化简单理解： 1、将不同的策略提炼出一个共同接口。这是容易的，因为不同的策略，只是算法不同，需要传递的参数
cmd命令值cvfM命令 chenyu19891124 cmd
cmd命令还真是强大啊。今天发现jar -cvfM aa.rar @aaalist 就这行命令可以根据aaalist取出相应的文件例如：在d：\workspace\prpall\test.java 有这样一个文件，现在想要将这个文件打成一个包。运行如下命令即可比如在d：\wor
OpenJWeb(1.8) Java Web应用快速开发平台 comsci java 框架 Web 项目管理企业应用
OpenJWeb(1.8) Java Web应用快速开发平台的作者是我们技术联盟的成员，他最近推出了新版本的快速应用开发平台 OpenJWeb(1.8)，我帮他做做宣传 OpenJWeb快速开发平台以快速开发为核心，整合先进的java 开源框架，本着自主开发+应用集成相结合的原则，旨在为政府、企事业单位、软件公司等平台用户提供一个架构透
Python 报错：IndentationError: unexpected indent daizj python tab 空格缩进
IndentationError: unexpected indent 是缩进的问题，也有可能是tab和空格混用啦 Python开发者有意让违反了缩进规则的程序不能通过编译，以此来强制程序员养成良好的编程习惯。并且在Python语言里，缩进而非花括号或者某种关键字，被用于表示语句块的开始和退出。增加缩进表示语句块的开
HttpClient 超时设置 dongwei_6688 httpclient
HttpClient中的超时设置包含两个部分： 1. 建立连接超时，是指在httpclient客户端和服务器端建立连接过程中允许的最大等待时间 2. 读取数据超时，是指在建立连接后，等待读取服务器端的响应数据时允许的最大等待时间在HttpClient 4.x中如下设置： HttpClient httpclient = new DefaultHttpC
小鱼与波浪 dcj3sjt126com
一条小鱼游出水面看蓝天，偶然间遇到了波浪。　　小鱼便与波浪在海面上游戏，随着波浪上下起伏、汹涌前进。　　小鱼在波浪里兴奋得大叫：“你每天都过着这么刺激的生活吗？简直太棒了。”　　波浪说：“岂只每天过这样的生活，几乎每一刻都这么刺激！还有更刺激的，要有潮汐变化，或者狂风暴雨，那才是兴奋得心脏都会跳出来。”　　小鱼说：“真希望我也能变成一个波浪，每天随着风雨、潮汐流动，不知道有多么好！”　　很快，小鱼
Error Code: 1175 You are using safe update mode and you tried to update a table dcj3sjt126com mysql
快速高效用：SET SQL_SAFE_UPDATES = 0；下面的就不要看了！今日用MySQL Workbench进行数据库的管理更新时，执行一个更新的语句碰到以下错误提示： Error Code: 1175 You are using safe update mode and you tried to update a table without a WHERE that
枚举类型详细介绍及方法定义 gaomysion enum javaee
转发 http://developer.51cto.com/art/201107/275031.htm 枚举其实就是一种类型，跟int, char 这种差不多，就是定义变量时限制输入的，你只能够赋enum里面规定的值。建议大家可以看看，这两篇文章，《java枚举类型入门》和《C++的中的结构体和枚举》，供大家参考。枚举类型是JDK5.0的新特征。Sun引进了一个全新的关键字enum
Merge Sorted Array hcx2013 array
Given two sorted integer arrays nums1 and nums2, merge nums2 into nums1 as one sorted array. Note:You may assume that nums1 has enough space (size that is
Expression Language 3.0新特性 jinnianshilongnian el 3.0
Expression Language 3.0表达式语言规范最终版从2013-4-29发布到现在已经非常久的时间了；目前如Tomcat 8、Jetty 9、GlasshFish 4已经支持EL 3.0。新特性包括：如字符串拼接操作符、赋值、分号操作符、对象方法调用、Lambda表达式、静态字段/方法调用、构造器调用、Java8集合操作。目前Glassfish 4/Jetty实现最好，对大多数新特性
超越算法来看待个性化推荐 liyonghui160com 超越算法来看待个性化推荐
一提到个性化推荐，大家一般会想到协同过滤、文本相似等推荐算法，或是更高阶的模型推荐算法，百度的张栋说过，推荐40%取决于UI、30%取决于数据、20%取决于背景知识，虽然本人不是很认同这种比例，但推荐系统中，推荐算法起的作用起的作用是非常有限的。就像任何
写给Javascript初学者的小小建议 pda158 JavaScript
　　一般初学JavaScript的时候最头痛的就是浏览器兼容问题。在Firefox下面好好的代码放到IE就不能显示了，又或者是在IE能正常显示的代码在firefox又报错了。　　如果你正初学JavaScript并有着一样的处境的话建议你：初学JavaScript的时候无视DOM和BOM的兼容性，将更多的时间花在了解语言本身（ECMAScript）。只在特定浏览器编写代码（Chrome/Fi
Java 枚举 ShihLei java enum 枚举
注：文章内容大量借鉴使用网上的资料，可惜没有记录参考地址，只能再传对作者说声抱歉并表示感谢！一基础 1）语法枚举类型只能有私有构造器（这样做可以保证客户代码没有办法新建一个enum的实例）枚举实例必须最先定义 2）特性 &nb
Java SE 6 HotSpot虚拟机的垃圾回收机制 uuhorse java HotSpot GC 垃圾回收 VM
官方资料，关于Java SE 6 HotSpot虚拟机的garbage Collection，非常全，英文。 http://www.oracle.com/technetwork/java/javase/gc-tuning-6-140523.html Java SE 6 HotSpot[tm] Virtual Machine Garbage Collection Tuning &