阿里云大数据AI技术

基于 Flink CDC 打造企业级实时数据集成方案

本文整理自Flink数据通道的Flink负责人、Flink CDC开源社区的负责人、Apache Flink社区的PMC成员徐榜江在云栖大会开源大数据专场的分享。本篇内容主要分为四部分：

CDC 数据实时集成的挑战
Flink CDC 核心技术解读
基于 Flink CDC 的企业级实时数据集成方案
实时数据集成 Demo 演示

CDC 数据实时集成的挑战

首先介绍一下CDC技术，CDC就是Change Data Capture的缩写，意思是变更数据捕获。如果有一个数据源的数据随着时间一直在变化，这种能够捕获变更数据的技术就称之为CDC。但是在真正的业务生产实践过程中，通常说的CDC都是指面向数据库的变更，用于捕获数据库中某一张表业务，不断地写入的新数据、更新的数据、甚至删除的数据。我们在谈到捕获变更数据的技术时，之所以主要面向数据库，主要是因为数据库里面的数据是业务价值最高的数据，数据库的变更数据也是业务里时效性最高、最宝贵的数据。

CDC技术应用是非常广泛，主要有三个方面。

第一，数据同步，比如数据备份、系统容灾会用到CDC。

第二，数据分发，比如把数据库里面变化的数据分发到Kafka里面，再一对多分发给多个下游。

第三，数据集成，不管是在数仓构建还是数据湖构建都需要做一个必要工作数据集成，也就是将数据入湖入仓，同时会有一些ETL加工，这个工作中CDC技术也是必不可少的应用场景。

从CDC底层的实现机制上可以将CDC技术分成两类：基于查询的CDC技术、基于日志的CDC技术。

基于查询的CDC技术。假设数据库有一张表在不断更新，我们可以每5分钟查询一次，查询里比如按照更新时间字段对比一下看看有哪些新的数据，这样就能获取到CDC数据。这种技术需要基于离线调度查询，是典型的批处理，没法保证保障数据的强一致性，也不能够保障实时性。一个离线调度从行业的实践来看到5分钟已经是极限了，很难做到分钟级甚至秒级的离线调度。

基于日志的CDC技术。这就是基于数据库的变更日志解析变更的技术，比兔大家都知道MySQL的数据库有Binlog的机制。基于数据库的变更日志的CDC技术可以做到实时消费日志做流处理，上游只要更新一条数据，下游马上就能感知到这一条数据，可以保障整个数据的强一致性，还可以提供实时的数据。基于日志的CDC技术通常实现复杂度上会比基于查询的方式更高一些。

从CDC数据集成这个细分领域的发展趋势来看，总结了下大致四个方向：

第一，全增量一体化。

第二，实时化。

第三，自动化。

第四，智能化。

全增量一体化是相对于全量和增量分别做数据集成，所以全量很好的例子就是一张MySQL的表有海量的历史数据。但同时上游的业务系统源源不断地在往里面实时更新，实时更新的那部分就是增量数据，历史的那部分就是全量数据

往往这两部分数据在早期采用不同的工具，比如说全量有国内开源的DataX，海外有Apache Sqoop可以做全量的同步。增量部分比如说国内阿里巴巴开源的Canal、MySQL、Debezium、InLong等等开源项目。用户一般会结合这两种类型的工具分别做全量数据和增量数据集成，其代价是需要维护很多组件。全增量一体化就是把这些组件尽可能地减少，比如说采用Flink CDC、InLong这样的方式来做一个全增量一体化降低运维压力。

第二个就是实时化，大家都知道为什么我们要提实时化，因为业务数据的时效性越高代表价值越高。比如说一些风控业务、策略配置业务如果能做秒级的处理，和两天之后才能把数据准备好，其带来的业务效果是完全不一样的，所以实时化被日趋重视。

自动化是说我们在做全量和增量去结合的时候，全量完了之后需不需要人为干预，全量同步完了以后增量如何保障衔接，这是CDC框架提供的自动衔接能力还是需要运维人员手动操作，自动化就是将这类手动操作降低，自动化可以说是降低运维成本和产品体验提升方面的诉求。

智能化就是一张MySQL里面的业务表，随着业务的变化是不断在变的，不仅是数据在变，里面的表结构都会变。应对这些场景，数据集成的作业能不能保持健壮，进而能不能自动地、智能地处理上游的这些变更，这是一个智能化的诉求，这也是CDC数据集成的趋势。

分析了整个CDC数据集成这个细分领域的一些架构演进方向，从中也看到了很多问题，若想去解决，会有哪些技术挑战呢？大致梳理为四个方面：

第一，历史数据规模很大，一些MySQL单表能够达到上亿或者基几十亿的级别，在分库分表的场景，甚至有更大的历史数据规模。

第二，增量数据那部分实时性要求越来越高，比如说现在的湖仓场景都已经需要5分钟级的低延迟。在一些更极端的场景中，比如说风控、CEP规则引擎等等应用场景甚至需要秒级、亚秒级的延迟。

第三，CDC数据有一个重要的保序性，全量和增量能不能提供一个跟原始的MySQL库里面一致性的快照，这样的保序性需求对整个CDC的集成框架提出了很大的挑战。

第四，表结构变更，包括新增字段和已有字段的类型变更，比如一个字段业务开发长度升级了，这样的变更框架能不能自动地支持，这都是CDC数据集成的技术挑战。

针对这些挑战，我挑选业界现有的主流开源技术方案，也是几个大家比较常见进和应用比较广泛的进行分析，包括 Flink CDC、Debezium、Canal、Sqoop、Kettle，我们分别从一下几个维度来分析，首先是CDC的机制，就是底层的机制来看它是日志的还是查询的。

其次是断点续传，断点续传就是全量数据历史规模很大，同步到一半的时候能不能停下来再次恢复，而不是从头开始重刷数据。全量同步维度就是框架支不支持历史数据同步。全增量一体化维度泽是全量和增量过程是框架解决的还是要开发人员手动解决。架构维度则是评价 CDC框架是可扩展的分布式架构，还是单机版。转换维度衡量的是CDC数据在数据集成做ETL的时候往往要做一些数据清洗，比如说做一个大小写转换，这个框架能不能很好地支持，比如需要做一些数据的过滤，框架能不能很好地支持，以及另外一个就是这个工具的上下游生态，框架上游支持多少数据源，下游的计算引擎能支持哪些，支持写入的湖仓有哪些，因为在选择一个CDC数据集成框架或者工具的时候肯定是结合整个大数据团队其他产品的架构设计统一考虑的。从上述这几个维度分析，Flink CDC 在这几个维度下的表现都非常优秀。

Flink CDC 核心技术解读

刚刚我们说到，Flink CDC这个框架在全增量一体化、分布式架构上等维度下都有一些优势，我们接下来就来解析一下框架底层的核心技术实现，带着大家去理解Flink CDC如何具备这些优势，以及我们设计的一些初衷。

Flink CDC是基于数据库日志的CDC技术及实现了全增量一体化读取的数据集成框架，配合Flink优秀的管道能力和丰富的上下游生态，Flink CDC可以高效实现海量数据的实时集成。如图所示，比如说MySQL有一张表有历史的全量数据，也有源源不断写入的增量数据、业务更新的增量数据MySQL都会先存在自己的Log里面，Flink CDC既读取全量数据，又通过基于日志的CDC技术读取增量数据，并且给下游提供实时一致性的快照，框架提供了全量和增量的自动对接，保证了不丢不重的数据传输语义，开发者不用关心底层的细节。

整体来说，Flink CDC有两个最为核心的设计；

第一个是增量快照框架。这是我在Flink CDC 2.0的时候提出的一个增量快照算法，后面演变成增量快照框架。左边的这些数据源是现在Flink CDC社区已经支持或者已经接入的增量快照框架。增量快照框架体现的是什么能力呢？在读取数据一张表到全量数据的时候可以做并行读取，这张表即使历史数据规模很大，只要增加并发、扩资源，这个框架是具备水平扩容的能力，通过并行读取可以达到扩容的需求。

第二个是全量和增量是通过无锁一致性算法来做到无锁一致性切换。这其实在生产环境非常重要，在很多CDC的实现里面是需要对MySQL的业务表加锁来获得数据一致性的，单这个加锁会直接影响到上游的生产业务库，一般DBA和业务同学是不会同意的，如果用增量快照框架是能够对数据库不加锁的，这是对业务非常友好的设计。

切换到增量阶段之后结合Flink框架可以做到资源自动释放的，一般来说全量阶段并发是需要很大的，因为数据量很多，增量阶段其实写入MySQL上游基本上都是一个单独的日志文件写入，所以一个并发往往就够了，多余的资源这个框架是可以支持自动释放的。

总结起来如图所示四个红色的关键短语突出的就是增量快照框架给Flink CDC提供的核心能力。

第二个核心设计就是原生对接Flink生态。对接Flink生态最关心的就是能否无缝使用Flink的SQL API、DataStream API以及下游。Flink CDC作为Flink作业的上游时，当前我们所有的connect都是支持SQL API和DataStream API。

支持 SQL API的好处是用户不需要有底层JAVA开发基础，会写SQL就行了，这其实把一个难度系数很高的CDC数据集成交给BI开发同学就可以搞定了。DataStream API则是面向一些更高级的开发者可能要实现一些更复杂、更高级的功能，我们同时提供了DataStream API，让更底层的开发者通过这种DataStream API 可以通过 Java编程的方式来实现整库同步、Schema Evolution等高级功能。

在原生对接到Flink的生态之后，Flink上支持的所有下游，比如说消息队列、Kafka、Pulsar，数据湖Paimon或者传统的数据库，Flink CDC 都可以直接写入。

借助这些核心设计，总体来讲：Flink CDC的技术优势有四个。

第一，并行读取。这个框架提供了分布式读取的能力，Flink CDC 这个框架可以支持水平扩容，只要资源够，读取的吞吐可以线性扩展。

第二，无锁读取。对线上的数据库和业务没有侵入。

第三，全增量一体化。全量和增量之间的一致性保障、自动衔接是框架给解决的，无需人工介入。

第四，生态支持。我们可以原生支持Flink现有生态，用户开发部署成本低。如果说开发者已经是一个Flink用户，那他不需要安转额外的组件，更不需要部署比如Kafka 集群，如果是SQL用户只需要将一个connector jar包放到Flink的lib目录下即可。

还有一个听众可能比较感兴趣的点，Flink CDC这个项目是完全开源的，并且从诞生的第一天就是从开源社区出来的，到现在已经从0.x 版本发到最新的2.4.2版本，在全体社区贡献者的维护下已经走过三年，作为个人兴趣项目逐步打磨起来的开源项目，三年的时间这个社区的发展是非常迅速的。我这里说的发展并不只是说Github Star 4500+ 的非常快速的发展，其实我们更看重的是代码Fork数和社区贡献者数量。Fork数指标表示了有多少组织、多少的开源社区贡献者在使用Flink CDC仓库，比如说Apache InLong这样的顶级项目都是集成了Flink CDC，

同时这里面不乏海外和国内一些顶级的公司也在用我们的项目。最近我们的开源社区来自国内和海外的贡献者数量超过100+，这说明我们的开源社区发展还是非常健康的。

讲完Flink CDC的开源社区，有一个点大家会关注到，就是它提供的能力还是偏底层引擎，是比较面向底层开发者，离我们最终的数据集成用户中间还有一层gap，这个gap就是引擎怎么形成产品给最终的用户。有一个事实需要注意到，数据集成的用户其实不一定懂Flink，不一定懂Java，甚至不一定懂SQL，那么如何能让他们使用这个框架？如何提面向用户的产品来服务好这些用户？其实很多参与开源的公司、组织都有一些最佳实践方案。

阿里云基于 Flink CDC 的企业级实时数据集成方案

今天分享的第三部分就是我今天要介绍的，在阿里云内部我们是怎么基于开源的Flink CDC数据集成框架来提供我们的实时数据集成方案，也就是将阿里云的一些实践方案和大家一起分享。

在阿里云上，我们Flink CDC最主要的业务场景就是CDC数据实时入湖入仓。比如说我的业务库是MySQL，当然其他数据库也一样，我其实就是要把MySQL里面的数据一键同步到湖仓里面，比如说Paimon、Hologres，业务场景就是CDC数据实时入湖入仓，这个场景下用户的核心诉求什么？

我们大致整理了四个关键点：需要表结构自动发现，需要表结构的变更自动同步，需要支持整库同步，需要支持动态加表。

Flink CDC是一个数据集成框架，在阿里云上并没有单独的Flink CDC产品，它是在我们serverless Flink，也就是阿里云实时计算Flink版提供了上述的能力。除了在实时计算Flink版，在阿里云另一款产品Dataworks上也提供了基于Flink的CDC数据集成方案。

按照现代数据栈的分层理念，Flink CDC 所在处的是EL层，分工特别明确。最下面一层是数据源，Flink CDC专注于做数据集成，在ELT数据集成的模型里里面负责做E和L，当然实践里面也会支持一些轻量级的T，就是Transform 操作。

在阿里云实时计算Flink版我们设计两个语法糖，分别是CDAS（Create Database As Database）和CTAS（Create Table As Table）。CDAS就是通过一行SQL实现整库同步，比如说MySQL里面有一个TPS DS库同步至Paimon的ODS库就可以搞定。同时我也提供CTAS，比如说在应对分库分表的重点业务时，可能对单表要做一些分库分表的合并，合并到Paimon里面做一个大宽表等等，多个表合成一个表的逻辑。这个表还会做一些事情，比如要推导最宽的表结构，以及分表的表结构变化了之后，在下游最宽的表里面也要看到对应表结构的同步，这些是通过CTAS实现的。

最终的效果是，用户只需要在实时计算Flink里面写一行SQL，当这行SQL下面其实做了很多的工作，最终的效果是拉起来了一个Flink数据集成作业。大家可以看到上图中，作业的拓扑里有四个节点，最前置的一个节点就是读MySQL的source节点，后面三个节点就是对应我们红框里面的三张表，自动生成了三个 sink 节点。对于用户来说就是写一行SQL，便可以实现全增量一体化的CDC数据集成。

实时计算Flink版里面提供了默认支持全增量一体化同步。举一个例子，我有一些历史全量数据和增量数据，一个CTAS语法默认支持全量和增量的数据同步，当然你也可以选择通过配置不同的参数选择只同步全量或者只全部增量。

实时计算Flink版还支持表同步变更，比如说有一个分库分表的场景，库里有一张名为user03的表，业务同学新加了一个字段age，后续插入的记录里面也多个了一个age的字段，用户想要的效果是在下游的湖仓里中自动加列，新的数据能够自动写入。对于这样的需求，CTAS/CDAS语法均默认就支持。

实时计算Flink版支持整库同步，对于单表同步，每一个表同步都需要写一行SQL对用户来说还是太费劲，用户想要的就是尽可能简单，功能尽可能强大，CDAS语法糖就是帮用户干这件事。比如说原库里面有若干张表，只需要写一行SQL，我通过捕获库里面所有的表，自动改写多个CTAS语句，然后同步到下游，并且每一张表都支持表结构变更自动同步，源头这三张表可以各自加列删列，下游Paimon里的数据自动加列删列同步。

实时计算Flink版还支持同步作业动态加表，在当下IT行业降本增效的背景下，尽可能节省资源能大幅降低业务成本。在CDC数据集成的场景中，比如说我之前的一个作业里面、业务库里面有1000张表，我用了5CU资源的作业来同步数据。如果说现在业务库加了两张表，这个时候我是新起一个作业还是在原有作业里面加表呢？这就是我们开发的动态加表功能，它可以直接复用原有作业的state和资源，不用新开作业的资源，实现动态地给历史作业加表。这个功能的效果如上图所示：MySQL库里面之前有三张表，现在加了一张表，这个历史同步作业支持把新加的这一张表同步过去，这就是同步作业的动态加表。

上述这个功能是我们在阿里云内部实践下来业务效果不错，数据集成的用户反馈也比较好的一些企业级CDC数据实时集成的方案，分享出来希望可以和同行朋友交流，希望大家可以有收获。

实时数据集成 Demo 演示

Demo 演示观看地址：

https://yunqi.aliyun.com/2023/subforum/YQ-Club-0044开源大数据专场回放视频 02:28:30 - 02:34:00 时间段

在这里，我录制了一个Demo来演示上述功能，这个Demo 展示了从MySQL到刚刚介绍的Streaming Lakehouse Paimon的CDC数据集成，为大家演示一下怎么在实时计算Flink版里面高效地实现整库同步、Schema evolution、以及复用历史作业来实现动态加表。

首先我们创建一个MySQL的Catalog，这在页面点击就可以创建，再创建一个Paimon的Catalog。创建好这个Catalog之后就可以写SQL了，其实有几个参数设置不设置也可以，这里设置是为了演示时速度更快，我们先写一个CDAS语句。第一个语句是同步两张表，订单表和产品表，把作业提交一下，我只想把库里面的订单和产品同步到Paimon里面，这个作业提交稍微等一下，同步两张表的Flink 作业就生成了。我们可以在控制台这边再起一个作业，这个作业可以把Paimon里面的数据捞出来给大家看一下，比如说订单表里面的数据跟我们上游MySQL的数据是一样的，并且是实时同步的。MySQL里面马上插入一行数据，我现在去Paimon里面看一下插入的数据，其实就已经可以看得到了。这个端到端的延迟是非常低的，同时可以演示一个表结构变更功能，从源头的表中新加一列，用户不需要做任何操作，在下游Paimon在数据湖里面对应表结构的变更，会自动到Paimon目标表。上游创建加了一个列，现在再插入一列，比如说插入一条数据，后面有一个值新增的列，我把这行数据给插入，接下来我们就看一下我们Paimon里面对应的这张表，大家可以看最后一行这个带着新增列的数据已经插入了。

接下来给大家演示一下我们动态加表的功能，这是是我们最近在阿里云上刚刚推出的一个重磅功能。一个作业里，之前只同步了订单表和产品表，现在用户想添加一张物流表，对于用户来说只需要改一下之前的SQL，多加一个表名。我们先看一下MySQL上游的这张物流表里的数据，对于用户来只需要把作业做一个Savepoint停一下，增加下物流表名，重启一下作业就可以了。我们为什么要从Savepoint重启，是因为Savepoint保留了一些必要的元数据信息，之前同步两张表，现在加了一张表，框架会去做一些校验，把新的表加进去做一个自动的同步，值得注意的是，在这个功能里，我们可以能够保证原有两张表的同步数据不断流继续同步，新的表支持全增量一体化同步。现在的作业有第三张表了，就是新增的物流表的同步。我们也可以在Paimon里面通过Flink查一下，可以看到表里面的数据都已经同步了，不仅是全量数据，如果有新增的表的增量数据也可以做实时的同步，这个延迟也是非常低的，这是得益于CDC的框架和Flink整体框架提供的一个端到端低延迟。

整体demo就到这里，从这个Demo大家可以看到我们在阿里云这个数据集成的实践方案上，是比较面向用户，从最终端的数据集成用户出发尽量为用户屏蔽掉Flink、DataStream或者说Java API甚至是SQL的概念，让用户的操作尽可能地简单，比如说他可以在页面点击创建一个Catalog，后面再写几行简单的SQL即可实现CDC数据集成。此外，我们也有一些同步作业模板，对于同步模板来说，用户都不需要写SQL，直接在页面点击就能够编辑出一个CDC数据集成作业。整体来说，我们在产品的设计上，一个核心理念就是面向数据集成的终端用户，而不是面向于社区的贡献者和开发者，这样更利于我们这个方案推广到更多的用户。

SQL 常用版本语法概览：标准演进与关键语法分析
一、引言SQL（StructuredQueryLanguage，结构化查询语言）是关系型数据库系统的核心语言，自1986年成为ANSI和ISO标准以来，经历了多次版本演进，不断增强语义表达能力以适应复杂的企业数据需求。随着数据库技术的不断发展，各大数据库厂商（如Oracle、SQLServer、PostgreSQL、MySQL等）在实现标准的基础上扩展了大量方言语法，使得掌握SQL的标准语法版本成
主流数据库语言语法对比两圆相切数据库
以下是五大数据库（MySQL、PostgreSQL、Oracle、SQLServer、SQLite）核心语法对比，涵盖DDL、DML、查询、函数、事务等全场景，包含底层原理差异和实用示例。##一、数据一、类型深度对比分类MySQLPostgreSQLOracleSQLServerSQLite整数TINYINT,INT,BIGINTSMALLINT,INT,BIGINTNUMBER(10)TIN
Hadoop与云原生集成：弹性扩缩容与OSS存储分离架构深度解析
Hadoop与云原生集成的必要性Hadoop在大数据领域的基石地位作为大数据处理领域的奠基性技术，Hadoop自2006年诞生以来已形成包含HDFS、YARN、MapReduce三大核心组件的完整生态体系。根据CSDN技术社区的分析报告，全球超过75%的《财富》500强企业仍在使用Hadoop处理EB级数据，其分布式文件系统HDFS通过数据分片（默认128MB块大小）和三副本存储机制，成功解决了P
用Flink实现的一个实时订单对账功能, Flink的双流实时对账
1.为什么业务订单数据不用Mysql之类的强事务性数据库监控反而用Flink的实时?一般这种涉及到订单的数据流都要用mysql监控实现,但是鉴于减少mysql的数据库压力和提高更实时性,可以考虑用Flink实时的数据流做实时的参考2.如何处理乱序数据?使用watermark水位保证第一层数据延迟.PS:这里的水位不能设置太长延迟使用processfuntion更加灵活的处理迟到数据,设置一个定时器
深入TA-Lib：量化技术指标详解
深入TA-Lib：量化技术指标详解本文系统讲解TA-Lib技术指标分析，涵盖基础、数据处理、趋势与动量指标、均量线、布林线等，并结合Python代码与大数据、机器学习实战案例，助力读者掌握量化交易实战技巧。本文系统梳理了TA-Lib技术指标分析的核心内容，包括TA-Lib基础、数据处理、趋势与动量指标、均量线、布林线等关键技术指标分析方法，并结合Python代码示例与大数据、机器学习的融合实战案例
Flink 多流转换（三）CoProcessFunction合流操作案例 Alienware^ #Flink Flink
文章目录下面是CoProcessFunction的一个具体示例：我们可以实现一个实时对账的需求，也就是app的支付操作和第三方的支付操作的一个双流Join。App的支付事件和第三方的支付事件将会互相等待5秒钟，如果等不来对应的支付事件，那么就输出报警信息。程序如下：Gitee源代码如下publicclassBillCheckExample{publicstaticvoidmain(String[]
Flink双流处理：实时对账实现1
Flink双流处理：实时对账实现1去发现同类优质开源项目:https://gitcode.com/资源描述本资源文件详细介绍了Flink双流处理的实时对账实现。内容涵盖了基础概念、双流处理的方法以及实战案例，帮助开发者深入理解Flink在实时对账场景中的应用。内容概述基础概念介绍了Flink的基本概念和架构，为后续的双流处理打下基础。双流处理方法详细讲解了Flink中双流处理的核心方法和技巧，帮助
大数据时代下的时序数据库选型指南：基于工业场景的IoTDB技术优势与适用性研究 Loving_enjoy 计算机学科论文创新点机器学习 facebook 经验分享课程设计
>在宝钢集团的智能工厂里，5万多个传感器每秒产生150万+数据点，传统数据库系统每天积压3TB未处理数据——这揭示了工业4.0时代的核心矛盾：**海量时序数据处理能力已成为智能制造的关键瓶颈**。###工业时序数据的四大特殊性工业场景下的时序数据与传统互联网数据存在本质差异：1.**高精度时间要求**-数控机床振动监测需微秒级时间戳-电网故障定位要求时间同步精度≤1μs2.**多源异构性**```
Flink双流实时对账
在电商、金融、银行、支付等涉及到金钱相关的领域，为了安全起见，一般都有对账的需求。比如，对于订单支付事件，用户通过某宝付款，虽然用户支付成功，但是用户支付完成后并不算成功，我们得确认平台账户上是否到账了。针对上述的场景，我们可以采用批处理，或离线计算等技术手段，通过定时任务，每天结束后，扫描数据库中的数据，核对当天的支付数据和交易数据，进行对账。想要达到实时对账的效果，比如有的用户支付成功但是并没
斗鱼大数据面试题及参考答案大模型大数据攻城狮大数据大数据面试 hadoop面试 spark面试 flink面试手撕SQL 手撕代码
GC（垃圾回收）相关知识一、常见的GC收集器SerialGCSerialGC是最基本的垃圾收集器，它是单线程的。在进行垃圾收集时，会暂停所有的用户线程，直到垃圾收集完成。它的工作过程比较简单，首先标记出所有的垃圾对象，然后将它们清除。例如，在一个小型的、对响应时间要求不高的Java应用程序中，如简单的命令行工具，SerialGC可以满足垃圾收集的需求。因为这种应用程序通常没有很高的并发要求，暂停用
Java 大视界 -- Java 大数据机器学习模型在金融市场情绪指数构建与投资决策支持中的应用（339）青云交大数据新视界 Java 大视界 java 大数据机器学习金融情绪指数投资决策量化策略情绪分析
Java大视界--Java大数据机器学习模型在金融市场情绪指数构建与投资决策支持中的应用（339）引言：正文：一、Java构建的金融市场情绪数据采集与预处理体系1.1多源异构数据接入引擎1.2数据采集延迟测试报告1.3情绪数据预处理管道二、Java驱动的金融市场情绪指数构建模型2.1多维度情绪指数计算框架2.2情绪指数与投资决策的映射模型三、Java在金融投资决策支持中的实战应用3.1量化私募情绪
数字孪生技术为UI前端注入新活力：实现产品设计的沉浸式体验 ui设计前端开发老司机 ui
hello宝子们...我们是艾斯视觉擅长ui设计、前端开发、数字孪生、大数据、三维建模、三维动画10年+经验!希望我的分享能帮助到您!如需帮助可以评论关注私信我们一起探讨!致敬感谢感恩!一、引言：从“平面交互”到“沉浸体验”的UI革命当用户在电商APP中翻看3D家具模型却无法感知其与自家客厅的匹配度，当设计师在2D屏幕上绘制汽车内饰却难以预判实际乘坐体验——传统UI设计的“平面化、静态化、割裂感”
[特殊字符] 实时数据洪流突围战：Flink+Paimon实现毫秒级分析的架构革命（附压测报告）——日均百亿级数据处理成本降低60%的工业级方案 Lucas55555555 flink 大数据
引言：流批一体的时代拐点据阿里云2025白皮书显示，实时数据处理需求年增速达240%，但传统Lambda架构资源消耗占比超运维成本的70%。某电商平台借助Flink+Paimon重构实时数仓后，端到端延迟从分钟级压缩至800ms，计算资源节省5.6万核/月。技术红利窗口期：2025年ApachePaimon1.0正式发布，支持秒级快照与湖仓一体，成为替代Iceberg的新范式一、痛点深挖：实时数仓
提升企业级数据处理效率！TDengine 四个集群优化点详解 TDengine （老段） TDengine 运维大数据数据库物联网时序数据库服务器运维 tdengine
为了帮助企业更好地进行大数据处理，我们在此前TDengine3.x系列版本中进行了几项与集群相关的优化和新功能开发，以提升集群的稳定性和在异常情况下的恢复能力。这些优化包括clusterID隔离、leaderrebalance、raftlearner和restorednode。本文将对这几项重要优化进行详细阐述，以解答企业在此领域的疑问，并帮助大家更好地应对相关挑战。clusterID隔离问题fi
技术演进中的开发沉思-32 MFC系列：生命周期 chilavert318 熬之滴水穿石 windows c++
今天，我们继续MFC以一种更亲近的方式，梳理这个框架的脉络，看看一个MFC程序从诞生到运行的完整故事。一、MFC类层次结构昨天已经梳理过MFC的类层次了，今天梳理其生命周期，还是要提一下。因为它确实很重要，如果把MFC比作一个庞大的家族，那类层次结构就是它的族谱。最顶层的CObject就像家族的老祖宗，所有成员都流淌着它的血液——封装了最基础的功能，比如对象的创建与销毁、序列化等。往下分，就像家族
中国银联豪掷1亿采购海光C86架构服务器信创新态势海光芯片 C86 国产芯片海光信息
近日，中国银联国产服务器采购大单正式敲定，基于海光C86架构的服务器产品中标，项目金额超过1亿元。接下来，C86服务器将用于支撑中国银联的虚拟化、大数据、人工智能、研发测试等技术场景，进一步提升其业务处理能力、用户服务效率和信息安全水平。作为我国重要的银行卡组织和金融基础设施，中国银联在全球183个国家和地区设有银联受理网络，境内外成员机构超过2600家，是世界三大银行卡品牌之一。此次中国银联发力
全面探索Kafka：架构、应用与流处理
Kafka：企业级消息系统与流处理平台的深度解析ApacheKafka作为分布式流处理平台，广泛应用于大数据处理和实时分析领域。本文将基于其官方文档，详细探讨Kafka的核心功能、应用场景以及如何进行有效管理。背景简介Kafka作为高吞吐量的消息系统，支持企业级的发布-订阅模式。它能够处理大量实时数据，并支持高并发读写操作。本文将依据Kafka官方文档的内容，逐层深入，从入门到高级应用，帮助读者全
Flink 2.0 DataStream算子全景 Edingbrugh.南空大数据 flink flink 人工智能
在实时流处理中，ApacheFlink的DataStreamAPI算子是构建流处理pipeline的基础单元。本文基于Flink2.0，聚焦算子的核心概念、分类及高级特性。一、算子核心概念：流处理的"原子操作1.数据流拓扑（StreamTopology）每个Flink应用可抽象为有向无环图（DAG），由源节点（Source）、算子节点（Operator）和汇节点（Sink）构成，算子通过数据流（S
FlinkSQL 自定义函数详解 Tit先生基础 flink sql 大数据 java
FlinkSQL函数详解自定义函数除了内置函数之外，FlinkSQL还支持自定义函数，我们可以通过自定义函数来扩展函数的使用FlinkSQL当中自定义函数主要分为四大类:1.ScalarFunction:标量函数特点:每次只接收一行的数据，输出结果也是1行1列典型的标量函数如:upper(str),lower(str),abs(salary)2.TableFunction:表生成函数特点:运行时每
Flink自定义函数之聚合函数（UDAGG函数）土豆马铃薯 Flink flink 大数据
1.聚合函数概念聚合函数：将一个表的一个或多个行并且具有一个或多个属性聚合为标量值。聚合函数理解：假设一个关于饮料的表。表里面有三个字段，分别是id、name、price，表里有5行数据。假设你需要找到所有饮料里最贵的饮料的价格，即执行一个max()聚合。你需要遍历所有5行数据，而结果就只有一个数值。2.聚合函数实现聚合函数主要通过扩展AggregateFunction类实现。AggregateF
Flink时间窗口详解 bxlj_jcj Flink flink 大数据
一、引言在大数据流处理的领域中，Flink的时间窗口是一项极为关键的技术，想象一下，你要统计一个电商网站每小时的订单数量。由于订单数据是持续不断产生的，这就形成了一个无界数据流。如果没有时间窗口的概念，你就需要处理无穷无尽的数据，难以进行有效的统计分析。而时间窗口的作用，就是将这无界的数据流按照时间维度切割成一个个有限的“数据块”，方便我们对这些数据进行处理和分析。比如，我们可以定义一个1小时的时
Flink DataStream API详解（一） bxlj_jcj Flink flink 大数据
一、引言Flink的DataStreamAPI，在流处理领域大显身手的核心武器。在很多实时数据处理场景中，如电商平台实时分析用户购物行为以实现精准推荐，金融领域实时监控交易数据以防范风险，DataStreamAPI都发挥着关键作用，能够对源源不断的数据流进行高效处理和分析。接下来，就让我们一起深入探索FlinkDataStreamAPI。二、DataStream编程基础搭建在开始使用FlinkDa
探索实时流处理的未来：Kafka Streams 深度指南秋或依
探索实时流处理的未来：KafkaStreams深度指南项目介绍欢迎进入KafkaStreams：实时流处理的世界！这不仅仅是一本书，更是一个通往流处理领域深层奥秘的门户。由PrashantPandey编著，这本书以ApacheKafka2.1中的KafkaStreams库为核心，为读者铺就了一条从理解基础概念到熟练掌握KafkaStreams编程的路径。无论是软件工程师、数据架构师，还是对大数据处
flink自定义函数逆风飞翔的小叔 flink 入门到精通 flink 大数据 big data
前言在很多情况下，尽管flink提供了丰富的转换算子API可供开发者对数据进行各自处理，比如map()，filter()等，但在实际使用的时候仍然不能满足所有的场景，这时候，就需要开发人员基于常用的转换算子的基础上，做一些自定义函数的处理1、来看一个常用的操作原始待读取的文件核心代码importorg.apache.flink.api.common.functions.FilterFunction
Flink自定义函数的常用方式飞Link Water flink java 大数据
一、实现Flink提供的接口//自定义函数classMyMapFunctionimplementsMapFunction{publicIntegermap(Stringvalue){returnInteger.parseInt(value
Elasticsearch搜索引擎存储：从原理到实践的全景解析 Python×CATIA工业智造搜索引擎 elasticsearch 大数据
引言在大数据时代，数据规模呈指数级增长，传统数据库的模糊查询、实时分析能力逐渐成为瓶颈。Elasticsearch（简称ES）凭借其分布式架构、实时搜索和灵活的数据分析能力，成为企业级搜索与存储的核心引擎。截至2025年，ES在全球日志分析、电商搜索、实时监控等场景的市场占有率超过60%。本文将从存储架构、核心技术、应用场景及优化策略四个维度，深入解析Elasticsearch的设计哲学与实践价值
Flink DataStream API详解（二）
一、引言咱两书接上回，上一篇文章主要介绍了DataStreamAPI一些基本的使用，主要是针对单数据流的场景下，但是在实际的流处理场景中，常常需要对多个数据流进行合并、拆分等操作，以满足复杂的业务需求。Flink的DataStreamAPI提供了一系列强大的多流转换算子，如union、connect和split等，下面我们来详细了解一下它们的功能和用法。二、多流转换2.1union算子union算
【Kafka专栏 13】Kafka的消息确认机制：不是所有的“收到”都叫“确认”！
作者名称：夏之以寒作者简介：专注于Java和大数据领域，致力于探索技术的边界，分享前沿的实践和洞见文章专栏：夏之以寒-kafka专栏专栏介绍：本专栏旨在以浅显易懂的方式介绍Kafka的基本概念、核心组件和使用场景，一步步构建起消息队列和流处理的知识体系，无论是对分布式系统感兴趣，还是准备在大数据领域迈出第一步，本专栏都提供所需的一切资源、指导，以及相关面试题，立刻免费订阅，开启Kafka学习之旅！
C语言学生成绩管理系统<；自创>；(功能7有小错误,但可运行） han_xue_feng java
腾讯云加速企业和个人开发创新公开直播预告直播预告：07/18(周四)15:00-16:00随着人工智能与大模型的蓬勃发展，我们正步入一个由技微信实习第一天周五入职，早上早早来到了公司，发现好多人都没上班，到十点才陆陆续续有人来，办理完入职后，mentor中联夏令营遗憾没有入选不过hr的回复真的很好，辛苦啦#提前批简历挂麻了怎么办##机械制造投递记录#大数据开发的工作有点过于简单了吧sq大数据开发的
Python爬虫：从图片或扫描文档中提取文字数据的完整指南 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言数据挖掘 c++
1.引言随着大数据技术的不断进步，图像数据逐渐成为了许多行业中重要的数据源之一。图像中不仅包含了丰富的视觉信息，还可能蕴含着大量的文字数据。对于科研、企业、政府等多个领域而言，如何从图片或扫描文档中提取出有价值的文字信息是一个亟待解决的问题。在这一过程中，OCR（OpticalCharacterRecognition，光学字符识别）技术成为了解决这一问题的重要工具。在本文中，我们将探讨如何使用Py
Java开发中，spring mvc 的线程怎么调用？小麦麦子 spring mvc
今天逛知乎，看到最近很多人都在问spring mvc 的线程http://www.maiziedu.com/course/java/ 的启动问题，觉得挺有意思的，那哥们儿问的也听仔细，下面的回答也很详尽，分享出来，希望遇对遇到类似问题的Java开发程序猿有所帮助。问题：在用spring mvc架构的网站上，设一线程在虚拟机启动时运行，线程里有一全局
maven依赖范围 bitcarter maven
1.test 测试的时候才会依赖，编译和打包不依赖，如junit不被打包 2.compile 只有编译和打包时才会依赖 3.provided 编译和测试的时候依赖，打包不依赖，如：tomcat的一些公用jar包 4.runtime 运行时依赖，编译不依赖 5.默认compile 依赖范围compile是支持传递的，test不支持传递 1.传递的意思是项目A，引用
Jaxb org.xml.sax.saxparseexception : premature end of file darrenzhu xml premature JAXB
如果在使用JAXB把xml文件unmarshal成vo(XSD自动生成的vo)时碰到如下错误： org.xml.sax.saxparseexception : premature end of file 很有可能时你直接读取文件为inputstream，然后将inputstream作为构建unmarshal需要的source参数。InputSource inputSource = new In
CSS Specificity 周凡杨 html 权重 Specificity css
有时候对于页面元素设置了样式，可为什么页面的显示没有匹配上呢？ because specificity CSS 的选择符是有权重的，当不同的选择符的样式设置有冲突时，浏览器会采用权重高的选择符设置的样式。规则： HTML标签的权重是1 Class 的权重是10 Id 的权重是100
java与servlet g21121 servlet
servlet 搞java web开发的人一定不会陌生，而且大家还会时常用到它。下面是java官方网站上对servlet的介绍： java官网对于servlet的解释写道 Java Servlet Technology Overview Servlets are the Java platform technology of choice for extending and enha
eclipse中安装maven插件 510888780 eclipse maven
1.首先去官网下载 Maven： http://www.apache.org/dyn/closer.cgi/maven/binaries/apache-maven-3.2.3-bin.tar.gz 下载完成之后将其解压，我将解压后的文件夹：apache-maven-3.2.3，并将它放在 D:\tools目录下，即 maven 最终的路径是：D:\tools\apache-mave
jpa@OneToOne关联关系布衣凌宇 jpa
Nruser里的pruserid关联到Pruser的主键id，实现对一个表的增删改，另一个表的数据随之增删改。 Nruser实体类 //***************************************************************** @Entity @Table(name="nruser") @DynamicInsert @Dynam
我的spring学习笔记11-Spring中关于声明式事务的配置 aijuans spring 事务配置
这两天学到事务管理这一块，结合到之前的terasoluna框架，觉得书本上讲的还是简单阿。我就把我从书本上学到的再结合实际的项目以及网上看到的一些内容，对声明式事务管理做个整理吧。我看得Spring in Action第二版中只提到了用TransactionProxyFactoryBean和<tx:advice/>,定义注释驱动这三种，我承认后两种的内容很好，很强大。但是实际的项目当中
java 动态代理简单实现 antlove java handler proxy dynamic service
dynamicproxy.service.HelloService package dynamicproxy.service; public interface HelloService { public void sayHello(); } dynamicproxy.service.impl.HelloServiceImpl package dynamicp
JDBC连接数据库百合不是茶 JDBC编程 JAVA操作oracle数据库
如果我们要想连接oracle公司的数据库，就要首先下载oralce公司的驱动程序，将这个驱动程序的jar包导入到我们工程中; JDBC链接数据库的代码和固定写法; 1,加载oracle数据库的驱动; &nb
单例模式中的多线程分析 bijian1013 java thread 多线程 java多线程
谈到单例模式，我们立马会想到饿汉式和懒汉式加载，所谓饿汉式就是在创建类时就创建好了实例，懒汉式在获取实例时才去创建实例，即延迟加载。饿汉式： package com.bijian.study; public class Singleton { private Singleton() { } // 注意这是private 只供内部调用 private static
javascript读取和修改原型特别需要注意原型的读写不具有对等性 bijian1013 JavaScript prototype
对于从原型对象继承而来的成员，其读和写具有内在的不对等性。比如有一个对象A，假设它的原型对象是B，B的原型对象是null。如果我们需要读取A对象的name属性值，那么JS会优先在A中查找，如果找到了name属性那么就返回；如果A中没有name属性，那么就到原型B中查找name，如果找到了就返回；如果原型B中也没有
【持久化框架MyBatis3六】MyBatis3集成第三方DataSource bit1129 dataSource
MyBatis内置了数据源的支持，如： <environments default="development"> <environment id="development"> <transactionManager type="JDBC" /> <data
我程序中用到的urldecode和base64decode,MD5 bitcarter c MD5 base64decode urldecode
这里是base64decode和urldecode，Md5在附件中。因为我是在后台所以需要解码： string Base64Decode(const char* Data,int DataByte,int& OutByte) { //解码表 const char DecodeTable[] = { 0, 0, 0, 0, 0, 0
腾讯资深运维专家周小军：QQ与微信架构的惊天秘密 ronin47
社交领域一直是互联网创业的大热门，从PC到移动端，从OICQ、MSN到QQ。到了移动互联网时代，社交领域应用开始彻底爆发，直奔黄金期。腾讯在过去几年里，社交平台更是火到爆，QQ和微信坐拥几亿的粉丝，QQ空间和朋友圈各种刷屏，写心得，晒照片，秀视频，那么谁来为企鹅保驾护航呢？支撑QQ和微信海量数据背后的架构又有哪些惊天内幕呢？本期大讲堂的内容来自今年2月份ChinaUnix对腾讯社交网络运营服务中心
java-69-旋转数组的最小元素。把一个数组最开始的若干个元素搬到数组的末尾，我们称之为数组的旋转。输入一个排好序的数组的一个旋转，输出旋转数组的最小元素 bylijinnan java
public class MinOfShiftedArray { /** * Q69 旋转数组的最小元素 * 把一个数组最开始的若干个元素搬到数组的末尾，我们称之为数组的旋转。输入一个排好序的数组的一个旋转，输出旋转数组的最小元素。 * 例如数组{3, 4, 5, 1, 2}为{1, 2, 3, 4, 5}的一个旋转，该数组的最小值为1。 */ publ
看博客，应该是有方向的 Cb123456 反省看博客
看博客，应该是有方向的: 我现在就复习以前的，在补补以前不会的，现在还不会的，同时完善完善项目，也看看别人的博客. 我刚突然想到的: 1.应该看计算机组成原理，数据结构，一些算法，还有关于android,java的。 2.对于我，也快大四了，看一些职业规划的，以及一些学习的经验，看看别人的工作总结的. 为什么要写
[开源与商业]做开源项目的人生活上一定要朴素,尽量减少对官方和商业体系的依赖 comsci 开源项目
为什么这样说呢？因为科学和技术的发展有时候需要一个平缓和长期的积累过程，但是行政和商业体系本身充满各种不稳定性和不确定性，如果你希望长期从事某个科研项目，但是却又必须依赖于某种行政和商业体系，那其中的过程必定充满各种风险。。。所以，为避免这种不确定性风险，我
一个 sql优化（[精华] 一个查询优化的分析调整全过程！很值得一看） cwqcwqmax9 sql
见 http://www.itpub.net/forum.php?mod=viewthread&tid=239011 Web翻页优化实例提交时间: 2004-6-18 15:37:49 回复发消息环境： Linux ve
Hibernat and Ibatis dashuaifu Hibernate ibatis
Hibernate VS iBATIS 简介 Hibernate 是当前最流行的O/R mapping框架，当前版本是3.05。它出身于sf.net，现在已经成为Jboss的一部分了 iBATIS 是另外一种优秀的O/R mapping框架，当前版本是2.0。目前属于apache的一个子项目了。相对Hibernate“O/R”而言，iBATIS 是一种“Sql Mappi
备份MYSQL脚本 dcj3sjt126com mysql
#!/bin/sh # this shell to backup mysql #[email protected] (QQ:1413161683 DuChengJiu) _dbDir=/var/lib/mysql/ _today=`date +%w` _bakDir=/usr/backup/$_today [ ! -d $_bakDir ] && mkdir -p
iOS第三方开源库的吐槽和备忘 dcj3sjt126com ios
转自 ibireme的博客做iOS开发总会接触到一些第三方库，这里整理一下，做一些吐槽。目前比较活跃的社区仍旧是Github，除此以外也有一些不错的库散落在Google Code、SourceForge等地方。由于Github社区太过主流，这里主要介绍一下Github里面流行的iOS库。首先整理了一份 Github上排名靠
html wlwmanifest.xml eoems html xml
所谓优化wp_head()就是把从wp_head中移除不需要元素，同时也可以加快速度。步骤：加入到function.php remove_action('wp_head', 'wp_generator'); //wp-generator移除wordpress的版本号，本身blog的版本号没什么意义，但是如果让恶意玩家看到，可能会用官网公布的漏洞攻击blog remov
浅谈Java定时器发展 hacksin java 并发 timer 定时器
java在jdk1.3中推出了定时器类Timer,而后在jdk1.5后由Dou Lea从新开发出了支持多线程的ScheduleThreadPoolExecutor，从后者的表现来看，可以考虑完全替代Timer了。 Timer与ScheduleThreadPoolExecutor对比： 1. Timer始于jdk1.3,其原理是利用一个TimerTask数组当作队列
移动端页面侧边导航滑入效果 ini jquery Web html5 css javascirpt
效果体验：http://hovertree.com/texiao/mobile/2.htm可以使用移动设备浏览器查看效果。效果使用到jquery-2.1.4.min.js，该版本的jQuery库是用于支持HTML5的浏览器上，不再兼容IE8以前的浏览器，现在移动端浏览器一般都支持HTML5，所以使用该jQuery没问题。HTML文件代码： <!DOCTYPE html> <h
AspectJ+Javasist记录日志 kane_xie aspectj javasist
在项目中碰到这样一个需求，对一个服务类的每一个方法，在方法开始和结束的时候分别记录一条日志，内容包括方法名，参数名+参数值以及方法执行的时间。 @Override public String get(String key) { // long start = System.currentTimeMillis(); // System.out.println("Be
redis学习笔记 MJC410621 redis NoSQL
1)nosql数据库主要由以下特点：非关系型的、分布式的、开源的、水平可扩展的。 1，处理超大量的数据 2，运行在便宜的PC服务器集群上， 3，击碎了性能瓶颈。 1)对数据高并发读写。 2)对海量数据的高效率存储和访问。 3)对数据的高扩展性和高可用性。 redis支持的类型： Sring 类型 set name lijie get name lijie set na
使用redis实现分布式锁 qifeifei
在多节点的系统中，如何实现分布式锁机制，其中用redis来实现是很好的方法之一，我们先来看一下jedis包中，有个类名BinaryJedis,它有个方法如下： public Long setnx(final byte[] key, final byte[] value) { checkIsInMulti(); client.setnx(key, value); ret
BI并非万能，中层业务管理报表要另辟蹊径张老师的菜大数据 BI 商业智能信息化
BI是商业智能的缩写，是可以帮助企业做出明智的业务经营决策的工具，其数据来源于各个业务系统，如ERP、CRM、SCM、进销存、HER、OA等。 BI系统不同于传统的管理信息系统，他号称是一个整体应用的解决方案，是融入管理思想的强大系统：有着系统整体的设计思想，支持对所有
安装rvm后出现rvm not a function 或者ruby -v后提示没安装ruby的问题 wudixiaotie function
1.在~/.bashrc最后加入 [[ -s "$HOME/.rvm/scripts/rvm" ]] && source "$HOME/.rvm/scripts/rvm" 2.重新启动terminal输入： rvm use ruby-2.2.1 --default 把当前安装的ruby版本设为默

基于 Flink CDC 打造企业级实时数据集成方案

CDC 数据实时集成的挑战

Flink CDC 核心技术解读

阿里云基于 Flink CDC 的企业级实时数据集成方案

实时数据集成 Demo 演示

你可能感兴趣的:(flink,mfc,大数据)