阿里开发者

Flink CDC 2.0 正式发布，详解核心改进

简介：Flink CDC 2.0.0 版本于 8 月 10 日正式发布，点击了解详情～

本文由社区志愿者陈政羽整理，内容来源自阿里巴巴高级开发工程师徐榜江 (雪尽) 7 月 10 日在北京站 Flink Meetup 分享的《详解 Flink-CDC》。深入讲解了最新发布的 Flink CDC 2.0.0 版本带来的核心特性，包括：全量数据的并发读取、checkpoint、无锁读取等重大改进。
GitHub 地址：
https://github.com/ververica/flink-cdc-connectors

一、CDC 概述

CDC 的全称是 Change Data Capture ，在广义的概念上，只要是能捕获数据变更的技术，我们都可以称之为 CDC 。目前通常描述的 CDC 技术主要面向数据库的变更，是一种用于捕获数据库中数据变更的技术。CDC 技术的应用场景非常广泛：

数据同步：用于备份，容灾；
数据分发：一个数据源分发给多个下游系统；
数据采集：面向数据仓库 / 数据湖的 ETL 数据集成，是非常重要的数据源。

CDC 的技术方案非常多，目前业界主流的实现机制可以分为两种：

基于查询的 CDC：
- 离线调度查询作业，批处理。把一张表同步到其他系统，每次通过查询去获取表中最新的数据；
- 无法保障数据一致性，查的过程中有可能数据已经发生了多次变更；
- 不保障实时性，基于离线调度存在天然的延迟。
基于日志的 CDC：
- 实时消费日志，流处理，例如 MySQL 的 binlog 日志完整记录了数据库中的变更，可以把 binlog 文件当作流的数据源；
- 保障数据一致性，因为 binlog 文件包含了所有历史变更明细；
- 保障实时性，因为类似 binlog 的日志文件是可以流式消费的，提供的是实时数据。

对比常见的开源 CDC 方案，我们可以发现：

对比增量同步能力，
- 基于日志的方式，可以很好的做到增量同步；
- 而基于查询的方式是很难做到增量同步的。
对比全量同步能力，基于查询或者日志的 CDC 方案基本都支持，除了 Canal。
而对比全量 + 增量同步的能力，只有 Flink CDC、Debezium、Oracle Goldengate 支持较好。
从架构角度去看，该表将架构分为单机和分布式，这里的分布式架构不单纯体现在数据读取能力的水平扩展上，更重要的是在大数据场景下分布式系统接入能力。例如 Flink CDC 的数据入湖或者入仓的时候，下游通常是分布式的系统，如 Hive、HDFS、Iceberg、Hudi 等，那么从对接入分布式系统能力上看，Flink CDC 的架构能够很好地接入此类系统。
在数据转换 / 数据清洗能力上，当数据进入到 CDC 工具的时候是否能较方便的对数据做一些过滤或者清洗，甚至聚合？
- 在 Flink CDC 上操作相当简单，可以通过 Flink SQL 去操作这些数据；
- 但是像 DataX、Debezium 等则需要通过脚本或者模板去做，所以用户的使用门槛会比较高。
另外，在生态方面，这里指的是下游的一些数据库或者数据源的支持。Flink CDC 下游有丰富的 Connector，例如写入到 TiDB、MySQL、Pg、HBase、Kafka、ClickHouse 等常见的一些系统，也支持各种自定义 connector。

二、Flink CDC 项目

讲到这里，先带大家回顾下开发 Flink CDC 项目的动机。

1. Dynamic Table & ChangeLog Stream

大家都知道 Flink 有两个基础概念：Dynamic Table 和 Changelog Stream。

Dynamic Table 就是 Flink SQL 定义的动态表，动态表和流的概念是对等的。参照上图，流可以转换成动态表，动态表也可以转换成流。
在 Flink SQL中，数据在从一个算子流向另外一个算子时都是以 Changelog Stream 的形式，任意时刻的 Changelog Stream 可以翻译为一个表，也可以翻译为一个流。

联想下 MySQL 中的表和 binlog 日志，就会发现：MySQL 数据库的一张表所有的变更都记录在 binlog 日志中，如果一直对表进行更新，binlog 日志流也一直会追加，数据库中的表就相当于 binlog 日志流在某个时刻点物化的结果；日志流就是将表的变更数据持续捕获的结果。这说明 Flink SQL 的 Dynamic Table 是可以非常自然地表示一张不断变化的 MySQL 数据库表。

在此基础上，我们调研了一些 CDC 技术，最终选择了 Debezium 作为 Flink CDC 的底层采集工具。Debezium 支持全量同步，也支持增量同步，也支持全量 + 增量的同步，非常灵活，同时基于日志的 CDC 技术使得提供 Exactly-Once 成为可能。

将 Flink SQL 的内部数据结构 RowData 和 Debezium 的数据结构进行对比，可以发现两者是非常相似的。

每条 RowData 都有一个元数据 RowKind，包括 4 种类型，分别是插入 (INSERT)、更新前镜像 (UPDATE_BEFORE)、更新后镜像 (UPDATE_AFTER)、删除 (DELETE)，这四种类型和数据库里面的 binlog 概念保持一致。
而 Debezium 的数据结构，也有一个类似的元数据 op 字段， op 字段的取值也有四种，分别是 c、u、d、r，各自对应 create、update、delete、read。对于代表更新操作的 u，其数据部分同时包含了前镜像 (before) 和后镜像 (after)。

通过分析两种数据结构，Flink 和 Debezium 两者的底层数据是可以非常方便地对接起来的，大家可以发现 Flink 做 CDC 从技术上是非常合适的。

2. 传统 CDC ETL 分析

我们来看下传统 CDC 的 ETL 分析链路，如下图所示：

传统的基于 CDC 的 ETL 分析中，数据采集工具是必须的，国外用户常用 Debezium，国内用户常用阿里开源的 Canal，采集工具负责采集数据库的增量数据，一些采集工具也支持同步全量数据。采集到的数据一般输出到消息中间件如 Kafka，然后 Flink 计算引擎再去消费这一部分数据写入到目的端，目的端可以是各种 DB，数据湖，实时数仓和离线数仓。

注意，Flink 提供了 changelog-json format，可以将 changelog 数据写入离线数仓如 Hive / HDFS；对于实时数仓，Flink 支持将 changelog 通过 upsert-kafka connector 直接写入 Kafka。

我们一直在思考是否可以使用 Flink CDC 去替换上图中虚线框内的采集组件和消息队列，从而简化分析链路，降低维护成本。同时更少的组件也意味着数据时效性能够进一步提高。答案是可以的，于是就有了我们基于 Flink CDC 的 ETL 分析流程。

3. 基于 Flink CDC 的 ETL 分析

在使用了 Flink CDC 之后，除了组件更少，维护更方便外，另一个优势是通过 Flink SQL 极大地降低了用户使用门槛，可以看下面的例子：

该例子是通过 Flink CDC 去同步数据库数据并写入到 TiDB，用户直接使用 Flink SQL 创建了产品和订单的 MySQL-CDC 表，然后对数据流进行 JOIN 加工，加工后直接写入到下游数据库。通过一个 Flink SQL 作业就完成了 CDC 的数据分析，加工和同步。

大家会发现这是一个纯 SQL 作业，这意味着只要会 SQL 的 BI，业务线同学都可以完成此类工作。与此同时，用户也可以利用 Flink SQL 提供的丰富语法进行数据清洗、分析、聚合。

而这些能力，对于现有的 CDC 方案来说，进行数据的清洗，分析和聚合是非常困难的。

此外，利用 Flink SQL 双流 JOIN、维表 JOIN、UDTF 语法可以非常容易地完成数据打宽，以及各种业务逻辑加工。

4. Flink CDC 项目发展

2020 年 7 月由云邪提交了第一个 commit，这是基于个人兴趣孵化的项目；
2020 年 7 中旬支持了 MySQL-CDC；
2020 年 7 月末支持了 Postgres-CDC；
一年的时间，该项目在 GitHub 上的 star 数已经超过 800。

三、Flink CDC 2.0 详解

1. Flink CDC 痛点

MySQL CDC 是 Flink CDC 中使用最多也是最重要的 Connector，本文下述章节描述 Flink CDC Connector 均为 MySQL CDC Connector。

随着 Flink CDC 项目的发展，得到了很多用户在社区的反馈，主要归纳为三个：

全量 + 增量读取的过程需要保证所有数据的一致性，因此需要通过加锁保证，但是加锁在数据库层面上是一个十分高危的操作。底层 Debezium 在保证数据一致性时，需要对读取的库或表加锁，全局锁可能导致数据库锁住，表级锁会锁住表的读，DBA 一般不给锁权限。
不支持水平扩展，因为 Flink CDC 底层是基于 Debezium，起架构是单节点，所以Flink CDC 只支持单并发。在全量阶段读取阶段，如果表非常大 (亿级别)，读取时间在小时甚至天级别，用户不能通过增加资源去提升作业速度。
全量读取阶段不支持 checkpoint：CDC 读取分为两个阶段，全量读取和增量读取，目前全量读取阶段是不支持 checkpoint 的，因此会存在一个问题：当我们同步全量数据时，假设需要 5 个小时，当我们同步了 4 小时的时候作业失败，这时候就需要重新开始，再读取 5 个小时。

2. Debezium 锁分析

Flink CDC 底层封装了 Debezium， Debezium 同步一张表分为两个阶段：

全量阶段：查询当前表中所有记录；
增量阶段：从 binlog 消费变更数据。

大部分用户使用的场景都是全量 + 增量同步，加锁是发生在全量阶段，目的是为了确定全量阶段的初始位点，保证增量 + 全量实现一条不多，一条不少，从而保证数据一致性。从下图中我们可以分析全局锁和表锁的一些加锁流程，左边红色线条是锁的生命周期，右边是 MySQL 开启可重复读事务的生命周期。

以全局锁为例，首先是获取一个锁，然后再去开启可重复读的事务。这里锁住操作是读取 binlog 的起始位置和当前表的 schema。这样做的目的是保证 binlog 的起始位置和读取到的当前 schema 是可以对应上的，因为表的 schema 是会改变的，比如如删除列或者增加列。在读取这两个信息后，SnapshotReader 会在可重复读事务里读取全量数据，在全量数据读取完成后，会启动 BinlogReader 从读取的 binlog 起始位置开始增量读取，从而保证全量数据 + 增量数据的无缝衔接。

表锁是全局锁的退化版，因为全局锁的权限会比较高，因此在某些场景，用户只有表锁。表锁锁的时间会更长，因为表锁有个特征：锁提前释放了可重复读的事务默认会提交，所以锁需要等到全量数据读完后才能释放。

经过上面分析，接下来看看这些锁到底会造成怎样严重的后果：

Flink CDC 1.x 可以不加锁，能够满足大部分场景，但牺牲了一定的数据准确性。Flink CDC 1.x 默认加全局锁，虽然能保证数据一致性，但存在上述 hang 住数据的风险。

3. Flink CDC 2.0 设计 ( 以 MySQL 为例)

通过上面的分析，可以知道 2.0 的设计方案，核心要解决上述的三个问题，即支持无锁、水平扩展、checkpoint。

DBlog 这篇论文里描述的无锁算法如下图所示：

左边是 Chunk 的切分算法描述，Chunk 的切分算法其实和很多数据库的分库分表原理类似，通过表的主键对表中的数据进行分片。假设每个 Chunk 的步长为 10，按照这个规则进行切分，只需要把这些 Chunk 的区间做成左开右闭或者左闭右开的区间，保证衔接后的区间能够等于表的主键区间即可。

右边是每个 Chunk 的无锁读算法描述，该算法的核心思想是在划分了 Chunk 后，对于每个 Chunk 的全量读取和增量读取，在不用锁的条件下完成一致性的合并。Chunk 的切分如下图所示：

因为每个 chunk 只负责自己主键范围内的数据，不难推导，只要能够保证每个 Chunk 读取的一致性，就能保证整张表读取的一致性，这便是无锁算法的基本原理。

Netflix 的 DBLog 论文中 Chunk 读取算法是通过在 DB 维护一张信号表，再通过信号表在 binlog 文件中打点，记录每个 chunk 读取前的 Low Position (低位点) 和读取结束之后 High Position (高位点) ，在低位点和高位点之间去查询该 Chunk 的全量数据。在读取出这一部分 Chunk 的数据之后，再将这 2 个位点之间的 binlog 增量数据合并到 chunk 所属的全量数据，从而得到高位点时刻，该 chunk 对应的全量数据。

Flink CDC 结合自身的情况，在 Chunk 读取算法上做了去信号表的改进，不需要额外维护信号表，通过直接读取 binlog 位点替代在 binlog 中做标记的功能，整体的 chunk 读算法描述如下图所示：

比如正在读取 Chunk-1，Chunk 的区间是 [K1, K10]，首先直接将该区间内的数据 select 出来并把它存在 buffer 中，在 select 之前记录 binlog 的一个位点 (低位点)，select 完成后记录 binlog 的一个位点 (高位点)。然后开始增量部分，消费从低位点到高位点的 binlog。

图中的 - ( k2,100 ) + ( k2,108 ) 记录表示这条数据的值从 100 更新到 108；
第二条记录是删除 k3；
第三条记录是更新 k2 为 119；
第四条记录是 k5 的数据由原来的 77 变更为 100。

观察图片中右下角最终的输出，会发现在消费该 chunk 的 binlog 时，出现的 key 是k2、k3、k5，我们前往 buffer 将这些 key 做标记。

对于 k1、k4、k6、k7 来说，在高位点读取完毕之后，这些记录没有变化过，所以这些数据是可以直接输出的；
对于改变过的数据，则需要将增量的数据合并到全量的数据中，只保留合并后的最终数据。例如，k2 最终的结果是 119 ，那么只需要输出 +(k2,119)，而不需要中间发生过改变的数据。

通过这种方式，Chunk 最终的输出就是在高位点是 chunk 中最新的数据。

上图描述的是单个 Chunk 的一致性读，但是如果有多个表分了很多不同的 Chunk，且这些 Chunk 分发到了不同的 task 中，那么如何分发 Chunk 并保证全局一致性读呢？

这个就是基于 FLIP-27 来优雅地实现的，通过下图可以看到有 SourceEnumerator 的组件，这个组件主要用于 Chunk 的划分，划分好的 Chunk 会提供给下游的 SourceReader 去读取，通过把 chunk 分发给不同的 SourceReader 便实现了并发读取 Snapshot Chunk 的过程，同时基于 FLIP-27 我们能较为方便地做到 chunk 粒度的 checkpoint。

当 Snapshot Chunk 读取完成之后，需要有一个汇报的流程，如下图中橘色的汇报信息，将 Snapshot Chunk 完成信息汇报给 SourceEnumerator。

汇报的主要目的是为了后续分发 binlog chunk (如下图)。因为 Flink CDC 支持全量 + 增量同步，所以当所有 Snapshot Chunk 读取完成之后，还需要消费增量的 binlog，这是通过下发一个 binlog chunk 给任意一个 Source Reader 进行单并发读取实现的。

对于大部分用户来讲，其实无需过于关注如何无锁算法和分片的细节，了解整体的流程就好。

整体流程可以概括为，首先通过主键对表进行 Snapshot Chunk 划分，再将 Snapshot Chunk 分发给多个 SourceReader，每个 Snapshot Chunk 读取时通过算法实现无锁条件下的一致性读，SourceReader 读取时支持 chunk 粒度的 checkpoint，在所有 Snapshot Chunk 读取完成后，下发一个 binlog chunk 进行增量部分的 binlog 读取，这便是 Flink CDC 2.0 的整体流程，如下图所示：

Flink CDC 是一个完全开源的项目，项目所有设计和源码目前都已贡献到开源社区，Flink CDC 2.0 也已经正式发布，此次的核心改进和提升包括：

提供 MySQL CDC 2.0，核心feature 包括
- 并发读取，全量数据的读取性能可以水平扩展；
- 全程无锁，不对线上业务产生锁的风险；
- 断点续传，支持全量阶段的 checkpoint。
搭建文档网站，提供多版本文档支持，文档支持关键词搜索

笔者用 TPC-DS 数据集中的 customer 表进行了测试，Flink 版本是 1.13.1，customer 表的数据量是 6500 万条，Source 并发为 8，全量读取阶段:

MySQL CDC 2.0 用时 13 分钟；
MySQL CDC 1.4 用时 89 分钟；
读取性能提升 6.8 倍。

为了提供更好的文档支持，Flink CDC 社区搭建了文档网站，网站支持对文档的版本管理：

文档网站支持关键字搜索功能，非常实用：

四、未来规划

关于 CDC 项目的未来规划，我们希望围绕稳定性，进阶 feature 和生态集成三个方面展开。

稳定性
- 通过社区的方式吸引更多的开发者，公司的开源力量提升 Flink CDC 的成熟度；
- 支持 Lazy Assigning。Lazy Assigning 的思路是将 chunk 先划分一批，而不是一次性进行全部划分。当前 Source Reader 对数据读取进行分片是一次性全部划分好所有 chunk，例如有 1 万个 chunk，可以先划分 1 千个 chunk，而不是一次性全部划分，在 SourceReader 读取完 1 千 chunk 后再继续划分，节约划分 chunk 的时间。
进阶 Feature
- 支持 Schema Evolution。这个场景是：当同步数据库的过程中，突然在表中添加了一个字段，并且希望后续同步下游系统的时候能够自动加入这个字段；
- 支持 Watermark Pushdown 通过 CDC 的 binlog 获取到一些心跳信息，这些心跳的信息可以作为一个 Watermark，通过这个心跳信息可以知道到这个流当前消费的一些进度；
- 支持 META 数据，分库分表的场景下，有可能需要元数据知道这条数据来源哪个库哪个表，在下游系统入湖入仓可以有更多的灵活操作；
- 整库同步：用户要同步整个数据库只需一行 SQL 语法即可完成，而不用每张表定义一个 DDL 和 query。
生态集成
- 集成更多上游数据库，如 Oracle，MS SqlServer。Cloudera 目前正在积极贡献 oracle-cdc connector；
- 在入湖层面，Hudi 和 Iceberg 写入上有一定的优化空间，例如在高 QPS 入湖的时候，数据分布有比较大的性能影响，这一点可以通过与生态打通和集成继续优化。

最后，欢迎大家加入 Flink CDC 用户群一起交流。

附录

[1] Flink-CDC 项目地址

[2] Flink-CDC 文档网站

[3] Percona - MySQL 全局锁时间分析

[4] DBLog - 无锁算法论文

[5] Flink FLIP-27 设计文档

实时数仓 Meetup 议题征集

8 月 29 日左右 (时间暂定)，Flink 社区计划举办 Meetup 实时数仓专场，现征集议题中！
关于实时数仓，大家的关注度一直很高，目前业界也有许多落地的公司。在 Meetup 实时数仓专场，我们将更加注重 “交流”，希望将大家聚集在一起相互探讨关于实时数仓的话题，重点在踩过的坑、碰到的痛点都是怎样解决的～
现征集实时数仓 Meetup 的议题，围绕 “实时数仓踩坑痛点和避坑经验”，欢迎各位老师和同学带上贵公司的介绍，以及议题的初步大纲来找小松鼠。
公司不议大小，经验才论足缺。我们会选取其中最具代表性的议题，邀请您参加实时数仓 Meetup 专场～你们的经验对于其他技术开发者和 Flink 社区都很重要！

原文链接：https://developer.aliyun.com/article/786600?

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

Armv8&Armv9架构入门指南牧雁照
Armv8&Armv9架构入门指南【下载地址】Armv8Armv9架构入门指南分享Armv8&Armv9架构入门指南欢迎阅读《Armv8&Armv9架构入门指南》，本指南专为对ARM处理器架构感兴趣的开发者、研究人员以及技术爱好者设计项目地址:https://gitcode.com/Open-source-documentation-tutorial/27e07欢迎阅读《Armv8&Armv9架构
Android Jetpack Compose快速上手 xiangzhihong8 深入Android应用开发 android android jetpack
一、JetpackCompose简介JetpackCompose是Google推出的一个用于构建原生Android界面的工具包，旨在帮助开发者更快、更轻松地在Android平台上构建原生客户端应用。同时，作为全新的声明式的UI框架，JetpackCompose可以使用声明式KotlinAPI取代Android传统的xml布局。那什么是声明式呢？要搞清楚这个问题，我们需要布局开发中的另外一个概念：命
Django 模型 wjs2024 开发语言
Django模型Django模型是Django框架的核心组件之一，它用于定义应用程序的数据结构。在Django中，模型是Python类，通常继承自django.db.models.Model。每个模型类代表数据库中的一个表，模型类的属性对应表中的字段。1.创建模型创建Django模型非常简单。首先，你需要定义一个继承自django.db.models.Model的类，然后在类中定义模型字段。例如，
数据库--oracle--如何在Ubuntu上安装Oracle cuijr_leaf oracle 数据库
写在前面：下面的内容是国外的一篇教程，我跟着做了一遍，没有什么问题，所以翻译过来供大家参考。环境：oracle12cubuntu18.04（我是在Ubuntu16.04上装的，也没什么问题）正文：欢迎你！这篇教程会教你如何一步步地在Ubuntu18.04服务器上安装Oracle12cR2数据库。这篇教程中包含所有你必须要执行的命令以及部分截图。整个过程可能有点儿难，所以需要你对shell命令有一定
MVC 模式与javaEE三层架构剥包谷 java javaWeb-mvc 三层架构
MVC设计模式mvc这种设计模式，不光运用于Web领域，而且也能用于非Web领域；可以特指一种表现层设计模式，不限于Java语言；JavaWeb应用中应用的最广泛的设计模式便是MVC模式，目前的主流Web框架大多也是基于MVC设计模式所编写的。MVC模式主要分为以下三个基础模块：Model模型：主要负责、javaBean封装数据、业务逻辑以及数据库的交互View视图：主要用于显示数据和提交数据Co
python封装sql脚本_Python数据库封装实现代码示例解析 weixin_39647412 python封装sql脚本
Django中(原生mysql封装)1.函数封装importpymysql#查所数据defget_all(sql):conn=pymysql.connect(host="localhost",user="root",password="root",database="db6")cur=conn.cursor(cursor=pymysql.cursors.DictCursor)cur.execute
hot100_21. 合并两个有序链表 TTXS123456789ABC BS_算法链表数据结构
将两个升序链表合并为一个新的升序链表并返回。新链表是通过拼接给定的两个链表的所有节点组成的。示例1：输入：l1=[1,2,4],l2=[1,3,4]输出：[1,1,2,3,4,4]示例2：输入：l1=[],l2=[]输出：[]示例3：输入：l1=[],l2=[0]输出：[0]迭代思路我们可以用迭代的方法来实现上述算法。当l1和l2都不是空链表时，判断l1和l2哪一个链表的头节点的值更小，将较小值的
MYSQL8+CENTOS7.6 主从+keepalived搭建总结 CRMEB定制开发数据库 centos linux mysql java
一、环境准备总共3个IP地址：2个物理机IP，1个VIPMASTER：10.18.96.15SLAVE:10.18.96.16VIP：10.18.96.17操作系统：CENTOS7.6数据库：MYSQL8.0.20我的硬件资源是8核16GMYSQL8下载地址：依赖下载地址：（CMAKE如果使用YUM源安装了CMAKE3，也可以不下载了）二、依赖安装在安装MYSQL8之前，得先有前置准备，否则就是各
Python连接Oracle数据库：cx_Oracle与oracledb库的比较与选择码上富贵数据库 python oracle
文章目录一、概述cx_Oracleoracledb二、安装OracleInstantclient三、Python测试cx_Oracle：oracledb：一、概述Python访问Oracle可以通过两种Oracle官方库：旧驱动：cx_Oracle（需要安装OracleInstantclient）新驱动：oracledb（Oracle数据库12.1或更高版本不需要安装OracleInstantcl
数据库管理-第287期 Oracle DB 23.7新特性一览（20250124）胖头鱼的鱼缸（尹海文） Oracle 数据库 oracle
数据库管理287期2025-01-24数据库管理-第287期OracleDB23.7新特性一览（20250124）1AI向量搜索：算术和聚合运算2更改Compatible至23.6.0，以使用23.6或更高版本中的新AI向量搜索功能3CloudDeveloper包4DBMS_DEVELOPER.GET_METADATA：用于检索数据库对象元数据的API5PL/SQL中的维度算法支持6二元性视图放宽
GBase 8a Mpp Cluster集群产品性能优化篇之减少嵌套-查询改写 zhu1981hui GBase 性能优化 dba sql 数据仓库大数据
将group部分移到内部，嵌套查询改成了一个查询原SQL：SELECTAAE003对应费款所属期,AAE002费款所属期,AAA041个人缴费比例,AAA043单位缴费划入个人账户比例,AAA115明细类型,AAE011经办人,AAE036经办时间,BAE181数据来源,AAB191到账日期,NVL(SUM(NVL(AAE180,0)),0)缴费基数,NVL(SUM(个人缴费金额),0)个人缴费金
spark和python的区别_Spark入门(Python) weixin_39934257 spark和python的区别
Spark是第一个脱胎于该转变的快速、通用分布式计算范式，并且很快流行起来。Spark使用函数式编程范式扩展了MapReduce模型以支持更多计算类型，可以涵盖广泛的工作流，这些工作流之前被实现为Hadoop之上的特殊系统。Spark使用内存缓存来提升性能，因此进行交互式分析也足够快速(就如同使用Python解释器，与集群进行交互一样)。缓存同时提升了迭代算法的性能，这使得Spark非常适合数据理
spark streaming python_Spark入门：Spark Streaming简介(Python版) weixin_39531582 spark streaming python
SparkStreaming是构建在Spark上的实时计算框架，它扩展了Spark处理大规模流式数据的能力。SparkStreaming可结合批处理和交互查询，适合一些需要对历史数据和实时数据进行结合分析的应用场景。SparkStreaming设计SparkStreaming是Spark的核心组件之一，为Spark提供了可拓展、高吞吐、容错的流计算能力。如下图所示，SparkStreaming可整
最新性能测试:Kafka、Pulsar 和 Pravega 哪个最强? 起码有故事程序员软件测试 IT 程序人生测试工程师单元测试软件测试 python
本文会对Pravega进行性能评估，重点关注读写性能。1简介为了对比不同的设计选择，我们还额外展示了来自其它系统的性能结果：ApacheKafka和ApachePulsar。Pulsar和Kafka最初都被作为优秀的消息系统而为人熟知，但它们最近都做出了很大努力向存储系统方向发展，这两个系统最近都新增了分层存储的特性。然而，它们的设计选择具有根本性的不同，并导致了不同的行为以及性能特点。我们将会在
【3D目标检测】YOLO3D 基于图像的3D目标检测算法 BILLY BILLY YOLOv8系列 3d 目标检测 YOLO
参考文档：https://ruhyadi.github.io/project/computer-vision/yolo3d/代码：https://github.com/ruhyadi/yolo3d-lightning本次分享将会从以下四个方面展开：物体检测模型中的算法选择单目摄像头下的物体检测神经网络训练预测参数的设计模型训练与距离测算1.物体检测模型中的算法选择物体检测（ObjectDetect
MySQLDBA修炼之道-开发篇（一）滔_GY MySQL DBA修炼之道-读书笔记数据库 oracle mysql
三、开发基础1.数据模型1.1关系数据模型介绍关于NULL如果某个字段的值是未知的或未定义的，数据库会提供一个特殊的值NULL来表示。NULL值很特殊，在关系数据库中应该小心处理。例如查询语句“select*fromemployeewhere绩效得分绩效得分>85；”就不能查询出绩效得分是未知的（NULL）的数据。关于key和索引key常指表中能唯一标识一笔记录的字段（属性）或多个字段的组合。现实
开源的Text-to-SQL工具WrenAI rkmhr_sef 面试学习路线阿里巴巴开源 sql 数据库
WrenAI是一个开源的Text-to-SQL工具，旨在通过自然语言交互界面，帮助用户更便捷地查询数据库。以下是对WrenAI的详细介绍：一、主要功能自然语言交互：用户可以通过对话方式提出问题，WrenAI能够理解和解析复杂的查询需求，并生成定制化的SQL查询结果。语义引擎：WrenAI配备了强大的语义引擎，能够映射业务术语到数据源，定义关系，并整合预定义的计算和聚合，从而提高查询精度。支持多种模
Python与MySQL数据库操作教程咱家阿星 python mysql 数据库 python mysql
Python与MySQL数据库操作教程MySQL是一种常用的存储系统，内容仅为基础知识.本文包含:第一部分介绍如何通过mysql-connector-python进行基础数据库操作，第二部分包括SQL语法、事务、锁的基础知识。本文不包括:Mysql的安装过程.Python基础请看:Python基础语法一、Python操作Mysql1.Python-Mysql模块下载先确保已安装mysql-conn
Linux使用基础 zhou_zhao_xu Linux
文章目录一、概述1.1Linux的历史1.2Linux开发者1.3Linux发展历史1.4Linux发行版1.4.1Linux版本Ubuntu1.4.2Linux版本RedHatLinux1.4.3Linux版本CENTOS二、Linux安装2.1物理机安装2.2虚拟机安装2.2.1虚化技术2.2.1.1软件层面2.2.1.2硬件层面2.2.2虚拟化平台2.2.2.1virtualbox2.2.2
Python软体中使用Scikit-learn库训练简单线性回归模型清水白石008 Python题库 python python scikit-learn 线性回归
Python软体中使用Scikit-learn库训练简单线性回归模型1.引言作为数据科学家和机器学习从业者,我们经常需要处理各种类型的数据,并从中提取有价值的信息。其中,线性回归是最基础也是最常用的机器学习算法之一。它可以帮助我们预测连续型目标变量,在很多实际应用场景中都有广泛应用,比如房价预测、销量预测等。在本文中,我将使用Python的Scikit-learn库,介绍如何训练一个简单的线性回归
超实用的Python机器学习教程 - 基于scikit - learn库 AI_DL_CODE 人工智能 python 机器学习人工智能
一、机器学习简介机器学习的定义与概念机器学习是一门多领域交叉学科，它涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。简单来说，机器学习是让计算机从数据中学习规律并进行预测或决策的技术。它旨在构建能够自动从数据中学习模式并进行改进的算法，而无需被明确编程来执行特定任务。例如，我们可以让机器学习算法通过分析大量的历史天气数据来预测未来的天气情况，或者通过分析用户的购物历史来推荐可能感兴趣
Unity FBX导出系统源码：WRP FBX Exporter完整解析 Kay Lam
本文还有配套的精品资源，点击获取简介：UnityFBX模型导出系统是游戏开发中重要工具，它支持3D模型数据在不同平台和软件间以FBX格式进行交换。WRPFBXExporter源码提供自定义模型导出功能，允许开发者根据项目需求优化模型拓扑、UV坐标和骨骼绑定等。此源码涵盖了模型数据的读取、转换、优化和写入过程，便于开发者创建高效、精确的导出设置。源码附带使用说明文档，帮助用户快速集成和定制。此外，作
代码随想录算法训练营第四十一天-动态规划-股票-123.买卖股票的最佳时机III taoyong001 算法动态规划 c++leetcode
题目要求最多进行两次买卖，而且每次买卖的交易日期不能交叠，必须要独立题目的关键是拆分动规五部曲：动态数组定义dp[i][0]表示第i天不操作dp[i][1]表示第i天持有股票，可能会延续前一天已买入的状态，也可能是当天买入dp[i][2]表示第i天不持有，可能会延续前一天不持有状态，也可能是当天卖出dp[i][3]表示第i天第二次持有dp[i][4]表示第i天第二次不持有递推公式：dp[i][0]
NXOPEN C++ 参数化设计系列天涯Skyline NXOPENC++参数化设计系列专栏 c++
NXOPENC++参数化设计系列部件属性操作篇：NXOpenC++API为NX软件的二次开发提供了强大的工具，特别是在参数化设计方面。通过对部件（Part）属性的操作，开发者可以实现更加灵活和高效的设计流程。在参数化设计中，部件属性属于产品的标准属性，是通过模型或图纸传递数据的重要媒介。部件属性篇将会大家带来关于部件属性新增，修改，删除，匹配、锁定等系列化的操作及相关代码展示。前言NXOpenC+
【全网最详细】MySQL教程(1)-数据库类型 star010- 网络攻防实战指北 mysql
前言概念比较枯燥，了解一下即可数据库基本概念数据定义：所谓数据（Data）是指对客观事物进行描述并可以鉴别的符号，这些符号是可识别的、抽象的。它不仅仅指狭义上的数字，而是有多种表现形式：字母、文字、文本、图形、音频、视频等。现在计算机存储和处理的数据范围十分广泛，而描述这些数据的符号也变得越来越复杂了。数据库（Database）定义：按照一定格式存放数据的集合。特点：数据以结构化方式存储，便于管理
python web开发（完） HIST-柒月初柒 python 前端开发语言
本篇就把代码都放出来上面就是文件夹格式app.py#pipinstallFlaskimportatexitimportjsonfromflaskimportFlask,render_template,request,redirect,url_forapp=Flask(__name__)ls=[]#使用列表模拟数据库，所有学生信息存储在ls里面#假设的用户信息定义了一个字典users，包含了一些假设
5 长度和距离计算模块（length.rs） Source.Liu euclid库 rust euclid
这段代码定义了一个泛型结构体Length，用于表示一维长度，其中T表示长度的数值类型，而Unit是一个编译时检查单位一致性的占位符类型，不会用于运行时表示长度的值。这个设计允许开发者在编译阶段确保不同单位之间的长度值在使用前进行了显式的单位转换。一、length.rs文件源码//!用计量单位标记的一维长度。usecrate::approxeq::ApproxEq;usecrate::approxo
从MySQL到NoSQL：分析传统关系型数据库与NoSQL数据库的协同哎你看数据库 mysql nosql
引言数据库是一个系统，用来管理和存储数据的地方。数据在数据库中以一种结构化的方式组织，这样能更容易地查询和处理数据。关系型数据库是基于关系模型的数据库，它将数据存储在不同的表中，每个表都有各自的独一无二的主键。表与表之间通过共享的数据项相互关联。像MySQL,Oracle,SQLServer,PostgreSQL等都是关系型数据库。关系型数据库非常适合存储结构化的数据。结构化的数据是按照预定义的模
nosql mysql区别_nosql和Mysql的区别半杯木 nosql mysql区别
也即非关系型数据库和关系型数据库。目前世界上主流的存储系统大部分还是采用了关系型数据库，其主要有一下优点：1.事务处理—保持数据的一致性；2.由于以标准化为前提，数据更新的开销很小(相同的字段基本上只有一处)；3.可以进行Join等复杂查询。nosql在优势方面，主要体现在下面这三点：1.简单的扩展：典型例子是Cassandra，由于其架构是类似于经典的P2P，所以能通过轻松地添加新的节点来扩展这
nosql与mysql的区别_Mongodb Mysql NoSQL的区别和联系金七言 nosql与mysql的区别
MongoDB什么是MongoDB？MongoDB是一个基于分布式文件存储的数据库，由C++语言编写，皆在为WEB应用提供可扩展的高性能数据存储解决方案MongoDB是一个介于关系数据库和非关系数据库之间的产品，是非关系数据库当中功能最丰富，最像关系数据库的。它支持的数据结构非常松散，是类似于Json的bson格式，因此可以存储比较复杂的数据类型，MongoDB最大的特点是它支持的查询语言方法非常
xml解析小猪猪08 xml
1、DOM解析的步奏准备工作： 1.创建DocumentBuilderFactory的对象 2.创建DocumentBuilder对象 3.通过DocumentBuilder对象的parse(String fileName)方法解析xml文件 4.通过Document的getElem
每个开发人员都需要了解的一个SQL技巧 brotherlamp linux linux视频 linux教程 linux自学 linux资料
对于数据过滤而言CHECK约束已经算是相当不错了。然而它仍存在一些缺陷，比如说它们是应用到表上面的，但有的时候你可能希望指定一条约束，而它只在特定条件下才生效。使用SQL标准的WITH CHECK OPTION子句就能完成这点，至少Oracle和SQL Server都实现了这个功能。下面是实现方式： CREATE TABLE books ( id &
Quartz——CronTrigger触发器 eksliang quartz CronTrigger
转载请出自出处：http://eksliang.iteye.com/blog/2208295 一.概述 CronTrigger 能够提供比 SimpleTrigger 更有具体实际意义的调度方案，调度规则基于 Cron 表达式，CronTrigger 支持日历相关的重复时间间隔（比如每月第一个周一执行），而不是简单的周期时间间隔。二.Cron表达式介绍 1）Cron表达式规则表 Quartz
Informatica基础 18289753290 Informatica Monitor manager workflow Designer
1. 1）PowerCenter Designer：设计开发环境，定义源及目标数据结构；设计转换规则，生成ETL映射。 2）Workflow Manager：合理地实现复杂的ETL工作流，基于时间，事件的作业调度 3）Workflow Monitor：监控Workflow和Session运行情况，生成日志和报告 4）Repository Manager：
linux下为程序创建启动和关闭的的sh文件，scrapyd为例酷的飞上天空 scrapy
对于一些未提供service管理的程序每次启动和关闭都要加上全部路径，想到可以做一个简单的启动和关闭控制的文件下面以scrapy启动server为例，文件名为run.sh： #端口号，根据此端口号确定PID PORT=6800 #启动命令所在目录 HOME='/home/jmscra/scrapy/' #查询出监听了PORT端口
人--自私与无私永夜-极光
今天上毛概课,老师提出一个问题--人是自私的还是无私的,根源是什么? 从客观的角度来看,人有自私的行为,也有无私的
Ubuntu安装NS-3 环境脚本随便小屋 ubuntu
将附件下载下来之后解压，将解压后的文件ns3environment.sh复制到下载目录下（其实放在哪里都可以，就是为了和我下面的命令相统一）。输入命令： sudo ./ns3environment.sh >>result 这样系统就自动安装ns3的环境，运行的结果在result文件中，如果提示 com
创业的简单感受 aijuans 创业的简单感受
2009年11月9日我进入a公司实习，2012年4月26日，我离开a公司，开始自己的创业之旅。今天是2012年5月30日，我忽然很想谈谈自己创业一个月的感受。当初离开边锋时，我就对自己说：“自己选择的路，就是跪着也要把他走完”，我也做好了心理准备，准备迎接一次次的困难。我这次走出来，不管成败
如何经营自己的独立人脉 aoyouzi 如何经营自己的独立人脉
独立人脉不是父母、亲戚的人脉，而是自己主动投入构造的人脉圈。“放长线，钓大鱼”，先行投入才能产生后续产出。现在几乎做所有的事情都需要人脉。以银行柜员为例，需要拉储户，而其本质就是社会人脉，就是社交！很多人都说，人脉我不行，因为我爸不行、我妈不行、我姨不行、我舅不行……我谁谁谁都不行，怎么能建立人脉？我这里说的人脉，是你的独立人脉。以一个普通的银行柜员
JSP基础百合不是茶 jsp 注释隐式对象
1,JSP语句的声明 <%! 声明 %> 　　声明：这个就是提供java代码声明变量、方法等的场所。表达式 <%= 表达式 %> 　　这个相当于赋值，可以在页面上显示表达式的结果，程序代码段/小型指令　<% 程序代码片段 %> 2,JSP的注释
web.xml之session-config、mime-mapping bijian1013 java web.xml servlet session-config mime-mapping
session-config 1.定义： <session-config> <session-timeout>20</session-timeout> </session-config> 2.作用：用于定义整个WEB站点session的有效期限，单位是分钟。 mime-mapping 1.定义： <mime-m
互联网开放平台（1） Bill_chen 互联网 qq 新浪微博百度腾讯
现在各互联网公司都推出了自己的开放平台供用户创造自己的应用，互联网的开放技术欣欣向荣，自己总结如下： 1.淘宝开放平台(TOP) 网址：http://open.taobao.com/ 依赖淘宝强大的电子商务数据，将淘宝内部业务数据作为API开放出去，同时将外部ISV的应用引入进来。目前TOP的三条主线： TOP访问网站：open.taobao.com ISV后台：my.open.ta
【MongoDB学习笔记九】MongoDB索引 bit1129 mongodb
索引可以在任意列上建立索引索引的构造和使用与传统关系型数据库几乎一样,适用于Oracle的索引优化技巧也适用于Mongodb 使用索引可以加快查询,但同时会降低修改,插入等的性能内嵌文档照样可以建立使用索引测试数据 var p1 = { "name":"Jack", "age&q
JDBC常用API之外的总结白糖_ jdbc
做JAVA的人玩JDBC肯定已经很熟练了，像DriverManager、Connection、ResultSet、Statement这些基本类大家肯定很常用啦，我不赘述那些诸如注册JDBC驱动、创建连接、获取数据集的API了，在这我介绍一些写框架时常用的API，大家共同学习吧。 ResultSetMetaData获取ResultSet对象的元数据信息
apache VelocityEngine使用记录 bozch VelocityEngine
VelocityEngine是一个模板引擎，能够基于模板生成指定的文件代码。使用方法如下： VelocityEngine engine = new VelocityEngine();// 定义模板引擎 Properties properties = new Properties();// 模板引擎属
编程之美-快速找出故障机器 bylijinnan 编程之美
package beautyOfCoding; import java.util.Arrays; public class TheLostID { /*编程之美假设一个机器仅存储一个标号为ID的记录，假设机器总量在10亿以下且ID是小于10亿的整数，假设每份数据保存两个备份，这样就有两个机器存储了同样的数据。 1.假设在某个时间得到一个数据文件ID的列表，是
关于Java中redirect与forward的区别 chenbowen00 java servlet
在Servlet中两种实现： forward方式：request.getRequestDispatcher(“/somePage.jsp”).forward(request, response); redirect方式：response.sendRedirect(“/somePage.jsp”); forward是服务器内部重定向，程序收到请求后重新定向到另一个程序，客户机并不知
[信号与系统]人体最关键的两个信号节点 comsci 系统
如果把人体看做是一个带生物磁场的导体,那么这个导体有两个很重要的节点,第一个在头部,中医的名称叫做百汇穴, 另外一个节点在腰部,中医的名称叫做命门如果要保护自己的脑部磁场不受到外界有害信号的攻击,最简单的
oracle 存储过程执行权限 daizj oracle 存储过程权限执行者调用者
在数据库系统中存储过程是必不可少的利器，存储过程是预先编译好的为实现一个复杂功能的一段Sql语句集合。它的优点我就不多说了，说一下我碰到的问题吧。我在项目开发的过程中需要用存储过程来实现一个功能，其中涉及到判断一张表是否已经建立，没有建立就由存储过程来建立这张表。 CREATE OR REPLACE PROCEDURE TestProc IS fla
为mysql数据库建立索引 dengkane mysql 性能索引
前些时候，一位颇高级的程序员居然问我什么叫做索引，令我感到十分的惊奇，我想这绝不会是沧海一粟，因为有成千上万的开发者（可能大部分是使用MySQL的）都没有受过有关数据库的正规培训，尽管他们都为客户做过一些开发，但却对如何为数据库建立适当的索引所知较少，因此我起了写一篇相关文章的念头。最普通的情况，是为出现在where子句的字段建一个索引。为方便讲述，我们先建立一个如下的表。
学习C语言常见误区如何看懂一个程序如何掌握一个程序以及几个小题目示例 dcj3sjt126com c 算法
如果看懂一个程序，分三步 1、流程 2、每个语句的功能 3、试数如何学习一些小算法的程序尝试自己去编程解决它，大部分人都自己无法解决如果解决不了就看答案关键是把答案看懂，这个是要花很大的精力，也是我们学习的重点看懂之后尝试自己去修改程序，并且知道修改之后程序的不同输出结果的含义照着答案去敲调试错误
centos6.3安装php5.4报错 dcj3sjt126com centos6
报错内容如下: Resolving Dependencies --> Running transaction check ---> Package php54w.x86_64 0:5.4.38-1.w6 will be installed --> Processing Dependency: php54w-common(x86-64) = 5.4.38-1.w6 for
JSONP请求 flyer0126 jsonp
使用jsonp不能发起POST请求。 It is not possible to make a JSONP POST request. JSONP works by creating a <script> tag that executes Javascript from a different domain; it is not pos
Spring Security（03）——核心类简介 234390216 Authentication
核心类简介目录 1.1 Authentication 1.2 SecurityContextHolder 1.3 AuthenticationManager和AuthenticationProvider 1.3.1 &nb
在CentOS上部署JAVA服务 java--hhf java jdk centos Java服务
本文将介绍如何在CentOS上运行Java Web服务，其中将包括如何搭建JAVA运行环境、如何开启端口号、如何使得服务在命令执行窗口关闭后依旧运行第一步：卸载旧Linux自带的JDK ①查看本机JDK版本 java -version 结果如下 java version "1.6.0"
oracle、sqlserver、mysql常用函数对比[to_char、to_number、to_date] ldzyz007 oracle mysql SQL Server
oracle &n
记Protocol Oriented Programming in Swift of WWDC 2015 ningandjin protocol WWDC 2015 Swift2.0
其实最先朋友让我就这个题目写篇文章的时候，我是拒绝的，因为觉得苹果就是在炒冷饭，把已经流行了数十年的OOP中的“面向接口编程”还拿来讲，看完整个Session之后呢，虽然还是觉得在炒冷饭，但是毕竟还是加了蛋的，有些东西还是值得说说的。通常谈到面向接口编程，其主要作用是把系统设计和具体实现分离开，让系统的每个部分都可以在不影响别的部分的情况下，改变自身的具体实现。接口的设计就反映了系统
搭建 CentOS 6 服务器(15) - Keepalived、HAProxy、LVS rensanning keepalived
（一）Keepalived （1）安装 # cd /usr/local/src # wget http://www.keepalived.org/software/keepalived-1.2.15.tar.gz # tar zxvf keepalived-1.2.15.tar.gz # cd keepalived-1.2.15 # ./configure # make &a
ORACLE数据库SCN和时间的互相转换 tomcat_oracle oracle sql
SCN（System Change Number 简称 SCN）是当Oracle数据库更新后，由DBMS自动维护去累积递增的一个数字，可以理解成ORACLE数据库的时间戳，从ORACLE 10G开始，提供了函数可以实现SCN和时间进行相互转换；　　用途：在进行数据库的还原和利用数据库的闪回功能时，进行SCN和时间的转换就变的非常必要了；　　操作方法：　　1、通过dbms_f
Spring MVC 方法注解拦截器 xp9802 spring mvc
应用场景，在方法级别对本次调用进行鉴权，如api接口中有个用户唯一标示accessToken,对于有accessToken的每次请求可以在方法加一个拦截器，获得本次请求的用户，存放到request或者session域。 python中，之前在python flask中可以使用装饰器来对方法进行预处理，进行权限处理先看一个实例,使用@access_required拦截： ?