Kyligence

技术前沿｜Spark 3.3.0 中 DS V2 Push-down 的重构与新特性

本文作者耿嘉安，畅销书《深入理解 Spark》和《Spark 内核设计的艺术》作者，Apache Spark Contributor，15 年 IT 经验的 Kyligence 高级性能工程师。

近日 Apache Spark 3.3.0 正式发布。在本文中，作者将对 Spark 3.2 DS V2 Push-down 框架进行深入分析，并分享 Kyligence 开源团队是如何在 Spark 3.3.0 中完成对 DS V2 Push-down 的重构与改进的，欢迎大家在评论区分享你的看法。

I. 引言

Spark 自正式开源以来，已到了第十个年头。如今，这样一款优秀的分布式大数据计算框架早已在国内获得普遍使用。笔者是在 Spark 1.2.0 版本时开始接触它，已有近八年时光。最初，广大用户主要将它作为“大数据 2.0”的新生儿看待，用来解决“大数据 1.0”批处理技术的不足。其实，这里所谓的 1.0 或者 2.0 都只是国内玩家创造的衍生物，甚至也有提出“大数据 3.0”。至于什么是 1.0，2.0 甚至 3.0，其实并没有什么严格的定义，更多的是商业战略。究竟什么才是 2.0 或是 3.0，交给后人评说更为恰当。

一开始，国内技术公司寄希望于 Spark，希望它能解决实时、流计算、批处理，更不用说什么数据异构、数据规模、分布式等问题。国内技术公司跟 Spark 磨合了很多年，发现它并没有像人们所说的那么符合期待。再加上其他大数据技术的异军突起，使得 Spark 的应用场景发生了很多变化。Spark 依然是批处理中加速 Hadoop 生态的产品，甚至也转变为其他大数据技术的底层引擎。越来越多的用户希望 Spark 不仅仅解决 Hadoop 生态的问题，于是 Spark 除了遵循 ANSI SQL 标准，也对 Parquet、Orc、Avro 等数据格式，对 SnowFlake、PostgreSQL、Teradata 等厂商做了更多的兼容。既然 Spark 支持了越来越多的数据源，那么对 Spark 的基本要求就是计算效率不能比数据源本身的计算效率低。

实际上，Spark 在一开始接入各种数据源都是通过早期提供的数据源 Connector 来完成的。Connector 可以作为 Plugin 接入 Spark 早期的批处理计算中，这种方式在当时以非常快速的方式让 Spark 在大数据生态中立足。但是批处理计算的过程，需要将数据源数据拉取到 Executor 本地，然后再进行计算。计算过程中如果产生了 Shuffle，那么写入磁盘的 Shuffle 数据也会很多，导致对网络传输有更高要求。

因此，批处理的方式未必是对数据源数据进行计算的最好方式——最典型的例子莫过数据流。当然，早期的 Spark 依然用批处理的经典理论来解决数据流的问题。为了一定程度解决数据延迟的问题，引入了“微批”。但是这种方式毕竟违背了数据流提供方的最初意愿，于是 Spark 渐渐开始解决数据流的实时处理问题，不得不舍弃批处理的一些樊笼。除此之外，Spark 对于其他数据源采用批处理的方式也是不适当的，笔者对这一点就深有感触。例如：一条 SQL 在 MySQL 中执行只需要几百毫秒，但是 Spark 却需要几十分钟。笔者最初遇到这种情况时，是通过魔改 Spark 算子的方式解决的。这种方式当然不值得提倡，但是迫于生产的需要，这是最快解决问题的方式。

随着 Spark 2.4.0 的发布，我们发现越来越多的数据源正在努力向 Spark 社区贡献将查询下推到数据源的能力。例如：Parquet 和 Orc 的 Filter 下推。Spark 3.0.0 发布了 Catalog Plugin API，这套 API 的设计比老的 Connector 更加高明，用户可以实现更加丰富的内容，比如：Catalog 和 Table。用户可以在此基础上实现更加自定义的物理行为。Spark 3.1.0 和 Spark 3.2.0 又陆续提供了列裁剪、Filter 下推、Aggregate 下推等可以影响物理执行的功能。在这里我们下一个定义——所有基于 Catalog Plugin API 的东西我们简单称其为 DS V2；基于 DS V2 实现的下推，我们简单称其为 DS V2 Push-down。

由于 Spark 之前版本提供的 DS V2 Push-down 有各种功能上的不足，因此 Kyligence 着力向 Spark 社区持续推动对它的改进。下面先来看看 DS V2 Push-down 在 Spark 3.2.0 版本时的情况。

II. Spark 3.2 DS V2 Push-down

Spark 3.2 DS V2 Push-down 的最根本能力需要影响 Spark 的物理计划，所有这一切发生在 V2ScanRelationPushDown 这个优化器规则中。

这个规则可以完成对列裁剪、Filter 下推、Aggregate 下推等功能的支持。下面对下推相关的功能进行简单介绍。

1. Spark 3.2 DS V2 Filter Push-down

Filter 下推干的事情很简单（为了行文方便，这里以 JDBC 数据源为例，后文不再赘述），那就是把 Filter 的计算交给数据源。因为数据源最清楚数据的结构、数据的分布、数据的索引还有缓存等信息，，因此数据源计算往往有最优的方案来处理。

上图是 Filter 下推的示意图。细心的读者会发现 WHERE 条件中多了id IS NOT NULL，这里额外做个说明——这是 Spark 对执行计划优化过程中添加的 Filter。所以真正下推到数据源的 SQL 未必是用户输入的原始 SQL。

既然 Filter 由数据源计算了，那么 Spark 就可以避免这些计算。更重要的是，可以减少磁盘 I/O 和网络 I/O，甚至减少 Spark Shuffle 的数据量。原先可能需要读取一张表所有的数据文件，现在数据源也许只需要读取几个文件，甚至不用读取数据了。Spark 得到了数据源返回的已经执行过 Filter 的数据后，再进行其他计算的初始数据量会有明显的下降，这对于整个 Spark Job 的生命周期都是有效的。

不过，Spark 在实现 Filter 下推的时候，用到的是 DS V1 的 Filter 表达式。DS V1 的 Filter 表达式有个缺陷，那就是只能表示基本的 Filter 表达式，无法表达复杂表达式。

例如，上图中的id IS NOT NULL和id > 1是 DS V1 的 Filter 能够表达的，但是cast(col as int) IS NOT NULL和cast(col as int) > 1却是不行的。这会对最终的 Filter 下推产生影响，请看下图。

上图中的 Cast 表达式与比较表达式组成的复杂表达式，DS V1 的 Filter 表达式就无法表达。虽然cast(col as int) > 1无法下推，但是col IS NOT NULL依然是可以下推的。

具体的办法就是col IS NOT NULL交给数据源处理，而cast(col as int) > 1依然由 Spark 的 Filter 算子计算。其结果是显而易见的——大量业务场景中使用的WHERE条件都无法下推，因而无法有效减少 I/O。因此，Spark 3.2 时的 DS V2 Filter Push-down 很难在生产环境发挥作用。

2. Spark 3.2 DS V2 Aggregate Push-down

Aggregate 下推是将 Aggregate 的计算交给数据源。例如，SUM(SALARY)由数据源计算。同样因为数据源最清楚数据的结构、数据的分布、数据的索引还有缓存等信息，因此数据源计算往往有最优的方案来处理。

上图是 Aggregate 下推的示意图。细心的读者会发现，聚合既然已经下推到数据源计算了，那么Spark 为什么依然会保留 Aggregate 算子？依然以SUM(SALARY)为例，当数据源拥有多个 Partition 时，各个 Partition 返回到 Spark 的数据只是各个 Partition 分别计算得到的和，并不是最终需要的和。因此，Spark 需要再次通过 Sum 函数进行一次计算，所以 Aggregate 是需要保留的。

固执点的读者会说，如果 Partition 只有一个时呢？是不是不需要 Aggregate 算子了。是的，但是 Spark 3.2.0 最初实现 Aggregate 下推时，只是功能实现，还没有更加细化。本文将在介绍 Spark 3.3.0 的 Aggregate 下推时，介绍这个优化。

既然 Aggregate 由数据源计算了，那么 Spark 就可以避免这些计算。更重要的是，可以减少磁盘 I/O 和网络 I/O，甚至减少 Spark Shuffle 的数据量。原先可能需要读取一张表所有的数据文件，现在数据源也许只需要读取几个文件，甚至不用读取数据了。Spark 得到了数据源返回的已经执行了 Aggregate 的数据后，再进行其他计算的初始数据量会有明显的下降，这对于整个 Spark Job 的生命周期都是有效的。但是 Spark 3.2.0 始终保留了 Aggregate 算子，势必带来计算冗余与开销。

在表达式支持上，Aggregate 下推只支持 MIN、MAX、SUM、COUNT 四个聚合函数，而且只支持对列进行聚合，不支持对复杂表达式的聚合。

3. Spark 3.2 DS V2 Push-down 的问题归纳

根据前面对 Spark3.2 DS V2 Push-down 现有下推功能的分析，我们知道了一些问题。但除此之外，它依然有很多功能上的缺失，例如 Limit 下推。下面列出我们需要去改进的地方：

只支持简单 Filter 和Aggregate，导致无法在真实的业务场景应用
SQL语法的不兼容性，导致无法在真实的业务场景应用
Spark额外的 Aggregate 造成一定的开销
不支持 Limit 下推
不支持 Top N 下推
不支持分页下推

好了，有了以上分析，来看看 Kyligence 开源团队是如何在 Spark 3.3.0 中完成对 DS V2 Push-down 的重构与改进的。

III. Spark 3.3 DS V2 Push-down

Kyligence 开源团队经过对 Spark3.2 DS V2 Push-down 框架的分析，发现打通任督二脉的关键有三点：

强大的 Catalyst 表达式 Translate 能力
通用的 DS V2 表达式标准
自由的 DS V2 表达式 Compile 能力

上图是 Spark3.3 DS V2 Push-down 框架的示意图。前两点与 Catalyst 表达式的 translate 的标准化相关，第三点则与 DS V2 表达式的 compile 的差异化相关。

如果上图中的数据源为 JDBC，那么我们可以用下图来表示 Spark3.3 DS V2 Push-down 框架。

下面来看看 Spark3.3 DS V2 Push-down 框架是如何打通任督二脉的？

1. Catalyst Expression translate Framework

Catalyst 表达式翻译框架（Catalyst Expression translate Framework）提供了强大的 Catalyst 表达式 Translate 能力。Catalyst 表达式翻译框架提供了将各种 Catalyst 表达式翻译为 DS V2 表达式的切入点，无论是计算表达式，布尔表达式等基础表达式，还是 Filter 表达式，Aggregate 表达式，这些 Catalyst 表达式都可以被翻译为 DS V2 表达式。下图展示了 Catalyst 表达式翻译框架的流程图。

从上图可以看到，Catalyst 表达式翻译框架依赖于 V2ExpressionBuilder，表达式的翻译工作都交给它来完成。

2. General DS V2 Expression Standard

DS V2 表达式是一种通用的表达式形式，作为标准。Filter，Aggregate 等算子都可以复用它们。

这里对主要的 DS V2 表达式进行介绍：

AggregateFunc：DS V2 聚合函数的统一接口，具体的实现有 Min，Max，Sum，Count，CountStar 和 Avg。这是最常用的聚合函数，DS V2 为它们提供了度身定制的表达式。
GeneralAggregateFunc：AggregateFunc 的通用实现，用来表示一些符合 ANSI SQL 标准，但是使用频率不那么高的聚合函数（例如：VAR_POP和VAR_SAMP）。
LiteralValue：DS V2 的字面量表达式，对应 Catalyst 的 Literal。
NamedReference：代表字段或者列的 DS V2 表达式接口，目前只有 FieldReference 一个实现。
FieldReference：DS V2 的字段表达式。
GeneralScalarExpression：DS V2 表达式的通用实现，用于表示最广泛的表达式。
Predicate：GeneralScalarExpression 的特殊实现，用于代表 Filter 表达式。Spark 社区将逐步统一DS V1 与 V2 的 Filter 表达式。
AlwaysTrue 和 AlwaysFalse：特殊的 Predicate，用于代表恒等于 true 或 false 的 Filter 表达式。

有了 DS V2 表达式的丰富表达能力，我们将 DS V2 Push-down 框架在 Spark 3.2 和 Spark 3.3 版本所支持的表达式或函数做个对比。

Supported Aggregate Functions

Supported Expressions

3. DS V2 Expression compile Framework

DS V2 表达式编译框架（DS V2 Expression compile Framework）提供了将 DS V2 表达式自由灵活的编译为 ANSI SQL 或 SQL 方言的能力。下图展示了 DS V2 表达式编译框架的流程图。

从上图可以看到——编译 DS V2 表达式依赖于 JDBC 方言（JDBC Dialect），默认的 JDBC 方言将 DS V2 表达式编译为 ANSI SQL。Spark 内置了很多 JDBC 方言，例如：H2Dialect，MySQLDialect。而 JDBC 方言对 DS V2 表达式的编译实际又依赖于 V2ExpressionSQLBuilder，V2ExpressionSQLBuilder 内部通过访问者模式提供了对各类表达式的 compile 接口。因此，每个 JDBC 方言都可以灵活定制自己的 V2ExpressionSQLBuilder 行为，符合数据库本身的语法特点。

4. Spark 3.3 DS V2 Filter Push-down

由于 Spark 3.3 DS V2 Push-down 框架有更加通用、丰富和灵活的 DS V2 表达式，因此 Spark3.3 DS V2 Filter Push-down 将可以下推更加丰富的 Filter 表达式。

因而，以前无法下推的 Filter 表达式也可以下推到数据源，就再也不用 Spark 做二次过滤了。

当常见的 Filter 表达式都可以下推时，这将极大的减少 I/O，并促进在生产环境的应用。

5. Spark 3.3 DS V2 Aggregate Push-down

同样由于 Spark 3.3 DS V2 Push-down 框架有更加通用、丰富和灵活的 DS V2 表达式，因此 Spark 3.3 DS V2 Aggregate Push-down 将可以下推更加丰富的 Aggregate 表达式。

因而，以前无法下推的 Aggregate 表达式也可以下推到数据源。但是 Spark 3.2 DS V2 Aggregate Push-down 之前一直保留着 Aggregate 算子，所以这个算子的额外计算就显得很不必要了。于是，Spark 3.3 DS V2 Aggregate Push-down 引入了聚合全下推（Aggregate Complete Push-down）和聚合部分下推（Aggregate Partial Push-down）。

Aggregate Partial Push-down

即便所有的 Aggregate 表达式可以下推到数据源，那么 Aggregate 算子是否就真的不需要了？了解过 Hive 或者 Orc 的读者应当知道——很多文件存储本身是有 Partition 的概念。如果数据源有多个 Partition，并且SUM(SALARY)可以下推，那么 Spark 从多个分区 Task 拿到多份结果后该如何处理？是不是还应该求一次和？答案是肯定的。

既然 Aggregate 下推本身可以缩减 I/O，改进性能，那么还是需要下推的，所以这种下推后还需要由 Spark 进行 Aggregate 计算的 Aggregate 下推称为聚合部分下推（Aggregate Partial Push-down）。

Aggregate Complete Push-down

与聚合部分下推相对应，当 Aggregate 可以下推到数据源并且存储本身只有一个 Partition 时，也不需要 Spark 再进行额外的 Aggregate 计算了。此时，可以消除 Spark 进行 Aggregate 计算的开销。这种下推后不再需要 Spark 进行 Aggregate 计算的 Aggregate 下推称为聚合全下推（Aggregate Complete Push-down）。

不过，在数据源拥有多 Partition 时，也未必不能够聚合全下推。以SELECT SUM(SALARY) FROM h2.test.employee GROUP BY DEPT这条 SQL 为例，当 Partition 字段为DEPT的时候，各个分区 Task 计算 Aggregate 得到的数据就是最终结果了。也就是说，当分区字段与GROUP BY的 key 相同时，也是可以聚合全下推的。

6. Spark 3.3 DS V2 Limit Push-down

Limit 是最常用的语法之一，如果能将其下推到数据源，其数据量的缩减显而易见，对于 I/O 和性能都有极大的优化空间。Spark 3.3 支持了 Limit 的下推。不过其实现类似于 Spark 3.2 DS V2 Aggregate Push-down，保留了 Limit 算子。

其实，在数据源单 Partition 的情况下，Limit 算子依然可以被优化掉。由于 Spark 社区版本发布的关系，这部分功能应该将在 Spark 3.4 版本中发布。

7. Spark 3.3 DS V2 Top N Push-down

Top N 查询在业务场景中非常常见，但是 Spark 对于 Top N 查询需要进行全局排序，当数据量很大时，性能表现不佳！如果能对这里进行性能改进，那么将取得极佳的效果。Top N 查询的处理根据 Partition 的数量分为 Top N 部分下推（Top N Partial Push-down）和 Top N 全下推（Top N Complete Push-down），与 Spark 3.3 DS V2 Aggregate Push-down 非常相似。

8. Differences between Spark 3.2 and Spark 3.3

根据前面的介绍，下面用表格来对 Spark 3.2 DS V2 push-down 和 Spark 3.3 DS V2 push-down 的特性差异进行比较。

IV. Plan of Spark 3.4 DS V2 Push-down

1. Spark 3.4 DS V2 Limit Push-down

尽管，Spark 3.3 提供了 Limit 的下推，但是保留着 Limit 算子，始终是一笔开销。在 Spark 3.4 版本中将发布 Limit 部分下推（Limit Partial Push-down）和 Limit 全下推（Limit Complete Push-down）。

2. Spark 3.4 DS V2 Offset Push-down

由于 Spark 3.4 已经完成了对 Offset 算子的支持，因此可以将 Offset 下推到数据源。其下推原理类似于 Limit。

3. Spark 3.4 DS V2 Paging Push-down

由于 Spark 3.4 已经完成了对 Offset 算子的支持，业务场景已经可以使用 Spark 完成分页查询了。如果将分页查询下推到数据源，必然有很大的收益。其下推原理类似于 Top N。

4. Spark 3.4 DS V2 Aggregate Push-down supports push down group by expressions without aggregate function.

目前，Spark 3.4 DS V2 Aggregate Push-down 不支持select key from tab group by key。这个功能将在 Spark 3.4 发布。

5. Spark 3.4 DS V2 Top N Push-down supports order by expressions

目前，Spark 3.3 DS V2 Top N Push-down 只支持 order by 字段。由于 Spark 版本发布的原因，这个功能将在 Spark 3.4 发布。

6. Spark 3.4 DS V2 supports more expression

在 Spark 3.4 版本中继续扩充对表达式的支持，例如：字符串表达式和日期表达式等。

7. Spark 3.4 DS V2 supports UDF and UDAF

在 Spark 3.4 版本中增加对 UDF 的支持。此功能将继续释放外部开发者的自由度。

8. Spark 3.4 DS V2 supports more flexiable

在 Spark 3.4 版本中增加数据库方言的更多灵活性，例如：决定哪些函数可以下推，注册可以下推的 UDF 和 UDAF 等。

9. Orc/Parquet follows more features of DS V2 Push-down

目前，Orc，Parquet 等的下推，依然采用了早期的下推方案，可以将它们慢慢适配、迁移到新的下推框架中。

Kyligence 内部使用了 Kylin、Spark、ClickHouse等多种开源技术，Spark 3.3 DS V2 Push-down 能够大大加速 Spark 对 Clickhouse 数据的查询。如果想了解相关内容，请大家点击下方关注我们，我们后续将分享更多相关技术博客。

关于 Kyligence

上海跬智信息技术有限公司 (Kyligence) 由 Apache Kylin 创始团队于 2016 年创办，致力于打造下一代企业级智能多维数据库，为企业简化数据湖上的多维数据分析（OLAP）。通过 AI 增强的高性能分析引擎、统一 SQL 服务接口、业务语义层等功能，Kyligence 提供成本最优的多维数据分析能力，支撑企业商务智能（BI）分析、灵活查询和互联网级数据服务等多类应用场景，助力企业构建更可靠的指标体系，释放业务自助分析潜力。

Kyligence 已服务中国、美国、欧洲及亚太的多个银行、证券、保险、制造、零售等行业客户，包括建设银行、浦发银行、招商银行、平安银行、宁波银行、太平洋保险、中国银联、上汽、Costa、UBS、MetLife 等全球知名企业，并和微软、亚马逊、华为、Tableau 等技术领导者达成全球合作伙伴关系。目前公司已经在上海、北京、深圳、厦门、武汉及美国的硅谷、纽约、西雅图等开设分公司或办事机构。

你可能感兴趣的:(Kyligence,产品技术,spark,大数据,分布式)

GitHub上克隆项目 bigbig猩猩 github
从GitHub上克隆项目是一个简单且直接的过程，它允许你将远程仓库中的项目复制到你的本地计算机上，以便进行进一步的开发、测试或学习。以下是一个详细的步骤指南，帮助你从GitHub上克隆项目。一、准备工作1.安装Git在克隆GitHub项目之前，你需要在你的计算机上安装Git工具。Git是一个开源的分布式版本控制系统，用于跟踪和管理代码变更。你可以从Git的官方网站（https://git-scm.
01-Git初识 Meereen Git git
01-Git初识概念：一个免费开源，分布式的代码版本控制系统，帮助开发团队维护代码作用：记录代码内容。切换代码版本，多人开发时高效合并代码内容如何学：个人本机使用：Git基础命令和概念多人共享使用：团队开发同一个项目的代码版本管理Git配置用户信息配置：用户名和邮箱，应用在每次提交代码版本时表明自己的身份命令：查看git版本号git-v配置用户名gitconfig--globaluser.name
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
Kafka是如何保证数据的安全性、可靠性和分区的喜欢猪猪 kafka 分布式
Kafka作为一个高性能、可扩展的分布式流处理平台，通过多种机制来确保数据的安全性、可靠性和分区的有效管理。以下是关于Kafka如何保证数据安全性、可靠性和分区的详细解析：一、数据安全性SSL/TLS加密：Kafka支持SSL/TLS协议，通过配置SSL证书和密钥来加密数据传输，确保数据在传输过程中不会被窃取或篡改。这一机制有效防止了中间人攻击，保护了数据的安全性。SASL认证：Kafka支持多种
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
免费的GPT可在线直接使用（一键收藏） kkai人工智能 gpt
1、LuminAI（https://kk.zlrxjh.top）LuminAI标志着一款融合了星辰大数据模型与文脉深度模型的先进知识增强型语言处理系统，旨在自然语言处理（NLP）的技术开发领域发光发热。此系统展现了卓越的语义把握与内容生成能力，轻松驾驭多样化的自然语言处理任务。VisionAI在NLP界的应用领域广泛，能够胜任从机器翻译、文本概要撰写、情绪分析到问答等众多任务。通过对大量文本数据的
华为云分布式缓存服务DCS 8月新特性发布华为云PaaS服务小智华为云分布式缓存
分布式缓存服务（DistributedCacheService，简称DCS）是华为云提供的一款兼容Redis的高速内存数据处理引擎，为您提供即开即用、安全可靠、弹性扩容、便捷管理的在线分布式缓存能力，满足用户高并发及数据快速访问的业务诉求。此次为大家带来DCS8月的特性更新内容，一起来看看吧！
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
浅谈MapReduce Android路上的人 Hadoop 分布式计算 mapreduce 分布式框架 hadoop
从今天开始，本人将会开始对另一项技术的学习，就是当下炙手可热的Hadoop分布式就算技术。目前国内外的诸多公司因为业务发展的需要，都纷纷用了此平台。国内的比如BAT啦，国外的在这方面走的更加的前面，就不一一列举了。但是Hadoop作为Apache的一个开源项目，在下面有非常多的子项目，比如HDFS，HBase,Hive，Pig,等等，要先彻底学习整个Hadoop，仅仅凭借一个的力量，是远远不够的。
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
KVM+GFS分布式存储系统构建KVM高可用 henan程序媛分布式 GFS 高可用 KVM
一、案列分析1.1案列概述本章案例主要使用之前章节所学的KVM及GlusterFs技术,结合起来从而实现KVM高可用。利用GlusterFs分布式复制卷，对KVM虚拟机文件进行分布存储和冗余。分布式复制卷主要用于需要冗余的情况下把一个文件存放在两个或两个以上的节点,当其中一个节点数据丢失或者损坏之后，KVM仍然能够通过卷组找到另一节点上存储的虚拟机文件，以保证虚拟机正常运行。当节点修复之后，Glu
Hadoop 傲雪凌霜，松柏长青后端大数据 hadoop 大数据分布式
ApacheHadoop是一个开源的分布式计算框架，主要用于处理海量数据集。它具有高度的可扩展性、容错性和高效的分布式存储与计算能力。Hadoop核心由四个主要模块组成，分别是HDFS（分布式文件系统）、MapReduce（分布式计算框架）、YARN（资源管理）和HadoopCommon（公共工具和库）。1.HDFS（HadoopDistributedFileSystem）HDFS是Hadoop生
Hadoop架构 henan程序媛 hadoop 大数据分布式
一、案列分析1.1案例概述现在已经进入了大数据(BigData)时代，数以万计用户的互联网服务时时刻刻都在产生大量的交互，要处理的数据量实在是太大了，以传统的数据库技术等其他手段根本无法应对数据处理的实时性、有效性的需求。HDFS顺应时代出现，在解决大数据存储和计算方面有很多的优势。1.2案列前置知识点1.什么是大数据大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的大量数据集合，
[转载] NoSQL简介 weixin_30325793 大数据数据库运维
摘自“百度百科”。NoSQL，泛指非关系型的数据库。随着互联网web2.0网站的兴起，传统的关系数据库在应付web2.0网站，特别是超大规模和高并发的SNS类型的web2.0纯动态网站已经显得力不从心，暴露了很多难以克服的问题，而非关系型的数据库则由于其本身的特点得到了非常迅速的发展。NoSQL数据库的产生就是为了解决大规模数据集合多重数据种类带来的挑战，尤其是大数据应用难题。虽然NoSQL流行语
大模型训练数据库Common Crawl WindyChanChan 数据集语言模型数据库
CommonCrawl介绍‌‌CommonCrawl是一个非营利组织，致力于通过大规模分布式爬虫系统定期抓取整个Web并将其存储在一个可公开访问的数据库中。CommonCrawl的数据收集和处理过程包括使用Python开源爬虫工具收集全球范围内的网站数据，并将其上传到‌CommonCrawl基金会的数据仓库中。该项目从2008年开始，至今已经积累了大量的原始网页数据、元数据和文本提取数据。这些数据
慢速连接攻击是什么？慢速连接攻击怎么防护？快快小毛毛网络 ddos 服务器
慢速连接攻击（SlowConnectionAttack），又称慢速攻击（SlowlorisAttack），是一种网络攻击技术，旨在通过占用服务器上的所有可用连接资源来使其无法响应正常请求。与传统的拒绝服务（DoS）和分布式拒绝服务（DDoS）攻击不同，慢速攻击并不依赖于发送大量数据包来消耗带宽，而是利用HTTP、TCP或SSL等协议的特性，通过发送大量不完整的请求或缓慢发送数据来占用服务器资源，使
分布式锁和spring事务管理暴躁的鱼锁及事务分布式 spring java
最近开发一个小程序遇到一个需求需要实现分布式事务管理业务需求用户在使用小程序的过程中可以查看景点，对景点地区或者城市标记是否想去，那么需要统计一个地点被标记的人数，以及记录某个用户对某个地点是否标记为想去，用两个表存储数据，一个地点表记录改地点被标记的次数，一个用户意向表记录某个用户对某个地点是否标记为想去。由于可能有多个用户同时标记一个地点，每个用户在前端点击想去按钮之后，后台接收到请求，从数据
Gobelieve 架构 weixin_34099526 数据库 golang json
Gobelievegithub地址声明:转简书JackieF的文章,为了自己方便copy了一份,加一些自己的东西.链接：https://www.jianshu.com/p/8121d6e85282IMCore主要分三大块:im客户连接服务器（可分布式部署，暂无负载均衡模块)imr路由查询服务器（主要解决im分布式部署的问题）ims存储服务器(主从部署)基础模块1.数据包协议包：header(12)
Kafka详细解析与应用分析芊言芊语 kafka 分布式
Kafka是一个开源的分布式事件流平台（EventStreamingPlatform），由LinkedIn公司最初采用Scala语言开发，并基于ZooKeeper协调管理。如今，Kafka已经被Apache基金会纳入其项目体系，广泛应用于大数据实时处理领域。Kafka凭借其高吞吐量、持久化、分布式和可靠性的特点，成为构建实时流数据管道和流处理应用程序的重要工具。Kafka架构Kafka的架构主要由
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
疫情，疫情东山草
2020年，疫情爆发，至今已近三年，反反复复，此起彼伏。不但没被消灭，还自我发展，从德尔塔到奥密克戎，与时俱进的变异着。去年11月，疫情之下，大数据800米范围内，都成为时空伴随者。“你的码儿有没有变颜色”“你绿码还是黄码”成为那段时间的流行语，当然少不了的还有全员核酸。段子手整出来一首歌：我走过你走过的路,这算不算相逢？我吹过你吹过的风，这算不算相拥？800米内我们不曾擦肩而过，你却要我14天相
linux挂载文件夹小码快撩 linux
1.使用NFS（NetworkFileSystem）NFS是一种分布式文件系统协议，允许一个系统将其文件系统的一部分共享给其他系统。检查是否安装NFSrpm-qa|grepnfs2.启动和启用NFS服务假设服务名称为nfs-server.service，你可以使用以下命令启动和启用它：sudosystemctlstartnfs-server.servicesudosystemctlenablenf
Kafka 基础与架构理解 StaticKing KAFKA kafka
目录前言Kafka基础概念消息队列简介：Kafka与传统消息队列（如RabbitMQ、ActiveMQ）的对比Kafka的组件Kafka的工作原理：消息的生产、分发、消费流程Kafka系统架构Kafka的分布式架构设计Leader-Follower机制与数据复制Log-basedStorage和持久化Broker间通信协议Zookeeper在Kafka中的角色总结前言Kafka是一个分布式的消息系
Rides实现分布式锁，保障数据一致性,Redisson分布式事务处理朱杰jjj 缓存分布式
分布式环境下分布式锁有三种方式：基于数据库分布式锁基于Redis分布式锁基于zk分布式锁本帖只介绍Redis分布式锁为什么需要用到分布式锁？在单机环境下一个服务中多个线程对同一个事物或数据资源进行操作时，可以通过添加加锁方式（synchronized和lock）来解决数据一致性的问题。但是如果出现多个服务的情况下，这时候我们在通过synchronized和lock的方式来加锁会出现问题，因为多个服
机电综合管理系统架构小熊coder 机载系统系统架构
文章目录一、机电综合管理系统架构1.系统概述2.架构层次3.核心组件二、余度管理1.余度概述2.硬件冗余3.软件冗余4.通信冗余三、总线架构1.MIL-STD-1553B总线2.ARINC429总线3.ARINC629总线4.AFDX/ARINC664总线四、未来发展趋势1.分布式架构2.高速网络3.智能化与自动化结语机电综合管理系统（ElectromechanicalManagementSyst
华为云分布式缓存服务DCS与开源服务差异对比 hcinfo_18 redis使用华为云 Redis5.0 分布式缓存服务 Redis客户端
分布式缓存服务DCS提供单机、主备、集群等丰富的实例类型，满足用户高读写性能及快速数据访问的业务诉求。支持丰富的实例管理操作，帮助用户省去运维烦恼。用户可以聚焦于业务逻辑本身，而无需过多考虑部署、监控、扩容、安全、故障恢复等方面的问题。DCS基于开源Redis、Memcached向用户提供一定程度定制化的缓存服务，因此，除了拥有开源服务缓存数据库的优秀特性，DCS提供更多实用功能。一、与开源Red
在服务器计算节点中使用 jupyter Lab ranshan567 程序人生
JupyterLab是一个基于网页的交互式开发环境,用于科学计算、数据分析和机器学.jupyterlab是jupyternotebook的下一代产品,集成了更多功能,使用起来更方便.在进行数据分析及可视化时，个人电脑不能满足大数据的分析需求，就需要用到高性能计算机集群资源，然而计算机集群的计算节点往往没有联网功能，所以在计算机集群中使用jupyterLab需要进行一些配置。具体的步骤如下：
Dubbo架构概览：服务注册与发现、远程调用、监控与管理木南曌 dubbo 架构
Dubbo是一个成熟的、高性能的、基于Java的微服务开发框架，它主要用于解决分布式系统中的服务治理问题，包括服务的注册与发现、远程过程调用（RPC）、服务监控与管理等多个关键环节。以下是Dubbo架构概览的详细介绍：服务注册与发现Dubbo的服务注册与发现机制是其核心功能之一，它依赖于注册中心来管理服务的生命周期和定位服务提供者。1.服务提供者（Provider）服务提供者是实际提供服务的节点，
大数据真实面试题---SQL The博宇大数据面试题——SQL 大数据 mysql sql 数据库 big data
视频号数据分析组外包招聘笔试题时间限时45分钟完成。题目根据3张表表结构，写出具体求解的SQL代码（搞笑品类定义：视频分类或者视频创建者分类为“搞笑”）1、表创建语句：createtablet_user_video_action_d(dsint,user_idstring,video_idstring,action_typeint,`timestamp`bigint)rowformatdelimi
Dom 周华华 JavaScript html
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
【Spark九十六】RDD API之combineByKey bit1129 spark
1. combineByKey函数的运行机制 RDD提供了很多针对元素类型为(K,V)的API，这些API封装在PairRDDFunctions类中，通过Scala隐式转换使用。这些API实现上是借助于combineByKey实现的。combineByKey函数本身也是RDD开放给Spark开发人员使用的API之一首先看一下combineByKey的方法说明：
msyql设置密码报错：ERROR 1372 (HY000): 解决方法详解 daizj mysql 设置密码
MySql给用户设置权限同时指定访问密码时，会提示如下错误： ERROR 1372 (HY000): Password hash should be a 41-digit hexadecimal number；问题原因：你输入的密码是明文。不允许这么输入。解决办法：用select password('你想输入的密码');查询出你的密码对应的字符串，然后
路漫漫其修远兮吾将上下而求索周凡杨学习思索
王国维在他的《人间词话》中曾经概括了为学的三种境界古今之成大事业、大学问者，罔不经过三种之境界。“昨夜西风凋碧树。独上高楼，望尽天涯路。”此第一境界也。“衣带渐宽终不悔，为伊消得人憔悴。”此第二境界也。“众里寻他千百度，蓦然回首，那人却在灯火阑珊处。”此第三境界也。学习技术，这也是你必须经历的三种境界。第一层境界是说，学习的路是漫漫的，你必须做好充分的思想准备，如果半途而废还不如不要开始。这里，注
Hadoop(二)对话单的操作朱辉辉33 hadoop
Debug： 1、 A = LOAD '/user/hue/task.txt' USING PigStorage(' ') AS (col1,col2,col3); DUMP A; //输出结果前几行示例： (>ggsnPDPRecord(21),,) (-->recordType(0),,) (-->networkInitiation(1),,)
web报表工具FineReport常用函数的用法总结（日期和时间函数）老A不折腾 finereport 报表工具 web开发
web报表工具FineReport常用函数的用法总结（日期和时间函数）说明：凡函数中以日期作为参数因子的，其中日期的形式都必须是yy/mm/dd。而且必须用英文环境下双引号(" ")引用。 DATE DATE(year,month,day):返回一个表示某一特定日期的系列数。 Year:代表年，可为一到四位数。 Month:代表月份。
c++ 宏定义中的##操作符墙头上一根草 C++
#与##在宏定义中的--宏展开 #include <stdio.h> #define f(a,b) a##b #define g(a) #a #define h(a) g(a) int main() { &nbs
分析Spring源代码之，DI的实现 aijuans spring DI 现源代码
(转) 分析Spring源代码之，DI的实现 2012/1/3 by tony 接着上次的讲，以下这个sample [java] view plain copy print
for循环的进化 alxw4616 JavaScript
// for循环的进化 // 菜鸟 for (var i = 0; i < Things.length ; i++) { // Things[i] } // 老鸟 for (var i = 0, len = Things.length; i < len; i++) { // Things[i] } // 大师 for (var i = Things.le
网络编程Socket和ServerSocket简单的使用百合不是茶网络编程基础 IP地址端口
网络编程;TCP/IP协议网络:实现计算机之间的信息共享,数据资源的交换协议:数据交换需要遵守的一种协议,按照约定的数据格式等写出去端口:用于计算机之间的通信每运行一个程序，系统会分配一个编号给该程序，作为和外界交换数据的唯一标识 0~65535 查看被使用的
JDK1.5 生产消费者 bijian1013 java thread 生产消费者 java多线程
ArrayBlockingQueue：一个由数组支持的有界阻塞队列。此队列按 FIFO（先进先出）原则对元素进行排序。队列的头部是在队列中存在时间最长的元素。队列的尾部是在队列中存在时间最短的元素。新元素插入到队列的尾部，队列检索操作则是从队列头部开始获得元素。 ArrayBlockingQueue的常用方法：
JAVA版身份证获取性别、出生日期及年龄 bijian1013 java 性别出生日期年龄
工作中需要根据身份证获取性别、出生日期及年龄，且要还要支持15位长度的身份证号码，网上搜索了一下，经过测试好像多少存在点问题，干脆自已写一个。 CertificateNo.java package com.bijian.study; import java.util.Calendar; import
【Java范型六】范型与枚举 bit1129 java
首先，枚举类型的定义不能带有类型参数，所以，不能把枚举类型定义为范型枚举类，例如下面的枚举类定义是有编译错的 public enum EnumGenerics<T> { //编译错，提示枚举不能带有范型参数 OK, ERROR; public <T> T get(T type) { return null;
【Nginx五】Nginx常用日志格式含义 bit1129 nginx
1. log_format 1.1 log_format指令用于指定日志的格式，格式： log_format name(格式名称) type(格式样式) 1.2 如下是一个常用的Nginx日志格式： log_format main '[$time_local]|$request_time|$status|$body_bytes
Lua 语言 15 分钟快速入门 ronin47 lua 基础
- - 单行注释 - - [[ [多行注释] - - ]] - - - - - - - - - - - 1. 变量 & 控制流 - - - - - - - - - - num = 23 - - 数字都是双精度 str = 'aspythonstring'
java-35.求一个矩阵中最大的二维矩阵 ( 元素和最大 ) bylijinnan java
the idea is from: http://blog.csdn.net/zhanxinhang/article/details/6731134 public class MaxSubMatrix { /**see http://blog.csdn.net/zhanxinhang/article/details/6731134 * Q35 求一个矩阵中最大的二维
mongoDB文档型数据库特点开窍的石头 mongoDB文档型数据库特点
MongoDD: 文档型数据库存储的是Bson文档-->json的二进制特点：内部是执行引擎是js解释器，把文档转成Bson结构，在查询时转换成js对象。 mongoDB传统型数据库对比传统类型数据库：结构化数据，定好了表结构后每一个内容符合表结构的。也就是说每一行每一列的数据都是一样的文档型数据库：不用定好数据结构，
[毕业季节]欢迎广大毕业生加入JAVA程序员的行列 comsci java
一年一度的毕业季来临了。。。。。。。。正在投简历的学弟学妹们。。。如果觉得学校推荐的单位和公司不适合自己的兴趣和专业，可以考虑来我们软件行业，做一名职业程序员。。。软件行业的开发工具中，对初学者最友好的就是JAVA语言了，网络上不仅仅有大量的
PHP操作Excel – PHPExcel 基本用法详解 cuiyadll PHP Excel
导出excel属性设置//Include classrequire_once('Classes/PHPExcel.php');require_once('Classes/PHPExcel/Writer/Excel2007.php');$objPHPExcel = new PHPExcel();//Set properties 设置文件属性$objPHPExcel->getProperties
IBM Webshpere MQ Client User Issue (MCAUSER) darrenzhu IBM jms user MQ MCAUSER
IBM MQ JMS Client去连接远端MQ Server的时候，需要提供User和Password吗？答案是根据情况而定，取决于所定义的Channel里面的属性Message channel agent user identifier (MCAUSER)的设置。 http://stackoverflow.com/questions/20209429/how-mca-user-i
网线的接法 dcj3sjt126com
一、PC连HUB (直连线)A端：（标准568B）：白橙，橙，白绿，蓝，白蓝，绿，白棕，棕。 B端：（标准568B）：白橙，橙，白绿，蓝，白蓝，绿，白棕，棕。二、PC连PC （交叉线）A端：(568A)：白绿，绿，白橙，蓝，白蓝，橙，白棕，棕； B端：（标准568B）：白橙，橙，白绿，蓝，白蓝，绿，白棕，棕。三、HUB连HUB&nb
Vimium插件让键盘党像操作Vim一样操作Chrome dcj3sjt126com chrome vim
什么是键盘党？键盘党是指尽可能将所有电脑操作用键盘来完成，而不去动鼠标的人。鼠标应该说是新手们的最爱，很直观，指哪点哪，很听话！不过常常使用电脑的人，如果一直使用鼠标的话，手会发酸，因为操作鼠标的时候，手臂不是在一个自然的状态，臂肌会处于绷紧状态。而使用键盘则双手是放松状态，只有手指在动。而且尽量少的从鼠标移动到键盘来回操作，也省不少事。在chrome里安装 vimium 插件
MongoDB查询（2）——数组查询[六] eksliang mongodb MongoDB查询数组
MongoDB查询数组转载请出自出处：http://eksliang.iteye.com/blog/2177292 一、概述 MongoDB查询数组与查询标量值是一样的，例如，有一个水果列表，如下所示： > db.food.find() { "_id" : "001", "fruits" : [ "苹
cordova读写文件（1） gundumw100 JavaScript Cordova
使用cordova可以很方便的在手机sdcard中读写文件。首先需要安装cordova插件：file 命令为： cordova plugin add org.apache.cordova.file 然后就可以读写文件了，这里我先是写入一个文件，具体的JS代码为： var datas=null;//datas need write var directory=&
HTML5 FormData 进行文件jquery ajax 上传到又拍云 ileson jquery Ajax html5 FormData
html5 新东西：FormData 可以提交二进制数据。页面test.html <!DOCTYPE> <html> <head> <title> formdata file jquery ajax upload</title> </head> <body> <
swift appearanceWhenContainedIn:(version1.2 xcode6.4) 啸笑天 version
swift1.2中没有oc中对应的方法： + (instancetype)appearanceWhenContainedIn:(Class <UIAppearanceContainer>)ContainerClass, ... NS_REQUIRES_NIL_TERMINATION; 解决方法：在swift项目中新建oc类如下： #import &
java实现SMTP邮件服务器 macroli java 编程
电子邮件传递可以由多种协议来实现。目前，在Internet 网上最流行的三种电子邮件协议是SMTP、POP3 和 IMAP，下面分别简单介绍。　　◆ SMTP 协议　　简单邮件传输协议(Simple Mail Transfer Protocol,SMTP)是一个运行在TCP/IP之上的协议，用它发送和接收电子邮件。SMTP 服务器在默认端口25上监听。SMTP客户使用一组简单的、基于文本的
mongodb group by having where 查询sql qiaolevip 每天进步一点点学习永无止境 mongo 纵观千象
SELECT cust_id, SUM(price) as total FROM orders WHERE status = 'A' GROUP BY cust_id HAVING total > 250 db.orders.aggregate( [ { $match: { status: 'A' } }, { $group: {
Struts2 Pojo（六） Luob. POJO strust2
注意：附件中有完整案例 1.采用POJO对象的方法进行赋值和传值 2.web配置 <?xml version="1.0" encoding="UTF-8"?> <web-app version="2.5" xmlns="http://java.sun.com/xml/ns/javaee&q
struts2步骤 wuai struts
1、添加jar包 2、在web.xml中配置过滤器 <filter> <filter-name>struts2</filter-name> <filter-class>org.apache.st