蟹老板jerry

Apache Doris入门10问

基于 Apache Doris 在读写流程、副本一致性机制、存储机制、高可用机制等方面的常见疑问点进行梳理，并以问答形式进行解答。在开始之前，我们先对本文相关的名词进行解释：

FE：Frontend，即 Doris 的前端节点。主要负责接收和返回客户端请求、元数据以及集群管理、查询计划生成等工作。
BE：Backend，即 Doris 的后端节点。主要负责数据存储与管理、查询计划执行等工作。
BDBJE：Oracle Berkeley DB Java Edition，在 Doris 中，使用 BDBJE 完成元数据操作日志的持久化、FE 高可用等功能。
Tablet：Tablet 是一张表实际的物理存储单元，一张表按照分区和分桶后在 BE 构成分布式存储层中以 Tablet 为单位进行存储，每个 Tablet 包括元信息及若干个连续的 RowSet。
RowSet：RowSet 是 Tablet 中一次数据变更的数据集合，数据变更包括了数据导入、删除、更新等。RowSet 按版本信息进行记录。每次变更会生成一个版本。
Version：由 Start、End 两个属性构成，维护数据变更的记录信息。通常用来表示 RowSet 的版本范围，在一次新导入后生成一个 Start、End 相等的 RowSet，在 Compaction 后生成一个带范围的 RowSet 版本。
Segment：表示 RowSet 中的数据分段，多个 Segment 构成一个 RowSet。
Compaction：连续版本的 RowSet 合并的过程成称为 Compaction，合并过程中会对数据进行压缩操作。
Key 列、Value 列：在 Doris 中，数据以表（Table）的形式进行逻辑上的描述。一张表包括行（Row）和列（Column），Row 即用户的一行数据，Column 用于描述一行数据中不同的字段。Column 可以分为两大类：Key 和 Value。从业务角度看，Key 和 Value 可以分别对应维度列和指标列。Doris 的 Key 列是建表语句中指定的列，建表语句中的关键字 unique key 或 aggregate key 或 duplicate key 后面的列就是 Key 列，除了 Key 列剩下的就是 Value 列。
数据模型：Doris 的数据模型主要分为 3 类：Aggregate、Unique、Duplicate。
Base 表：在 Doris 中，我们将用户通过建表语句创建出来的表称为 Base 表（Base Table），Base 表中保存着按用户建表语句指定方式存储的基础数据。
ROLLUP 表：在 Base 表之上，用户可以创建任意多个 ROLLUP 表。这些 ROLLUP 的数据是基于 Base 表产生的，并且在物理上是独立存储的。ROLLUP 表的基本作用，在于在 Base 表的基础上，获得更粗粒度的聚合数据，类似于物化视图。

Q1：Doris 分区跟分桶有什么区别？

Doris 支持两层数据划分：

第一层是 Partition（分区），支持 Range 和 List 的划分方式（类似于 MySQL 的分区表的概念）。若干个 Partition 组成一个 Table，Partition 可以视为是逻辑上最小的管理单元。数据的导入与删除，仅能针对一个 Partition 进行。
第二层是 Bucket（Tablet 也称为分桶），支持 Hash 和 Random 的划分方式。每个 Tablet 包含若干数据行，各个 Tablet 之间的数据没有交集，并且在物理上是独立存储的。Tablet 是数据移动、复制等操作的最小物理存储单元。

也可以仅使用一层分区，建表时如果不写分区的语句即可，此时 Doris 会生成一个默认的分区，对用户是透明的。

示意如下：

多个 Tablet 在逻辑上归属于不同的分区（Partition），一个 Tablet 只属于一个 Partition，而一个 Partition 包含若干个 Tablet。因为 Tablet 在物理上是独立存储的，所以可以视为 Partition 在物理上也是独立。

从逻辑上来讲，分区和分桶最大的区别就是分桶随机分割数据库，分区是非随机分割数据库。

怎么保证数据多副本的？

为了提高保存数据的可靠性和计算时的性能，Doris 对每个表复制多份进行存储。数据的每份复制就叫做一个副本。Doris 按 Tablet 为基本单元对数据进行副本存储，默认一个分片有 3 个副本。建表时可在 PROPERTIES 中设置副本的数量：

PROPERTIES
    (
        "replication_num" = "3"
    );

下图示例，有两个表分别导入 Doris，表 1 导入后按 3 副本存储，表 2 导入后按 2 副本存储。数据分布如下：

Q2：为什么需要分桶？

为了分桶裁剪，并且避免数据倾斜，同时也为了分散读 IO，提升查询性能，可以将 Tablet 的不同副本分散在不同机器上，查询时可以充分发挥不同机器的 IO 性能。

Q3：物理文件的存储结构及格式是怎样的？

Doris 的每次导入可视为一个事务，会生成一个 RowSet 。而 RowSet 又包括多个 Segment，即 Tablet-->Rowset-->Segment 。那 BE 是如何存储这些文件的呢？

Doris 的存储结构

Doris 通过 storage_root_path 进行存储路径配置，Segment 文件存放在 tablet_id 目录下按 SchemaHash 管理。Segment 文件可以有多个，一般按照大小进行分割，默认为 256MB。存储目录以及 Segment 文件命名规则为：

${storage_root_path}/data/${shard}/${tablet_id}/${schema_hash}/${rowset_id}_${segment_id}.dat

进入 storage_root_path 目录，可以看到如下存储结构：

${shard}：即上图中的 0、1。是存储目录下 BE 自动创建的，是随机的。会随着数据的增多而增多。
${tablet_id}：即上图中的 15123、27003 等，即上面提到的 Bucket 的 ID。
${schema_hash}：即上图中的 727041558、1102328406 等。因为一个表的结构可能会被变更，所以对每个 Schema 的版本生成一个 SchemaHash，来标识该版本下的数据。
${segment_id}.dat：其中前面的为 rowset_id，即上图中的 02000000000000e3ba4924368a21695d8cc3cf8525f80789；${segment_id} 为当前 RowSet 的 segment_id，从 0 开始递增。

Segment 文件的存储格式

Segment 整体的文件格式分为数据区域，索引区域和 Footer 三个部分，如下图所示：

Data Region：用于存储各个列的数据信息，这里的数据是按需分 Page 加载的，其中 Page 中包含了列的数据，每个 Page 为 64k。
Index Region：Doris 中将各个列的 Index 数据统一存储在 Index Region，这里的数据会按照列粒度进行加载，所以跟列的数据信息分开存储。
Footer 信息：包含文件的元数据信息、内容的 Checksum 等。

Q4：Doris 的不同表模型在 DML 方面有什么限制？

Update：Update 语句目前仅支持 UNIQUE KEY 模型，并且只支持更新 Value 列。
Delete：1）如果是使用聚合类的表模型（AGGREGATE、UNIQUE），Delete 操作只能指定 Key 列上的条件；2）该操作会同时删除和此 Base Index 相关的 Rollup Index 的数据。
Insert：所有数据模型均可 Insert。

Insert 怎么实现？数据插入后如何被查询到？

AGGREGATE 模型：Insert 阶段将增量的数据按照 Append 的方式写到 RowSet，查询阶段采用 Merge on Read 的方式进行进行合并。也就是说数据在导入时先写入一个新的 RowSet，写入后并不会执行去重，只有在发起查询时才会做多路并发排序，在进行多路归并排序时，会将重复的 Key 排在一起，并进行聚合操作。其中高版本 Key 的会覆盖低版本的 Key，最终只返回给用户版本最高的那一条记录。
DUPLICATE 模型：该模型写入与上述类似，读取阶段不会有任何聚合操作。
UNIQUE 模型：在 1.2 版本之前，该模型本质上是聚合模型的一个特例，行为与 AGGREGATE 模型一致。由于聚合模型的实现方式是读时合并（Merge on Read），因此在一些聚合查询上性能不佳。Doris 在 1.2 版本后引入了 Unique 模型新的实现方式，写时合并（Merge on Write），通过在写入时将被覆盖和被更新的数据进行标记删除，在查询的时候，所有被标记删除的数据都会在文件级别被过滤掉，读取出来的数据就都是最新的数据，消除掉了读时合并中的数据聚合过程，并且能够在很多情况下支持多种谓词的下推。

简单来讲，Merge on Write 的处理流程是：

对于每一条 Key，查找它在 Base 数据中的位置（RowSetid + Segmentid + 行号）【内存中维护了 Segment 级别的主键区间树，加速查询】
如果 Key 存在，则将该行数据标记删除。标记删除的信息记录在 Delete Bitmap 中，其中每个 Segment 都有一个对应的 Delete Bitmap。
将更新的数据写入新的 RowSet 中，完成事务，让新数据可见，即能够被用户查询到。
查询时，读取 Delete Bitmap，将被标记删除的行过滤掉，只返回有效的数据【对于命中的所有 Segment，按照版本从高到低进行查询】

下面介绍一下写入流程和读取流程的实现。

写入流程：写入数据时会先创建每个 Segment 的主键索引，再更新 Delete Bitmap。

读取流程：Bitmap 的读取流程如下图所示，从图片中我们可知：

一个请求了版本 7 的 Query，只会看到版本 7 对应的数据
读取 RowSet5 的数据时，会将 V6 和 V7 对它的修改产生的 Bitmap 合并在一起，得到 Version7 对应的完整 DeleteBitmap，用来过滤数据
在上图的示例中，版本 8 的导入覆盖了 RowSet1 的 Segment2 一条数据，但请求版本 7 的 Query 仍然能读到该条数据

Update 怎么实现的？

UNIQUE 模型 Update 过程本质上是 Select+Insert。

Update 利用查询引擎自身的 Where 过滤逻辑，从待更新表中筛选出需要被更新的行，基于此维护 Delete Bitmap 以及生成新插入的数据。
接着再执行 Insert 逻辑，具体流程跟上述的 UNIQUE 模型写入逻辑类似。

Q5：Doris 的 Delete 是怎么实现的？也是会生成一个 RowSet？如何删除对应的数据？

Doris 的 Delete 也是会生成一个 RowSet，DELETE 模式下没有对数据进行实际删除操作，而是对数据删除条件进行了记录。存储在 Meta 信息中。当执行 Base Compaction 时删除条件会一起被合入到 Base 版本中。
Doris 在 UNIQUE KEY 模型下也支持了 LOAD_DELETE ，实现了通过批量导入要删除的 key 对数据进行删除，能够支持大量数据删除能力。整体思路是在数据记录中加入删除状态标识，在 Compaction 流程中会对删除的 Key 进行压缩。Compaction 主要负责将多个 RowSet 版本进行合并。

Q6：Doris 有哪些索引？

目前 Doris 主要支持两类索引：

内建的智能索引，包括前缀索引和 ZoneMap 索引。
用户手动创建的二级索引，包括倒排索引、 Bloomfilter 索引、 Ngram Bloomfilter 索引和 Bitmap 索引。

其中 ZoneMap 索引是在列存格式上，对每一列自动维护的索引信息，包括 Min/Max，Null 值个数等等。这种索引对用户透明。

索引是什么级别？

现在 Doris 里所有索引都是 BE 级别 Local 的，例如：倒排索引、 Bloomfilter 索引、 Ngram Bloomfilter 索引和 Bitmap 索引、前缀索引和 ZoneMap 索引等
Doris 没有 Global Index。广义理解上，分区间 + 分桶键这些也能算是 Global 的，但是比较粗粒度。

索引的存储格式是怎样的？

Doris 中将各个列的 Index 数据统一存储在 Segment 文件的 Index Region，这里的数据会按照列粒度进行加载，所以跟列的数据信息分开存储。这里以 Short Key Index 前缀索引为例进行介绍。

Short Key Index 前缀索引，是在 Key（AGGREGATE KEY、UNIQ KEY 和 DUPLICATE KEY）排序的基础上，实现的一种根据给定前缀列，快速查询数据的索引方式。这里 Short Key Index 索引也采用了稀疏索引结构，在数据写入过程中，每隔一定行数，会生成一个索引项。这个行数为索引粒度默认为 1024 行，可配置。该过程如下图所示：

其中，KeyBytes 中存放了索引项数据，OffsetBytes 存放了索引项在 KeyBytes 中的偏移。

Short Key Index 采用了前 36 个字节，作为这行数据的前缀索引。当遇到 VARCHAR 类型时，前缀索引会直接截断。 Short Key Index 采用了前 36 个字节，作为这行数据的前缀索引。当遇到 VARCHAR 类型时，前缀索引会直接截断。

读的过程如何命中索引？

在查询一个 Segment 中的数据时，根据执行的查询条件，会对首先根据字段加索引的情况对数据进行过滤。然后在进行读取数据，整体的查询流程如下：

首先，会按照 Segment 的行数构建一个 row_bitmap，表示记录哪些数据需要进行读取。没有使用任何索引的情况下，需要读取所有数据。
当查询条件中按前缀索引规则使用到了 Key 时，会先进行 ShortKey Index 的过滤，可以在 ShortKey Index 中匹配到的 Oordinal 行号范围，合入到 row_bitmap 中。
当查询条件中列字段存在 BitMap Index 索引时，会按照 BitMap 索引直接查出符合条件的 Ordinal 行号，与 row_bitmap 求交过滤。这里的过滤是精确的，之后去掉该查询条件，这个字段就不会再进行后面索引的过滤。
当查询条件中列字段存在 BloomFilter 索引并且条件为等值（eq，in，is）时，会按 BloomFilter 索引过滤，这里会走完所有索引，过滤每一个 Page 的 BloomFilter，找出查询条件能命中的所有 Page。将索引信息中的 Ordinal 行号范围与 row_bitmap 求交过滤。
当查询条件中列字段存在 ZoneMap 索引时，会按 ZoneMap 索引过滤，这里同样会走完所有索引，找出查询条件能与 ZoneMap 有交集的所有 Page。将索引信息中的 Ordinal 行号范围与 row_bitmap 求交过滤。
生成好 row_bitmap 之后，批量通过每个 Column 的 OrdinalIndex 找到到具体的 Data Page。
批量读取每一列的 Column Data Page 的数据。在读取时，对于有 Null 值的 Page，根据 Null 值位图判断当前行是否是 Null，如果为 Null 进行直接填充即可。

Q7：Doris 如何进行 Compaction 的？

Doris 通过 Compaction 将增量聚合 RowSet 文件提升性能，RowSet 的版本信息中设计了有两个字段 Start、End 来表示 Rowset 合并后的版本范围。未合并的 Cumulative RowSet 的版本 Start 和 End 相等。Compaction 时相邻的 RowSet 会进行合并，生成一个新的 RowSet，版本信息的 Start、End 也会进行合并，变成一个更大范围的版本。另一方面，Compaction 流程大大减少 RowSet 文件数量，提升查询效率。

如上图所示，Compaction 任务分为两种，Base Compaction 和 Cumulative Compaction。cumulative_point 是分割两种策略关键。

可以这样理解：

cumulative_point 右边是从未合并过的增量 RowSet，其每个 RowSet 的 Start 与 End 版本相等；
cumulative_point 左边是合并过的 RowSet，Start 版本与 End 版本不等。
Base Compaction 和 Cumulative Compaction 任务流程基本一致，差异仅在选取要合并的 InputRowSet 逻辑有所不同。

Compaction 是按照什么 Key 来的？

在一个 Segment 中，数据始终按照 Key（AGGREGATE KEY、UNIQ KEY 和 DUPLICATE KEY）排序顺序进行存储，即 Key 的排序决定了数据存储的物理结构，确定了列数据的物理结构顺序。
所以 Doris Compaction 过程是基于 AGGREGATE KEY、UNIQ KEY 和 DUPLICATE KEY 来进行的。

Q8：Doris 怎么实现跨集群数据复制功能？

为了实现跨集群数据复制功能，Doris 引入了 Binlog 机制。通过 Binlog 机制自动记录数据修改记录和操作，以实现数据的可追溯性，同时还可以基于 Binlog 回放机制来实现数据的重放和恢复。

Binlog 怎么记录的？

在开启 Binlog 属性后，FE 和 BE 会将 DDL/DML 操作的修改记录持久化成 Meta Binlog 和 Data Binlog。

Meta Binlog：Doris 对 EditLog 的实现进行了增强，以确保日志的有序性。通过构建一个递增序列的 LogID，对每个操作进行准确记录，并按顺序持久化。这种有序的持久化机制有助于保证数据的一致性。
Data Binlog：在 FE 发起 Publish Transaction 的时候，BE 会执行对应的 Publish 操作，BE 会将这次 Transaction 涉及 RowSet 的元数据信息写入以 rowset_meta 为前缀的 KV 中，并持久化到 Meta 存储中，提交后会把导入的 Segment Files 链接到 Binlog 文件夹下。

Binlog 生成：

BInlog 数据回放：

Q9：Doris 的表是多副本的，写入阶段怎么保证多副本的，是否有主从概念？需要 Majority 后再返回写入成功吗？

Doris BE 的 3 副本没有主从的概念，采用 Quorum 算法保证多副本写入。
在写入过程中，FE 会判断每一个 Tablet 成功写入数据的副本数量是否超过了 Tablet 副本总数的一半，如果每一个 Tablet 成功写入数据的副本数量都超过 Tablet 副本总数的一半（多数成功），则 Commit Transaction 成功，并将事务状态设置为 COMMITTED；COMMITTED 状态表示数据已经成功写入，但是数据还不可见，需要继续执行 Publish Version 任务，此后，事务不可被回滚。
FE 会有一个单独的线程对 Commit 成功的 Transaction 执行 Publish Version，FE 执行 Publish Version 时会通过 Thrift RPC 向 Transaction 相关的所有 Executor BE 节点下发 Publish Version 请求，Publish Version 任务在各个 Executor BE 节点异步执行，将数据导入生成的 RowSet 变为可见的数据版本。

为什么会有 Publish 机制：类似于 MVCC，如果没有 Publish 机制，用户可能读到还没有提交的数据。

如果表为 3 副本，只写入成功 1 个副本会怎样：这个时候事务会 ABORTED

如果表为 3 副本，只写入成功 2 副本会怎样：这个时候事务会 COMMITTED，Doris FE 会定期执行 Tablet 监控巡检，如果发现 Tablet 副本异常，会生成 Clone 任务，Clone 一个新的副本。

为什么用户执行完 Insert Into，立即执行查询，结果可能为空呢：原因是事务还没有 Publish

Q10：Doris 的 FE 怎么保证高可用的？

元数据层面，Doris 采用 Paxos 协议以及 Memory + Checkpoint + Journal 的机制来确保元数据的高性能及高可靠。

元数据的数据流具体过程如下：

只有 Leader FE 可以对元数据进行写操作。写操作在修改 Leader 的内存后，会序列化为一条 Log，按照 key-value 的形式写入 BDBJE。其中 Key 为连续的整型，作为 log id，Value 即为序列化后的操作日志。
日志写入 BDBJE 后，BDBJE 会根据策略（写多数 / 全写），将日志复制到其他 Non-Leader 的 FE 节点。Non-Leader FE 节点通过对日志回放，修改自身的元数据内存镜像，完成与 Leader 节点的元数据同步。
Leader 节点的日志条数达到阈值（默认 10w 条）并且满足 Checkpoint 线程执行周期（默认六十秒）。Checkpoint 会读取已有的 Image 文件，和其之后的日志，重新在内存中回放出一份新的元数据镜像副本。然后将该副本写入到磁盘，形成一个新的 Image。之所以是重新生成一份镜像副本，而不是将已有镜像写成 Image，主要是考虑写 Image 加读锁期间，会阻塞写操作。所以每次 Checkpoint 会占用双倍内存空间。
Image 文件生成后，Leader 节点会通知其他 Non-Leader 节点新的 Image 已生成。Non-Leader 主动通过 HTTP 拉取最新的 Image 文件，来更换本地的旧文件。
BDBJE 中的日志，在 Image 做完后，会定期删除旧的日志。

解释：

元数据的每次更新，都首先写入到磁盘的日志文件中，然后再写到内存中，最后定期 Checkpoint 到本地磁盘上。
相当于是一个纯内存的一个结构，也就是说所有的元数据都会缓存在内存之中，从而保证 FE 在宕机后能够快速恢复元数据，而且不丢失元数据。
Leader、Follower 和 Observer 它们三个构成一个可靠的服务，单机的节点故障的时候其实基本上三个就够了，因为 FE 节点毕竟它只存了一份元数据，它的压力不大，所以如果 FE 太多的时候它会去消耗机器资源，所以多数情况下三个就足够了，可以达到一个很高可用的元数据服务。
用户可以使用 MySQL 连接任意一个 FE 节点进行元数据的读写访问。如果连接的是 Non-Leader 节点，则该节点会将写操作转发给 Leader 节点。

转载自隐形 (邢颖) 网易资深数据库内核工程师

你可能感兴趣的:(apache,大数据)

DolphinScheduler 如何高效调度 AnalyticDB on Spark 作业？ DolphinScheduler社区 spark 大数据分布式
DolphinScheduler是一个分布式易扩展的可视化DAG工作流任务调度开源系统，能高效地执行和管理大数据流程。用户可以在DolphinSchedulerWeb界面轻松创建、编辑和调度云原生数据仓库AnalyticDBMySQL版的Spark作业。前提条件AnalyticDBforMySQL集群的产品系列为企业版、基础版或湖仓版。AnalyticDBforMySQL集群中已创建Job型资源组
聊聊artemis的SlowConsumerReaperRunnable go4it
序本文主要研究一下artemis的SlowConsumerReaperRunnableSlowConsumerPolicyactivemq-artemis-2.11.0/artemis-server/src/main/java/org/apache/activemq/artemis/core/settings/impl/SlowConsumerPolicy.javapublicenumSlowCo
10分钟搞定 MinIO 单节点多磁盘部署！打造稳定高可用对象存储【二】
MinIO是一个**高性能、开源的对象存储系统**，主要用于存储非结构化数据（如图片、视频、文档、备份等），与AmazonS3完全兼容。它被广泛用于云原生应用、大数据分析、AI模型存储、容器平台（如Kubernetes）等场景。MinIO支持多种部署模式，其中：单节点单磁盘（Single-NodeSingle-Drive）模式适用于开发测试、小规模应用或资源受限的场景。它的部署简单，不依赖集群、分
时序数据库在数据库领域的应用前景数据库管理艺术数据库时序数据库 struts ai
时序数据库在数据库领域的应用前景关键词：时序数据库、时间序列数据、物联网、监控系统、金融分析、大数据、实时分析摘要：本文深入探讨了时序数据库在现代数据管理中的关键作用和应用前景。我们将从时序数据的基本特性出发，分析时序数据库的核心架构和设计原理，比较主流时序数据库产品的技术特点，并通过实际案例展示其在物联网、金融科技、运维监控等领域的应用价值。文章还将提供时序数据库选型指南，探讨未来技术发展趋势，
Apache Ignite实现无死锁特性 lang20150928 其他 java Ignite
这段内容讲的是ApacheIgnite中OPTIMISTICSERIALIZABLE事务的“无死锁”特性，以及它是如何工作的。我们来一步步地用通俗易懂的中文解释这段内容，并帮助你理解它的核心思想。一、核心思想：为什么OPTIMISTICSERIALIZABLE事务是“无死锁”的？在Ignite中：悲观事务（PESSIMISTIC）是通过顺序加锁来实现的，如果多个事务以不同顺序访问多个key，就可能
Apache Ignite 的 SQL 功能和分布式查询机制
这段内容讲的是ApacheIgnite的SQL功能和分布式查询机制。我们可以从几个关键点来理解：一、Ignite是一个分布式SQL数据库✅特点：符合ANSI-99SQL标准水平扩展（可扩展到多个节点）容错（fault-tolerant）支持两种数据分布方式：分区（Partitioned）：数据分布在多个节点上复制（Replicated）：每个节点都有完整数据副本二、SQL功能支持✅DML语句：Ig
Apache Ignite控制脚本(control.sh/bat)完全指南秋泉律Samson
ApacheIgnite控制脚本(control.sh/bat)完全指南概述ApacheIgnite的控制脚本(control.sh/bat)是管理Ignite集群的强大工具，它提供了丰富的命令行接口来监控和控制集群状态。本文将全面介绍这个工具的使用方法，帮助管理员高效管理Ignite集群。控制脚本基础控制脚本位于Ignite安装目录的/bin/文件夹下，根据操作系统不同分为：Unix/Linux
Apache Ignite异常处理与故障管理指南张栋涓Kerwin
ApacheIgnite异常处理与故障管理指南概述在分布式系统中，异常处理和故障管理是确保系统稳定性的关键环节。ApacheIgnite作为一个高性能的内存计算平台，提供了完善的异常处理机制和故障管理策略。本文将深入解析Ignite中的异常类型、处理方式以及关键故障处理机制，帮助开发者构建更健壮的Ignite应用。Ignite常见异常类型及处理IgniteAPI定义了多种异常类型，每种异常都有其特
Apache Ignite 长事务终止机制 lang20150928 其他 apache Ignite
这段内容讲的是ApacheIgnite中长事务终止机制（LongRunningTransactionsTermination），特别是关于分区映射交换（PartitionMapExchange）与事务超时设置（TransactionTimeout）之间的关系。下面我将从几个方面来帮助你理解：一、什么是PartitionMapExchange？在Ignite集群中，数据是按照分区（Partition
Apache Ignite 中 WHERE 子句中的子查询（Subqueries in WHERE Clause）的执行方式
这段内容是关于ApacheIgnite中WHERE子句中的子查询（SubqueriesinWHEREClause）的执行方式的说明。理解这段内容对于编写高效的SQL查询、避免性能瓶颈非常重要。下面我将为你逐句解释并深入理解这段内容。原文翻译+解释原文：SELECTqueriesusedinINSERTandMERGEstatementsaswellasSELECTqueriesgeneratedb
YAML基础使用教程（单引号和双引号的区别）奔跑吧邓邓子工具使用 YAML 单引号双引号
提示：“奔跑吧邓邓子”的高效运维专栏聚焦于各类运维场景中的实际操作与问题解决。内容涵盖服务器硬件（如IBMSystem3650M5）、云服务平台（如腾讯云、华为云）、服务器软件（如Nginx、Apache、GitLab、Redis、Elasticsearch、Kubernetes、Docker等）、开发工具（如Git、HBuilder）以及网络安全（如挖矿病毒排查、SSL证书配置）等多个方面。无论
【软考速通笔记】系统架构设计师⑱——大数据架构设计理论与实践小康师兄系统架构设计师笔记系统架构大数据 Lanbda Kappa 数据湖批处理
文章目录一、前言二、传统数据库遇到的问题2.1问题的根源2.2传统解决方法三、大数据基础3.1大数据处理技术3.2大数据利用过程3.3大数据处理系统面临的挑战3.4大数据具有的属性和特征四、Lanbda架构4.1批处理层4.2加速层4.3服务层五、Kappa架构5.1实时层5.2服务层六、Lambda和Kappa对比七、其他一、前言笔记目录大纲请查阅：【软考速通笔记】系统架构设计师——导读关注【小
深入解析Hadoop中的推测执行：原理、算法与策略码字的字节 hadoop布道师 hadoop 算法推测执行
Hadoop推测执行概述在分布式计算环境中，任务执行速度的不均衡是一个普遍存在的挑战。Hadoop作为主流的大数据处理框架，通过引入推测执行（SpeculativeExecution）机制有效缓解了这一问题。该技术本质上是一种乐观的容错策略，当系统检测到某些任务执行明显落后于预期进度时，会自动在其它计算节点上启动相同任务的冗余副本，最终选择最先完成的任务结果作为输出。核心设计动机推测执行的诞生源于
阿里云态势感知和安骑士有什么区别？阿腾云
阿里云态势感知和安骑士均是阿里云云盾安全产品，态势感知属于安全管理类的产品，安骑士数据服务器安全类产品，阿里云百科网来详细说下阿里云态势感知和安骑士之间的区别：态势感知和安骑士的区别简单来说，安骑士是检测云服务器漏洞的，态势感知提供安全类的大数据分析服务。态势感知：安全大数据分析平台，通过机器学习和结合全网威胁情报，发现传统防御软件无法覆盖的网络威胁，溯源攻击手段、并且提供可行动的解决方案。安骑士
最新Java学习路线总结，搬砖工逆袭Java架构师 2401_84266286 程序员 java 学习开发语言
|一文读懂JVM类加载机制过程及原理||跟同事杠上了，ApacheBeanutils为什么被禁止使用？||Java中常见的编码集问题||为什么人们宁可用Lombok，也不把成员设为public？|2、java集合【Java集合1】Java集合基础知识总结（绝对经典）【Java集合2】List遍历删除元素remove()")【Java集合3】List＜T＞和List＜?＞的区别【Java集合4】Ja
大模型软件的多租户架构设计 AI天才研究院 AI人工智能与大数据 ChatGPT java python javascript kotlin golang 架构人工智能大厂程序员硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM 系统架构设计软件哲学 Agent 程序员实现财富自由
大模型软件的多租户架构设计关键词：大模型软件、多租户架构、设计、性能优化、安全性摘要：随着大数据和人工智能技术的迅猛发展，大模型软件在各个领域得到了广泛应用。然而，如何在大模型软件中实现高效的多租户架构设计，成为当前技术领域的一个关键挑战。本文将深入探讨大模型软件的多租户架构设计，包括其背景、核心概念、算法原理、系统架构、项目实战以及最佳实践等，旨在为开发者提供一套系统化、全面化的设计指南。设计过
Cannot find tomcat目录/bin/setclasspath.sh This file is needed to run this program sailor7 linux tomcat
问题：Cannotfind/opt/tomcat/apache-tomcat-8.5.79/bin/setclasspath.shThisfileisneededtorunthisprogram原因：没有在setclasspath.sh上设置JAVA_HOME和JRE_HOME解决：打开setclasspath.sh，设置JAVA_HOME和JRE_HOMEsudovisetclasspath.s
【原创文集】如果时光会说话 7a82ff5fbe9b
大数据工程学院21计科本2王玉艳1528662159515286621595.如果时光会说话，它会不会知道未来发生的事情然后跟人类讲呢？从2006年的非典到2019年的新冠疫情，发生了太多太多的让人类遭遇苦难的病毒。如果时光会说话，它是否会将即将发生的事与我们一说，让人类避免所遭遇的一切呢？如果时光会说话，不知道它看见这些在它身体里所发生的一切，它会不会感到悲哀呢？如果时光会说话，我会问问它新冠疫
深入解析 Spark：关键问题与答案汇总 ※尘 sql hive spark
在大数据处理领域，Spark凭借其高效的计算能力和丰富的功能，成为了众多开发者和企业的首选框架。然而，在使用Spark的过程中，我们会遇到各种各样的问题，从性能优化到算子使用等。本文将围绕Spark的一些核心问题进行详细解答，帮助大家更好地理解和运用Spark。Spark性能优化策略Spark性能优化是提升作业执行效率的关键，主要可以从以下几个方面入手：首先，资源配置优化至关重要。合理设置Exec
大数据领域如何用好 Eureka 实现服务治理大数据洞察大数据 eureka 云原生 ai
大数据领域Eureka服务治理实践：架构适配与最佳实践元数据框架标题大数据领域Eureka服务治理实践：架构适配、实现机制与最佳实践关键词Eureka；服务治理；大数据分布式系统；服务发现；负载均衡；故障恢复；云原生适配摘要Eureka作为Netflix开源的AP型服务发现组件，以其高可用性、动态适配性和轻量级特性，成为微服务架构的核心工具。然而，大数据领域的超大规模分布式、高并发数据流动、动态资
Eureka在大数据推荐系统中的服务治理实践大数据洞察 eureka 大数据云原生 ai
Eureka在大数据推荐系统中的服务治理实践：从理论到落地的全面解析元数据框架标题：Eureka在大数据推荐系统中的服务治理实践：从理论到落地的全面解析关键词：Eureka；服务治理；大数据推荐系统；分布式架构；服务发现；高可用性；动态扩展摘要：本文结合Eureka的核心特性与大数据推荐系统的需求，从第一性原理推导、架构设计、实现机制到实际应用，全面解析Eureka在推荐系统中的服务治理实践。通过
Eureka 为大数据领域服务治理带来的新思路大数据洞察大数据AI应用大数据与AI人工智能 eureka 大数据云原生 ai
Eureka为大数据领域服务治理带来的新思路关键词：Eureka，大数据，服务治理，分布式系统，微服务摘要：本文深入探讨了Eureka为大数据领域服务治理带来的新思路。首先介绍了大数据领域服务治理的背景和现状，阐述了Eureka的核心概念与工作原理。接着详细分析了Eureka核心算法原理，结合Python代码进行说明，并给出相关数学模型和公式。通过项目实战案例，展示了Eureka在大数据服务治理中
ASP.NET Core与Confluent.Kafka深度整合：构建高性能Kafka生产者与消费者的终极指南墨夶 C#学习资料6 asp.net kafka linq
Kafka在现代微服务架构中的量子跃迁在2025年的分布式系统战场上，ApacheKafka已经超越了传统的消息队列角色，成为微服务架构的神经中枢。本文将通过1200+行代码和深度技术解析，揭秘如何在ASP.NETCore中使用Confluent.Kafka实现工业级的Kafka生产者与消费者。我们将从底层原理到高阶技巧，带你构建可扩展、可观察的Kafka集成方案。第一章：环境准备与核心概念1.1
新能源汽车大数据画像：从零到一实现K-means用户分群新能源汽车研发＆测试入门指南学习笔记新星杯+王者杯汽车大数据 kmeans
基于大数据分析的新能源汽车画像研究全攻略：从原理到实战前言在"软件定义汽车"的时代浪潮下，新能源汽车正经历着从交通工具向智能移动终端的进化。本文将带你深入探索如何通过大数据技术构建精准的用户与产品画像，揭秘车企数字化转型的核心技术。全文涵盖完整的技术链路和实战案例，助你快速掌握这一前沿领域。关键词：新能源汽车；用户画像挖掘；大数据分析；K-means聚类目录一、大数据分析技术基石二、新能源汽车画像
Flink在物联网实时大数据处理中的最佳实践大数据洞察大数据AI应用大数据与AI人工智能 flink 物联网 struts ai
Flink在物联网实时大数据处理中的最佳实践关键词：Flink、物联网、实时大数据处理、最佳实践、数据流摘要：本文围绕Flink在物联网实时大数据处理中的最佳实践展开。首先介绍了相关背景知识，接着深入浅出地解释了Flink、物联网和实时大数据处理的核心概念以及它们之间的关系。然后详细阐述了Flink处理物联网数据的核心算法原理、数学模型和公式。通过实际项目案例，展示了开发环境搭建、代码实现和解读。
信小易官网查询入口：信小易大数据信用检测平台！无忧达人
信小易一个全能型的信用软件，信小易在一几年就上线的大数据信用平台，有着专业的大数据信用行业经验，从个人信用到企业信用，车辆大数据信小易全都有涉足，是一个非常完善的平台。信小易官网查询入口，对于想使用信小易的人来说，第一步我们需要找到信小易的查询入口，然后就可以进行大数据信用的查询服务了，可以查询自己的信用情况，查询结果也是非常准确。信小易查询入口放在文末了，划到文章结尾就可以看到查询入口信小易是一
【学术会议投稿】Vue.js组件开发实战：从零构建高效可复用组件小周不想卷艾思科蓝学术会议投稿 vue.js
【IEEE出版|会后3-4个月EI检索】第三届云计算、大数据应用与软件工程国际学术会议(CBASE2024）_艾思科蓝_学术一站式服务平台更多学术会议请看：https://ais.cn/u/nuyAF3目录引言一、Vue.js组件开发基础二、构建高效可复用组件三、Vue.js组件的高级特性四、Vue.js的优点与缺点Vue.js的优点Vue.js的缺点引言在现代前端开发中，Vue.js凭借其简洁的
超简单linux上部署Apache 悟空骑猪看电影 apache linux 运维网络
1.Apache是什么？Apache是世界上最流行的开源Web服务器软件，由Apache软件基金会维护。主要功能：接收客户端（如浏览器）的HTTP请求，返回网页、图片等静态/动态资源。特点：跨平台（Linux、Windows、macOS）模块化设计（按需加载功能）支持多语言扩展（PHP、Python等）高稳定性和安全性2.核心架构与工作原理多进程模型（MPM）Prefork：多进程模式，每个请求由
Apache IoTDB 集群数据迁移指南静默小音箱编程问题解决手册 apache iotdb 个人开发
随着物联网（IoT）设备的普及和数据量的激增，数据存储和管理的需求也随之增加。ApacheIoTDB作为一个专为时序数据设计的数据库系统，提供了从单机到集群的多种部署方案。最近，我将ApacheIoTDB从单机版本扩展到了集群版本，并遇到了一个有趣的问题：如何将一个集群的数据迁移到另一个集群？单机版本与集群版本的迁移对比在单机版本的ApacheIoTDB中，数据迁移非常简单。我们只需要将数据文件夹
时序数据库的工业级对决：对比 Apache IoTDB 和 InfluxDB 时序数据说时序数据库 apache iotdb 数据库大数据开源
在数字化浪潮中，物联网（IoT）与工业大数据领域蓬勃发展，时序数据呈爆发式增长。时序数据库作为管理这类数据的核心工具，其性能、功能和适应性直接影响到整个系统的运行效率与价值实现。ApacheIoTDB和InfluxDB作为时序数据库领域的佼佼者，被广泛应用于各类场景。深入剖析二者区别，对开发者、企业架构师和数据管理者而言，不仅能为项目选型提供科学依据，还能助力挖掘数据的最大价值。一、诞生背景与社区
Linux的Initrd机制被触发 linux
Linux 的 initrd 技术是一个非常普遍使用的机制，linux2.6 内核的 initrd 的文件格式由原来的文件系统镜像文件转变成了 cpio 格式，变化不仅反映在文件格式上， linux 内核对这两种格式的 initrd 的处理有着截然的不同。本文首先介绍了什么是 initrd 技术，然后分别介绍了 Linux2.4 内核和 2.6 内核的 initrd 的处理流程。最后通过对 Lin
maven本地仓库路径修改 bitcarter maven
默认maven本地仓库路径：C:\Users\Administrator\.m2 修改maven本地仓库路径方法： 1.打开E:\maven\apache-maven-2.2.1\conf\settings.xml 2.找到
XSD和XML中的命名空间 darrenzhu xml xsd schema namespace 命名空间
http://www.360doc.com/content/12/0418/10/9437165_204585479.shtml http://blog.csdn.net/wanghuan203/article/details/9203621 http://blog.csdn.net/wanghuan203/article/details/9204337 http://www.cn
Java 求素数运算周凡杨 java 算法素数
网络上对求素数之解数不胜数，我在此总结归纳一下，同时对一些编码，加以改进，效率有成倍热提高。第一种：原理: 6N(+-)1法任何一个自然数，总可以表示成为如下的形式之一： 6N，6N+1，6N+2，6N+3，6N+4，6N+5 (N=0，1，2，…)
java 单例模式 g21121 java
想必单例模式大家都不会陌生，有如下两种方式来实现单例模式： class Singleton { private static Singleton instance=new Singleton(); private Singleton(){} static Singleton getInstance() { return instance; }
Linux下Mysql源码安装 510888780 mysql
1.假设已经有mysql-5.6.23-linux-glibc2.5-x86_64.tar.gz (1)创建mysql的安装目录及数据库存放目录解压缩下载的源码包，目录结构，特殊指定的目录除外：
32位和64位操作系统墙头上一根草 32位和64位操作系统
32位和64位操作系统是指：CPU一次处理数据的能力是32位还是64位。现在市场上的CPU一般都是64位的，但是这些CPU并不是真正意义上的64 位CPU，里面依然保留了大部分32位的技术，只是进行了部分64位的改进。32位和64位的区别还涉及了内存的寻址方面，32位系统的最大寻址空间是2 的32次方= 4294967296（bit）= 4（GB）左右，而64位系统的最大寻址空间的寻址空间则达到了
我的spring学习笔记10-轻量级_Spring框架 aijuans Spring 3
一、问题提问： → 请简单介绍一下什么是轻量级？轻量级（Leightweight）是相对于一些重量级的容器来说的，比如Spring的核心是一个轻量级的容器，Spring的核心包在文件容量上只有不到1M大小，使用Spring核心包所需要的资源也是很少的，您甚至可以在小型设备中使用Spring。
mongodb 环境搭建及简单CURD antlove Web Install curd NoSQL mongo
一搭建mongodb环境 1. 在mongo官网下载mongodb 2. 在本地创建目录 "D:\Program Files\mongodb-win32-i386-2.6.4\data\db" 3. 运行mongodb服务 [mongod.exe --dbpath "D:\Program Files\mongodb-win32-i386-2.6.4\data\
数据字典和动态视图百合不是茶 oracle 数据字典动态视图系统和对象权限
数据字典（data dictionary）是 Oracle 数据库的一个重要组成部分，这是一组用于记录数据库信息的只读（read-only）表。随着数据库的启动而启动,数据库关闭时数据字典也关闭数据字典中包含数据库中所有方案对象（schema object）的定义(包括表，视图，索引，簇，同义词，序列，过程，函数，包，触发器等等) 数据库为一
多线程编程一般规则 bijian1013 java thread 多线程 java多线程
如果两个工两个以上的线程都修改一个对象，那么把执行修改的方法定义为被同步的，如果对象更新影响到只读方法，那么只读方法也要定义成同步的。不要滥用同步。如果在一个对象内的不同的方法访问的不是同一个数据，就不要将方法设置为synchronized的。
将文件或目录拷贝到另一个Linux系统的命令scp bijian1013 linux unix scp
一.功能说明 scp就是security copy，用于将文件或者目录从一个Linux系统拷贝到另一个Linux系统下。scp传输数据用的是SSH协议，保证了数据传输的安全，其格式如下： scp 远程用户名@IP地址：文件的绝对路径
【持久化框架MyBatis3五】MyBatis3一对多关联查询 bit1129 Mybatis3
以教员和课程为例介绍一对多关联关系，在这里认为一个教员可以叫多门课程，而一门课程只有1个教员教，这种关系在实际中不太常见，通过教员和课程是多对多的关系。示例数据：地址表： CREATE TABLE ADDRESSES ( ADDR_ID INT(11) NOT NULL AUTO_INCREMENT, STREET VAR
cookie状态判断引发的查找问题 bitcarter form cgi
先说一下我们的业务背景： 1.前台将图片和文本通过form表单提交到后台，图片我们都做了base64的编码，并且前台图片进行了压缩 2.form中action是一个cgi服务 3.后台cgi服务同时供PC，H5，APP 4.后台cgi中调用公共的cookie状态判断方法（公共的，大家都用，几年了没有问题）问题：（折腾两天。。。。） 1.PC端cgi服务正常调用，cookie判断没
通过Nginx,Tomcat访问日志(access log)记录请求耗时 ronin47
一、Nginx通过$upstream_response_time $request_time统计请求和后台服务响应时间 nginx.conf使用配置方式： log_format main '$remote_addr - $remote_user [$time_local] "$request" ''$status $body_bytes_sent "$http_r
java-67- n个骰子的点数。把n个骰子扔在地上，所有骰子朝上一面的点数之和为S。输入n，打印出S的所有可能的值出现的概率。 bylijinnan java
public class ProbabilityOfDice { /** * Q67 n个骰子的点数 * 把n个骰子扔在地上，所有骰子朝上一面的点数之和为S。输入n，打印出S的所有可能的值出现的概率。 * 在以下求解过程中，我们把骰子看作是有序的。 * 例如当n=2时，我们认为（1，2）和（2，1）是两种不同的情况 */ private stati
看别人的博客，觉得心情很好 Cb123456 博客心情
以为写博客，就是总结，就和日记一样吧，同时也在督促自己。今天看了好长时间博客: 职业规划: http://www.iteye.com/blogs/subjects/zhiyeguihua android学习: 1.http://byandby.i
[JWFD开源工作流]尝试用原生代码引擎实现循环反馈拓扑分析 comsci 工作流
我们已经不满足于仅仅跳跃一次，通过对引擎的升级，今天我测试了一下循环反馈模式，大概跑了200圈，引擎报一个溢出错误在一个流程图的结束节点中嵌入一段方程，每次引擎运行到这个节点的时候，通过实时编译器GM模块，计算这个方程，计算结果与预设值进行比较，符合条件则跳跃到开始节点，继续新一轮拓扑分析，直到遇到
JS常用的事件及方法 cwqcwqmax9 js
事件描述 onactivate 当对象设置为活动元素时触发。 onafterupdate 当成功更新数据源对象中的关联对象后在数据绑定对象上触发。 onbeforeactivate 对象要被设置为当前元素前立即触发。 onbeforecut 当选中区从文档中删除之前在源对象触发。 onbeforedeactivate 在 activeElement 从当前对象变为父文档其它对象之前立即
正则表达式验证日期格式 dashuaifu 正则表达式 IT其它 java其它
正则表达式验证日期格式 function isDate(d){ var v = d.match(/^(\d{4})-(\d{1,2})-(\d{1,2})$/i); if(!v) { this.focus(); return false; } } <input value="2000-8-8" onblu
Yii CModel.rules() 方法、validate预定义完整列表、以及说说验证 dcj3sjt126com yii
public array rules () {return} array 要调用 validate() 时应用的有效性规则。返回属性的有效性规则。声明验证规则，应重写此方法。每个规则是数组具有以下结构：array('attribute list', 'validator name', 'on'=>'scenario name', ...validation
UITextAttributeTextColor = deprecated in iOS 7.0 dcj3sjt126com ios
In this lesson we used the key "UITextAttributeTextColor" to change the color of the UINavigationBar appearance to white. This prompts a warning "first deprecated in iOS 7.0." Ins
判断一个数是质数的几种方法 EmmaZhao Math python
质数也叫素数，是只能被1和它本身整除的正整数，最小的质数是2，目前发现的最大的质数是p=2^57885161-1【注1】。判断一个数是质数的最简单的方法如下： def isPrime1(n): for i in range(2, n): if n % i == 0: return False return True 但是在上面的方法中有一些冗余的计算，所以
SpringSecurity工作原理小解读坏我一锅粥 SpringSecurity
SecurityContextPersistenceFilter ConcurrentSessionFilter WebAsyncManagerIntegrationFilter HeaderWriterFilter CsrfFilter LogoutFilter Use
JS实现自适应宽度的Tag切换 ini JavaScript html Web css html5
效果体验：http://hovertree.com/texiao/js/3.htm 该效果使用纯JavaScript代码，实现TAB页切换效果，TAB标签根据内容自适应宽度，点击TAB标签切换内容页。 HTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"
Hbase Rest API : 数据查询 kane_xie REST hbase
hbase（hadoop）是用java编写的，有些语言（例如python）能够对它提供良好的支持，但也有很多语言使用起来并不是那么方便，比如c#只能通过thrift访问。Rest就能很好的解决这个问题。Hbase的org.apache.hadoop.hbase.rest包提供了rest接口，它内嵌了jetty作为servlet容器。启动命令：./bin/hbase rest s
JQuery实现鼠标拖动元素移动位置（源码+注释）明子健 jquery js 源码拖动鼠标
欢迎讨论指正！ print.html代码： <!DOCTYPE html> <html> <head> <meta http-equiv=Content-Type content="text/html;charset=utf-8"> <title>发票打印</title> &l
Postgresql 连表更新字段语法 update qifeifei PostgreSQL
下面这段sql本来目的是想更新条件下的数据，可是这段sql却更新了整个表的数据。sql如下： UPDATE tops_visa.visa_order SET op_audit_abort_pass_date = now() FROM tops_visa.visa_order as t1 INNER JOIN tops_visa.visa_visitor as t2 ON t1.
将redis,memcache结合使用的方案? tcrct redis cache
公司架构上使用了阿里云的服务，由于阿里的kvstore收费相当高，打算自建，自建后就需要自己维护，所以就有了一个想法，针对kvstore(redis)及ocs(memcache)的特点，想自己开发一个cache层，将需要用到list，set，map等redis方法的继续使用redis来完成，将整条记录放在memcache下，即findbyid，save等时就memcache，其它就对应使用redi
开发中遇到的诡异的bug wudixiaotie bug
今天我们服务器组遇到个问题：我们的服务是从Kafka里面取出数据，然后把offset存储到ssdb中，每个topic和partition都对应ssdb中不同的key，服务启动之后，每次kafka数据更新我们这边收到消息，然后存储之后就发现ssdb的值偶尔是-2,这就奇怪了，最开始我们是在代码中打印存储的日志，发现没什么问题，后来去查看ssdb的日志，才发现里面每次set的时候都会对同一个key