爱吃辣条byte

Doris ——SQL原理解析

前言

一、Doris简介

二、SQL解析简介

2.1 词法分析

2.2 语法分析

2.3 逻辑计划

2.4 物理计划

三、Doris SQL解析的总体架构

四、Parse阶段

五、Analyze阶段

六、SinglePlan阶段（生成单机逻辑Plan阶段）

七、DistributedPlan计划（生成分布式逻辑阶段）

7.1 DistributedPlan 概述

7.2 四种join算法：

7.2.1 Broadcast Join

7.2.2 Shuffle Join

7.2.3 Bucket Shuffle Join

7.2.4 Colocate Join

7.3 分布式逻辑计划的核心流程

7.3.1 PlanNode

7.3.2 ScanNode

7.3.3 HashJoinNode

八、Schedule阶段

8.1 prepare阶段

8.2 computeScanRangeAssignment阶段

8.3 computeFragmentExecParams阶段

8.4 create result receiver阶段

8.5 to thrift阶段

九、总结

前言

下文主要介绍了Doris SQL解析的原理。阐述了词法分析，语法分析，生成单机逻辑计划，生成分布式逻辑计划，生成分布式物理计划的过程。对应代码实现是Parse, Analyze, SinglePlan, DistributedPlan, Schedule这五个部分。

一、Doris简介

Apache Doris是一个基于MPP架构的高性能、实时的分析型数据库，能够较好的满足报表分析、即席查询、统一数仓构建等使用场景。Doris整体架构非常简单，只有FE和BE两类进程。FE主要负责用户请求的接入、查询解析规划、元数据的管理、节点管理相关工作。BE主要负责数据存储、查询计划的执行。

在 Doris 的存储引擎中，用户数据被水平划分为若干个数据分片（Tablet，也称作数据分桶）。每个Tablet 包含若干数据行。多个 Tablet 在逻辑上归属于不同的分区（Partition）。一个 Tablet 只属于一个 Partition。而一个 Partition 包含若干个 Tablet。Tablet 是数据移动、复制等操作的最小物理存储单元。

官网链接指路：

Doris 介绍 - Apache Doris

二、SQL解析简介

sql解析指的是：一条sql语句经过一系列的解析最后生成一个完整的物理执行计划的过程。解析过程主要包括以下四个步骤：词法分析，语法分析，生成逻辑计划，生成物理计划。

词法分析：解析原始SQL文本，拆分token
语法分析：将token转换成抽象语法树（AST）
逻辑查询计划：

单机逻辑查询计划：对AST经过一系列优化（比如：谓词下推等）成查询计划，提高执行性能和效率

分布式逻辑查询计划：根据分布式环境（数据分布信息、连接信息、join算法等）将单机逻辑查询计划转换成分布式

物理查询计划：在逻辑查询计划的基础上，根据数据的存储方式和机器的分布情况生成实际的执行计划

Doris SQL 解析架构具体介绍如下：

2.1 词法分析

词法分析主要负责将字符串形式的sql识别成一个个token，为语法分析做准备。


select ......  from ...... where ....... group by ..... order by ......

SQL的Token 可以分为如下几类：
￮ 关键字（select、from、where）
￮ 操作符（+、-、>=）
￮ 开闭合标志（(、CASE）
￮ 占位符（?）
￮ 注释
￮ 空格

2.2 语法分析

语法分析主要负责根据语法规则，将词法分析生成的token转成抽象语法树（Abstract Syntax Tree），如图2所示。

2.3 逻辑计划

逻辑计划负责将抽象语法树转成代数关系。代数关系是一棵算子树，每个节点代表一种对数据的计算方式，整棵树代表了数据的计算方式以及流动方向

2.4 物理计划

物理计划是在逻辑计划的基础上，根据机器的分布，数据的分布，决定去哪些机器上执行哪些计算操作。Doris系统的SQL解析也是采用这些步骤，只不过根据Doris系统结构的特点和数据的存储方式，进行了细化和优化，最大化发挥机器的计算能力。

三、Doris SQL解析的总体架构

Doris SQL解析具体包括了五个步骤：词法分析，语法分析，生成单机逻辑计划，生成分布式逻辑计划，生成物理执行计划。具体代码实现上包含以下五个步骤：Parse, Analyze, SinglePlan, DistributedPlan, Schedule。

四、Parse阶段

Parse阶段主要涉及三部分工作：

构建词法解析器
词法分析，将 doris sql中的关键词识别成一个个token
进行语法解析，将词法分析生成的token转成抽象语法树AST

五、Analyze阶段

SQL 语句被解析成AST之后，会被交给 StmtExecutor进行一些前期的处理和语义分析，为生成单机逻辑计划做准备，大概会做下面的事情：

元信息的识别和解析

识别和解析sql中涉及的 Cluster, Database, Table, Column 等元信息，确定需要对哪个集群的哪个数据库的哪些表的哪些列进行计算。

SQL 的合法性检查

窗口函数不能 DISTINCT，投影列是否有歧义，where语句中不能含有grouping操作等。

SQL 重写

比如将 select * 扩展成 select 所有列，count distinct转成bitmap或者hll函数等。

函数处理

检查sql中包含的函数和系统定义的函数是否一致，包括参数类型，参数个数等。

Table与Column别名处理
类型检查和转换

例如：二元表达式两边的类型不一致时，需要对其中一个类型进行转换(bigint和decimal比较，bigint类型需要转换成decimal)

总结，对AST进行analyze后会再进行一次rewrite操作，进行精简或者是转成统一的处理方式

六、SinglePlan阶段（生成单机逻辑Plan阶段）

此阶段主要是根据AST抽象语法树生成算子数。树上的每个节点都是一个算子。如下图所示，ScanNode代表着对一个表的扫描操作，将一个表的数据读出来。HashJoinNode代表着join操作，将小表广播到大表所在的每个节点，内存中构建哈希表，然后遍历大表每条记录做关联。Project算子表示投影操作，代表着最后需要输出的列，下图中的sql表示只用输出citycode这一列。

SinglePlan阶段主要做了如下几项工作：

Slot 物化：指确定一个表达式对应的列需要 Scan 和计算，比如聚合节点的聚合函数表达式和 Group By 表达式需要进行物化（Slot：计算槽，是一个资源单位, 只有给 task 分配了一个 slot 之后, 这个task才可以运行）
投影下推：BE在Scan 时只会Scan必须读取的列
谓词下推：在满足语义正确的前提下将过滤条件尽可能下推到Scan节点
分区，分桶裁剪：根据过滤条件中的信息，确定需要扫描哪些分区，哪些桶的tablet
Join Reorder：对于 Join操作, Doris会根据行数调整表的顺序，将大表放在前面。在保证结果不变的情况，通过规则计算最优（最少资源）join 操作
Sort + Limit 优化成 TopN：对于order by limit语句会转换成TopN的操作节点
MaterializedView 选择：会根据查询需要的列，过滤，排序和 Join 的列，行数，列数等因素选择最佳的物化视图
向量化执行引擎选择：基于现代CPU的特点，重新设计列式存储系统的SQL执行引擎，从而提高了CPU在SQL执行时的效率，提升了SQL查询的性能
Runtime Filter Join：Doris 在进行Hash Join 计算时会将小表广播到大表所在的各个节点上，构建一个内存哈希表，然后流式读出大表的数据进行Hash Join。而 RuntimeFilter是在右表生成哈希表的时候，动态生成一个基于哈希表数据的过滤条件，将该过滤条件下推到大表的数据扫描节点，从而减少扫描的数据量，避免不必要的I/O和网络传输。

七、DistributedPlan计划（生成分布式逻辑阶段）

7.1 DistributedPlan 概述

（1）根据分布式环境，将单机的PlanNode树（planNode : 逻辑算子）拆分成分布式PlanFragment树（PlanFragment用来表示独立的执行单元）

（2）每个 PlanFragment 由 PlanNodeTree 和 Data Sink 组成。Plan分布式化的方法是增加 ExchangeNode，PlanNodeTree执行计划树会以 ExchangeNode为边界拆分为 PlanFragment。 ExchangeNode主要是用于BE之间的数据交换与共享，类似 Spark 和 MR 中的 Shuffle。

（3）DistributedPlan阶段的主要目标是最大化并行度和数据本地化。主要方法是将能够并行执行的节点拆分出去单独建立一个PlanFragment，用ExchangeNode代替被拆分出去的节点，用来接收数据。拆分出去的节点增加一个DataSinkNode，用来将计算之后数据传送到ExchangeNode中，做进一步的处理。

（4）DistributedPlanner中最主要的工作是决定Join的分布式执行策略：Broadcast Join，Shuffle Join，Bucket Shuffle Join，Colocate Join以及增加 Aggregation 的 Merge 阶段。

7.2 四种join算法：

对于查询操作来说，join操作是最常见的一种操作。Doris目前支持4种join算法：Broadcast Join，Shuffle Join，Bucket Shuffle Join，Colocate Join。

7.2.1 Broadcast Join

小表进行条件过滤后，将其广播到大表所在的各个节点上，形成一个内存Hash 表，然后流式读出大表的数据Hash Join。Doris会自动尝试进行 Broadcast Join，如果预估小表过大则会自动切换至 Shuffle Join。

7.2.2 Shuffle Join

大表和大表join时，一般采用hash partition join。它遍历表中的所有数据，计算key的哈希值，然后对集群数取模，选到哪台机器，就将数据发送到这台机器进行hash join操作。

7.2.3 Bucket Shuffle Join

当join列是左表的分桶列，可以采用bucket shuffle join算法。下图中的hash(column) % n 中的n指的是左表的桶数,column代表的是join 列，同时也是分桶列。这样左表数据不移动，右表数据根据分区计算的结果发送到左表扫表的节点就可以完成Join的计算。即只需网络传输一份右表数据就可以了，极大减少了数据的网络传输。

7.2.4 Colocate Join

两个表在创建的时候就指定了数据分布保持一致，那么当两个表的join key与分桶的key一致时，就会采用colocate join算法。由于两个表的数据分布是一样的，那么hash join操作就相当于在本地，不涉及到任何的数据传输，极大提高查询性能。

总结：上面这 4 种join方式灵活度是从高到低的，它对这个数据分布的要求是越来越严格，但 Join计算的性能也是越来越好的。

7.3 分布式逻辑计划的核心流程

7.3.1 PlanNode

如果是PlanNode，自底向上创建PlanFragment。

7.3.2 ScanNode

如果是ScanNode，则直接创建一个PlanFragment，PlanFragment的RootPlanNode是这个ScanNode。

7.3.3 HashJoinNode

如果是HashJoinNode，则首先计算下broadcastCost（成本），根据不同的条件判断选择哪种Join算法。

（1）如果使用colocate join，由于join操作都在本地，就不需要拆分。设置HashJoinNode的左子节点为leftFragment的RootPlanNode，右子节点为rightFragment的RootPlanNode，与leftFragment共用一个PlanFragment，删除掉rightFragment。

（2）如果使用bucket shuffle join，需要将右表的数据发送给左表。所以先创建了一个ExchangeNode，设置HashJoinNode的左子节点为leftFragment的RootPlanNode，右子节点为这个ExchangeNode，与leftFragment共用一个PlanFragment，并且指定rightFragment数据发送的目的地为这个ExchangeNode。

（3）如果使用broadcast join，需要将右表的数据发送给左表。所以先创建了一个ExchangeNode，设置HashJoinNode的左子节点为leftFragment的RootPlanNode，右子节点为这个ExchangeNode，与leftFragment共用一个PlanFragment，并且指定rightFragment数据发送的目的地为这个ExchangeNode。

（4）如果使用hash partition join（也就是shuffle joun），左表和右边的数据都要切分，需要将左右节点都拆分出去，分别创建left ExchangeNode, right ExchangeNode，HashJoinNode指定左右节点为left ExchangeNode和 right ExchangeNode。单独创建一个PlanFragment，指定RootPlanNode为这个HashJoinNode。最后指定leftFragment, rightFragment的数据发送目的地为left ExchangeNode, right ExchangeNode。

八、Schedule阶段

该阶段是根据分布式逻辑计划，创建分布式物理计划。主要解决以下问题：

哪个 BE 执行哪个 PlanFragment
每个Tablet选择哪个副本去查询
如何进行多实例并发

创建分布式物理计划的核心流程有：

8.1 prepare阶段

给每个PlanFragment创建一个FragmentExecParams结构，用来表示PlanFragment执行时所需的所有参数；如果一个PlanFragment包含有DataSinkNode，则找到数据发送的目的PlanFragment，然后指定目的PlanFragment的FragmentExecParams的输入为该PlanFragment的FragmentExecParams。

8.2 computeScanRangeAssignment阶段

对fragment合理分配，尽可能保证每个BE节点的请求都是平均，针对不同类型的join进行不同的处理。

computeScanRangeAssignmentByColocate

针对colocate join 进行处理，由于Join得两个表桶中的数据分布是一样的，他们是基于桶的join操作，所以在这里确定每个桶选择哪个host。在给host分配桶的时候，尽量保证每个host分配到的桶基本平均。

computeScanRangeAssignmentByBucket

对bucket shuffle join进行处理，也只是基于桶的操作，所以在这里是确定每个桶选择哪个host。在给host分配桶时，同样需要尽量保证每个host分配到的桶基本平均。

computeScanRangeAssignmentByScheduler

针对其他类型的join进行处理。确定每个scanNode读取tablet哪个副本。一个scanNode会读取多个tablet，每个tablet有多个副本。为了使sca操作尽可能的分散到多台机器上去，提高并发性能，减少IO压力，Doris 采用了Round-Robin算法，使tablet的扫描尽可能分散到多台机器上去。例如100个tablet需要扫描，每个tablet有3个副本，假设集群有10台机器，在分配时，保障每台机器扫10个tablet。

8.3 computeFragmentExecParams阶段

处理Fragment执行参数，这个阶段解决PlanFragment下发到哪个BE上执行，以及如何处理实例并发问题。

8.4 create result receiver阶段

result receiver是查询完成后，最终数据需要输出的地方。

8.5 to thrift阶段

根据所有PlanFragment创建的rpc请求下发到BE端执行，一个完整的SQL解析过程完成了。

综上所述：

九、总结

本篇文章介绍了sql解析的通用流程：词法分析，语法分析，生成逻辑计划，生成物理计划。从总体上阐述了Doris在sql解析这块的总体架构，从代码和算法层面上解析Parse, Analyze, SinglePlan, DistributedPlan, Schedule五步骤的内容。

Doris遵守了sql解析的常用方法，根据底层存储架构，以及分布式的特点，在sql解析这块进行了大量的优化，实现了最大化的计算并行度、最小化的数据网络传输，最大化减少需扫描的数据量，给sql执行层面减少了很多负担。

补充：Hive SQL编译成MapReduce任务的过程见文章：

(02)Hive SQL编译成MapReduce任务的过程-CSDN博客文章浏览阅读1.4k次，点赞30次，收藏23次。Hive SQL编译成MapReduce的过程https://blog.csdn.net/SHWAITME/article/details/136103206?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522170813605316800182123993%2522%252C%2522scm%2522%253A%252220140713.130102334.pc%255Fblog.%2522%257D&request_id=170813605316800182123993&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2~blog~first_rank_ecpm_v1~rank_v31_ecpm-1-136103206-null-null.nonecase&utm_term=mapreduce&spm=1018.2226.3001.4450

参考文章：

【Doris全面解析】Doris SQL 原理解析

聊聊分布式 SQL 数据库Doris(五)-腾讯云开发者社区-腾讯云

https://blog.csdn.net/qq_34635236/article/details/128114948?ops_request_misc=&request_id=&biz_id=102&utm_term=doris%20sql%20%E6%BA%90%E7%A0%81&utm_medium=distribute.pc_search_result.none-task-blog-2~all~sobaiduweb~default-0-128114948.142%5Ev99%5Epc_search_result_base6&spm=1018.2226.3001.4187

ThreadLocal 在 Spring 与数据库交互中的应用笔记笑衬人心。 JAVA学习笔记数据库 spring 笔记
一、基本概念1.1什么是ThreadLocal？ThreadLocal是Java提供的一个线程本地存储工具类。每个线程访问ThreadLocal时，都只能看到自己线程范围内的变量副本，线程之间互不影响。常用于保存线程上下文信息，如用户登录信息、事务状态、数据库连接等。ThreadLocalthreadLocal=newThreadLocal>resources=newNamedThreadLoca
九块九付费进群系统 wxselect SQL注入漏洞复现 0xSecl 漏洞复现v1 安全 web安全
0x01产品简介九块九付费进群系统是一种新的社群管理方式，用户通过支付9.9元人民币即可加入特定的微信群，享受群内提供的服务或资源。这种模式通常用于知识分享、资源下载、专业交流等社群，通过设置门槛来筛选成员，提高群组的专业性和互动质量。0x02漏洞概述九块九付费进群系统wxselect接口存在SQL注入漏洞，未经身份验证的远程攻击者除了可以利用SQL注入漏洞获取数据库中的信息（例如，管理员后台密码
【MySQL】性能优化实战指南：释放数据库潜能的艺术
文章目录MySQL性能优化实战指南：释放数据库潜能的艺术引言为什么需要MySQL性能优化？性能优化基础知识MySQL性能瓶颈分析1.硬件资源瓶颈2.MySQL内部瓶颈优化配置策略大全内存配置优化InnoDB缓冲池配置查询缓存配置连接和线程配置磁盘I/O优化InnoDB存储引擎配置临时表配置独特优化创意配置创意1：分层存储优化创意2：动态配置自适应创意3：负载感知配置高级优化技巧并行处理优化索引和查
毕业设计基于python + flask +mysql + Layui新闻系统项目源码 love0everything flask python 课程设计
毕业设计基于python+flask+mysql+Layui新闻系统项目源码介绍该项目采用Flask框架开发，数据库采用mysql。这是一个作业项目。该项目采用Flask框架开发的一个新闻、论坛、博客系统。。前端采用的是layui框架，后端模板是X-admin下载地址：毕业设计基于python+flask+mysql+Layui新闻系统项目源码模块版本PyMysql1.0.2Flask1.1.2M
Paimon：Range Partition and Sort优化无主键表（Append-Only Table）查询 lifallen Paimon 数据库大数据数据结构 java apache
这个优化是通过对数据进行全局排序，从而让查询时能够跳过大量不相关的数据文件（DataSkipping），极大地减少I/O，提升查询速度。只需要在执行INSERT语句时，通过OPTIONSHint来启用和配置这个功能即可。RangePartitionAndSortForUnawareBucketTableITCase测试文件本身就是最好的例子。比如测试中的这句SQL：INSERTINTOtest_t
PHP MySQL 读取数据 froginwe11 开发语言
PHPMySQL读取数据引言在Web开发中，PHP和MySQL是两个常用的技术栈。PHP作为服务器端脚本语言，而MySQL作为关系型数据库管理系统，两者结合能够构建强大的动态网站。本文将详细介绍如何使用PHP从MySQL数据库中读取数据，包括连接数据库、执行查询、处理结果等关键步骤。连接MySQL数据库在PHP中，首先需要连接到MySQL数据库。以下是一个示例代码，展示了如何使用mysqli扩展连
时序数据库选型全指南：为什么越来越多企业选择IoTDB？ Loving_enjoy 计算机学科论文创新点机器学习 facebook 课程设计经验分享
>在工业物联网爆发式增长的今天，一台风力发电机每秒产生200+数据点，一座智慧工厂每天新增10亿级数据记录——传统数据库已无法承受时序数据的洪流。###时序数据：数字时代的脉搏时序数据（Time-SeriesData）是以时间戳为索引的连续数据流，广泛存在于物联网设备监控、金融交易记录、应用性能监测等场景。这类数据具有三大特性：-**海量性**：单个设备每秒可产生多条数据-**时效性**：新数据价
大数据时代下的时序数据库选型指南：基于工业场景的IoTDB技术优势与适用性研究 Loving_enjoy 计算机学科论文创新点机器学习 facebook 经验分享课程设计
>在宝钢集团的智能工厂里，5万多个传感器每秒产生150万+数据点，传统数据库系统每天积压3TB未处理数据——这揭示了工业4.0时代的核心矛盾：**海量时序数据处理能力已成为智能制造的关键瓶颈**。###工业时序数据的四大特殊性工业场景下的时序数据与传统互联网数据存在本质差异：1.**高精度时间要求**-数控机床振动监测需微秒级时间戳-电网故障定位要求时间同步精度≤1μs2.**多源异构性**```
Mysql基本语法到表设计吴鹰飞侠 mysql 数据库
由于笔者之前了解过sql所以此篇仅作复习使用。1.MySQL基本语法1.1创建数据库createdatabaselogin_demo;1.2使用数据库uselogin_demo;1.3创建表CREATETABLEusers(idintprimarykeyauto_increment,usernamevarchar(50)notnull,passwordvarchar(255)notnull,ema
linux安装Node.js 环境，Docker 环境，Ruby 环境，MongoDB 环境，PostgreSQL 数据库，Go 开发环境，Python 虚拟环境 2401_87017622 数据库 linux node.js
在Linux上安装其他常见的开发环境可以根据具体需求而定，以下是一些常见的安装步骤：1.Node.js环境Node.js是一个基于ChromeV8引擎的JavaScript运行环境，适用于服务器端开发。安装Node.js：通过包管理器安装：sudoyuminstall-ygcc-c++makecurl-sLhttps://rpm.nodesource.com/setup_14.x|sudo-Eba
Flink双流实时对账
在电商、金融、银行、支付等涉及到金钱相关的领域，为了安全起见，一般都有对账的需求。比如，对于订单支付事件，用户通过某宝付款，虽然用户支付成功，但是用户支付完成后并不算成功，我们得确认平台账户上是否到账了。针对上述的场景，我们可以采用批处理，或离线计算等技术手段，通过定时任务，每天结束后，扫描数据库中的数据，核对当天的支付数据和交易数据，进行对账。想要达到实时对账的效果，比如有的用户支付成功但是并没
3步！用代码生成工具秒建SqlSugar Winform项目？手把手教学，小白也能轻松上手！墨瑾轩数据库学习 oracle 数据库
关注墨瑾轩，带你探索编程的奥秘！超萌技术攻略，轻松晋级编程高手技术宝库已备好，就等你来挖掘订阅墨瑾轩，智趣学习不孤单即刻启航，编程之旅更有趣（对比传统开发效率：人工写代码vs魔法生成器，谁才是真正的“代码魔法师”？）代码生成工具——程序员的“魔法棒”你有没有试过用Excel表格生成代码？或者像搭积木一样拼出一个完整的Winform项目？SqlSugar+代码生成工具（比如Database2Shar
3步搞定Java漏洞修复？别再让黑客当“家”！
关注墨瑾轩，带你探索编程的奥秘！超萌技术攻略，轻松晋级编程高手技术宝库已备好，就等你来挖掘订阅墨瑾轩，智趣学习不孤单即刻启航，编程之旅更有趣Java城堡的“裂缝”与程序员的救赎想象一下：你的Java应用是一座巍峨的城堡，而安全漏洞就是那些悄悄蔓延的裂缝。SQL注入：像是小偷从窗户溜进来，偷偷改写数据库的账本。XSS攻击：像在城堡里偷偷放了一张带毒的地毯，路过的人会被“刺”伤。SSRF漏洞：像让城堡
MySQL 索引详解：从原理到实战的全方位指南一切皆有迹可循 mysql mysql 数据库后端 java sql
前言索引是MySQL高性能查询的核心驱动力，合理设计索引能将查询性能提升几个数量级，而不当使用则可能导致严重的性能瓶颈。本文从索引的基础概念出发，深入解析数据结构、分类特性、设计原则及实战优化，帮助开发者掌握索引的核心原理与最佳实践。一、索引基础概念1.索引定义与本质索引是存储引擎用于快速查找数据的一种数据结构，本质是「数据项→数据地址」的映射表类比：相当于书籍的目录，通过目录（索引）快速定位章节
MySQL 锁详解：从原理到实战的并发控制指南一切皆有迹可循 mysql mysql 数据库后端 java sql
前言在高并发场景下，锁是MySQL保证数据一致性的核心机制。正确理解锁的类型、行为及适用场景，能有效避免数据竞争、死锁等问题，是构建可靠数据库应用的关键。本文从锁的分类、存储引擎差异到实战优化，结合代码示例，系统解析MySQL锁机制的核心原理与最佳实践。一、锁分类：按粒度与功能划分1.按锁粒度划分（1）全局锁（GlobalLock）作用范围：锁定整个数据库实例典型场景：全库逻辑备份（FLUSHTA
Keepalived + VIP 高可用架构设计与实践详解：实现 Nginx 入口层的高可用要阿尔卑斯吗. nginx 运维分布式架构 java
一、背景与目标在大型网站或企业系统中，“高可用性（HighAvailability,HA）”是衡量系统稳定性的关键指标之一。任何一个节点故障都不应影响整体服务的可达性。问题背景举例：Tomcat部署了集群（后端高可用）Redis配置了主从+Sentinel（缓存高可用）数据库使用了主备或分库分表（存储高可用）但入口Nginx只有一个……Nginx宕机=全站瘫痪为了解决这个“最顶层的单点问题”，我们
浅谈MySQL SQL优化的底层原理干净的坏蛋 mysql sql 数据库
深入理解MySQL的SQL优化底层原理，需要从查询的执行流程出发，结合优化器原理、执行计划生成机制、索引原理和存储引擎行为全面剖析。以下是完整的底层视角分析：✅一、MySQLSQL查询的底层执行流程客户端->SQL解析器->查询优化器->执行器->存储引擎（如InnoDB）1.SQL解析（Parser）词法分析+语法分析→生成抽象语法树（AST）比如：识别出SELECT、FROM、WHERE、字段
Redis 之数据过期策略 JiaHao汤 Redis redis 数据库缓存
文章目录定时删除惰性删除Redis中有惰性删除与定时删除两种数据删除策略。Redis将这两种策略结合使用，是为了在性能和内存管理之间取得平衡。惰性删除策略减少了CPU开销，而定时删除策略则能及时清理部分过期键，避免大量过期键长时间占用内存。这样既保证了Redis的高性能，又能有效地管理内存资源。TTL指令说明Redis是一种内存级数据库，所有数据均存放在内存中，内存中的数据可以通过TTL指令获取其
脏读、不可重复读、幻读？一文扫盲数据库三大“读“问题
想象一下：你在银行查看账户余额时，数字在你眼前变来变去；或者明明没有记录的操作，却突然冒出新数据。这不是系统故障，而是数据库事务隔离的三大经典问题！今天我们就来揭开这些神秘现象的面纱。一、事务隔离的"三座大山"️在数据库世界中，多个事务同时操作数据时会产生三种典型问题：问题类型出现场景危害程度类比场景脏读读取未提交的数据⚠️⚠️⚠️高危看到别人未提交的草稿不可重复读同一事务内读取结果不一致⚠️⚠️
MySQL MVCC解密：多版本并发控制的魔法世界码农技术栈 MySQL mysql 数据库开发语言 java jvm 后端性能优化
当多个用户同时读写数据库时，MySQL如何避免数据混乱？本文将揭开MVCC的神秘面纱，带你探索这个让数据库高并发运行的魔法引擎！一、为什么需要MVCC？并发控制的困境想象图书馆借阅场景：传统方式：一本书只能一个人看（锁机制）MVCC方式：复印多份，每人看不同版本（多版本控制）传统锁机制的痛点：事务A读数据加锁事务B写数据等待锁释放长时间等待系统卡顿二、MVCC是什么？时间旅行的艺术MVCC核心概念
高性能数据库-Redis详解经典1992 数据库 redis 缓存
Redis（RemoteDictionaryServer）是一款高性能的开源键值对数据库，以“快”和“灵活”为核心优势，广泛应用于缓存、会话存储、实时排行榜、消息队列等场景。下面从基础概念、核心特性、应用场景到进阶用法，带你“深入浅出”了解Redis。一、Redis核心定位：为什么选择Redis？Redis的核心竞争力可以用三个词概括：快、灵活、功能丰富。快：基于内存存储（数据直接存在内存中，而非
Redis 深度解析：从核心原理到生产实践 Pasregret 缓存 redis 数据库缓存
Redis深度解析：从核心原理到生产实践一、Redis核心定位与数据结构1.核心能力矩阵深度解析Redis作为高性能内存数据库，核心能力覆盖缓存、数据存储、消息中间件等场景，其设计哲学围绕速度优先、内存高效、功能丰富展开：内存存储特性纯内存操作：基于内存寻址的O(1)复杂度数据操作，单节点QPS可达10万+持久化方案：RDB（快照）与AOF（日志）双模式，支持数据持久化与故障恢复单线程模型：基于事
PostgreSQL 中的 pg_trgm 扩展详解 Yashar Qian 数据库(SQL)随笔 postgresql 数据库
PostgreSQL中的pg_trgm扩展详解pg_trgm是PostgreSQL提供的一个核心扩展，用于实现基于三元组(trigram)的文本相似度计算和高效搜索。它特别适合优化模糊匹配、部分匹配和相似度查询。核心功能三元组(trigram)概念：将字符串拆解为连续的3个字符组例如：“hello”→["h","he",“hel”,“ell”,“llo”,"lo"]主要用途：优化LIKE'%pat
Java 领域 MyBatis 与数据库连接池的搭配使用 Java技术栈实战 java mybatis 数据库 ai
Java领域MyBatis与数据库连接池的搭配使用关键词：MyBatis、数据库连接池、Java持久层、性能优化、Druid、HikariCP、Spring集成摘要：本文深入探讨Java领域中MyBatis框架与数据库连接池的搭配使用原理和实践。文章从基础概念入手，详细分析MyBatis的工作原理和数据库连接池的核心机制，重点讲解两者如何协同工作以提升应用性能。通过源码解析、性能对比和实际项目案例
【MySQL基础】MySQL事务详解：原理、特性与实战应用 GG Bond.ฺ MySQL学习 mysql 数据库
MySQL学习：https://blog.csdn.net/2301_80220607/category_12971838.html?spm=1001.2014.3001.5482前言：事务是数据库管理系统的核心概念之一，它确保了数据库操作的可靠性和一致性。本文将深入探讨MySQL事务的各个方面，包括基本概念、ACID特性、隔离级别、锁机制以及实战应用。目录一、事务的基本概念1.1什么是事务？1.
Android 开源组件和第三方库汇总 gyyzzr Android Android 开源框架
转载1、github排名https://github.com/trending,github搜索：https://github.com/search2、https://github.com/wasabeef/awesome-android-ui目录UIUI卫星菜单节选器下拉刷新模糊效果HUD与Toast进度条UI其它动画网络相关响应式编程地图数据库图像浏览及处理视频音频处理测试及调试动态更新热更新
CentOS7环境卸载MySQL5.7 Hadoop_Liang mysql 数据库 mysql
备份重要数据切记，卸载之前先备份mysql重要的数据。备份一个数据库例如：备份名为mydatabase的数据库到backup.sql的文件中mysqldump-uroot-ppassword123mydatabase>backup.sql备份所有数据库mysqldump-uroot-ppassword123--all-databases>all_databases_backup.sql注意：-p后
php SPOF 贵哥的编程之路(热爱分享为后来者) PHP语言经典程序100题 php 开发语言
1.什么是单点故障（SPOF）？单点故障指的是系统中某个组件一旦失效，整个系统或服务就会不可用。常见的单点有：数据库、缓存、Web服务器、负载均衡、网络设备等。2.常见单点故障场景只有一台数据库服务器，宕机后所有业务不可用只有一台Redis缓存，挂掉后缓存全部失效只有一台Web服务器，挂掉后网站无法访问只有一个负载均衡节点，挂掉后流量无法分发只有一条网络链路，断开后所有服务失联3.消除单点故障的主
centos7安装 mysql5.7(安装包) heiPony linux mysql mariadb centos mysql
一.卸载centos7自带数据库查看系统自带的Mariadbrpm-qa|grepmariadbmariadb-libs-5.5.44-2.el7.centos.x86_64卸载rpm-e--nodepsmariadb-libs-5.5.44-2.el7.centos.x86_64删除etc目录下的my.cnfrm/etc/my.cnf二.检查mysql是否存在(有就卸载,删除相关文件)rpm-q
MySQL Explain 详解：从入门到精通，让你的 SQL 飞起来
引言：为什么Explain是SQL优化的“照妖镜”？在Java开发中，我们常常会遇到数据库性能瓶颈的问题。一条看似简单的SQL语句，在数据量增长到一定规模后，可能会从毫秒级响应变成秒级甚至分钟级响应，直接拖慢整个应用的性能。此时，你是否曾困惑于：为什么这条SQL突然变慢了？索引明明建了，为什么没生效？到底是哪里出了问题？答案就藏在MySQL的EXPLAIN命令里。EXPLAIN就像一面“照妖镜”，
LeetCode[Math] - #66 Plus One Cwind java LeetCode 题解 Algorithm Math
原题链接：#66 Plus One 要求：给定一个用数字数组表示的非负整数，如num1 = {1, 2, 3, 9}, num2 = {9, 9}等，给这个数加上1。注意： 1. 数字的较高位存在数组的头上，即num1表示数字1239 2. 每一位（数组中的每个元素）的取值范围为0~9 难度：简单分析：题目比较简单，只须从数组
JQuery中$.ajax()方法参数详解 AILIKES JavaScript jsonp jquery Ajax json
url: 要求为String类型的参数，（默认为当前页地址）发送请求的地址。 type: 要求为String类型的参数，请求方式（post或get）默认为get。注意其他http请求方法，例如put和 delete也可以使用，但仅部分浏览器支持。 timeout: 要求为Number类型的参数，设置请求超时时间（毫秒）。此设置将覆盖$.ajaxSetup()方法的全局
JConsole & JVisualVM远程监视Webphere服务器JVM Kai_Ge JVisualVM JConsole Webphere
JConsole是JDK里自带的一个工具，可以监测Java程序运行时所有对象的申请、释放等动作，将内存管理的所有信息进行统计、分析、可视化。我们可以根据这些信息判断程序是否有内存泄漏问题。　　使用JConsole工具来分析WAS的JVM问题，需要进行相关的配置。　　首先我们看WAS服务器端的配置. 　　1、登录was控制台https://10.4.119.18
自定义annotation 120153216 annotation
Java annotation 自定义注释@interface的用法一、什么是注释说起注释，得先提一提什么是元数据(metadata)。所谓元数据就是数据的数据。也就是说，元数据是描述数据的。就象数据表中的字段一样，每个字段描述了这个字段下的数据的含义。而J2SE5.0中提供的注释就是java源代码的元数据，也就是说注释是描述java源
CentOS 5/6.X 使用 EPEL YUM源 2002wmj centos
CentOS 6.X 安装使用EPEL YUM源1. 查看操作系统版本[root@node1 ~]# uname -a Linux node1.test.com 2.6.32-358.el6.x86_64 #1 SMP Fri Feb 22 00:31:26 UTC 2013 x86_64 x86_64 x86_64 GNU/Linux [root@node1 ~]#
在SQLSERVER中查找缺失和无用的索引SQL 357029540 SQL Server
--缺失的索引 SELECT avg_total_user_cost * avg_user_impact * ( user_scans + user_seeks ) AS PossibleImprovement , last_user_seek ,
Spring3 MVC 笔记（二） —json+rest优化 7454103 Spring3 MVC
接上次的 spring mvc 注解的一些详细信息！其实也是一些个人的学习笔记呵呵！
替换“\”的时候报错Unexpected internal error near index 1 \ ^ adminjun java “\替换”
发现还是有些东西没有刻子脑子里,,过段时间就没什么概念了,所以贴出来...以免再忘... 在拆分字符串时遇到通过 \ 来拆分，可是用所以想通过转义 \\ 来拆分的时候会报异常 public class Main { /*
POJ 1035 Spell checker(哈希表) aijuans 暴力求解--哈希表
/* 题意：输入字典，然后输入单词，判断字典中是否出现过该单词，或者是否进行删除、添加、替换操作，如果是，则输出对应的字典中的单词要求按照输入时候的排名输出题解：建立两个哈希表。一个存储字典和输入字典中单词的排名，一个进行最后输出的判重 */ #include <iostream> //#define using namespace std; const int HASH =
通过原型实现javascript Array的去重、最大值和最小值 ayaoxinchao JavaScript array prototype
用原型函数（prototype）可以定义一些很方便的自定义函数，实现各种自定义功能。本次主要是实现了Array的去重、获取最大值和最小值。实现代码如下： <script type="text/javascript"> Array.prototype.unique = function() { var a = {}; var le
UIWebView实现https双向认证请求 bewithme UIWebView https Objective-C
什么是HTTPS双向认证我已在先前的博文 ASIHTTPRequest实现https双向认证请求中有讲述，不理解的读者可以先复习一下。本文是用UIWebView来实现对需要客户端证书验证的服务请求，网上有些文章中有涉及到此内容，但都只言片语，没有讲完全，更没有完整的代码，让人困扰不已。但是此知
NoSQL数据库之Redis数据库管理(Redis高级应用之事务处理、持久化操作、pub_sub、虚拟内存) bijian1013 redis 数据库 NoSQL
3.事务处理 Redis对事务的支持目前不比较简单。Redis只能保证一个client发起的事务中的命令可以连续的执行，而中间不会插入其他client的命令。当一个client在一个连接中发出multi命令时，这个连接会进入一个事务上下文，该连接后续的命令不会立即执行，而是先放到一个队列中，当执行exec命令时，redis会顺序的执行队列中
各数据库分页sql备忘 bingyingao oracle sql 分页
ORACLE 下面这个效率很低 SELECT * FROM ( SELECT A.*, ROWNUM RN FROM (SELECT * FROM IPAY_RCD_FS_RETURN order by id desc) A ) WHERE RN <20; 下面这个效率很高 SELECT A.*, ROWNUM RN FROM (SELECT * FROM IPAY_RCD_
【Scala七】Scala核心一：函数 bit1129 scala
1. 如果函数体只有一行代码，则可以不用写{},比如 def print(x: Int) = println(x) 一行上的多条语句用分号隔开，则只有第一句属于方法体，例如 def printWithValue(x: Int) : String= println(x); "ABC" 上面的代码报错，因为，printWithValue的方法
了解GHC的factorial编译过程 bookjovi haskell
GHC相对其他主流语言的编译器或解释器还是比较复杂的，一部分原因是haskell本身的设计就不易于实现compiler，如lazy特性，static typed，类型推导等。关于GHC的内部实现有篇文章说的挺好，这里，文中在RTS一节中详细说了haskell的concurrent实现，里面提到了green thread，如果熟悉Go语言的话就会发现，ghc的concurrent实现和Go有点类
Java-Collections Framework学习与总结-LinkedHashMap BrokenDreams LinkedHashMap
前面总结了java.util.HashMap，了解了其内部由散列表实现，每个桶内是一个单向链表。那有没有双向链表的实现呢？双向链表的实现会具备什么特性呢？来看一下HashMap的一个子类——java.util.LinkedHashMap。
读《研磨设计模式》-代码笔记-抽象工厂模式-Abstract Factory bylijinnan abstract
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * Abstract Factory Pattern * 抽象工厂模式的目的是： * 通过在抽象工厂里面定义一组产品接口，方便地切换“产品簇” * 这些接口是相关或者相依赖的
压暗面部高光 cherishLC PS
方法一、压暗高光&重新着色当皮肤很油又使用闪光灯时，很容易在面部形成高光区域。下面讲一下我今天处理高光区域的心得：皮肤可以分为纹理和色彩两个属性。其中纹理主要由亮度通道（Lab模式的L通道）决定，色彩则由a、b通道确定。处理思路为在保持高光区域纹理的情况下，对高光区域着色。具体步骤为：降低高光区域的整体的亮度，再进行着色。如果想简化步骤，可以只进行着色（参看下面的步骤1
Java VisualVM监控远程JVM crabdave visualvm
Java VisualVM监控远程JVM JDK1.6开始自带的VisualVM就是不错的监控工具. 这个工具就在JAVA_HOME\bin\目录下的jvisualvm.exe, 双击这个文件就能看到界面通过JMX连接远程机器, 需要经过下面的配置: 1. 修改远程机器JDK配置文件 (我这里远程机器是linux).
Saiku去掉登录模块 daizj saiku 登录 olap BI
1、修改applicationContext-saiku-webapp.xml <security:intercept-url pattern="/rest/**" access="IS_AUTHENTICATED_ANONYMOUSLY" /> <security:intercept-url pattern=&qu
浅析 Flex中的Focus dsjt html Flex Flash
关键字：focus、 setFocus、 IFocusManager、KeyboardEvent 焦点、设置焦点、获得焦点、键盘事件一、无焦点的困扰——组件监听不到键盘事件原因：只有获得焦点的组件（确切说是InteractiveObject）才能监听到键盘事件的目标阶段；键盘事件（flash.events.KeyboardEvent）参与冒泡阶段，所以焦点组件的父项（以及它爸
Yii全局函数使用 dcj3sjt126com yii
由于YII致力于完美的整合第三方库，它并没有定义任何全局函数。yii中的每一个应用都需要全类别和对象范围。例如，Yii::app()->user;Yii::app()->params['name'];等等。我们可以自行设定全局函数，使得代码看起来更加简洁易用。(原文地址) 我们可以保存在globals.php在protected目录下。然后，在入口脚本index.php的，我们包括在
设计模式之单例模式二（解决无序写入的问题） come_for_dream 单例模式 volatile 乱序执行双重检验锁
在上篇文章中我们使用了双重检验锁的方式避免懒汉式单例模式下由于多线程造成的实例被多次创建的问题，但是因为由于JVM为了使得处理器内部的运算单元能充分利用，处理器可能会对输入代码进行乱序执行（Out Of Order Execute）优化，处理器会在计算之后将乱序执行的结果进行重组，保证该
程序员从初级到高级的蜕变 gcq511120594 框架工作 PHP android html5
软件开发是一个奇怪的行业，市场远远供不应求。这是一个已经存在多年的问题，而且随着时间的流逝，愈演愈烈。我们严重缺乏能够满足需求的人才。这个行业相当年轻。大多数软件项目是失败的。几乎所有的项目都会超出预算。我们解决问题的最佳指导方针可以归结为——“用一些通用方法去解决问题，当然这些方法常常不管用，于是，唯一能做的就是不断地尝试，逐个看看是否奏效”。现在我们把淫浸代码时间超过3年的开发人员称为
Reverse Linked List hcx2013 list
Reverse a singly linked list. /** * Definition for singly-linked list. * public class ListNode { * int val; * ListNode next; * ListNode(int x) { val = x; } * } */ p
Spring4.1新特性——数据库集成测试 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
C# Ajax上传图片同时生成微缩图(附Demo) liyonghui160com
1.Ajax无刷新上传图片,详情请阅我的这篇文章。（jquery + c# ashx） 2.C#位图处理 System.Drawing。 3.最新demo支持IE7,IE8,Fir
Java list三种遍历方法性能比较 pda158 java
从c/c++语言转向java开发，学习java语言list遍历的三种方法，顺便测试各种遍历方法的性能，测试方法为在ArrayList中插入1千万条记录，然后遍历ArrayList，发现了一个奇怪的现象，测试代码例如以下： package com.hisense.tiger.list; import java.util.ArrayList; import java.util.Iterator;
300个涵盖IT各方面的免费资源（上）——商业与市场篇 shoothao seo 商业与市场 IT资源免费资源
A.网站模板+logo+服务器主机+发票生成 HTML5 UP:响应式的HTML5和CSS3网站模板。 Bootswatch:免费的Bootstrap主题。 Templated:收集了845个免费的CSS和HTML5网站模板。 Wordpress.org|Wordpress.com:可免费创建你的新网站。 Strikingly:关注领域中免费无限的移动优
localStorage、sessionStorage uule localStorage
W3School 例子 HTML5 提供了两种在客户端存储数据的新方法： localStorage - 没有时间限制的数据存储 sessionStorage - 针对一个 session 的数据存储之前，这些都是由 cookie 完成的。但是 cookie 不适合大量数据的存储，因为它们由每个对服务器的请求来传递，这使得 cookie 速度很慢而且效率也不

Doris ——SQL原理解析

前言

一、Doris简介

二、SQL解析简介

2.1 词法分析

2.2 语法分析

2.3 逻辑计划

2.4 物理计划

三、Doris SQL解析的总体架构

四、Parse阶段

五、Analyze阶段

六、SinglePlan阶段（生成单机逻辑Plan阶段）

七、DistributedPlan计划（生成分布式逻辑阶段）

7.1 DistributedPlan 概述

7.2 四种join算法：

7.2.1 Broadcast Join

7.2.2 Shuffle Join

7.2.3 Bucket Shuffle Join

7.2.4 Colocate Join

7.3 分布式逻辑计划的核心流程

7.3.1 PlanNode

7.3.2 ScanNode

7.3.3 HashJoinNode

八、Schedule阶段

8.1 prepare阶段

8.2 computeScanRangeAssignment阶段

8.3 computeFragmentExecParams阶段

8.4 create result receiver阶段

8.5 to thrift阶段

九、总结

你可能感兴趣的:(#,Doris,sql,数据库)