howard_shooter

Doris的执行计划生成、分发与执行

一、概述

三、执行计划的生成

四、执行计划的分发

五、执行计划的执行

六、举个例子

一、概述

执行SQL的代码入口为StmtExecutor::execute()

三、执行计划的生成

在Doris的FE端，与大多数数据库系统一样，要从SQL或某种http请求，生成执行计划，从SQL生成，一开始是“抽象语法树”（Abstract Syntax Tree），这个抽象语法树不一定是规则的二叉树，而只是一些语法对象，通过类的成员变量联系起来，例如：

然后经过分析，重写步骤（有些数据库称为bind，语义分析等等），将AST改造成逻辑语法树，这个逻辑语法树，就是以关系运算符为主干的二叉树了，或者近似于这样一个二叉树了。

这个称为逻辑计划，生成逻辑计划以后，就可以进行各种优化了。在java代码中，逻辑计划的节点都是PlanNode的子类的对象，AST的节点都有个analyze()，analyze()被层层调用，生成逻辑计划树。

数据是分布式的分散到BE的，执行计划也是在BE节点上执行，而不是在FE节点上执行，FE只负责生成执行计划，并决定把执行计划发给谁。

接下来就是生成物理执行计划，并且把执行计划分布式化。

就是把PlanNode组成的执行计划树，分割成不同部分，这些不同部分称为fragment，代码中用PlanFragment类的对象表示，这些不同部分可以在不同的BE节点上执行，并且在BE节点上执行的同样一个PlanFragment，可以有多个并行执行的示例，虽然每个实例是一样的操作逻辑，但是读取的是同一个表的不同部分，这些部分称为ScanRange，例如一个PlanFragment的两个实例，它们在同一个BE节点上，读取同一个表dup1，它们的Scan操作符读取的也是同一个表，但是不同的实例的Scan操作符，读取的是不同的tablet，每个Scan操作符有自己的独一无二的ScanRange，ScanRange是一个tablet列表。

参考FE代码：Coordinator::computeScanRangeAssignment()

调试时，可以调用这个函数 tablets_id_to_string(_scan_ranges) 返回ScanRange里的tablet_id。
//every doris_scan_range is related with one tablet so that one olap scan node contains multiple tablet

Fragment之间通过网络通讯，新增了两个算子专门联系两个Fragment之间的运算符，就是DataSink和ExchangeNode，例如上图，之前直接联系的Hash Join Node和OlapScanNode，在分到不同的Fragment后通过DataSink和ExchangeNode沟通数据。

FE会决定执行计划划分为几个Fragment，并且决定这些Fragment分发到哪个BE上执行，也决定分发到BE上的Fragment，要创建几个实例，这些实例的scan操作符的ScanRange是什么，总之BE只负责无脑执行，所有执行细节都有FE在创建最终执行计划时设置好了。

四、执行计划的分发

执行计划在FE上生成完毕，由FE直接下发给需要执行的它的BE，而不会是先下发给一个所谓的coordinator BE，然后又它再分给其它BE，注意这一点，容易引起误会，select这样的计划，最终数据会汇总到一个BE上，再由这个BE传给FE，这个BE称为Root BE，它负责执行时数据的最终汇总，但是不负责执行计划的分发！

FE下发执行计划的入口函数是：

Coordinator::exec()

|__> Coordinator::sendPipelineCtx()
底层调BackendServiceClient::execPlanFragmentPrepareAsync()，通过grpc把fragments信息发给BE。

在FE的代码里，PlanFragment里的planRoot成员变量，指向自己所包含的执行计划片段的最上层的一个节点，每个执行计划算子（PlanNode）都有一个fragment成员变量，指向自己所在的PlanFragment对象。

PlanFragment的children成员变量，将父子fragment联系起来。

在Coordinator::sendPipelineCtx() 中，beToPipelineExecCtxs存的是发给所有BE的fragment信息，其中每个PipelineExecCtxs是发给同一个BE的所有fragment信息（可能向一个BE发送多个不同的fragment，并且同一个fragment会有多个实例），一个PipelineExecCtxs包含多个PipelineExecContexts，一个PipelineExecContexts对应一个fragment，一个PipelineExecContexts，对象里又可能包含多个PipelineExecContext，每个表示一个fragment实例。

FE中Coordinator这个类很重要，里面有个fragment list，就是要发给BE的要执行的fragment。

图片来自（Doris 源码分析 (五) gRpc 与 thrift 接口 - 简书 (jianshu.com)）

FE是通过gRPC向BE分发Fragments的。

FE与BE之间的RPC调用，是有超时的，在FE端fe.conf通过下面两个参数可以设置超时时间：

backend_rpc_timeout_ms

remote_fragment_exec_timeout_ms

FE向BE分发fragment，并不是每个BE都分发相同的fragment，而其中发给Root BE的fragment与其它BE稍有不同，多了顶部的fragment，其它BE的数据汇总到这个Root BE，然后从这个Root BE统一发给FE，注意，不是每个BE分别向FE发数据。

BE之间的数据传输，底层也是用grpc。最底层调用

doris::PBackendService_Stub::transmit_block()

关于执行计划（fragments）的分发，是从FE直接向需要执行执行计划的BE发fragments，而不是发给coordinator BE由它转发给其它BE。

笼统的说，FE向BE分发执行计划并执行，大体分两种情况：

1、如果执行计划只有一个fragment，那么FE只向BE发一个RPC（BackendServiceClient::execPlanFragmentAsync()），把执行计划发给BE，BE端根据信息重建ExecNode组成的执行计划树，并且执行。注意，不管哪种情况，fragment信息通过rpc到达BE后，其中plan都有一个reconstruct的过程！

2、如果执行计划中有多个fragment，会分两步，第一步是FE调用BackendServiceClient::execPlanFragmentPrepareAsync()下发fragment，在BE端响应了这个RPC后，会根据fragment信息，重建ExecNode组成的执行计划树，但是不执行，当把所有fragment的执行计划树都重建好了，即prepare完毕。然后FE端再调用BackendServiceClient::execPlanFragmentStartAsync()，让BE上刚才准备好的执行计划开始执行。

上述逻辑FE端的代码在 Coordinator::sendPipelineCtx()

BackendServiceClient::execPlanFragmentPrepareAsync

BackendServiceClient::execPlanFragmentStartAsync

FE这两个函数已经比较底层了，里面就调用最底层的stub。

BE、FE交互的许多类型，定义在doris/gensrc/build/gen_cpp/下生成的文件里。

五、执行计划的执行

FE调用BackendServiceClient::execPlanFragmentPrepareAsync
导致BE调用PInternalServiceImpl::exec_plan_fragment_prepare
在这里面request参数包括所有fragment的信息。
(在我的单机FE+BE各一个环境，是FE一次远程调用，向BE下发所有fragment，
放在PExecPlanFragmentRequest->request里,这是个字符串,需要进行反序列化)
一步一步往下调用，在PInternalServiceImpl::_exec_plan_fragment里，
从FE传来的所有fragment信息，被反序列化到TPipelineFragmentParamsList，
里面每个param是一个fragment信息，每个fragment调用一次fragment_mgr()->exec_plan_fragment()，
进而调用PipelineFragmentContext::prepare(),以ExecNode的子类为节点构造执行计划树
PipelineFragmentContext::prepare->ExecNode::create_tree()。

FE调用BackendServiceClient::execPlanFragmentStartAsync
导致BE调用PInternalServiceImpl::exec_plan_fragment_start
进一步调用FragmentMgr::start_query_execution()（这个函数，整个query只调一次，不是每个fragment调一次）
设置query_id所指的执行计划为可执行状态

在BE的PInternalServiceImpl::_exec_plan_fragment()中，通过RPC 传来的参数TPipelineFragmentParams，代表一个fragment，其中的local_params，每个元素代表这个fragment的instance，每个元素的类型是TPipelineInstanceParams。它们的定义在 gensrc/thrift/PaloInternalService.thrift。

在BE端，谁分配到了最顶层的fragment，谁就是这次查询的Root Fragment。不同BE间，sink和exchange的通讯，是基于brpc（应该是百度内部优化过的rpc），BE代码中相关函数：transmit_block/transmit_data。

sink的底层是VDataStreamSender，内部的_channels数组，是Channel对象或PipChannel对象数组，一个Channel表示发给一个上层的exchange节点的通道，例如，OlapScanNode的VDataStreamSender有6个Channel对象，表示从tablet扫描到的记录，按照hash函数，分发给6个上层的Exchange节点。关于如何根据FE下发的信息创建VDataStreamSender，参考DataSink::create_data_sink()。

Channel底层是RPC调用，使用gRPC（百度版本的RPC？），接口定义在gen_cpp/internal_service.pb.cc/h里定义的PBackendService，在internal_service.proto里定义：

Channel::init()

Channel/PipChannel::add_rows() -- 积累行记录

Channel/PipChannel::send_(local_)block() -- 向另一个fragment发送行记录

在BE上fragment prepare（包括重建，准备好各种数据收发对象）完成后，就开始执行了，新的执行引擎模型称为pipeline，它与火山模型不同的是，不是通过遍历执行计划树来执行的，而是再把每个算子或fragment分成若干个operator，operator之间可以并行执行。PipelineTask是被pipeline系统调用的对象，可以理解为线程。整个pipeline引擎类似于一个线程池，一个BE只有一个pipeline引擎（TaskScheduler对象），和线程池不同的是，pipeline的线程在遇到阻塞时，会放弃任务，然后去执行其它不会阻塞的任务。pipeline引擎的阻塞任务队列有一个，就绪任务队列有好几个，有一个专门线程不断检查阻塞任务队列，将其中不再阻塞的任务（PipelineTask对象），加到其中一个就绪队列中，有好几个线程会从就绪队列里取PipelineTask执行。

在整个BE中，有一个（也只有一个）ExecEnv对象，通过ExecEnv::GetInstance()获得，里面包含了TaskScheduler对象（全局只有一个），这就是流水线的执行对象，TaskScheduler对象里包含了BlockedTaskScheduler对象。BE中还有一些其它模块的线程池，BE中有可能每个模块都有自己的线程池。

六、举个例子

集群结构为一台FE节点，三台BE节点，两个duplicate类型表：

CREATE TABLE IF NOT EXISTS dup1
(
    `user_id` BIGINT NOT NULL AUTO_INCREMENT COMMENT "用户id",
    `date` DATE NOT NULL COMMENT "数据灌入日期时间",
    `city` VARCHAR(20) COMMENT "用户所在城市",
    `age` SMALLINT COMMENT "用户年龄",
    `sex` TINYINT COMMENT "用户性别",
    `cost` BIGINT DEFAULT "0" COMMENT "用户总消费"
)
DUPLICATE KEY (`user_id`)
DISTRIBUTED BY HASH(`user_id`) BUCKETS 16
PROPERTIES (
"replication_allocation" = "tag.location.default: 3"
);

CREATE TABLE IF NOT EXISTS dup2
(
    `user_id` BIGINT NOT NULL AUTO_INCREMENT COMMENT "用户id",
    `date` DATE NOT NULL COMMENT "数据灌入日期时间",
    `city` VARCHAR(20) COMMENT "用户所在城市",
    `age` SMALLINT COMMENT "用户年龄",
    `sex` TINYINT COMMENT "用户性别",
    `cost` BIGINT DEFAULT "0" COMMENT "用户总消费"
)
DUPLICATE KEY (`user_id`)
DISTRIBUTED BY HASH(`user_id`) BUCKETS 16
PROPERTIES (
"replication_allocation" = "tag.location.default: 3"
);

查询SQL：

select count(1) from dup1 join dup2 on dup1.age = dup2.cost;

我们从FE生成逻辑Fragments开始分析，在上面这个环境中，FE为这条查询生成的Fragments（执行计划）如下：

发到BE节点后，根据FE发来的信息，重建执行计划树，但是在BE中没有PlanFragment这种对象，只有FE中的PlanNode，ExchangeNode，SinkNode在BE中有对应的对象创建。

对于这个例子，BE中的执行计划是这样的：

1、有三个BE节点，Fragment0里的算子，会分配到其中一个BE中，且只有这一个BE会有Fragment0，其他的Fragment的数据最终都会汇总到这个BE的Fragment0中，在发给FE。这个BE称为Root BE。

2、Fragment1里的算子，在每个BE上都会创建2个实例（2份），整个BE集群里一共有6个join节点。

3、Fragment2、Fragment3里的算子，在每个BE上都会创建2个实例（2份），整个BE集群里读取dup1的ScanNode有6个，读取dup2的ScanNode有6个。

4、Fragment2、Fragment3里的每个ScanNode，都读取表的不同部分（其ScanRange里的tablet id不同）。

5、表dup1和表dup2，按照shuffle join，做分布式join，即读取dup1、dup2的每个ScanNode都按照相同的hash函数，将读取的记录分发给3个BE里的6个join节点（注意：每个ScanNode可能向所有6个join发记录，而不是只向其中3个join发记录，这6个join每个都是hash函数的全局不同的桶），如果两个表中有可join的行，那么它们一定被分发到同一join节点，这样就把两个大表的join工作分而治之了，每个join节点只管对发给自己的两个表的行做join，结果再发给上一层节点，即AggregateNode。

6、整个集群有6个join，也有6个join上层的AggregateNode，这些AggregateNode做一部工作，再把数据发给Root BE的AggregateNode完成汇总发给FE。

下图是BE中的算子以及数据流，scanNode和exchangeNode的数据流用send to EXCH_X+bucket{...}表示，对于每个scanNode是根据hash函数，把记录分发到全部6个JOIN的exchange节点的，这个分发是跨BE的，scanNode到一个exch节点数据流，对应一个VDataStreamSender的Channel。

参考：

Doris全面解析】Doris SQL 原理解析 (qq.com)

Doris原理分享(2) - 知乎 (zhihu.com)

Pipeline 执行引擎 - Apache Doris

Apache Doris 源码阅读与解析系列直播——第四讲一条SQL的执行过程_哔哩哔哩_bilibili

Doris 源码分析 (五) gRpc 与 thrift 接口 - 简书 (jianshu.com)

Doris 源码分析 (三) 基础语法 - 简书 (jianshu.com)

深度解析：云原生环境下Docker部署Doris数据库 N201871643 云原生 docker 数据库
深度解析：云原生环境下Docker部署Doris数据库目录深度解析：云原生环境下Docker部署Doris数据库引言一、云原生与Docker基础1.云原生概念2.Docker简介二、Doris数据库概述1.Doris数据库特性2.Doris在云原生环境中的应用三、Docker部署Doris数据库1.准备环境2.编写Dockerfile3.使用DockerCompose部署Doris集群4.配置Do
Apache Doris支持的数据类型详解 Bulut0907 #Apache Doris Apache Doris 数据类型 largeint bitmap hyperlogLog
目录1.TINYINT2.SMALLINT3.INT4.BIGINT5.LARGEINT6.FLOAT7.DOUBLE8.DECIMAL9.BOOLEAN10.CHAR11.VARCHAR(M)12.STRING13.DATE14.DATETIME15.BITMAP16.HLL(HyperLogLog)1.TINYINT1字节有符号整数，范围：[-128,127]2.SMALLINT2字节有符号整
兼容 Trino Connector，扩展 Apache Doris 数据源接入能力｜Lakehouse 使用手册 vvvae1234 apache
ApacheDoris内置支持包括Hive、Iceberg、Hudi、Paimon、LakeSoul、JDBC在内的多种Catalog，并为其提供原生高性能且稳定的访问能力，以满足与数据湖的集成需求。而随着ApacheDoris用户的增加，新的数据源连接需求也随之增加。因此，从3.0版本开始，ApacheDoris引入了TrinoConnector兼容框架。Trino/Presto作为业界较早应用
Docker部署Doris数据库天蓝蓝23528 docker 数据库容器
Docker部署Doris数据库是一个涉及多个步骤的过程，包括环境准备、Docker镜像拉取、配置文件创建、容器启动与配置、以及后续的数据库操作等。以下是一个详细的Docker部署Doris数据库的教程，旨在帮助用户成功在Docker环境中部署并运行Doris数据库。一、环境准备在部署Doris之前，需要确保你的系统已经安装了Docker。Docker是一个开源的容器化平台，可以帮助你轻松地部署和
Docker部署Doris数据库 hai40587 docker 数据库容器
Docker部署Doris数据库是一个涉及多个步骤的过程，包括环境准备、Docker镜像拉取、配置文件创建、容器启动与配置、以及后续的数据库操作等。以下是一个详细的Docker部署Doris数据库的教程，旨在帮助用户成功在Docker环境中部署并运行Doris数据库。一、环境准备在部署Doris之前，需要确保你的系统已经安装了Docker。Docker是一个开源的容器化平台，可以帮助你轻松地部署和
实时数仓之实时数仓架构(Hudi)(1) 2401_84164527 程序员架构
目前比较流行的实时数仓架构有两类，其中一类是以Flink+Doris为核心的实时数仓架构方案；另一类是以湖仓一体架构为核心的实时数仓架构方案。本文针对Flink+Hudi湖仓一体架构进行介绍，这套架构的特点是可以基于一套数据完全实现Lambda架构。实时数仓架构图如下：技术框架Kafka：用于接入数据源；FlinkCDC：如果直接接入业务数据源可以考虑CDC方式，如果通过Kafka缓冲接入业务数据
2024年大数据最新实时数仓之实时数仓架构(Hudi) 2401_84185556 程序员大数据架构
技术框架Kafka：用于接入数据源；FlinkCDC：如果直接接入业务数据源可以考虑CDC方式，如果通过Kafka缓冲接入业务数据可以忽略;Flink：用于数据ETL，包括接入数据、处理数据及输出数据全链路数据计算任务；Spark：用于数据ETL，包括处理数据及输出数据全链路数据计算任务；Hudi：湖仓一体数据管理框架，用来管理模型数据，包括ODS/DWD/DWS/DIM/ADS等；Doris：O
实时数仓之实时数仓架构(Hudi)(1)，2024年最新熬夜整理华为最新大数据开发笔试题 2401_84181221 程序员架构大数据
+Hudi：湖仓一体数据管理框架，用来管理模型数据，包括ODS/DWD/DWS/DIM/ADS等；+Doris：OLAP引擎，同步数仓结果模型，对外提供数据服务支持；+Hbase：用来存储维表信息，维表数据来源一部分有Flink加工实时写入，另一部分是从Spark任务生产，其主要作用用来支持FlinkETL处理过程中的LookupJoin功能。这里选用Hbase原因主要因为Table的HbaseC
【面试系列】Doris 高频面试题解答野老杂谈全网最全IT公司面试宝典面试职场和发展 Doris 大数据数据库
欢迎来到我的博客，很高兴能够在这里和您见面！欢迎订阅相关专栏：⭐️全网最全IT互联网公司面试宝典：收集整理全网各大IT互联网公司技术、项目、HR面试真题.⭐️AIGC时代的创新与未来：详细讲解AIGC的概念、核心技术、应用领域等内容。⭐️大数据平台建设指南：全面讲解从数据采集到数据可视化的整个过程，掌握构建现代化数据平台的核心技术和方法。⭐️《遇见Python：初识、了解与热恋》：涵盖了Pytho
DORIS - 执行 git submodule update --init --recursive 的目的是什么？ cloneme01 DORIS相关 GIT操作相关 git DORIS
前言以前，我们学习源码的时候只需要执行克隆命令即可，如下：gitclonehttps://github.com/rocky/doris.git当我学习DORIS的时候，发现执行完上面的命令后，还需要执行如下命令:gitsubmoduleupdate--init--recursive所以，进行记录...场景某个项目/模块可能会依赖于其他模块或第三方库，项目本身的代码是一个独立的完整的代码仓库，并且不
Apache Doris 2.0-beta 版本发布：盲测性能 10 倍提升，更统一的多场景极速分析体验 SelectDB技术团队
亲爱的社区小伙伴们，我们很高兴地向大家宣布，ApacheDoris2.0-beta版本已于2023年7月3日正式发布！在2.0-beta版本中有超过255位贡献者为ApacheDoris提交了超过3500个优化与修复，欢迎大家下载使用！下载链接：https://doris.apache.org/downloadGitHub源码：https://github.com/apache/doris/tre
doris跨hdfs集群迁移数据州周 hdfs hadoop 大数据
官网-数据备份步骤一，在dorisA集群执行：CREATEREPOSITORY`repotestall`WITHBROKER`broker_name`ONLOCATION"hdfs://xx.xx.xx.xx:9000/repotestall"PROPERTIES("username"="user","password"="password");步骤二：BACKUPSNAPSHOTtest.sna
钱大妈生鲜如何利用 CCR 实现 Apache Doris 集群读写分离 ApacheDoris 开源数据库大数据 big data 数据分析
钱大妈是社区生鲜连锁品牌的开拓者，经过十一年的稳健运营，已成为行业内的领军品牌，截至2023年7月已全国布局超30多座城市，门店总数3000余家，服务家庭超1000万。近年来，随着业务的高速发展以及门店的快速扩张，钱大妈需要对生鲜产品的采购、销售、库存等数据进行实时监控和分析，以保障食品的新鲜度及品质。同时需要管理众多门店与供应链信息，以了解各区域销售趋势和顾客偏好，从而优化商品结构和库存管理。在
Apache Doris + Iceberg 快速搭建指南｜Lakehouse 使用手册（三） SelectDB技术团队 iceberg doris lakehouse 湖仓一体数据库
湖仓一体（DataLakehouse）融合了数据仓库的高性能、实时性以及数据湖的低成本、灵活性等优势，能够更加便捷地满足各种数据处理分析的需求。ApacheDoris持续加深与数据湖的融合，已演进出一套成熟的湖仓一体解决方案。我们将通过一系列文章介绍ApacheDoris与各类主流数据湖格式及存储系统的湖仓一体架构搭建指南，包括Hudi、Paimon、Iceberg、OSS、DeltaLake、K
Doris 夺命 30 连问！(下) atbigapp.com 大数据 Doris MPP 大数据即席分析
导言30问最后一篇了，希望这30问能解答大家在使用ApacheDoris或者选择ApacheDoris的时候产生的各种疑虑。Q&A1.Doris如何处理和识别NULL和空，在导入和导出数据时在Doris内，是通过null值与""值来区分的，一个在CSV中是类似\N这样的值，一个是无数据的，一个是空字符串，这两个值在存储到Doris中以后是不一样的，空字符串无法通过isnull或者isnotnull
Apache Doris 2.0.5 版本正式发布
亲爱的社区小伙伴们，ApacheDoris2.0.5版本已于2024年2月27日正式与大家见面。这次更新带来一系列行为变更和功能更新，并进行了若干的改进与优化，旨在为用户提供更为稳定高效的数据查询与分析体验。新版本已经上线，欢迎大家下载体验！行为变更selectchar(0)='\0'返回true，跟MySQL的行为保持一致Export导出数据支持空表新增功能利用过滤条件中的isnull谓词，将O
Doris ——SQL原理解析爱吃辣条byte #Doris sql 数据库
目录前言一、Doris简介二、SQL解析简介2.1词法分析2.2语法分析2.3逻辑计划2.4物理计划三、DorisSQL解析的总体架构四、Parse阶段五、Analyze阶段六、SinglePlan阶段（生成单机逻辑Plan阶段）七、DistributedPlan计划（生成分布式逻辑阶段）7.1DistributedPlan概述7.2四种join算法：7.2.1BroadcastJoin7.2.2
第3.2章：Doris-2.0数据导入——Compaction机制爱吃辣条byte #Doris sql 数据库
目录一、Compaction概述1.1LSM-Tree概述1.2Compaction概述1.3Rowset数据版本1.4Compaction优点1.5Compaction问题1.5.1Compaction速度低1.5.2写放大问题1.6Compaction调优1.6.1业务侧1.6.2运维侧二、Compaction执行方式2.1VerticalCompaction2.1.1概述2.1.2原理2.2
第3.2章：Doris数据导入——Compaction机制（1）爱吃辣条byte #Doris sql 数据库
目录一、Compaction机制1.1compaction概述1.2compaction优点1.3compaction类型二、Compaction的问题2.1compaction速度低于数据写入速度2.2写放大问题三、数据版本的产生四、base&cumulativecompaction注：本篇文章阐述的是Doris1.2.2版本之前的compaction机制一、Compaction机制1.1com
Apache Doris 聚合函数源码阅读与解析｜源码解读系列
笔者最近由于工作需要开始调研ApacheDoris，通过阅读聚合函数代码切入ApacheDoris内核，同时也秉承着开源的精神，开发了array_agg函数并贡献给社区。笔者通过这篇文章记录下对源码的一些理解，同时也方便后面的新人更快速地上手源码开发。聚合函数，顾名思义，即对一组数据执行聚合计算并返回结果的函数，在统计分析过程中属于最常见的函数之一，最典型的聚合函数包括count、min、max、
Doris存储层设计介绍1——存储结构设计解析（索引底层结构）爱吃辣条byte #Doris 大数据数据库 sql
目录一、概述1.1存储结构的整体介绍1.2存储结构的设计目标二、存储文件格式2.1存储目录结构编辑2.2Segmentv2文件结构三、Footer信息3.1列的meta信息3.2列索引的meta信息四、前缀索引（ShortKeyIndex）4.1功能介绍4.2索引生成4.3索引的底层存储结构4.3.1Segmentfooter4.3.2ShortKeyPage4.4查询过滤4.5应用案例五、Ord
[Doris] Doris的安装和部署 (二) 959y Doris OLAP doris olap bigdata
文章目录1.安装要求1.1Linux操作系统要求1.2软件需求1.3注意事项1.4内部端口2.集群部署2.1操作系统安装要求2.2下载安装包2.3解压2.4配置FE2.5配置BE2.6添加BE2.7FE扩容和缩容2.8Doris集群群起脚本3.图形化1.安装要求1.1Linux操作系统要求1.2软件需求1.3注意事项所有部署节点关闭Swap。Follower的数量必须为奇数，Observer数量随
数据仓库内容分享(十七)：Doris实践分享:它做了哪些架构优化和场景优化？之乎者也· 数据仓库内容分享架构设计内容分享数据仓库架构
ApacheDoris是一款开源的实时数据仓库，由百度旗下的技术团队开发。它具有高性能、高可靠性、易扩展等特点，能够满足大规模数据实时查询和分析的需求。目前，ApacheDoris已经成为国内外众多企业的首选数据仓库解决方案，包括阿里巴巴、美团、京东、滴滴等知名企业。作为被众多大型互联网企业广泛采用的实时数据仓库，Doris拥有一些核心优势和独特的特点。我们从它的架构设计和使用场景来看一下这些优势
当我们一起走过 2023｜Apache Doris 年度时刻盘点
2024年的第一个月已经彻底过去，2023年的回顾总结才姗姗来迟。在过去一年的大多数时间里，我们一直处于忙碌的状态中，紧锣密鼓的代码研发、高速推进的版本迭代、行程紧密的全国之行，众多社区用户与开发者皆是见证。越是忙碌，在年末的这场回顾就越难能可贵。在2024年开端，我们挑选出了一些有意义的片刻，期待跟每一个社区用户和开发者一同看看过去一年所共同经历的种种。正是因为每一个您都是见证者和参与者，所以把
doris数据库介绍坎坷终究平坦数据库 sql
目录1、简介2、特点3、doris架构4、doris数据表设计-分区与分桶5、doris的数据模型1、简介ApacheDoris是一个分布式在线分析处理（OLAP）数据库，它的特点是基于列存储的MPP架构，支持快速的交互式查询和高并发的随机写入。2、特点https://www.cnblogs.com/liujichang/p/17384083.html基于列式存储行式存储下一张表的数据都是放在一起
flinkcdc 3.0 源码学习之任务提交脚本flink-cdc.sh Antgeek flinkcdc flink flinkcdc 源码
大道至简,用简单的话来描述复杂的事,我是Antgeek,欢迎阅读.在flink3.0版本中,我们仅通过一个简单yaml文件就可以配置出一个复杂的数据同步任务,然后再来一句bashbin/flink-cdc.shmysql-to-doris.yaml就可以将任务提交,本文就是来探索一下这个shell脚本,主要是研究如何通过一个shell命令+yaml文件将任务提交,其他的功能会在之后的文章中解读大数
（C++）对象指针——小白Doris的课堂笔记 Doris-510 c++开发语言
1.对象指针声明形式：类名*对象指针名；例如：PointA(2,3);Point*ptr;ptr=&A;通过指针访问对象成员：对象指针名-->成员名ptr-->getX();or(*ptr).getX();2.this指针定义：隐含于每一个类的成员函数中的特殊指针。功能：明确地指出了成员函数当前所操作的数据所属的对象。使用：当通过一个对象调用成员函数时，系统先将该对象的地址赋给this指针，然后调
史上最全OLAP对比只会写demo的程序猿数仓 spark hadoop 数据仓库
目录1.什么是OLAP2.OLAP引擎的常见操作3.OLAP分类MOLAP的优点和缺点ROLAP的优点和缺点4.并发能力与查询延迟对比5.执行模型对比5.OLAP引擎的主要特点5.2SparkSQL、FlinkSQL5.3Clickhouse5.4Elasticsearch5.5Presto5.6Impala5.7Doris5.8Druid5.9Kylin综上所述:1.什么是OLAPOLAP（On
【遇见Doris】Doris on ES在快手商业化的最佳实践 ApacheDoris 数据仓库大数据分布式数据库 java
贺祥快手商业化团队数据架构高级工程师主要负责商业化报表引擎快手商业化报表引擎为外部广告主提供广告投放效果的实时多维分析报表在线查询服务，以及为商业化内部各系统提供多维分析报表查询服务。致力于解决多维分析报表场景的高性能、高并发、高稳定的查询问题。1业务场景介绍1.1服务介绍本文主要侧重介绍DorisonES（DOE）在我们业务场景的实践，所以我们的数据架构在这里只做简单介绍，如上如图所示。总体来说
【Doris】Doris on ES在快手商业化的最佳实践九层之台起于累土【Doris】【BigData】elasticsearch 大数据 kafka 数据库
快手商业化报表引擎为外部广告主提供广告投放效果的实时多维分析报表在线查询服务，以及为商业化内部各系统提供多维分析报表查询服务。致力于解决多维分析报表场景的高性能、高并发、高稳定的查询问题。1业务场景介绍1.1服务介绍本文主要侧重介绍DorisonES（DOE）在我们业务场景的实践，所以我们的数据架构在这里只做简单介绍，如上如图所示。总体来说数据分为实时+离线两块事实数据写入，外加mysqlbinl
html 周华华 html
js 1，数组的排列 var arr=[1,4,234,43,52,]; for(var x=0;x<arr.length;x++){ for(var y=x-1;y<arr.length;y++){ if(arr[x]<arr[y]){ &
【Struts2 四】Struts2拦截器 bit1129 struts2拦截器
Struts2框架是基于拦截器实现的，可以对某个Action进行拦截，然后某些逻辑处理，拦截器相当于AOP里面的环绕通知，即在Action方法的执行之前和之后根据需要添加相应的逻辑。事实上，即使struts.xml没有任何关于拦截器的配置，Struts2也会为我们添加一组默认的拦截器，最常见的是，请求参数自动绑定到Action对应的字段上。 Struts2中自定义拦截器的步骤是：
make:cc 命令未找到解决方法 daizj linux 命令未知 make cc
安装rz sz程序时，报下面错误： [root@slave2 src]# make posix cc -O -DPOSIX -DMD=2 rz.c -o rz make: cc：命令未找到 make: *** [posix] 错误 127 系统：centos 6.6 环境：虚拟机错误原因：系统未安装gcc，这个是由于在安
Oracle之Job应用周凡杨 oracle job
最近写服务，服务上线后，需要写一个定时执行的SQL脚本，清理并更新数据库表里的数据，应用到了Oracle 的 Job的相关知识。在此总结一下。一：查看相关job信息 1、相关视图 dba_jobs all_jobs user_jobs dba_jobs_running 包含正在运行
多线程机制朱辉辉33 多线程
转至http://blog.csdn.net/lj70024/archive/2010/04/06/5455790.aspx 程序、进程和线程：程序是一段静态的代码，它是应用程序执行的蓝本。进程是程序的一次动态执行过程，它对应了从代码加载、执行至执行完毕的一个完整过程，这个过程也是进程本身从产生、发展至消亡的过程。线程是比进程更小的单位，一个进程执行过程中可以产生多个线程，每个线程有自身的
web报表工具FineReport使用中遇到的常见报错及解决办法（一）老A不折腾 web报表 finereport java报表报表工具
FineReport使用中遇到的常见报错及解决办法（一）这里写点抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、address pool is full：含义：地址池满，连接数超过并发数上
mysql rpm安装后没有my.cnf 林鹤霄没有my.cnf
Linux下用rpm包安装的MySQL是不会安装/etc/my.cnf文件的，至于为什么没有这个文件而MySQL却也能正常启动和作用，在这儿有两个说法，第一种说法，my.cnf只是MySQL启动时的一个参数文件，可以没有它，这时MySQL会用内置的默认参数启动，第二种说法，MySQL在启动时自动使用/usr/share/mysql目录下的my-medium.cnf文件，这种说法仅限于r
Kindle Fire HDX root并安装谷歌服务框架之后仍无法登陆谷歌账号的问题 aigo root
原文：http://kindlefireforkid.com/how-to-setup-a-google-account-on-amazon-fire-tablet/ Step 4: Run ADB command from your PC On the PC, you need install Amazon Fire ADB driver and instal
javascript 中var提升的典型实例 alxw4616 JavaScript
// 刚刚在书上看到的一个小问题,很有意思.大家一起思考下吧 myname = 'global'; var fn = function () { console.log(myname); // undefined var myname = 'local'; console.log(myname); // local }; fn() // 上述代码实际上等同于以下代码 m
定时器和获取时间的使用百合不是茶时间的转换定时器
定时器:定时创建任务在游戏设计的时候用的比较多 Timer();定时器 TImerTask();Timer的子类由 Timer 安排为一次执行或重复执行的任务。定时器类Timer在java.util包中。使用时，先实例化，然后使用实例的schedule(TimerTask task, long delay)方法，设定
JDK1.5 Queue bijian1013 java thread java多线程 Queue
JDK1.5 Queue LinkedList： LinkedList不是同步的。如果多个线程同时访问列表，而其中至少一个线程从结构上修改了该列表，则它必须保持外部同步。（结构修改指添加或删除一个或多个元素的任何操作；仅设置元素的值不是结构修改。）这一般通过对自然封装该列表的对象进行同步操作来完成。如果不存在这样的对象，则应该使用 Collections.synchronizedList 方
http认证原理和https bijian1013 http https
一.基础介绍在URL前加https://前缀表明是用SSL加密的。你的电脑与服务器之间收发的信息传输将更加安全。 Web服务器启用SSL需要获得一个服务器证书并将该证书与要使用SSL的服务器绑定。 http和https使用的是完全不同的连接方式，用的端口也不一样,前者是80，后
【Java范型五】范型继承 bit1129 java
定义如下一个抽象的范型类，其中定义了两个范型参数，T1，T2 package com.tom.lang.generics; public abstract class SuperGenerics<T1, T2> { private T1 t1; private T2 t2; public abstract void doIt(T
【Nginx六】nginx.conf常用指令(Directive) bit1129 Directive
1. worker_processes 8; 表示Nginx将启动8个工作者进程，通过ps -ef|grep nginx,会发现有8个Nginx Worker Process在运行 nobody 53879 118449 0 Apr22 ? 00:26:15 nginx: worker process
lua 遍历Header头部 ronin47 lua header 遍历　
local headers = ngx.req.get_headers() ngx.say("headers begin", "<br/>") ngx.say("Host : ", he
java-32.通过交换a,b中的元素，使[序列a元素的和]与[序列b元素的和]之间的差最小(两数组的差最小)。 bylijinnan java
import java.util.Arrays; public class MinSumASumB { /** * Q32.有两个序列a,b，大小都为n,序列元素的值任意整数，无序. * * 要求：通过交换a,b中的元素，使[序列a元素的和]与[序列b元素的和]之间的差最小。 * 例如: * int[] a = {100,99,98,1,2,3
redis 开窍的石头 redis
在redis的redis.conf配置文件中找到# requirepass foobared 把它替换成requirepass 12356789 后边的12356789就是你的密码打开redis客户端输入config get requirepass 返回 redis 127.0.0.1:6379> config get requirepass 1) "require
[JAVA图像与图形]现有的GPU架构支持JAVA语言吗？ comsci java语言
无论是opengl还是cuda，都是建立在C语言体系架构基础上的，在未来，图像图形处理业务快速发展，相关领域市场不断扩大的情况下，我们JAVA语言系统怎么从这么庞大，且还在不断扩大的市场上分到一块蛋糕，是值得每个JAVAER认真思考和行动的事情
安装ubuntu14.04登录后花屏了怎么办 cuiyadll ubuntu
这个情况，一般属于显卡驱动问题。可以先尝试安装显卡的官方闭源驱动。按键盘三个键：CTRL + ALT + F1 进入终端，输入用户名和密码登录终端：安装amd的显卡驱动 sudo apt-get install fglrx 安装nvidia显卡驱动 sudo ap
SSL 与数字证书的基本概念和工作原理 darrenzhu 加密 ssl 证书密钥签名
SSL 与数字证书的基本概念和工作原理 http://www.linuxde.net/2012/03/8301.html SSL握手协议的目的是或最终结果是让客户端和服务器拥有一个共同的密钥，握手协议本身是基于非对称加密机制的，之后就使用共同的密钥基于对称加密机制进行信息交换。 http://www.ibm.com/developerworks/cn/webspher
Ubuntu设置ip的步骤 dcj3sjt126com ubuntu
在单位的一台机器完全装了Ubuntu Server，但回家只能在XP上VM一个，装的时候网卡是DHCP的，用ifconfig查了一下ip是192.168.92.128,可以ping通。转载不是错： Ubuntu命令行修改网络配置方法 /etc/network/interfaces打开后里面可设置DHCP或手动设置静态ip。前面auto eth0，让网卡开机自动挂载. 1. 以D
php包管理工具推荐 dcj3sjt126com PHP Composer
http://www.phpcomposer.com/ Composer是 PHP 用来管理依赖（dependency）关系的工具。你可以在自己的项目中声明所依赖的外部工具库（libraries），Composer 会帮你安装这些依赖的库文件。中文文档入门指南下载安装包列表 Composer 中国镜像
Gson使用四（TypeAdapter） eksliang json gson Gson自定义转换器 gsonTypeAdapter
转载请出自出处：http://eksliang.iteye.com/blog/2175595 一.概述 Gson的TypeAapter可以理解成自定义序列化和返序列化二、应用场景举例例如我们通常去注册时（那些外国网站），会让我们输入firstName，lastName,但是转到我们都
JQM控件之Navbar和Tabs gundumw100 html xml css
在JQM中使用导航栏Navbar是简单的。只需要将data-role="navbar"赋给div即可： <div data-role="navbar"> <ul> <li><a href="#" class="ui-btn-active&qu
利用归并排序算法对大文件进行排序 iwindyforest java 归并排序大文件分治法 Merge sort
归并排序算法介绍，请参照Wikipeida zh.wikipedia.org/wiki/%E5%BD%92%E5%B9%B6%E6%8E%92%E5%BA%8F 基本思想：大文件分割成行数相等的两个子文件，递归（归并排序）两个子文件，直到递归到分割成的子文件低于限制行数低于限制行数的子文件直接排序两个排序好的子文件归并到父文件直到最后所有排序好的父文件归并到输入
iOS UIWebView URL拦截啸笑天 UIWebView
本文译者：candeladiao，原文：URL filtering for UIWebView on the iPhone说明：译者在做app开发时，因为页面的javascript文件比较大导致加载速度很慢，所以想把javascript文件打包在app里，当UIWebView需要加载该脚本时就从app本地读取，但UIWebView并不支持加载本地资源。最后从下文中找到了解决方法，第一次翻译，难免有
索引的碎片整理SQL语句 macroli sql
SET NOCOUNT ON DECLARE @tablename VARCHAR (128) DECLARE @execstr VARCHAR (255) DECLARE @objectid INT DECLARE @indexid INT DECLARE @frag DECIMAL DECLARE @maxfrag DECIMAL --设置最大允许的碎片数量,超过则对索引进行碎片
Angularjs同步操作http请求with $promise qiaolevip 每天进步一点点学习永无止境 AngularJS 纵观千象
// Define a factory app.factory('profilePromise', ['$q', 'AccountService', function($q, AccountService) { var deferred = $q.defer(); AccountService.getProfile().then(function(res) {
hibernate联合查询问题 sxj19881213 sql Hibernate HQL 联合查询
最近在用hibernate做项目，遇到了联合查询的问题，以及联合查询中的N+1问题。针对无外键关联的联合查询，我做了HQL和SQL的实验，希望能帮助到大家。（我使用的版本是hibernate3.3.2） 1 几个常识：（1）hql中的几种join查询，只有在外键关联、并且作了相应配置时才能使用。（2）hql的默认查询策略，在进行联合查询时，会产
struts2.xml wuai struts
<?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configuration 2.3//EN" "http://struts.apache

Doris的执行计划生成、分发与执行

一、概述

三、执行计划的生成

四、执行计划的分发

五、执行计划的执行

六、举个例子

你可能感兴趣的:(Doris,doris)