数仓大山哥

Apache Kylin VS Apache Doris全方位对比

原文链接：https://cloud.tencent.com/developer/article/1477234

1 系统架构
- 1.1 What is Kylin
- 1.2 What is Doris
2 数据模型
- 2.1 Kylin的聚合模型
- 2.2 Doris的聚合模型
- 2.3 Kylin Cuboid VS Doris RollUp
- 2.4 Doris的明细模型
3 存储引擎
4 数据导入
5 查询
6 精确去重
7 元数据
8 高性能
9 高可用
10 可维护性
- 10.1 部署
- 10.2 运维
- 10.3 客服
11 易用性
- 11.1 查询接入
- 11.2 学习成本
- 11.3 Schema Change
12 功能
13 社区和生态
14 总结
15 参考资料

本文作者：康凯森，来源于：https://blog.bcmeng.com，文章写的非常详细，从各个方面对Kylin和Doris进行了对比。

Apache Kylin 和 Apache Doris 都是优秀的开源OLAP系统，本文将全方位地对比Kylin和Doris。Kylin和Doris分别是MOALP和ROLAP的代表，对比这两个系统的目的不是为了说明哪个系统更好，只是为了明确每个系统的设计思想和架构原理，让大家可以根据自己的实际需求去选择合适的系统，也可以进一步去思考我们如何去设计出更优秀的OLAP系统。

本文对Apache Kylin的理解基于近两年来在生产环境大规模地使用，运维和深度开发，我已向Kylin社区贡献了98次Commit，包含多项新功能和深度优化。

本文对Apache Doris的理解基于官方文档和论文的阅读，代码的粗浅阅读和较深入地测试。

注：本文的对比基于Apache Kylin 2.0.0 和Apache Doris 0.9.0。

1 系统架构

1.1 What is Kylin

Kylin的核心思想是预计算，利用空间换时间来加速查询模式固定的OLAP查询。

Kylin的理论基础是Cube理论，每一种维度组合称之为Cuboid，所有Cuboid的集合是Cube。其中由所有维度组成的Cuboid称为Base Cuboid，图中(A,B,C,D)即为Base Cuboid，所有的Cuboid都可以基于Base Cuboid计算出来。在查询时，Kylin会自动选择满足条件的最“小”Cuboid，比如下面的SQL就会对应Cuboid（A,B）:

select xx from table where A=xx group by B

下图是Kylin数据流转的示意图，Kylin自身的组件只有两个：JobServer和QueryServer。Kylin的JobServer主要负责将数据源（Hive,Kafka）的数据通过计算引擎（MapReduce，Spark）生成Cube存储到存储引擎（HBase）中；QueryServer主要负责SQL的解析，逻辑计划的生成和优化，向HBase的多个Region发起请求，并对多个Region的结果进行汇总，生成最终的结果集。

下图是Kylin可插拔的架构图, 在架构设计上，Kylin的数据源，构建Cube的计算引擎，存储引擎都是可插拔的。Kylin的核心就是这套可插拔架构，Cube数据模型和Cuboid的算法。

1.2 What is Doris

Doris是一个MPP的OLAP系统，主要整合了Google Mesa（数据模型），Apache Impala（MPP Query Engine)和Apache ORCFile (存储格式，编码和压缩) 的技术。

Doris的系统架构如下，Doris主要分为FE和BE两个组件，FE主要负责查询的编译，分发和元数据管理（基于内存，类似HDFS NN）；BE主要负责查询的执行和存储系统。

2 数据模型

2.1 Kylin的聚合模型

Kylin将表中的列分为维度列和指标列。在数据导入和查询时相同维度列中的指标会按照对应的聚合函数(Sum, Count, Min, Max, 精确去重，近似去重，百分位数，TOPN)进行聚合。

在存储到HBase时，Cuboid+维度会作为HBase的Rowkey, 指标会作为HBase的Value，一般所有指标会在HBase的一个列族，每列对应一个指标，但对于较大的去重指标会单独拆分到第2个列族。

2.2 Doris的聚合模型

Doris的聚合模型借鉴自Mesa，但本质上和Kylin的聚合模型一样，只不过Doris中将维度称作Key，指标称作Value。

Doris中比较独特的聚合函数是Replace函数，这个聚合函数能够保证相同Keys的记录只保留最新的Value，可以借助这个Replace函数来实现点更新。一般OLAP系统的数据都是只支持Append的，但是像电商中交易的退款，广告点击中的无效点击处理，都需要去更新之前写入的单条数据，在Kylin这种没有Relpace函数的系统中我们必须把包含对应更新记录的整个Segment数据全部重刷，但是有了Relpace函数，我们只需要再追加1条新的记录即可。但是Doris中的Repalce函数有个缺点：无法支持预聚合，就是说只要你的SQL中包含了Repalce函数，即使有其他可以已经预聚合的Sum，Max指标，也必须现场计算。

为什么Doirs可以支持点更新呢？

Kylin中的Segment是不可变的，也就是说HFile一旦生成，就不再发生任何变化。但是Doirs中的Segment文件和HBase一样，是可以进行Compaction的，具体可以参考Google Mesa 论文解读中的Mesa数据版本化管理。

Doris的聚合模型相比Kylin有个缺点：就是一个Column只能有一个预聚合函数，无法设置多个预聚合函数。不过Doris可以现场计算出其他的聚合函数。 Apache Doris的开发者Review时提到，针对这个问题，Doris还有一种解法：由于Doris支持多表导入的原子更新，所以1个Column需要多个聚合函数时，可以在Doris中建多张表，同一份数据导入时，Doris可以同时原子更新多张Doris表，缺点是多张Doris表的查询路由需要应用层来完成。

Doris中和Kylin的Cuboid等价的概念是RollUp表，Cuboid和RollUp表都可以认为是一种Materialized Views或者Index。Doris的RollUp表和Kylin的Cuboid一样，在查询时不需要显示指定，系统内部会根据查询条件进行路由。如下图所示：

Doris中RollUp表的路由规则如下：

选择包含所有查询列的RollUp表
按照过滤和排序的Column筛选最符合的RollUp表
按照Join的Column筛选最符合的RollUp表
行数最小的
列数最小的

2.3 Kylin Cuboid VS Doris RollUp

2.4 Doris的明细模型

由于Doris的聚合模型存在下面的缺陷，Doris引入了明细模型。

必须区分维度列和指标列
维度列很多时，Sort的成本很高
Count成本很高，需要读取所有维度列（可以参考Kylin的解决方法进行优化）

Doris的明细模型不会有任何预聚合，不区分维度列和指标列，但是在建表时需要指定Sort Columns，数据导入时会根据Sort Columns进行排序，查询时根据Sort Column过滤会比较高效。

如下图所示，Sort Columns是Year和City。

这里需要注意一点，Doris中一张表只能有一种数据模型，即要么是聚合模型，要么是明细模型，而且Roll Up表的数据模型必须和Base表一致，也就是说明细模型的Base 表不能有聚合模型的Roll Up表。

3 存储引擎

Kylin存储引擎HBase：

如上图所示，在Kylin中1个Cube可以按照时间拆分为多个Segment,Segment是Kylin中数据导入和刷新的最小单位。Kylin中1个Segment对应HBase中一张Table。HBase中的Table会按照Range分区拆分为多个Region,每个Region会按照大小拆分为多个HFile。

关于HFile的原理网上讲述的文章已经很多了，我这里简单介绍下。首先HFile整体上可以分为元信息，Blcoks，Index3部分，Blcoks和Index都可以分为Data和Meta两部分。Block是数据读取的最小单位，Block有多个Key-Value组成，一个Key-Value代表HBase中的一行记录，Key-Value由Kylin-Len，Value-Len，Key-Bytes,Value-Bytes 4部分组成。更详细的信息大家可以参考下图(下图来源于互联网，具体出处不详）：

Doris存储引擎：

如上图所示，Doris的Table支持二级分区，可以先按照日期列进行一级分区，再按照指定列Hash分桶。具体来说，1个Table可以按照日期列分为多个Partition，每个Partition可以包含多个Tablet，Tablet是数据移动、复制等操作的最小物理存储单元，各个Tablet之间的数据没有交集，并且在物理上独立存储。Partition 可以视为逻辑上最小的管理单元，数据的导入与删除，仅能针对一个 Partition进行。1个Table中Tablet的数量= Partition num * Bucket num。Tablet会按照一定大小（256M）拆分为多个Segment文件，Segment是列存的，但是会按行（1024）拆分为多个Rowblock。

下面我们来看下Doris Segment文件的具体格式，Doris文件格式主要参考了Apache ORC。如上图所示，Doris文件主要由Meta和Data两部分组成，Meta主要包括文件本身的Header，Segment Meta，Column Meta，和每个Column 数据流的元数据，每部分的具体内容大家看图即可，比较详细。Data部分主要包含每一列的Index和Data，这里的Index指每一列的Min,Max值和数据流Stream的Position；Data就是每一列具体的数据内容，Data根据不同的数据类型会用不同的Stream来存储，Present Stream代表每个Value是否是Null，Data Stream代表二进制数据流，Length Stream代表非定长数据类型的长度。下图是String使用字典编码和直接存储的Stream例子。

下面我们来看下Doris的前缀索引：

本质上，Doris 的数据存储是类似 SSTable（Sorted String Table）的数据结构。该结构是一种有序的数据结构，可以按照指定的列有序存储。在这种数据结构上，以排序列作为条件进行查找，会非常的高效。而前缀索引，即在排序的基础上，实现的一种根据给定前缀列，快速查询数据的索引方式。前缀索引文件的格式如上图所示，索引的Key是每个Rowblock第一行记录的Sort Key的前36个字节，Value是Rowblock在Segment文件的偏移量。

有了前缀索引后，我们查询特定Key的过程就是两次二分查找：

先加载Index文件，二分查找Index文件获取包含特定Key的Row blocks的Offest,然后从Sement Files中获取指定的Rowblock；
在Rowblocks中二分查找特定的Key

4 数据导入

Kylin数据导入：

如上图，Kylin数据导入主要分为建Hive大宽表(这一步会处理Join)；维度列构建字典；逐层构建Cuboid；Cuboid转为HFile；Load HFile To HBase; 元数据更新这几步。

其中Redistribute大宽表这一步的作用是为了将整个表的数据搞均匀，避免后续的步骤中有数据倾斜，Kylin有配置可以跳过这一步。

其中Extract Distinct Columns这一步的作用是获取需要构建字典的维度列的Distinct值。假如一个ID维度列有1，2，1，2，2，1，1，2这8行，那么经过这一步后ID列的值就只有1，2两行，做这一步是为了下一步对维度列构建字典时更快速。

其他几个步骤都比较好理解，我就不再赘述。更详细的信息可以参考 Apache Kylin Cube 构建原理

Doris数据导入：

Doris 数据导入的两个核心阶段是ETL和LOADING, ETL阶段主要完成以下工作：

数据类型和格式的校验
根据Teblet拆分数据
按照Key列进行排序, 对Value进行聚合

LOADING阶段主要完成以下工作：

每个Tablet对应的BE拉取排序好的数据
进行数据的格式转换，生成索引

LOADING完成后会进行元数据的更新。

5 查询

Kylin查询：

如上图，整个Kylin的查询过程比较简单，是个Scatter-Gather的模型。图中圆形框的内容发生在Kylin QueryServer端，方形框的内容发生在HBase端。Kylin QueryServer端收到SQL后，会先进行SQL的解析，然后生成和优化Plan，再根据Plan生成和编译代码，之后会根据Plan生成HBase的Scan请求，如果可能，HBase端除了Scan之外，还会进行过滤和聚合（基于HBase的Coprocessor实现），Kylin会将HBase端返回的结果进行合并，交给Calcite之前生成好的代码进行计算。

Doris查询：

Doris的查询引擎使用的是Impala，是MPP架构。Doris的FE 主要负责SQL的解析，语法分析，查询计划的生成和优化。查询计划的生成主要分为两步：

生成单节点查询计划（上图左下角）
将单节点的查询计划分布式化，生成PlanFragment（上图右半部分）

第一步主要包括Plan Tree的生成，谓词下推， Table Partitions pruning，Column projections，Cost-based优化等；第二步将单节点的查询计划分布式化，分布式化的目标是最小化数据移动和最大化本地Scan，分布式化的方法是增加ExchangeNode，执行计划树会以ExchangeNode为边界拆分为PlanFragment，1个PlanFragment封装了在一台机器上对同一数据集的部分PlanTree。如上图所示：各个Fragment的数据流转和最终的结果发送依赖：DataSink。

当FE生成好查询计划树后，BE对应的各种Plan Node（Scan, Join, Union, Aggregation, Sort等）执行自己负责的操作即可。

6 精确去重

Kylin的精确去重：

Kylin的精确去重是基于全局字典和RoaringBitmap实现的基于预计算的精确去重。

Doris的精确去重：

Doris的精确去重是现场精确去重，Doris计算精确去重时会拆分为两步：

按照所有的group by 字段和精确去重的字段进行聚合
按照所有的group by 字段进行聚合

SELECT a, COUNT(DISTINCT b, c), MIN(d), COUNT(*) FROM T GROUP BY a
* - 1st phase grouping exprs: a, b, c
* - 1st phase agg exprs: MIN(d), COUNT(*)
* - 2nd phase grouping exprs: a
* - 2nd phase agg exprs: COUNT(*), MIN(), SUM()

下面是个简单的等价转换的例子：

select count(distinct lo_ordtotalprice) from ssb_sf20.v2_lineorder;

select count(*) from (select count(*) from ssb_sf20.v2_lineorder group by lo_ordtotalprice) a;

Doris现场精确去重计算性能和去重列的基数、去重指标个数、过滤后的数据大小成负相关；

7 元数据

Kylin的元数据 ：

Kylin的元数据是利用HBase存储的，可以很好地横向扩展。Kylin每个具体的元数据都是一个Json文件，HBase的Rowkey是文件名，Value是Json文件的内容。Kylin的元数据表设置了IN_MEMORY => 'true' 属性, 元数据表会常驻HBase RegionServer的内存，所以元数据的查询性能很好，一般在几ms到几十ms。

Kylin元数据利用HBase存储的一个问题是，在Kylin可插拔架构下，即使我们实现了另一种存储引擎，我们也必须部署HBase来存储元数据，所以Kylin要真正做到存储引擎的可插拔，就必须实现一个独立的元数据存储。

Doris的元数据：

Doris的元数据是基于内存的，这样做的好处是性能很好且不需要额外的系统依赖。缺点是单机的内存是有限的，扩展能力受限，但是根据Doris开发者的反馈，由于Doris本身的元数据不多，所以元数据本身占用的内存不是很多，目前用大内存的物理机，应该可以支撑数百台机器的OLAP集群。此外，OLAP系统和HDFS这种分布式存储系统不一样，我们部署多个集群的运维成本和1个集群区别不大。

关于Doris元数据的具体原理大家可以参考Doris官方文档Doris 元数据设计文档

8 高性能

Why Kylin Query Fast：

Kylin查询快的核心原因就是预计算，如图(图片出处 Apache kylin 2.0: from classic olap to real-time data warehouse)，Kylin现场查询时不需要Join，也几乎不需要聚合，主要就是Scan + Filter。

Why Doris Query Fast：

In-Memory Metadata。 Doris的元数据就在内存中，元数据访问速度很快。
聚合模型可以在数据导入时进行预聚合。
和Kylin一样，也支持预计算的RollUp Table。
MPP的查询引擎。
向量化执行。相比Kylin中Calcite的代码生成，向量化执行在处理高并发的低延迟查询时性能更好，Kylin的代码生成本身可能会花费几十ms甚至几百ms。
列式存储 + 前缀索引。

9 高可用

Kylin高可用：

Kylin JobServer的高可用： Kylin的JobServer是无状态的，一台JobServer挂掉后，其他JobServer会很快接管正在Running的Job。JobServer的高可用是基于Zookeeper实现的，具体可以参考Apache Kylin Job 生成和调度详解。

Kylin QueryServer的高可用：Kylin的QueryServer也是无状态的，其高可用一般通过Nginx这类的负载均衡组件来实现。

Kylin Hadoop依赖的高可用：要单纯保证Kylin自身组件的高可用并不困难，但是要保证Kylin整体数据导入和查询的高可用是十分困难的，因为必须同时保证HBase，Hive，Hive Metastore，Spark，Mapreduce，HDFS，Yarn，Zookeeper，Kerberos这些服务的高可用。

Doris高可用：

Doris FE的高可用： Doris FE的高可用主要基于BerkeleyDB java version实现，BDB-JE实现了类Paxos一致性协议算法。

Doris BE的高可用： Doris会保证每个Tablet的多个副本分配到不同的BE上，所以一个BE down掉，不会影响查询的可用性。

10 可维护性

10.1 部署

Kylin部署：如果完全从零开始，你就需要部署1个Hadoop集群和HBase集群。即使公司已经有了比较完整的Hadoop生态，在部署Kylin前，你也必须先部署Hadoop客户端，HBase客户端，Hive客户端，Spark客户端。

Doris部署：直接部署FE和BE组件即可。

10.2 运维

Kylin运维： 运维Kylin对Admin有较高的要求，首先必须了解HBase，Hive，MapReduce，Spark，HDFS，Yarn的原理；其次对MapReduce Job和Spark Job的问题排查和调优经验要丰富；然后必须掌握对Cube复杂调优的方法；最后出现问题时排查的链路较长，复杂度较高。

Doris运维： Doris只需要理解和掌握系统本身即可。

10.3 客服

Kylin 客服： 需要向用户讲清Hadoop相关的一堆概念；需要教会用户Kylin Web的使用；需要教会用户如何进行Cube优化（没有统一，简洁的优化原则）；需要教会用户怎么查看MR和Spark日志；需要教会用户怎么查询；

Doris 客服： 需要教会用户聚合模型，明细模型，前缀索引，RollUp表这些概念。

11 易用性

11.1 查询接入

Kylin查询接入：Kylin支持Htpp,JDBC,ODBC 3种查询方式。

Doris查询接入： Doris支持Mysql协议，现有的大量Mysql工具都可以直接使用，用户的学习和迁移成本较低。

11.2 学习成本

Kylin学习成本：用户要用好Kylin，需要理解以下概念：

Cuboid
聚集组
强制维度
联合维度
层次维度
衍生维度
Extend Column
HBase RowKey 顺序

此外，前面提到过，用户还需要学会怎么看Mapreduce Job和Spark Job日志。

Doris学习成本：用户需要理解聚合模型，明细模型，前缀索引，RollUp表这些概念。

11.3 Schema Change

Schema在线变更是一个十分重要的feature，因为在实际业务中，Schema的变更会十分频繁。

Kylin Schema Change：Kylin中用户对Cube Schema的任何改变，都需要在Staging环境重刷所有数据，然后切到Prod环境。整个过程周期很长，资源浪费比较严重。

Doris Schema Change：Doris支持Online Schema Change。

所谓的Schema在线变更就是指Scheme的变更不会影响数据的正常导入和查询，Doris中的Schema在线变更有3种：

direct schema change：就是重刷全量数据，成本最高，和kylin的做法类似。当修改列的类型，稀疏索引中加一列时需要按照这种方法进行。
sorted schema change: 改变了列的排序方式，需对数据进行重新排序。例如删除排序列中的一列, 字段重排序。
linked schema change: 无需转换数据，直接完成。对于历史数据不会重刷，新摄入的数据都按照新的Schema处理，对于旧数据，新加列的值直接用对应数据类型的默认值填充。例如加列操作。 Druid也支持这种做法。

12 功能

注：关于Kylin的明细查询，Kylin本身只有聚合模型，但是也可以通过将所有列作为维度列，只构建Base Cuboid来实现明细查询，缺点是效率比较低下。

注：虽然Doirs理论上可以同时支持高并发，低延迟的OLAP查询和高吞吐的Adhoc查询，但显然这两类查询会相互影响。所以Baidu在实际应用中也是用两个集群分别满足OLAP查询和Adhoc查询需求。

13 社区和生态

Doris社区刚刚起步，目前核心用户只有Baidu；Kylin的社区和生态已经比较成熟，Kylin是第一个完全由中国开发者贡献的Apache顶级开源项目，目前已经在多家大型公司的生产环境中使用。

14 总结

本文从多方面对比了Apache Kylin和Apache Doris，有理解错误的地方欢迎指正。本文更多的是对两个系统架构和原理的客观描述，主观判断较少。最近在调研了Doirs，ClickHouse，TiDB之后，也一直在思考OLAP系统的发展趋势是怎样的，下一代更优秀的OLAP系统架构应该是怎样的，一个系统是否可以同时很好的支持OLTP和OLAP，这些问题想清楚后我会再写篇文章描述下，当然，大家有好的想法，也欢迎直接Comment。

15 参考资料

1 Doris文档和源码

2 Kylin源码

3 Apache kylin 2.0: from classic olap to real-time data warehouse 在Kylin高性能部分引用了第4页PPT的截图

4 百度MPP数据仓库Palo开源架构解读与应用在Doris查询部分引用了第31页PPT的截图

为什么 MySQL 需要“回表”？ HAibiiin 1KB 面试数据库 mysql 后端经验分享
摘要:1张图，512个字左右，让你在3分钟彻底搞MySQL产生“回表”现象的原因，同时了解“回表”现象对性能的实际影响，并掌握解决“回表”现象的思考方向。在使用MySQL的过程中，你一定听说过“回表”这一概念。“回表”影响查询性能几乎成为大家的普遍共识，但事实真的是这样吗？虽然网络上关于“回表”的分析与解决方式的文章非常多，但是绝大多数文章点到为止，并未真正指明其原因。只要你使用的是MySQL数据
MongoDB深度解析与实践案例我的运维人生 mongodb 数据库运维开发技术共享
MongoDB深度解析与实践案例在当今大数据盛行的时代，NoSQL数据库以其灵活的数据模型和水平扩展能力，成为了众多应用场景下的首选。MongoDB，作为NoSQL数据库的领军者之一，凭借其面向文档的存储方式、强大的查询功能以及丰富的生态系统，在众多领域大放异彩。本文将从MongoDB的基本概念出发，深入探讨其核心特性，并通过一个实际案例展示如何在项目中高效使用MongoDB。一、MongoDB基
数据建模中的Chasm 陷阱小Tomkk #MySQL 数据库 mysql Chasm 陷阱
数据建模中的Chasm陷阱在数据仓库中，Chasm陷阱（ChasmTrap）是指一种设计问题，通常出现在数据仓库建模的过程中，尤其是在使用星型模式（StarSchema）或者雪花型模式（SnowflakeSchema）时。这个问题通常发生在多个事实表与维度表之间的关系存在不一致或难以解决的情况，导致数据查询和分析时产生不正确的结果。文章目录数据建模中的Chasm陷阱我这里举例说明Chasm陷阱解决
树状数组详解与应用领域 c++ --二次元的programmer的博客 Arodex c++算法树状数组
这是本蒟蒻的第一篇博客，如有不妥，请各位大佬加以指正。树状数组是什么？学树状数组首先当然要知道树状数组是什么。下面是我粘过来的定义：树状数组的查询和修改的时间复杂度都是log(n)，空间复杂度则为O(n)，这是因为树状数组通过将线性结构转化成树状结构，从而利用位运算进行跳跃式扫描。通常使用在高效的计算数列的前缀和，区间和。（其实你只需要知道它的时间空间复杂度就行了，应用领域后文会讲）跳跃式扫描的实
蓝桥杯备考：前缀和算法---模板题无敌大饺子 1 蓝桥杯职场和发展
【模板】前缀和这道题，如果我们简单的用暴力解法，时间复杂度就是O（q*N）也就是10的十次方，这时候我们就会超时我们要学习一种前缀和的算法，它能帮助我们做一些预处理，用空间复杂度代替时间复杂度，比如说这道题，我们开辟一个数组，f[N]，我们只需要一个公式f[i]=f[i-1]+a[i]就能完成我们的预处理，最后查询的时间复杂度就是O（1）了，比如我们要查询l到r的和，我们就让f[r]-f[l-1]
期货市场程序化交易发展迅猛，未来真能取代主观交易吗股票程序化交易接口量化交易股票API接口 Python股票量化交易期货市场程序化交易主观交易发展迅猛股票量化接口股票API接口
Python股票接口实现查询账户，提交订单，自动交易（1）Python股票程序交易接口查账，提交订单，自动交易（2）股票量化，Python炒股，CSDN交流社区>>>程序化交易的崛起程序化交易的概念与原理程序化交易是一种利用计算机程序来执行交易策略的交易方式。它基于预先设定的算法和规则，对市场数据进行分析，如价格、成交量等。一旦满足设定的条件，就自动发出交易指令。这种交易方式能够快速、准确地处理大
证券交易系统崩塌怎么办？股票程序化交易接口量化交易股票API接口 Python股票量化交易证券交易系统崩塌对策技术维护股票量化接口股票API接口
Python股票接口实现查询账户，提交订单，自动交易（1）Python股票程序交易接口查账，提交订单，自动交易（2）股票量化，Python炒股，CSDN交流社区>>>交易中断与投资者损失证券交易系统崩塌首先会导致交易中断。投资者无法及时进行买卖操作，对于那些有着紧急交易需求的投资者来说，可能会错过最佳的交易时机，从而遭受损失。比如在股票价格快速波动时期，投资者本想卖出股票止损或者买入股票获利，交易
苹果电脑炒股有哪些优势？股票程序化交易接口股票API接口苹果电脑炒股软件兼容性系统稳定性股票量化接口股票API接口
Python股票接口实现查询账户，提交订单，自动交易（1）Python股票程序交易接口查账，提交订单，自动交易（2）股票量化，Python炒股，CSDN交流社区>>>如今，众多主流炒股软件都推出了macOS版本。像同花顺、东方财富等，这些软件为苹果电脑用户炒股提供了可能。同花顺Mac版功能多样，例如具有盯盘助手等特色功能，满足了用户日常股票分析和交易需求。曾经的局限与突破早期，苹果电脑在金融交易软
Python股票程序交易接口查账，提交订单，自动交易（2）股票程序化交易接口量化交易股票API接口 python
Python股票接口实现查询账户，提交订单，自动交易（1）上一篇是获取数据，获取数据不难，有很多第三方库都可以获取，不一定非要用券商官方的接口，程序交易主要是交易的执行，这个没有官方接口是很难实现的。券商的接口不用担心安全和稳定的问题，相当于就是普通股票账户，开通了程序化交易的权限，通过API接口来执行交易和查询订单、查询账户。order_stock(账户对象,'600519.SH',xtcons
Python能否实现股票的自动买卖？需要具备哪些技术和条件股票程序化交易接口量化交易股票API接口 Python股票量化交易 python 股票自动买卖技术条件券商接口股票量化接口股票API接口
Python股票接口实现查询账户，提交订单，自动交易（1）Python股票程序交易接口查账，提交订单，自动交易（2）股票量化，Python炒股，CSDN交流社区>>>Python在股票交易中的基础Python是一种高级编程语言，在股票交易中有诸多优势。它具有简洁的语法，易于学习和编写代码。使用几行简单的Python代码就可以实现数据的读取和初步分析。其丰富的库，如pandas用于数据处理，nump
Java学习教程，从入门到精通，JDBC中WHERE子句的语法知识点及案例代码（107）知识分享小能手大数据 Java 编程语言如门 java 学习开发语言数据库大数据 JDBC intellij-idea
JDBC中WHERE子句的语法知识点及案例代码JDBCWHERE子句语法知识点WHERE子句用于在SQL查询中对数据进行筛选，它可以根据指定的条件过滤数据行。在JDBC中，WHERE子句通常用于SELECT、UPDATE和DELETE语句中。常见的WHERE子句条件比较运算符=：等于：大于=：大于等于18ANDscore>=80";try{//加载数据库驱动Class.forName("com.m
数据仓库之Kappa架构 james二次元数据仓库数据仓库
Kappa架构是一种简化的数据处理架构，旨在处理实时数据流，解决传统Lambda架构中批处理和实时处理的复杂性。Kappa架构完全基于流处理，不区分批处理和实时处理，所有数据都是通过流处理系统进行处理。以下是对Kappa架构的详细介绍：核心概念数据流处理：所有数据都是以事件流的形式处理的，没有批处理的概念。数据流是连续的，实时的，不需要区分历史数据和实时数据。简化架构：通过统一的流处理框架简化数据
分库分表后如何进行join操作 fajianchen IT架构系统设计 sql 分库分表
在分库分表后的系统中，进行表之间的JOIN操作比在单一数据库表中复杂得多，因为涉及的数据可能位于不同的物理节点或分片中。此时，传统的SQLJOIN语句不能直接用于不同分片的数据，以下是几种处理这样的跨分片JOIN操作的方法：方法1：应用程序层JOIN分步查询：在应用程序中，先查询一个分片中的数据（如，获取第一个表的数据）。对于那些需要JOIN的数据，使用这些结果的数据再去另一个分片中查询。内存合并
【面试系列】Ruby 高频面试题野老杂谈全网最全IT公司面试宝典面试 ruby 职场和发展编程语言
欢迎来到我的博客，很高兴能够在这里和您见面！欢迎订阅相关专栏：⭐️全网最全IT互联网公司面试宝典：收集整理全网各大IT互联网公司技术、项目、HR面试真题.⭐️AIGC时代的创新与未来：详细讲解AIGC的概念、核心技术、应用领域等内容。⭐️全流程数据技术实战指南：全面讲解从数据采集到数据可视化的整个过程，掌握构建现代化数据平台和数据仓库的核心技术和方法。文章目录Ruby初级面试题及附详细解答1.Ru
leetcode5186.区间内查询数字的频率（周赛，中等）重you小垃周赛题 letcode5186 区间内查询数字的频率
看到调用query不超过10^5次，则query()必须控制在O(logn)以内自己的思路：定义一个unordered_maphash;//值->set的下标映射autole=hash[value].lower_bound(left);for(;*lehash;//值->vector下标映射classRangeFreqQuery{public:unordered_map>hash;RangeFre
mysql商品查询_mysql的查询、子查询及连接查询(商城查询常用) weixin_32200323 mysql商品查询
一、mysql查询的五种子句where(条件查询)、having(筛选)、groupby(分组)、orderby(排序)、limit(限制结果数)1、where常用运算符：比较运算符>,),>=,selectid,namefromuserwhereidin(7,9,11,100);+----+-----------+|id|name|+----+-----------+|7|娲紵楣?||9|CC
力扣2080.区间内查询数字的频率阳光男孩01 leetcode 算法职场和发展
力扣2080.区间内查询数字的频率题目题目解析及思路题目要求求出[l,r]上val的出现次数用哈希表把所有元素的所有下标存起来，在val的数组中分别对l,r二分找到在[l,r]内的下标数量在下标上做二分把所有下标存入哈希表在left,right的范围内做二分求个数代码classRangeFreqQuery{unordered_map>pos;public:RangeFreqQuery(vector
django多种查询筛选数据库方式 Sean_TS_Wang Django postgresql django
简介本文主要整理了Django多种针对postgresql数据库所支持的查询方式目录简介目录正文一、使用Python直接操作数二、使用Django执行数据库查询语句Django使用游标执行SQL查询语句Djangoraw执行SQL查询语句三、Django使用extra拆分SQL语句执行参数说明四、使用DjangoORM进行简单数据库查询五、使用双下划线查询六、关联表使用下划线查询外键关联查询多对多
答疑解惑：如何监控EMC unity存储系统磁盘重构rebuild进度存储服务专家StorageExpert EMC存储设备 EMC存储存储维护运维 unity
近期有个朋友咨询的问题，这个其实很有代表性的，以前在VNX存储中，通过磁盘的属性是可以看到rebuild的进度的。到了unity年代，更换了一个磁盘，如何查询重构的进度，从图形界面好像没有找到合适的地方去查看。那就只能借助命令行来查看了，下面是具体的方法，也要分下面三个不同的场景。供参考。如果还有进一步的问题，添加vx来进一步沟通咨询吧。wechat:StorageExpert监控传统池中的驱动器
索引的底层数据结构、B+树的结构、为什么InnoDB使用B+树而不是B树呢因特麦克斯数据库
索引的底层数据结构MySQL中常用的是Hash索引和B+树索引Hash索引：基于哈希表实现的，查找速度非常快，但是由于哈希表的特性，不支持范围查找和排序，在MySQL中支持的哈希索引是自适应的，不能手动创建B+树的结构B+树是一种高效的多路平衡树，适合磁盘存储和范围查询。它的结构特点包括数据集中在叶子节点、叶子节点连接成链表、内部节点仅存储键值和指针。在数据库和文件系统中，B+树被广泛应用于索引和
如何使用jwt 完成注销(退出登录)功能前端贾公子 node.js
目录JSONWebTokens（JWT）注销Token过期很酷，但我还是想注销！结论JSONWebTokens（JWT）JSONWebTokens(JWT)是一种无状态处理用户身份验证的方法。什么意思?JWT帮助建立认证机制而不将身份验证状态存储在任何存储中，无论是会话内存还是数据库，因此,当检查用户的身份验证状态时，不需要访问会话内存或执行数据库查询。相反,根据你选择的用户payload生成to
Mongo数据库简介 chqj_163
作者：[佚名]-发布：2010-11-1810:16:59-来源：无忧技术网转载http://www.liqwei.com/database/other/2010/778.shtmlMongo是一个高性能，开源，无模式的文档型数据库，它在许多场景下可用于替代传统的关系型数据库或键/值存储方式。Mongo使用C++开发，提供了以下功能：◆面向集合的存储：适合存储对象及JSON形式的数据。◆动态查询：
Axios 的地区查询(案例) 还是鼠鼠 ajax 前端 javascript bootstrap web
目录1.项目背景与功能概述2.完整代码3.HTML结构解析输入表单查询按钮地区列表4.JavaScript部分解析监听点击事件发送Axios请求处理响应数据5.完整流程6.总结7.适用场景8.优化和扩展本案例展示了如何使用Axios发送带查询参数的HTTP请求，查询指定省份和城市下的地区列表。通过用户输入的省份名称和城市名称，向后端API发送请求，获取该地区下的具体区域信息，并将返回的数据动态渲染
【数据库】MongoDB深度解析与Python操作指南：从安装到实战操作全覆盖易辰君数据库数据库 mongodb
目录前言一、MongoDB的特点二、Mongo的核心概念三、MongoDB的优劣势四、使用场景五、MongoDB与其他数据库的对比六、如何安装MongoDB七、数据库指令操作（一）基本数据库操作（1）连接MongoDB（2）显示所有数据库（3）选择数据库（4）显示当前数据库（二）集合操作（1）显示集合列表（2）创建集合（3）删除集合（三）文档（数据）操作（1）插入文档（2）查询文档（3）更新文档（
你怎么比较MongoDB、CouchDB及CouchBase?思维导图代码示例（java 架构) 用心去追梦 mongodb java 架构
MongoDB、CouchDB和Couchbase是三种流行的NoSQL数据库，它们各自有着独特的设计哲学和技术特点。以下是它们之间的比较，涵盖了架构、数据模型、查询语言、复制机制、扩展性以及其他关键特性。MongoDB、CouchDB及Couchbase比较-思维导图概要您可以创建一个以“MongoDBvs.CouchDBvs.Couchbase”为核心节点的思维导图，并根据以下分类展开：概述简
npm、cnpm、yran、pip、django命令查询、安装、删除、更新及运行、打包汇总积累亲，你有多少时间可以重来前端 npm 前端 node.js
npm、cnpm、yran这三个命令，不同的项目适合不同的命令，原因未知。精通一种我觉得就行了。npm命令的安装、删除、更新常见命令汇总了一下：1.查看当前npm信息：npm-v2.查看当前npm信息返回https://registry.npmjs.org/npmconfiggetregistry3.更换当前的镜像源，用淘宝或者华为要快不少。npmconfigsetregistryhttp://r
使用Qdrant进行矢量相似性搜索的实践 hgSdaegva python windows linux
在今天的文章中，我将带你深入了解Qdrant，这是一个生产就绪的矢量相似性搜索引擎，并提供一个便利的API来存储、搜索和管理点。这篇文章重点展示如何使用Qdrant进行自我查询检索，并结合OpenAIEmbeddings进行矢量化处理。技术背景介绍Qdrant是一个专注于矢量相似性搜索的引擎，适用于需要快速检索和过滤的场景。它允许我们通过API轻松地存储和管理矢量数据点，并根据矢量相似性进行高效检
使用Elasticsearch和SelfQueryRetriever实现智能电影检索 hgSdaegva elasticsearch jenkins 大数据 python
在当今信息爆炸的时代，快速而准确地检索数据变得尤为重要。Elasticsearch是一个强大的分布式搜索和分析引擎，能够高效地处理大量数据。在这篇文章中，我们将结合Elasticsearch和SelfQueryRetriever，展示如何通过语言模型实现智能电影查询。技术背景介绍Elasticsearch提供多租户能力和无模式的JSON文档存储，广泛应用于全文搜索和分析场景。通过将其与语言模型结合
使用PGVector进行电影文档的向量搜索 hgSdaegva python 开发语言
在本文中，我们将演示如何使用Postgres数据库中的PGVector包来进行向量相似性搜索。具体而言，我们会展示如何使用PGVector创建一个向量存储，并结合自查询检索器（SelfQueryRetriever）来对电影文档集合进行检索。技术背景介绍PGVector是一个针对Postgres数据库的向量相似性搜索插件。它允许我们在数据库中存储向量并进行快速的相似性检索，非常适合于需要进行语义搜索
活动火热报名中 | Data+AI 融合趋势下的智能数仓平台建设人工智能大数据阿里云数据库数据
活动介绍随着AI应用浪潮的深入，Data+AI能够让数据和AI团队在一个平台上进行协作,端到端的完成模型开发部署等。MaxCompute作为阿里云最核心的核心战略级云数仓产品之一，在Data+AI融合趋势下，通过经典数据仓库能力定义与云数据架构的深刻理解，构建出面向下一代智能云数仓，并为用户提供了Data+AI一体化开发体验。本次活动，我们将聚焦“Data+AI融合趋势下的智能数仓平台建设”，诚邀
多线程编程之存钱与取钱周凡杨 java thread 多线程存钱取钱
生活费问题是这样的：学生每月都需要生活费，家长一次预存一段时间的生活费，家长和学生使用统一的一个帐号，在学生每次取帐号中一部分钱，直到帐号中没钱时通知家长存钱，而家长看到帐户还有钱则不存钱，直到帐户没钱时才存钱。问题分析：首先问题中有三个实体，学生、家长、银行账户，所以设计程序时就要设计三个类。其中银行账户只有一个，学生和家长操作的是同一个银行账户，学生的行为是
java中数组与List相互转换的方法征客丶 JavaScript java jsonp
1.List转换成为数组。（这里的List是实体是ArrayList) 　　调用ArrayList的toArray方法。　　toArray 　　public T[] toArray(T[] a)返回一个按照正确的顺序包含此列表中所有元素的数组；返回数组的运行时类型就是指定数组的运行时类型。如果列表能放入指定的数组，则返回放入此列表元素的数组。否则，将根据指定数组的运行时类型和此列表的大小分
Shell 流程控制 daizj 流程控制 if else while case shell
Shell 流程控制和Java、PHP等语言不一样，sh的流程控制不可为空，如(以下为PHP流程控制写法)： <?php if(isset($_GET["q"])){ search(q);}else{// 不做任何事情} 在sh/bash里可不能这么写，如果else分支没有语句执行，就不要写这个else，就像这样 if else if if 语句语
Linux服务器新手操作之二周凡杨 Linux 简单操作
1.利用关键字搜寻Man Pages man -k keyword 其中-k 是选项，keyword是要搜寻的关键字如果现在想使用whoami命令，但是只记住了前3个字符who，就可以使用 man -k who来搜寻关键字who的man命令 [haself@HA5-DZ26 ~]$ man -k
socket聊天室之服务器搭建朱辉辉33 socket
因为我们做的是聊天室，所以会有多个客户端，每个客户端我们用一个线程去实现，通过搭建一个服务器来实现从每个客户端来读取信息和发送信息。我们先写客户端的线程。 public class ChatSocket extends Thread{ Socket socket; public ChatSocket(Socket socket){ this.sock
利用finereport建设保险公司决策分析系统的思路和方法老A不折腾 finereport 金融保险分析系统报表系统项目开发
决策分析系统呈现的是数据页面，也就是俗称的报表，报表与报表间、数据与数据间都按照一定的逻辑设定，是业务人员查看、分析数据的平台，更是辅助领导们运营决策的平台。底层数据决定上层分析，所以建设决策分析系统一般包括数据层处理（数据仓库建设）。项目背景介绍通常，保险公司信息化程度很高，基本上都有业务处理系统（像集团业务处理系统、老业务处理系统、个人代理人系统等）、数据服务系统（通过
始终要页面在ifream的最顶层林鹤霄
index.jsp中有ifream，但是session消失后要让login.jsp始终显示到ifream的最顶层。。。始终没搞定，后来反复琢磨之后，得到了解决办法，在这儿给大家分享下。。 index.jsp--->主要是加了颜色的那一句 <html> <iframe name="top" ></iframe> <ifram
MySQL binlog恢复数据 aigo mysql
1，先确保my.ini已经配置了binlog： # binlog log_bin = D:/mysql-5.6.21-winx64/log/binlog/mysql-bin.log log_bin_index = D:/mysql-5.6.21-winx64/log/binlog/mysql-bin.index log_error = D:/mysql-5.6.21-win
OCX打成CBA包并实现自动安装与自动升级 alxw4616 ocx cab
近来手上有个项目,需要使用ocx控件 (ocx是什么? http://baike.baidu.com/view/393671.htm) 在生产过程中我遇到了如下问题. 1. 如何让 ocx 自动安装? a) 如何签名? b) 如何打包? c) 如何安装到指定目录? 2.
Hashmap队列和PriorityQueue队列的应用百合不是茶 Hashmap队列 PriorityQueue队列
HashMap队列已经是学过了的,但是最近在用的时候不是很熟悉,刚刚重新看以一次, HashMap是K,v键 ,值 put()添加元素 //下面试HashMap去掉重复的 package com.hashMapandPriorityQueue; import java.util.H
JDK1.5 returnvalue实例 bijian1013 java thread java多线程 returnvalue
Callable接口：返回结果并且可能抛出异常的任务。实现者定义了一个不带任何参数的叫做 call 的方法。 Callable 接口类似于 Runnable，两者都是为那些其实例可能被另一个线程执行的类设计的。但是 Runnable 不会返回结果，并且无法抛出经过检查的异常。 ExecutorService接口方
angularjs指令中动态编译的方法(适用于有异步请求的情况) 内嵌指令无效 bijian1013 JavaScript AngularJS
在directive的link中有一个$http请求，当请求完成后根据返回的值动态做element.append('......');这个操作，能显示没问题，可问题是我动态组的HTML里面有ng-click，发现显示出来的内容根本不执行ng-click绑定的方法！
【Java范型二】Java范型详解之extend限定范型参数的类型 bit1129 extend
在第一篇中，定义范型类时，使用如下的方式： public class Generics<M, S, N> { //M,S,N是范型参数 } 这种方式定义的范型类有两个基本的问题： 1. 范型参数定义的实例字段，如private M m = null;由于M的类型在运行时才能确定，那么我们在类的方法中，无法使用m，这跟定义pri
【HBase十三】HBase知识点总结 bit1129 hbase
1. 数据从MemStore flush到磁盘的触发条件有哪些？ a.显式调用flush，比如flush 'mytable' b.MemStore中的数据容量超过flush的指定容量，hbase.hregion.memstore.flush.size,默认值是64M 2. Region的构成是怎么样？ 1个Region由若干个Store组成
服务器被DDOS攻击防御的SHELL脚本 ronin47
mkdir /root/bin vi /root/bin/dropip.sh #!/bin/bash/bin/netstat -na|grep ESTABLISHED|awk ‘{print $5}’|awk -F:‘{print $1}’|sort|uniq -c|sort -rn|head -10|grep -v -E ’192.168|127.0′|awk ‘{if($2!=null&a
java程序员生存手册-craps 游戏-一个简单的游戏 bylijinnan java
import java.util.Random; public class CrapsGame { /** * *一个简单的赌*博游戏，游戏规则如下： *玩家掷两个骰子，点数为1到6，如果第一次点数和为7或11，则玩家胜， *如果点数和为2、3或12，则玩家输， *如果和为其它点数，则记录第一次的点数和，然后继续掷骰，直至点数和等于第一次掷出的点
TOMCAT启动提示NB: JAVA_HOME should point to a JDK not a JRE解决开窍的石头 JAVA_HOME
当tomcat是解压的时候，用eclipse启动正常，点击startup.bat的时候启动报错; 报错如下： The JAVA_HOME environment variable is not defined correctly This environment variable is needed to run this program NB: JAVA_HOME shou
[操作系统内核]操作系统与互联网 comsci 操作系统
我首先申明：我这里所说的问题并不是针对哪个厂商的，仅仅是描述我对操作系统技术的一些看法操作系统是一种与硬件层关系非常密切的系统软件，按理说，这种系统软件应该是由设计CPU和硬件板卡的厂商开发的，和软件公司没有直接的关系，也就是说，操作系统应该由做硬件的厂商来设计和开发
富文本框ckeditor_4.4.7 文本框的简单使用支持IE11 cuityang 富文本框
<html xmlns="http://www.w3.org/1999/xhtml"> <head> <meta http-equiv="Content-Type" content="text/html; charset=UTF-8" /> <title>知识库内容编辑</tit
Property null not found darrenzhu datagrid Flex Advanced propery null
When you got error message like "Property null not found ***", try to fix it by the following way: 1)if you are using AdvancedDatagrid, make sure you only update the data in the data prov
MySQl数据库字符串替换函数使用 dcj3sjt126com mysql 函数替换
需求：需要将数据表中一个字段的值里面的所有的 . 替换成 _ 原来的数据是 site.title site.keywords .... 替换后要为 site_title site_keywords 使用的SQL语句如下： updat
mac上终端起动MySQL的方法 dcj3sjt126com mysql mac
首先去官网下载: http://www.mysql.com/downloads/ 我下载了5.6.11的dmg然后安装,安装完成之后..如果要用终端去玩SQL.那么一开始要输入很长的:/usr/local/mysql/bin/mysql 这不方便啊,好想像windows下的cmd里面一样输入mysql -uroot -p1这样...上网查了下..可以实现滴. 打开终端,输入: 1
Gson使用一（Gson） eksliang json gson
转载请出自出处：http://eksliang.iteye.com/blog/2175401 一.概述从结构上看Json，所有的数据（data）最终都可以分解成三种类型：第一种类型是标量（scalar），也就是一个单独的字符串（string）或数字（numbers），比如"ickes"这个字符串。第二种类型是序列（sequence），又叫做数组（array）
android点滴4 gundumw100 android
Android 47个小知识 http://www.open-open.com/lib/view/open1422676091314.html Android实用代码七段（一） http://www.cnblogs.com/over140/archive/2012/09/26/2611999.html http://www.cnblogs.com/over140/arch
JavaWeb之JSP基本语法 ihuning javaweb
目录 JSP模版元素 JSP表达式 JSP脚本片断 EL表达式 JSP注释特殊字符序列的转义处理如何查找JSP页面中的错误 JSP模版元素 JSP页面中的静态HTML内容称之为JSP模版元素，在静态的HTML内容之中可以嵌套JSP
App Extension编程指南（iOS8/OS X v10.10）中文版啸笑天 ext
当iOS 8.0和OS X v10.10发布后，一个全新的概念出现在我们眼前，那就是应用扩展。顾名思义，应用扩展允许开发者扩展应用的自定义功能和内容，能够让用户在使用其他app时使用该项功能。你可以开发一个应用扩展来执行某些特定的任务，用户使用该扩展后就可以在多个上下文环境中执行该任务。比如说，你提供了一个能让用户把内容分
SQLServer实现无限级树结构 macroli oracle sql SQL Server
表结构如下：数据库id path titlesort 排序 1 0 首页 0 2 0,1 新闻 1 3 0,2 JAVA 2 4 0,3 JSP 3 5 0,2,3 业界动态 2 6 0,2,3 国内新闻 1 创建一个存储过程来实现，如果要在页面上使用可以设置一个返回变量将至传过去 create procedure test as begin decla
Css居中div，Css居中img，Css居中文本，Css垂直居中div qiaolevip 众观千象学习永无止境每天进步一点点 css
/**********Css居中Div**********/ div.center { width: 100px; margin: 0 auto; } /**********Css居中img**********/ img.center { display: block; margin-left: auto; margin-right: auto; }
Oracle 常用操作(实用) 吃猫的鱼 oracle
SQL>select text from all_source where owner=user and name=upper('&plsql_name'); SQL>select * from user_ind_columns where index_name=upper('&index_name'); 将表记录恢复到指定时间段以前
iOS中使用RSA对数据进行加密解密 witcheryne ios rsa iPhone objective c
RSA算法是一种非对称加密算法,常被用于加密数据传输.如果配合上数字摘要算法, 也可以用于文件签名. 本文将讨论如何在iOS中使用RSA传输加密数据. 本文环境 mac os openssl-1.0.1j, openssl需要使用1.x版本, 推荐使用[homebrew](http://brew.sh/)安装. Java 8 RSA基本原理 RS