DolphinDB

DolphinDB与Spark的性能对比测试报告

1. 概述

Spark是基于内存计算的通用大数据并行计算框架，内置多种组件，如批处理、流处理、机器学习和图处理。Hive是基于Hadoop的数据仓库，支持类SQL的命令查询，提升了Hadoop的易用性。Spark与Hive、Hadoop通常是搭配使用，利用Hive中的数据分区可以方便地管理和过滤数据，提高查询效率。

DolphinDB是C++编写的高性能分布式时序数据库，内置高吞吐低延迟的列式内存引擎，集成了功能强大的编程语言，支持类Python和SQL的脚本语言，可以直接在数据库中进行复杂的编程和运算。DolphinDB内部用Data Source来抽象分区数据。在Data Source之上，可以完成SQL，机器学习，批处理和流处理等计算任务。一个Data Source既可以是内置的数据库分区，也可以是外部数据。如果Data Source是内置数据库的分区，大部分计算都可以在本地完成，极大地提升了计算和查询效率。

本报告将对DolphinDB、Spark直接访问HDFS（Spark+Hadoop，下文称为Spark）、Spark通过Hive组件访问HDFS（Spark+Hive+Hadoop，下文称为Spark+Hive）三者进行性能对比测试。测试内容包括数据导入、磁盘空间占用、数据查询以及多用户并发查询。通过对比测试，我们能更深入的了解影响性能的主要因素，以及不同工具的最佳应用场景。

2. 环境配置

2.1 硬件配置

本次测试使用了两台配置完全相同的服务器（机器1，机器2），各个配置参数如下：

主机：DELL PowerEdge R730xd

CPU：Intel Xeon® CPU E5-2650 v4（24核 48线程 2.20GHz）

内存：512 GB （32GB × 16, 2666 MHz）

硬盘：17T HDD （1.7T × 10, 222 MB/s 读取；210 MB/s 写入）

网络：万兆以太网

OS： CentOS Linux release 7.6.1810 (Core)

2.2 集群配置

测试的DolphinDB版本为Linux v0.95。测试集群的控制节点部署在机器1上，每台机器上各部署三个数据节点，共六个数据节点。每个数据节点配置8个worker，7个executor，24G内存。

测试的Spark版本为2.3.3，搭载Apache Hadoop 2.9.0。Hadoop与Spark配置为完全分布式模式，机器1为Master，并且在机器1、机器2上都具有Slave。Hive的版本是1.2.2，机器1、机器2上都具有Hive。元数据存储在机器1上的MySql数据库中。Spark 与Spark + Hive使用Standalone模式下的client 方式来提交应用。

测试时，DolphinDB、Spark、Spark+Hive均配置6块硬盘，不同并发数下使用的CPU、内存总和都相同，都是48个线程，144G内存。Spark与Spark+Hive使用的资源只是对于特定的应用，每个应用有6个executor，在多用户并发的情况下，Spark、Spark+Hive单个用户使用的资源会随着用户数量增多而减少。不同并发数下每个用户使用的资源如表1所示。

表1.Spark、Spark+Hive不同并发数下单用户使用的资源

3. 数据集及数据库设计

3.1 数据集

测试数据集是纽约证券交易所（NYSE）提供的TAQ数据集，包含 8000 多支股票在2007.08.01-2007.08.31一个月内的Level 1报价数据，包含交易时间, 股票代码, 买入价, 卖出价, 买入量, 卖出量等报价信息。数据集中共有 65 亿（6,561,693,704）条报价记录，一个 CSV 中保存一个交易日的记录，该月共23个交易日，未压缩的 23个CSV 文件共计 277 GB。

数据来源：https://www.nyse.com/market-data/historical

3.2 数据库设计

表2. TAQ在各个系统中的数据类型。

在DolphinDB中，我们按照date、symbol列组合分区，第一分区使用日期DATE来进行值分区，共23个分区，第二分区使用股票代码SYMBOL来进行范围分区，分区数量100个，每个分区大约120M左右。

Spark存储在HDFS上的数据以23个csv对应23个目录。Spark+Hive采用两层分区，第一层分区使用日期DATE列进行静态分区，第二层分区使用股票代码SYMBOL进行动态分区。

具体脚本见附录。

4. 数据导入和查询测试

4.1 数据导入测试

原始数据均匀地分布在两台服务器的6个硬盘上，这样可以充分利用集群中的所有资源。DolphinDB通过异步多节点的方式并行导入数据，Spark与Spark+Hive并行启动6个应用来读取数据，把数据存储到HDFS中。各个系统导入数据的时间如表3所示。各个系统中数据占用的磁盘空间如表4所示。数据导入脚本见附录。

表3. DolphinDB、Spark、Spark+Hive导入数据时间

表4. DolphinDB、Spark、Spark+Hive中数据占用的磁盘空间

DolphinDB的导入性能明显优于Spark和Spark+Hive，是Spark的4倍左右，是Spark + Hive的6倍左右。DolphinDB使用C++编写并且内部有很多优化，极大地利用了磁盘的IO。

DolphinDB占用的磁盘空间大于Spark与Spark+Hive，大约是他们的2倍，这是因为Spark和Spark+Hive在Hadoop上都使用Parquet格式，Parquet格式通过Spark写入到Hadoop上默认使用snappy压缩。

4.2 数据查询测试

为保证测试公平，每个查询语句要进行多次测试，每次测试之前均通过 Linux 系统命令分别清除系统的页面缓存、目录项缓存和硬盘缓存。DolphinDB还清除其内置缓存。

表5中的查询语句涵盖了大部分查询场景，包含分组、排序、条件、聚合计算、点查询、全表查询，用来评估DolphinDB、Spark、Spark+Hive在不同用户数量提交下的性能。

表5. DolphinDB、Spark、Spark+Hive查询语句

4.2.1 DolphinDB与Spark单用户查询测试

以下是DolphinDB与Spark单用户查询的结果，结果中的耗时为查询8次的平均用时。

表6. DolphinDB、Spark单用户查询结果

从结果可以看出，DolphinDB的查询性能是Spark+HDFS的200倍左右。查询Q1到Q6都是以DolphinDB的分区字段为过滤条件，DolphinDB只需要加载指定分区的数据，无需全表扫描，而Spark从Q1到Q6都需要全表扫描，耗费大量的时间。对于查询Q7，DolphinDB和Spark都需要全表扫描，但是DolphinDB只加载相关的列，无需加载所有列，而Spark则需要加载所有数据。由于Query运行时间被数据加载主导，DolphinDB和Spark的性能差距没有之前的查询语句的大。

4.2.2 DolphinDB与Spark+Hive单用户查询测试

由于DolphinDB的数据经过分区，且在查询的时候实现谓词下推，效率明显高于Spark。此处我们使用Spark搭载Hive组件来访问HDFS，对比DolphinDB和Spark+Hive的查询性能。以下是DolphinDB、Spark+Hive单用户查询的结果，结果中的耗时为查询8次的平均用时。

表7. DolphinDB、Spark+Hive单用户查询结果

结果显示，DolphinDB的查询性能明显优于Spark+Hive，是Spark+Hive的数十倍。与表6的结果相比，Spark+Hive的查询速度比Spark要快得多，DolphinDB具有的优势明显下降了很多。这是因为Hive对数据进行分区，且在查询语句的条件带有分区字段的时候，只加载部分数据，实现数据过滤，提高效率。查询语句Q7扫描全表的时候会出现内存溢出。

DolphinDB、Spark+Hive都对数据进行了分区，且在加载数据时都可以实现谓词下推，达到数据过滤的效果，但是DolphinDB的查询速度优于Spark+Hive。这是因为Spark+Hive区读取HDFS上的数据是不同系统之间的访问，数据要经过序列化、网络传输、反序列化的过程，非常耗时，从而影响性能。DolphinDB的大部分计算都在本地完成，减少了数据传输，因此更加高效。

4.2.3 DolphinDB与Spark计算能力对比

上面DolphinDB分别与Spark、Spark+Hive的查询性能对比，由于数据分区、查询时的数据过滤以及传输影响了Spark的性能，因此这里我们先把数据加载到内存中，再进行相关的计算，比较DolphinDB和Spark+Hive。我们省略了Spark+Hive，因为使用Hive只是为了数据过滤，读取HDFS上的数据更加高效，这里的测试数据已经在内存中。

表8是测试计算能力的语句。每次测试都包含两个语句，第一个语句是把数据加载到内存中，第二个语句是对内存中的数据进行计算。DolphinDB会自动缓存数据，Spark则通过自己的默认缓存机制重新创建一个临时表TmpTbl。

表8. DolphinDB与Spark计算能力对比语句

以下是DolphinDB与Spark计算能力的测试结果，结果中的耗时是测试5次的平均用时。

表9. DolphinDB与Spark计算能力测试结果

由于数据已经在内存中，对比表6，Spark使用的时间大幅度减少，但是DolphinDB的计算能力仍然比Spark优越。DolphinDB用C++编写，自己管理内存，比起Spark使用JVM来管理内存更加高效。另外，DolphinDB内置了更高效的算法，提高了计算性能。

DolphinDB的分布式计算以分区为单位，计算指定内存的数据。Spark加载整个HDFS上的块，一个数据块包含了具有不同symbol值的数据，虽然缓存，但是仍然要筛选，所以在Q1与Q2的比值较大。Spark计算时使用的广播变量是经过压缩的，传输到其他的executor上再解压影响性能。

4.2.4 多用户并发查询

我们使用表5中的查询语句，对DolphinDB、Spark、Spark+Hive进行多用户并发查询测试。以下是测试结果，结果中的耗时是查询8次的平均用时。

表10. DolphinDB、Spark、Spark+Hive多用户并发查询结果

图1. DolphinDB、Spark多用户查询结果对比

图2. DolphinDB、Spark+Hive多用户查询结果对比

从上面的结果可以看出，随着并发数量的增加，三者的查询时间逐渐增加。当达到8个用户并发的时候Spark性能较之前少量的用户并发情况下显著下降，Spark 在执行Q7的时候会导致worker死亡。Spark+ Hive在多用户访问的时候与DolphinDB一样，基本保持稳定，但是执行Q7查询语句的一直会出现内存溢出的异常。

Spark+ Hive的查询配置与Spark 一样，因为有分区的作用，并且可以过滤数据，查询数据量比较小，所以效率相对于Spark扫描全部数据比较好。

DolphinDB在并发查询中性能明显优于Spark 与Spark+ Hive，从上图可以看出在多用户并发访问情况下，随着用户数量的增加，DolphinDB相对于Spark 的优势几乎是线性增长，相对于Spark + Hive 的优势基本保持不变，体现了有数据分区在查询的时候实现数据过滤的重要性。

DolphinDB在多用户并发的情况下实现了多用户的数据共享，不像Spark 的数据只是针对于具体的应用。所以在8个并发用户的情况下，Spark 每个用户分配到的资源比较少，性能显著下降。DolphinDB的数据共享可以减少资源的使用，在有限的资源下，把更多的资源留给用户计算使用，提高用户并发的效率，增大用户的并发数量。

5. 小结

在数据的导入方面，DolphinDB可以并行加载，Spark与Spark+Hive 则通过多个应用同时加载来导入数据。DolphinDB的导入速度是Spark 和Spark+ Hive 的4-6倍。在磁盘空间上，DolphinDB占用的磁盘空间是Spark与Spark+ Hive在Hadoop上占用的磁盘空间的两倍左右，Spark与Spark + Hive使用了snappy压缩。

在数据的SQL查询方面，DolphinDB的优势更加明显。优势主要来自四个方面：（1）本地化计算，（2）分区过滤，（3）优化的内存计算，（4）跨会话的数据共享。在单用户查询情况下，DolphinDB的查询速度是Spark的几倍到上百倍，是Spark+ Hive 的几十倍。Spark 读取HDFS 是不同的系统之间的调用，其中包含了数据的序列化，网络，反序列化非常消耗时间，且占据很多的资源。DolphinDB的SQL查询大部分是本地化计算，大幅减少了数据传输和加载的时间。Spark+ Hive 相对与Spark速度提升很大，主要是因为Spark + Hive只扫描相关分区的数据，实现了数据的过滤。在剔除本地化和分区过滤的因素后（即所有数据已经在内存中），DolphinDB的计算能力仍然优于Spark数倍。DolphinDB基于分区的分布式计算效率很高，且对内存的管理比Spark基于JVM的管理更加优秀。Spark的多用户并发会随着用户数量的增多效率逐渐下降，在查询大数据量的时候用户过多导致worker 死亡。Spark + Hive的多用户并发相对比较稳定，但是加载数据过大会出现内存溢出错误。多用户情况下, DolphinDB可以实现数据的共享，从而减少加载数据使用的资源，查询速度是Spark的数百倍，是Spark+Hive 的几十倍。随着用户数量的增加，DolphinDB相对于Spark的性能优势更加明显。涉及到分区查询的情况下，Spark+ Hive与DolphinDB显著提高查询性能。

Spark是一个非常优秀的通用分布式计算引擎，在SQL查询、批处理、流处理、机器学习等方面均有上佳表现。但由于SQL查询通常只需要对数据计算一次，相对于机器学习需要上百次的迭代，内存计算的优势无法充分体现。因此，我们更建议将Spark用于计算密集型的机器学习。

在测试过程中，我们也发现DolphinDB是一个非常轻量级的实现，集群的搭建简单快速， Spark + Hive+ Hadoop 集群安装配置非常复杂。

附录

附录1. 数据预览

附录2. Hive创建表语句

CREATE TABLE IF NOT EXISTS TAQ (time TIMESTAMP, bid DOUBLE, ofr DOUBLE, bidsiz INT, ofrsiz INT, mode INT, ex TINYINT, mmid STRING）PARTITIONED BY (date DATE, symbol STRING) STORED AS PARQUET;

附录3.

DolphinDB导入数据脚本：

fps1、fps2分别代表机器1、2上所有的csv路径的vector
fps是包含fps1和fps2 的vector
allSites1、allSites2 分别代表机器1、2上数据节点名称的vector
allSite 是包含 allSites1和allSites2的vector
DATE_RANGE=2007.07.01..2007.09.01
date_schema=database('', VALUE, DATE_RANGE)
symbol_schema=database('', RANGE, buckets)
db=database(FP_DB, COMPO,[date_schema,symbol_schema])
taq = db.createPartitionedTable(schema, `taq, `date`symbol)
for(i in 0..1){
	for(j in 0..(size(fps[i])-1))  {
		rpc(allSites[i][j] % size(allSite[i])],submitJob,"loadData" , "loadData" ,loadTextEx{database(FP_DB), "taq", `date`symbol, fps[i][j]} )
	}
}

Spark与Hive导入数据的配置：

--master local[8]
--executor-memory 24G

包管理工具她的双马尾 JS javascript 包管理工具 npm yarn pnpm
JavaScript包管理工具对比：npm、yarn和pnpm1.npm1.1历史与背景npm（NodePackageManager）是Node.js的默认包管理工具，首次发布于2010年。它是JavaScript生态系统中最早的包管理工具，主要用于管理和共享JavaScript模块。目前，npm拥有全球最大的JavaScript包注册中心（npmregistry），包含数百万个开源包。1.2核心
Spring Boot拦截器（Interceptor）与过滤器（Filter）深度解析：区别、实现与实战指南 QQ828929QQ spring boot 后端 java
SpringBoot拦截器（Interceptor）与过滤器（Filter）深度解析：区别、实现与实战指南一、核心概念对比1.本质区别维度过滤器（Filter）拦截器（Interceptor）规范层级Servlet规范（J2EE标准）SpringMVC框架机制作用范围所有请求（包括静态资源）只处理Controller请求依赖关系不依赖Spring容器完全集成SpringIOC容器执行顺序最先执行（
亿级流量架构网关设计思路，常用网关对比，写得太好了。。 wadfdhsajd java 后端框架大数据
什么是网关网关,很多地方将网关比如成门,没什么问题,但是需要区分网关与网桥的区别,网桥工作在数据链路层，在不同或相同类型的LAN之间存储并转发数据帧，必要时进行链路层上的协议转换。可连接两个或多个网络，在其中传送信息包。网关是一个大概念，不具体特指一类产品，只要连接两个不同的网络都可以叫网关,网桥一般只转发信息,而网关可能进行包装。网关通俗理解根据网关的特性,举个例子:假如你要去找集团老板(这儿只
AI人工智能软件开发方案：开启智能时代的创新钥匙广州硅基技术官方人工智能
一、引言：AI浪潮下的软件开发新机遇近年来，人工智能（AI）技术的迅猛发展如同一股汹涌澎湃的浪潮，席卷了全球各个领域。从最初的概念提出到如今的广泛应用，AI历经了漫长的发展历程，终于迎来了属于它的黄金时代。回首过去，AI的发展并非一帆风顺，早期由于计算能力和算法的限制，经历了多次起伏。但随着大数据、云计算、机器学习、深度学习等技术的不断突破，AI迎来了爆发式增长。如今，AI已经深入到人们生活和工作
YOLOV8多模态(可见光+红外光，基于Ultralytics官方代码实现） @M_J_Y@ 目标检测 YOLO 计算机视觉目标检测 python
YOLOV8多模态(可见光+红外光，基于Ultralytics官方代码实现）各位读者麻烦给个star或者fork，求求了。YOLOV8双分支模型架构图YOLOV8多模态目标检测前言：环境配置要求1.数据集DroneVehicle数据集(可见光+热红外)2.数据集文件格式(labeles:YOLO格式)3.权重文件下载4.配置模型yaml文件和数据集yaml文件5.训练6.测试7.打印模型信息8.o
如何使用LABVIEW调用BarTender的子程序：Bartender API调用测试，LABVIEW高效调用BarTender子程序的Bartender API实践 QZtcYmIYnDal labview 程序人生
BartenderAPI的调用本测试是LABVIEW怎么调用BarTender的子程序，可供调用。ID:89200597584724364行走的CdBartenderAPI的调用在软件开发领域，集成不同系统或工具的功能已经成为常见的需求。而在某些特定的行业或领域，如标签打印和条码管理，BarTender是一款备受欢迎的软件。BarTender作为一种强大的标签和条码设计与打印解决方案，能够满足各种
利用ffmpeg库实现音频AAC编解码 byxdaz 音视频 ffmpeg 音视频 aac
AAC‌（AdvancedAudioCoding）是一种音频编码技术，出现于1997年，基于MPEG-2的音频编码技术。AAC具有高效的数据压缩能力和较高的音质，适用于各种音频应用场景。例如，在智能设备中，AAC技术被广泛应用于提升用户体验，提供高质量的音频体验。一、FFmpeg支持的AAC编码器对比编码器特性适用场景‌aac‌FFmpeg原生实现，2015年后稳定支持‌，支持LC-AAC规格，兼
使用Yeager.ai轻松构建LangChain工具和代理 qahaj 人工智能 langchain python
技术背景介绍在现代AI开发框架中，如何快速构建、测试和部署AI解决方案是一个重要的课题。Yeager.ai为此提供了一个完整的生态系统，旨在简化AI智能体和工具的创建过程。它的核心组件yAgents是一个无代码的LangChain代理构建器，能够让用户轻松地集成各种语言模型和资源，非常适合开发者、研究人员和AI爱好者在不同应用场景中使用。核心原理解析Yeager.ai利用LangChain框架，通
百度地图开放平台Key值申请前端熊猫百度地图开发平台 AK
百度地图开放平台key值获取流程首先，登录需选择个人或者企业实名认证进入百度地图开放平台，点击右上角的控制台，进入开发者管理界面：选择应用管理->我的应用，点击创建应用，填写服务端：需设置IP白名单（安全性更高）或者浏览器端：需配置Referer白名单（防止恶意调用），获取测试key！！！在“我的应用”列表中，可查看并复制AK
SAP-ABAP：ABAP内存和SAP内存详细对比爱喝水的鱼丶 VIP详情查看专栏 SAP-ABAP开发基础详解 ABAP开发之必须知道的 SAP 运维 ABAP ERP
在SAPABAP中，内存数据（MemoryData）是一种临时存储机制，允许在同一会话或程序之间共享数据。内存数据存储在ABAP内存（ABAPMemory）或SAP内存（SAPMemory）中，具体取决于数据的生命周期和共享范围。以下是关于如何在SAP中保存和使用内存数据的详细说明：—##1.ABAP内存vsSAP内存###ABAP内存-作用范围:仅在当前内部会话（InternalSession）
SpringMVC-解决跨域的两种方案青岛欢迎您开发框架 springmvc
1.什么是跨域跨域，即跨站HTTP请求(Cross-siteHTTPrequest)，指发起请求的资源所在域不同于请求指向资源所在域的HTTP请求。2.跨域的应用情景当使用前后端分离，后端主导的开发方式进行前后端协作开发时，常常有如下情景：后端开发完毕在服务器上进行部署并给前端API文档。前端在本地进行开发并向远程服务器上部署的后端发送请求。在这种开发过程中，如果前端想要一边开发一边测试接口，就需
【星闪开发连载】WS63E模块的雷达功能浅析神一样的老师星闪技术 OpenHarmony 物联网
目录引言功能简介程序分析操作步骤简单测试结语引言WS63E星闪模块有个特色功能就是雷达运动感知，检测物体是否有运动，作用距离不超过6米。hi3863芯片本身不带雷达功能，是模块提供的相关功能。海思还有个WS63星闪模块，没有雷达感知能力。功能简介从开发板的图片上可以看到，右下角有个安装雷达天线的地方，使用使用1代IPEX接口。润和的套件里面没有带天线，从我的测试看没有天线，其实雷达功能是不正常的。
图神经网络实战——分层自注意力网络盼小辉丶图神经网络从入门到项目实战神经网络人工智能深度学习
图神经网络实战——分层自注意力网络0.前言1.分层自注意力网络1.1模型架构1.2节点级注意力1.3语义级注意力1.4预测模块2.构建分层自注意力网络相关链接0.前言在异构图数据集上，异构图注意力网络的测试准确率为78.39%，比之同构版本有了较大提高，但我们还能进一步提高准确率。在本节中，我们将学习一种专门用于处理异构图的图神经网络架构，分层自注意力网络(hierarchicalself-att
微服务即时通讯系统的实现（客户端）----（2） Smile丶凉轩项目微服务架构云原生
目录1.将protobuf引入项目当中2.前后端交互接口定义2.1核心PB类2.2HTTP接口定义2.3websocket接口定义3.核心数据结构和PB之间的转换4.设计数据中心DataCenter类5.网络通信5.1定义NetClient类5.2引入HTTP5.3引入websocket6.小结7.搭建测试服务器7.1创建项目7.2服务器引入http7.3服务器引入websocket7.4服务器引
Vue——Vue-cli脚手架+前端路由 pdsu_zhao Vue Vue学习之旅 vue v-router v-resource vue-cli ES6
Vue-cli是Vue的脚手架工具可以进行目录结构、本地调试、代码部署、热加载、单元测试1、MVVM框架View——ViewModel——Model（视图）（通讯）（数据）“DOM”“观察者vue实例”“Javascript”注意：交互为双向的特点：（1）针对具有复杂交互逻辑的前端应用；（2）提供基础的架构抽象；（3）通过Ajax数据持久化，保证前端用户体验。2、什么是Vue.js它是一个轻量级M
Linux内核中的数据结构与算法（三）哈希链表木木0o0欧尼 Linux 链表数据结构 linux
四，哈希链表谈到链表就不得不谈Linux内核中另外一个重要的结构，哈希链表。讨论这个结构前，你需要对哈希的最基本的概念要清楚哦，由于我们已经讲过Linux内核中的普通链表的结构，这里我们对比他们的区别来了解哈希链表会直观一些。Linux链表认为双指针表头双循环链表对于HASH表来说过于浪费，因而设计了一套用于HASH表的hlist的数据结构，单指针表头双循环链表。hlish表头仅有一个指向首节点的
解决mqtt有时候收不到消息技术需要沉淀gogo mqtt 前端
项目场景：mqtt订阅之后有时候收不到消息使用测试工具发订阅消息问题描述mqtt订阅之后有时候收不到消息原因分析：cleanSession:true每次客户端连接到MQTTBroker时，都会创建一个新的会话，原来的订阅、未完成的QoS1、QoS2消息会全部丢弃。解决方案：cleanSession:false持久化会话，当客户端断开后，Broker仍然会保留客户端的订阅关系和QoS1/QoS2等未
Angular中`trackBy`函数的独特性与性能优化 t0_54program 编程问题解决手册 angular.js 前端 javascript 个人开发
在Angular项目中，优化性能是每一个开发者都需要考虑的问题。特别是在处理大数据量或动态变化的列表时，Angular的trackBy函数成为了我们手中的利器。然而，当我们面对多个列表使用相同trackBy函数时，可能会产生一些疑问：如果这些列表中的项有相同的ID，是否会影响Angular的变更检测？本文将详细探讨trackBy函数在这种情境下的表现及其带来的性能优化。trackBy函数简介tra
CI/CD构建与注意事项 Sirius Wu ci/cd
1.CI/CD概述1.1定义CI（ContinuousIntegration，持续集成）：是一种软件开发实践，开发团队成员频繁地将代码集成到共享的代码仓库中。每次集成都会通过自动化的构建（包括编译、打包等）和测试来验证，从而尽早发现集成错误。CD（ContinuousDelivery/Deployment，持续交付/持续部署）：持续交付：是在持续集成的基础上，将经过测试的代码自动部署到预生产环境，
石油储运生产 2D 可视化，组态应用赋能工业智慧发展智慧园区智慧城市 big data 人工智能大数据物联网网络
当前，国际油价低位徘徊导致各国石油化工行业投资大幅缩减，石油化工建设行业竞争环境日趋严峻，施工企业的利润空间也被不断压缩。内外交困的环境下，促使企业采取更有效的管理手段来提高效率和降低成本。石油工业大数据具有无限潜力与价值，将大数据与数据挖掘技术应用其中，不仅可以提升石油行业工业化水平，而且对其智慧化发展起到强有力的推动作用。图扑软件-构建先进2D和3D可视化所需要的一切图扑软件采用自主研发的HT
学习-Java常用类之Calendar类 AIains Educoder—Java java
第1关：学习-Java常用类之Calendar类任务描述相关知识编程要求测试说明任务描述本关任务：获取给定年月的最后一天。相关知识我们通过之前的学习已经能够格式化并创建一个日期对象了，但是我们如何才能设置和获取日期数据的特定部分呢，比如说小时，日，或者分钟?我们又如何在日期的这些部分加上或者减去值呢?calendar类是一个抽象类，是Java日期处理的核心类之一。Calendar类为操作日历字段，
Jetson 系列摄像头使用说明【以Jetson Nano为例】爱吃小馋猫自动驾驶 opencv 人工智能计算机视觉
1、连接摄像头首先，把Nano的这个CSI接口的这个销子轻轻拔起，记住一定要小心，轻点儿！之后将摄像头连接线，如下图所示的方式插入。合上插销，连接完成！2、硬件连接第一步：将摄像头排线，金属面朝向散热板插入JetsonNVIDIA开发套件上的摄像头接口；第二步：启动JetsonNVIDIA；第三步：测试摄像头；第四步：打开终端（键盘按下Ctrl+ALT+T快捷键打开终端），输入以下指令测试摄像头；
精益架构设计：深入理解与实践 C# 中的单一职责原则江沉晚呤时 C#log4j java 算法 .netcore net jvm
在现代软件开发中，设计良好的架构对于系统的可维护性、可扩展性和高效性至关重要。而在众多的设计原则中，**单一职责原则（SRP）**作为面向对象设计中的核心原则之一，起到了至关重要的作用。它不仅有助于开发者保持代码的简洁性与高内聚性，同时也为代码的可维护性与可测试性提供了坚实的保障。本文将深入探讨单一职责原则的概念、优势以及如何在C#中高效实现这一原则，帮助开发者在实际项目中写出更加清晰、易于维护和
第二十二章: 静态多态与动态多态的衔接_《C++ Templates》notes 郭涤生 c/c++c++开发语言笔记
静态多态与动态多态的衔接核心知识点代码示例与测试用例测试用例输出多选题设计题关键技术总结核心知识点静态多态vs动态多态静态多态：编译期多态，通过模板实现，代码生成效率高，但灵活性差。动态多态：运行期多态，通过虚函数实现，灵活性高，但存在虚表开销。类型擦除（TypeErasure）核心思想：将不同类型的对象统一为通用接口，隐藏具体类型信息。实现方式：通常结合基类指针和模板注册机制。桥接模式（Brid
ArrayList 和 LinkedList区别重生之我在成电转码 java 多线程系统
一、底层实现特性ArrayListLinkedList数据结构动态数组（Object[]数组）双向链表（每个节点有前驱和后继）内存布局连续内存，空间利用率高非连续内存，空间占用大元素访问方式下标随机访问（基于索引）只能顺序遍历，找元素慢⏱二、时间复杂度对比（核心！）操作ArrayListLinkedList随机访问O(1)O(n)头部插入O(n)（全体后移）O(1)中间插入O(n)O(n)尾部插入
人民日报报道，华为云赋能智能制造助力图扑软件构造数字孪生场景智慧园区华为人工智能物联网
2021年12月22日，《人民日报》头版头条刊登了《华为云赋能智能制造，助力图扑软件构造数字孪生场景》一文，聚焦数据可视化建设发展。报道指出，数字经济发展的背后，是大数据时趋势下各地区积极贯彻国家数字经济发展战略的时代精神;高效便捷管控的背后，是云端平台各大企业的互助共赢;高质精准2D、3D数据可视图的背后，是专注于数据可视化Web组态开发的厦门图扑软件科技有限公司。并对厦门图扑软件科技有限公司进
【R语言2】Introduction to R 基础知识复习小测试 Pop quiz 不二程序猿 r语言开发语言数据挖掘
【R语言】基础知识点Popquiz前言Question1Question2Question3Question4Question5Question6Question7Question8Question9Question10是兄弟就砍一刀！答案前言在这里会有10道题，每一道都是对R语言的基础了解。有单选题和填空题，答案在最下面。填空题可以放到Rstudio里运行得出答案。Question1Whicho
sqlmap笔记君如尘网络安全-渗透笔记笔记
1.运行环境sqlmap是用Python编写的，因此首先需要确保你的系统上安装了Python。sqlmap支持Python2.6、2.7和Python3.4及以上版本。2.常用命令通用格式：bythonsqlmap.py-r注入点地址--参数-rpost请求-uget请求--level=测试等级--risk=测试风险-v显示详细信息级别-p针对某个注入点注入-threads更改线程数，加速--ba
华为云赋能智能制造，助力图扑软件构造数字孪生场景 36Kr网科技华为云制造 big data
出行手机查看交通方案、物业管理的智能可视勘察管控、疫情地图提前预知危害……这些曾经存在于科幻片中的高科技场景一一在现代生活得到了应用与普及，其背后的数据可视化应用，正贯穿于当今大数据时代的各行各业，成为人们洞察数据内涵的有力工具，推动数字经济发展驶入“快车道”。数字经济发展的背后，是大数据时趋势下各地区积极贯彻国家数字经济发展战略的时代精神；高效便捷管控的背后，是云端平台各大企业的互助共赢；高质精
Docker 容器基础技术：namespace 寻雾&启示 docker 容器运维
在容器内进程是隔离的，比如容器有自己的网络和文件系统，容器内进程的PID为1，这些都是依赖于Linuxnamespace所提供的隔离机制。本篇我们来了解下Linux有哪些namespace，以及它们是如何实现隔离的。文中案例代码均由ChatGPT生成，在Linux内核5.15.0-124-generic，ubuntu22.04LTS系统上测试通过。namespace类型每个进程都有自己所属的nam
[星球大战]阿纳金的背叛 comsci
本来杰迪圣殿的长老是不同意让阿纳金接受训练的......... 但是由于政治原因,长老会妥协了...这给邪恶的力量带来了机会所以......现代的地球联邦接受了这个教训...绝对不让某些年轻人进入学院
看懂它，你就可以任性的玩耍了！ aijuans JavaScript
javascript作为前端开发的标配技能，如果不掌握好它的三大特点：1.原型 2.作用域 3. 闭包 ,又怎么可以说你学好了这门语言呢？如果标配的技能都没有撑握好，怎么可以任性的玩耍呢？怎么验证自己学好了以上三个基本点呢，我找到一段不错的代码，稍加改动，如果能够读懂它，那么你就可以任性了。 function jClass(b
Java常用工具包 Jodd Kai_Ge java jodd
Jodd 是一个开源的 Java 工具集，包含一些实用的工具类和小型框架。简单，却很强大！写道 Jodd = Tools + IoC + MVC + DB + AOP + TX + JSON + HTML < 1.5 Mb Jodd 被分成众多模块，按需选择，其中工具类模块有： jodd-core &nb
SpringMvc下载 120153216 springMVC
@RequestMapping(value = WebUrlConstant.DOWNLOAD) public void download(HttpServletRequest request,HttpServletResponse response,String fileName) { OutputStream os = null; InputStream is = null;
Python 标准异常总结 2002wmj python
Python标准异常总结 AssertionError 断言语句（assert）失败 AttributeError 尝试访问未知的对象属性 EOFError 用户输入文件末尾标志EOF（Ctrl+d） FloatingPointError 浮点计算错误 GeneratorExit generator.close()方法被调用的时候 ImportError 导入模块失
SQL函数返回临时表结构的数据用于查询 357029540 SQL Server
这两天在做一个查询的SQL，这个SQL的一个条件是通过游标实现另外两张表查询出一个多条数据，这些数据都是INT类型，然后用IN条件进行查询，并且查询这两张表需要通过外部传入参数才能查询出所需数据，于是想到了用SQL函数返回值，并且也这样做了，由于是返回多条数据，所以把查询出来的INT类型值都拼接为了字符串，这时就遇到问题了，在查询SQL中因为条件是INT值，SQL函数的CAST和CONVERST都
java 时间格式化 | 比较大小| 时区个人笔记 7454103 java eclipse tomcat c MyEclipse
个人总结！不当之处多多包含！引用 1.0 如何设置 tomcat 的时区：位置：(catalina.bat---JAVA_OPTS 下面加上) set JAVA_OPT
时间获取Clander的用法 adminjun Clander 时间
/** * 得到几天前的时间 * @param d * @param day * @return */ public static Date getDateBefore(Date d,int day){ Calend
JVM初探与设置 aijuans java
JVM是Java Virtual Machine（Java虚拟机）的缩写，JVM是一种用于计算设备的规范，它是一个虚构出来的计算机，是通过在实际的计算机上仿真模拟各种计算机功能来实现的。Java虚拟机包括一套字节码指令集、一组寄存器、一个栈、一个垃圾回收堆和一个存储方法域。 JVM屏蔽了与具体操作系统平台相关的信息，使Java程序只需生成在Java虚拟机上运行的目标代码（字节码）,就可以在多种平台
SQL中ON和WHERE的区别 avords
SQL中ON和WHERE的区别数据库在通过连接两张或多张表来返回记录时，都会生成一张中间的临时表，然后再将这张临时表返回给用户。 www.2cto.com 在使用left jion时，on和where条件的区别如下： 1、 on条件是在生成临时表时使用的条件，它不管on中的条件是否为真，都会返回左边表中的记录。
说说自信 houxinyou 工作生活
自信的来源分为两种,一种是源于实力,一种源于头脑.实力是一个综合的评定,有自身的能力,能利用的资源等.比如我想去月亮上,要身体素质过硬,还要有飞船等等一系列的东西.这些都属于实力的一部分.而头脑不同,只要你头脑够简单就可以了!同样要上月亮上,你想,我一跳,1米,我多跳几下,跳个几年,应该就到了!什么?你说我会往下掉?你笨呀你!找个东西踩一下不就行了吗? 无论工作还
WEBLOGIC事务超时设置 bijian1013 weblogic jta 事务超时
系统中统计数据，由于调用统计过程，执行时间超过了weblogic设置的时间，提示如下错误：统计数据出错! 原因：The transaction is no longer active - status: 'Rolling Back. [Reason=weblogic.transaction.internal
两年已过去，再看该如何快速融入新团队 bingyingao java 互联网融入架构新团队
偶得的空闲，翻到了两年前的帖子该如何快速融入一个新团队，有所感触，就记下来，为下一个两年后的今天做参考。时隔两年半之后的今天，再来看当初的这个博客，别有一番滋味。而我已经于今年三月份离开了当初所在的团队，加入另外的一个项目组，2011年的这篇博客之后的时光，我很好的融入了那个团队，而直到现在和同事们关系都特别好。大家在短短一年半的时间离一起经历了一
【Spark七十七】Spark分析Nginx和Apache的access.log bit1129 apache
Spark分析Nginx和Apache的access.log，第一个问题是要对Nginx和Apache的access.log文件进行按行解析，按行解析就的方法是正则表达式： Nginx的access.log解析正则表达式 val PATTERN = """([^ ]*) ([^ ]*) ([^ ]*) (\\[.*\\]) (\&q
Erlang patch bookjovi erlang
Totally five patchs committed to erlang otp, just small patchs. IMO, erlang really is a interesting programming language, I really like its concurrency feature. but the functional programming style
log4j日志路径中加入日期 bro_feng java log4j
要用log4j使用记录日志，日志路径有每日的日期，文件大小5M新增文件。实现方式 log4j: <appender name="serviceLog" class="org.apache.log4j.RollingFileAppender"> <param name="Encoding" v
读《研磨设计模式》-代码笔记-桥接模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * 个人觉得关于桥接模式的例子，蜡笔和毛笔这个例子是最贴切的：http://www.cnblogs.com/zhenyulu/articles/67016.html * 笔和颜色是可分离的，蜡笔把两者耦合在一起了：一支蜡笔只有一种
windows7下SVN和Eclipse插件安装 chenyu19891124 eclipse插件
今天花了一天时间弄SVN和Eclipse插件的安装，今天弄好了。svn插件和Eclipse整合有两种方式，一种是直接下载插件包，二种是通过Eclipse在线更新。由于之前Eclipse版本和svn插件版本有差别，始终是没装上。最后在网上找到了适合的版本。所用的环境系统：windows7JDK：1.7svn插件包版本：1.8.16Eclipse：3.7.2工具下载地址：Eclipse下在地址：htt
[转帖]工作流引擎设计思路 comsci 设计模式工作应用服务器 workflow 企业应用
作为国内的同行，我非常希望在流程设计方面和大家交流，刚发现篇好文(那么好的文章，现在才发现，可惜)，关于流程设计的一些原理，个人觉得本文站得高，看得远，比俺的文章有深度，转载如下 ================================================================================= 自开博以来不断有朋友来探讨工作流引擎该如何
Linux 查看内存，CPU及硬盘大小的方法 daizj linux cpu 内存硬盘大小
一、查看CPU信息的命令 [root@R4 ~]# cat /proc/cpuinfo |grep "model name" && cat /proc/cpuinfo |grep "physical id" model name : Intel(R) Xeon(R) CPU X5450 @ 3.00GHz model name :
linux 踢出在线用户 dongwei_6688 linux
两个步骤： 1.用w命令找到要踢出的用户，比如下面： [root@localhost ~]# w 18:16:55 up 39 days, 8:27, 3 users, load average: 0.03, 0.03, 0.00 USER TTY FROM LOGIN@ IDLE JCPU PCPU WHAT
放手吧,就像不曾拥有过一样 dcj3sjt126com
内容提要：静悠悠编著的《放手吧就像不曾拥有过一样》集结“全球华语世界最舒缓心灵”的精华故事，触碰生命最深层次的感动，献给全世界亿万读者。《放手吧就像不曾拥有过一样》的作者衷心地祝愿每一位读者都给自己一个重新出发的理由，将那些令你痛苦的、扛起的、背负的，一并都放下吧！把憔悴的面容换做一种清淡的微笑，把沉重的步伐调节成春天五线谱上的音符，让自己踏着轻快的节奏，在人生的海面上悠然漂荡，享受宁静与
php二进制安全的含义 dcj3sjt126com PHP
PHP里，有string的概念。 string里，每个字符的大小为byte（与PHP相比，Java的每个字符为Character，是UTF8字符，C语言的每个字符可以在编译时选择）。 byte里，有ASCII代码的字符，例如ABC，123，abc，也有一些特殊字符，例如回车，退格之类的。特殊字符很多是不能显示的。或者说，他们的显示方式没有标准，例如编码65到哪儿都是字母A，编码97到哪儿都是字符
Linux下禁用T440s，X240的一体化触摸板(touchpad) gashero linux ThinkPad 触摸板
自打1月买了Thinkpad T440s就一直很火大，其中最让人恼火的莫过于触摸板。 Thinkpad的经典就包括用了小红点(TrackPoint)。但是小红点只能定位，还是需要鼠标的左右键的。但是自打T440s等开始启用了一体化触摸板，不再有实体的按键了。问题是要是好用也行。实际使用中，触摸板一堆问题，比如定位有抖动，以及按键时会有飘逸。这就导致了单击经常就
graph_dfs hcx2013 Graph
package edu.xidian.graph; class MyStack { private final int SIZE = 20; private int[] st; private int top; public MyStack() { st = new int[SIZE]; top = -1; } public void push(i
Spring4.1新特性——Spring核心部分及其他 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
配置HiveServer2的安全策略之自定义用户名密码验证 liyonghui160com
具体从网上看 http://doc.mapr.com/display/MapR/Using+HiveServer2#UsingHiveServer2-ConfiguringCustomAuthentication LDAP Authentication using OpenLDAP Setting
一位30多的程序员生涯经验总结 pda158 编程工作生活咨询
1.客户在接触到产品之后，才会真正明白自己的需求。　　这是我在我的第一份工作上面学来的。只有当我们给客户展示产品的时候，他们才会意识到哪些是必须的。给出一个功能性原型设计远远比一张长长的文字表格要好。 2.只要有充足的时间，所有安全防御系统都将失败。　　安全防御现如今是全世界都在关注的大课题、大挑战。我们必须时时刻刻积极完善它，因为黑客只要有一次成功，就可以彻底打败你。 3.
分布式web服务架构的演变自由的奴隶 linux Web 应用服务器互联网
最开始，由于某些想法，于是在互联网上搭建了一个网站，这个时候甚至有可能主机都是租借的，但由于这篇文章我们只关注架构的演变历程，因此就假设这个时候已经是托管了一台主机，并且有一定的带宽了，这个时候由于网站具备了一定的特色，吸引了部分人访问，逐渐你发现系统的压力越来越高，响应速度越来越慢，而这个时候比较明显的是数据库和应用互相影响，应用出问题了，数据库也很容易出现问题，而数据库出问题的时候，应用也容易
初探Druid连接池之二——慢SQL日志记录 xingsan_zhang 日志连接池 druid 慢SQL
由于工作原因，这里先不说连接数据库部分的配置，后面会补上，直接进入慢SQL日志记录。 1.applicationContext.xml中增加如下配置： <bean abstract="true" id="mysql_database" class="com.alibaba.druid.pool.DruidDataSourc