坤岭

StarRocks

基本概念

系统架构

功能

排序键

物化视图

数据导入

使用

库表创建

数据类型

注意事项

新增分区

修改字段类型

问题

问题1：

问题2：

问题3：

问题4：

问题5：

ClickHouse与StarRocks的对比

StarRocks

StarRocks是新一代企业级MPP数据库。StarRocks重新定义了MPP分布式架构，集群可扩展至数百节点，支持PB

级数据规模，是当前唯一可以在大数据规模下进行在线弹性扩展的企业级分析型数据库。StarRocks还打造了全新

的向量化执行引擎，单节点每秒可处理多达100亿行数据。

StarRocks致力于满足企业用户的多种数据分析场景，支持多种数据模型(明细表，聚合表)，多种导入方式

（批量），可整合和接入多种现有系统(Spark， Flink， Hive， ElasticSearch)。
StarRocks兼容MySQL协议，可使用MySQL客户端和常用BI工具对接StarRocks来进行数据分析。
StarRocks采用分布式架构，对table进行水平划分并以多副本存储. 集群规模可以灵活伸缩，能够支持10PB

级别的数据分析; 支持MPP，并行加速计算; 支持多副本，具有弹性容错能力。
StarRocks采用关系模型，使用严格的数据类型，使用列式存储引擎，通过编码和压缩技术，降低读写放大.

使用向量化执行方式，充分挖掘多核CPU的并行计算能力，从而显著提升查询性能。
StarRocks根据摄入数据和实际存储数据之间的映射关系, 其中明细表对应明细模型（Duplicate Key），聚合

表对应聚合模型（Aggregate Key），更新表对应更新模型（Unique Key）和主键模型（Primary Key）。

为了描述方便, 我们借鉴关系模式中的主键概念, 称StarRocks表的维度列的取值构成数据表的排序键, StarRocks的

排序键对比传统的主键具有:

数据表所有维度列构成排序键, 所以后文中提及的排序列, key列本质上都是维度列。
排序键可重复, 不必满足唯一性约束。
数据表的每一列, 以排序键的顺序, 聚簇存储。
排序键使用稀疏索引。

基本概念

FE：FrontEnd StarRocks的前端节点，负责管理元数据，管理客户端连接，进行查询规划，查询调度等工作。

BE：BackEnd StarRocks的后端节点，负责数据存储，计算执行，以及compaction，副本管理等工作。

Broker：StarRocks中和外部HDFS/对象存储等外部数据对接的中转服务，辅助提供导入导出功能。

Tablet：StarRocks 表的逻辑分片，也是StarRocks中副本管理的基本单位，每个表根据分区和分桶机制被划分

成多个Tablet存储在不同BE节点上。

系统架构

StarRocks 集群由FE和BE构成, 可以使用MySQL客户端访问StarRocks集群。

查询流程如下：

① MySQL客户端执行DQL SQL命令。

② FE解析, 分析, 改写, 优化和规划, 生成分布式执行计划。

③ 分布式执行计划由若干个可在单台be上执行的plan fragment构成， FE执行exec_plan_fragment, 将

plan fragment分发给BE，指定其中一台BE为coordinator。

④ BE执行本地计算, 比如扫描数据。

⑤ 其他BE调用transimit_data将中间结果发送给BE coordinator节点汇总为最终结果。

⑥ FE调用fetch_data获取最终结果。

⑦ FE将最终结果发送给MySQL client。

功能

排序键

StarRocks中为加速查询，在内部组织并存储数据时，会把表中数据按照指定的列进行排序，这部分用于排序的列

（可以是一个或多个列），可以称之为Sort Key。明细模型中Sort Key就是指定的用于排序的列（即 DUPLICATE

KEY 指定的列），聚合模型中Sort Key列就是用于聚合的列（即 AGGREGATE KEY 指定的列），更新模型中Sort

Key就是指定的满足唯一性约束的列（即 UNIQUE KEY 指定的列）。下图中的建表语句中Sort Key都为 (site_id、

city_code)。

如何选择排序列：

当Sort Key涉及多个列的时候，谁先谁后也有讲究，区分度高、经常查询的列建议放在前面。

有两点需要注意：

排序列的定义必须出现在建表语句中其他列的定义之前。
排序列的顺序是由create table语句中的列顺序决定的。

物化视图

物化视图是一种预先计算的技术，同RollUp表，预先计算是为了减少查询时现场计算量，从而降低查询延迟。明

细表包含所有原始的导入数据，因此可对明细表进行任意维度分析，而物化视图正是为了解决明细表的任意维度分

析的预先聚合而提出，同时物化视图的功能是RollUp表的超集，原有的RollUp功能都可通过物化视图来实现。

物化视图的使用场景有：

分析需求覆盖明细数据查询以及固定维度聚合查询两方面。
需要做对排序键前缀之外的其他列组合形式做范围条件过滤。
需要对明细表的任意维度做粗粒度聚合分析。

注：

如果表存在delete 操作，不建议创建物化视图（可能会导致删除数据失败）；
仅明细模型支持聚合函数物化视图；
物化视图的聚合函数的参数仅支持单列, 比如： sum(a+b)不支持。
如果删除语句的条件列，在物化视图中不存在，则不能进行删除操作。如果一定要删除数据，则需要先将物化视图删除，然后方可删除数据。
单表上过多的物化视图会影响导入的效率：导入数据时，物化视图和 base 表数据是同步更新的，如果一张表的物化视图表超过10张，则有可能导致导入速度很慢。这就像单次导入需要同时导入10张表数据是一样的。
相同列，不同聚合函数，不能同时出现在一张物化视图中，比如：select sum(a), min(a) from table 不支持。物化视图的创建语句目前不支持JOIN和WHERE, 也不支持GROUP BY的HAVING子句。
不能同时创建多个物化视图, 只能等待上一个物化视图创建完成, 才能创建下一个物化视图。

数据导入

StarRocks提供了多种导入方式，用户可以根据数据量大小、导入频率等要求选择最适合自己业务需求的导入方式。

为适配不同的数据导入需求，StarRocks 系统提供了5种不同的导入方式，以支持不同的数据源（如HDFS、Kafka、本地文件等），或者按不同的方式（异步或同步）导入数据。

所有导入方式都支持 CSV 数据格式。其中 Broker Load 持 Parquet 和 ORC 数据格式。

1.Broker Load

Broker Load 通过 Broker 进程访问并读取外部数据源，然后采用 MySQL 协议向 StarRocks 创建导入作业。

提交的作业将异步执行，用户可通过 SHOW LOAD 命令查看导入结果。

Broker Load适用于源数据在Broker进程可访问的存储系统（如HDFS）中，数据量为几十GB到上百GB。

hdfs servicenames = HDFS43394

2.Spark Load

Spark Load 通过外部的 Spark 资源实现对导入数据的预处理，提高 StarRocks 大数据量的导入性能并且节省

StarRocks 集群的计算资源。Spark load 是一种异步导入方式，需要通过 MySQL 协议创建导入作业，并通过

SHOW LOAD 查看导入结果。

Spark Load适用于初次迁移大数据量（可到TB级别）到StarRocks的场景，且源数据在Spark可访问的存储系

统（如HDFS）中。

3.Stream Load

Stream Load是一种同步执行的导入方式。用户通过 HTTP 协议发送请求将本地文件或数据流导入到

StarRocks中，并等待系统返回导入的结果状态，从而判断导入是否成功。

Stream Load适用于导入本地文件，或通过程序导入数据流中的数据。

例： curl --location-trusted -u root:root -H "Expect:100-continue" -H "column_separator:," -T

/data/clickhouse-test/ads_guider_saas_share_rank_d/ads_guider_saas_share_rank_d_af.1 -XPUT http://

10.12.114.170:8030/api/db_sente_test/ads_guider_saas_share_rank_d/_stream_load

4.Routine Load

Routine Load（例行导入）提供了一种自动从指定数据源进行数据导入的功能。用户通过 MySQL 协议提交

例行导入作业，生成一个常驻线程，不间断的从数据源（如 Kafka）中读取数据并导入到 StarRocks 中。

5.Insert Into

类似 MySQL 中的 Insert 语句，StarRocks 提供 INSERT INTO tbl SELECT ...; 的方式从 StarRocks 的表中读取

数据并导入到另一张表。或者通过 INSERT INTO tbl VALUES(...); 插入单条数据。

使用

库表创建

一、建库

建库语法：

CREATE DATABASE IF NOT EXISTS 库名;

例：

CREATE DATABASE IF NOT EXISTS mp_aries;

查看创建结果：

SHOW DATABASES;

二、建表

表引擎

StarRocks支持4种表引擎，可以根据实际情况选择合适的表引擎

引擎名称	引擎说明	场景	备注
olap	默认引擎	正常使用这个	默认引擎，一般就用这个
mysql		访问mysql外部表
hive		访问hive外部表
broker		访问broker

表模型

StarRocks支持3种数据模型，可以根据实际情况选择合适的模型

模型名称	模型定义	说明	场景
明细模型	DUPLICATE KEY	原始数据，同主键数据不会去重合并，类似于ck的MergeTree	数据更新不频繁。不用更新的日志、行为记录表，导入数据的来源一般为日志数据或者是时序数据, 以追加写为主要特点, 数据产生后就不会发生太多变化。
更新模型	UNIQUE KEY	同样是原始明细数据，同主键数据会覆盖更新，类似于ck的ReplacingMergeTree	已经写入的数据有大量的更新需求；应该是sente最通常的场景，
聚合模型	AGGREGATE KEY	存储聚合数据，相同主键的数据会按照聚合规则汇总成一行，类似于ck的AggregatingMergeTree	业务方进行的查询为汇总类查询，比如sum、count、 max等类型的查询；不需要召回原始明细数据，直接提供聚合结果的特定场合，表中数据大大减少，性能高

创建表

建表语法：

CREATE [EXTERNAL] TABLE [IF NOT EXISTS] [database.]table_name
(column_definition1[, column_definition2, ...]
[, index_definition1[, ndex_definition12,]]) -- 列定义，基本类似mysql
[ENGINE = [olap|mysql|broker|hive]] -- engine一般就选默认的olap，可以省略这个语句
[key_desc] -- 设置数据模型以及主键字段
[COMMENT "table comment"] -- 表备注
[partition_desc] -- 分区设置，不是分区表可以不用写
[distribution_desc] -- 分布设置（哈希，分桶）
[rollup_index] -- 上卷设置（不使用可以忽略）
[PROPERTIES ("key"="value", ...)] -- 附加参数配置（副本数、存储介质、动态分区，
如果不是分区表可以用默认的不用设置）
[BROKER PROPERTIES ("key"="value", ...)]; -- broker附加参数（针对broker引擎，一般用不到）

注意：

建表时，Key列不能用Float或者Double类型，可用Decimal类型表示小数。
VARCHAR最长可为65533字节（由于前两个字节用于表示长度，因此比65535少两个字节）。
StarRocks只支持UTF8编码，不支持GBK等编码。
StarRocks不支持修改表中的列名。
SQL 最大长度默认10000字节，可以通过fe.conf的 expr_child_limit 修改

数据类型

分类	常用类型	字节数	说明
整数(starrocks整数都是有符号的)	tinyint	1	数据范围： -128 ~ 127
smallint	2	数据范围：-32768 ~ 32767
int	4	数据范围： -2147483648 ~ 2147483647
bigint	8	数据范围： -9223372036854775808 ~ 9223372036854775807
largeint	16	数据范围：-2^127 ~ 2^127 - 1
浮点数	float	4	32位浮点数
double	8	64位浮点数
定点数	decimal(precision, scale)	16	保证精度的小数类型。默认是 DECIMAL(10, 0) precision: 1 ~ 38 scale: 0 ~ precision其中整数部分为：precision - scale不支持科学计数法
字符串	不定长	varchar(n)		变长字符串，n为最大长度，范围：1-65536
定长	char(n)		固定长度n的字符串，范围：1-255
不定长	string		任意长度的字符串（建议用这个）
日期与时间	日期	date	3	日期类型，'2021-01-08'，精确到天，范围：0000-01-01 ~ 9999-12-31
时间	datetime	8	日期时间类型，'2021-01-08 13:13:13'，精确到秒，范围：0000-01-01 00:00:00 ~ 9999-12-31 23:59:59
特殊类型	hll		hll列类型，不需要指定长度和默认值，长度根据数据的聚合程度系统内控制，并且HLL列只能通过配套的hll_union_agg、Hll_cardinality、hll_hash进行查询或使用
bitmap		bitmap列类型，不需要指定长度和默认值。表示整型的集合，元素最大支持到2^64 - 1

注意事项

Starrocks建表时字段默认都是可空的（NULL)，如果需要设置为非空，建表语句加上NOT NULL修饰（这点跟官方文档不一样，待确认）

建议在sql中显示指定，非空的就设置NOT NULL, 可空的就设置NULL
Starrocks没有0-1布尔类型，用tinyint取代，只存储0和1两种值即可

为了使用方便、节省存储空间、查询性能等方面考虑，强烈建议库表设计时按照如下原则

1）所有的字段都需要根据业务意义考虑好所使用的字段类型，并且在各个表中保持一致；

例如：order_num，订单数量，设置为bigint了，那么就在所有涉及的表中，把表达订单数量这个含义的字段，都使用bigint

再如：user_age，用户年龄，设计为tinyint了，那么就都是tinyint，不要这里设计成bigint，那里是tinyint

2）在1）的前提下，考虑字段类型设计时，尽量设计成最小范围/最小性能消耗的字段

例如：

a) 尽量考虑字段设置为非空，允许为空会占用额外存储空间影响性能。主键必须设置非空，非主键在不影响业务需要前提下尽可能做到非空设置默认值

b) 如果是时间日期类型，尽量用Date/DateTime，避免用字符串

c) 如果能保证固定是数字，就不要用字符串

d) 如果是整数，就不要用Float/Double/Decimal

e) 对于金额之类场景，精度要求高的，可以用decimal；普通的浮点数场景，可以使用Float/Double

f) 如果能用范围小的整数，就不要用范围大的类型，比如age 导购年龄，我们用户不会超过100，那么tinyint (-128 - 127）就是一个合理的选择

g) 对于固定的字符串类型，比如是、否，可以存储char(1);

新增分区

-- 首先, 关闭动态分区功能
alter table mp_sente.ads_cmn_saas_member_d set ("dynamic_partition.enable" = "false");
-- 然后，将历史的分区补上
-- 第一个日期写需要同步的历史数据最早日期
-- 第二个日期写当前表最早的那个分区
alter table mp_sente.ads_cmn_saas_member_d add partitions start ("2019-04-01") end ("2019-12-20") every (interval 1 day); -- 补上从2019-06-01(含)到2019-12-20(不含)的分区
-- 最后，恢复动态分区功能
alter table mp_sente.ads_cmn_saas_member_d set ("dynamic_partition.enable" = "true");

修改字段类型

期望是将bigint 修改为 decimal

在sr支持的情况下是可以直接通过下面的修改命令操作，鉴于sr暂时不支持下面的修改操作，故选择了重新建表
尝试替换原子表，发现还是用不了，替换命令需要保持两个原子表完全一样

最终操作

--第一步，创建新新结构表
CREATE TABLE mp_sente.ads_gdr_saas_guide_olap_dwm_bak LIKE mp_sent.ads_gdr_saas_guide_olap_dwm;
-- 第二步老表移动数据到新表
INSERT INTO mp_sente.ads_gdr_saas_guide_olap_dwm_bak
SELECT * FROM mp_sente.ads_gdr_saas_guide_olap_dwm;
-- 第三步核对数据量是否一致
SELECT 'new' t,count(1) sl        FROM mp_sente.ads_gdr_saas_guide_olap_dwm_bak
UNION ALL
SELECT 'old' t,count(1) sl        FROM mp_sente.ads_gdr_saas_guide_olap_dwm;
--第四步修改表名称
ALTER TABLE ads_gdr_saas_guide_olap_dwm RENAME ads_gdr_saas_guide_olap_dwm_1;
ALTER TABLE ads_gdr_saas_guide_olap_dwm_bak RENAME ads_gdr_saas_guide_olap_dwm;
--第五步删除老表
DROP TABLE ads_gdr_saas_guide_olap_dwm_1;

问题

问题1：

解决方案，强制下载驱动文件

问题2：

可以直接删除表，重建，不用必须删除文件

问题3：

output_sr 两个文件需要先执行tmp文件，然后再执行这个

问题4：

数据质量问题，sr的建表默认设置的非空

解决办法，把hive的设置默认值，或者把sr的建表语句中的非空去掉

问题5：

org.jkiss.dbeaver.model.sql.DBSQLException: SQL 错误 [1064] [42000]:

The query contains multi count distinct or sum distinct, each can't have multi columns.

不能多字段去重

select
    count(DISTINCT user_id) as perCount,
    count(DISTINCT user_id , round_id) as shakeCount
from
    wall_t_shake_record
优化后

SELECT
    wall_id,
    count(DISTINCT user_id),
    count(DISTINCT concat(user_id,'_', round_id))
FROM
    wall_t_shake_record
GROUP BY
    wall_id ;

ClickHouse与StarRocks的对比

	StarRocks	ClickHouse
标准SQL语言的支持	支持标准的SQL语言，兼容MySQL协议，现有业务SQL无需改写	不支持标准的SQL语言
分布式join	支持各种主流分布式join，不仅支持大宽表模型，还支持星型模型和雪花模型	几乎不支持分布式join，推荐大宽表
高并发查询	现代化MPP数据分布方式，数据按照分片的方式保存，小查询只需要用到部分机器资源，极大地提高并发查询量	传统MMP数据分布式，小查询会极大消耗集群资源，无法实现高并发查询，并且无法通过扩容的方式来提高并发能力
MPP架构	现代化MPP架构，可以实现多层聚合，能够执行复杂的SQL查询，大表join，高基数聚合查询等	Scatter-Gather模式，聚合操作依赖单点完成，操作数据量大时存在明显的性能瓶颈
Exactly once 语义	数据导入有事务保证，可以实现Exactly once语义，数据导入“不丢不重”	无法保证数据写入的“不丢不重”
集群扩容	现代化MPP数据分布式方式，扩容时只需要迁移部分数据分片走即可，系统自动完成，不影响线上服务	传统MPP数据分布式，数据扩容时需要进行数据重分布，需要人工操作，工作量巨大，影响线上服务
运维	不依赖任务外部系统，整个系统只有两种进程，自动故障恢复，极简运维	分布式方案依赖Zookeeper，在集群扩大时，Zookeeper会变成性能瓶颈，额外运维和维护成本高
社区生态	开源社区的核心研发人员都是中国人	开源社区被俄罗斯公司把持
优点	单表查询和多表查询性能都很强，可以同时较好支持宽表查询场景和复杂多表查询。支持高并发查询。支持实时数据微批ETL处理。流式和批量数据写入都能都比较强。兼容MySQL协议和标准SQL。	很强的单表查询性能，适合基于大宽表的灵活即席查询。包含丰富的MergeTree Family，支持预聚合。非常适合大规模日志明细数据写入分析。
缺点	周边生态比较不完善。部分SQL语法不支持。	不支持真正的删除与更新。Join方式不是很友好。并发能力比较低。MergeTree合并不完全。

文心4.5开源背后的战略棋局：百度为何选择All in开放？度假的小鱼 AI/大数据创作活动打卡 #人工智能基础文心大模型开源 GitCode 百度
文章目录引言：一场颠覆AI行业格局的孤注国内开源模型的崛起与威胁国际竞争格局的重塑1.技术维度：开源是突破模型性能瓶颈的“加速器”1.1闭源模型的“内卷化”困境1.2文心4.5的开源技术架构：从“黑箱”到“乐高”1.2.1文心4.5的技术创新1.2.2工具链的成熟配套2.商业维度：开源是重构AI市场规则的“核武器”2.1闭源时代的“赢家通吃”逻辑2.2文心4.5的开源商业模型：从“卖API”到“卖
自动字幕生成器：Auto-Subtitle — 技术解析与应用指南房耿园Hartley
自动字幕生成器：Auto-Subtitle—技术解析与应用指南在视频内容日益丰富的今天，自动字幕生成工具变得越来越重要，尤其是对于听障人士、非母语者和在嘈杂环境下观看视频的人来说。Auto-Subtitle是一个开源项目，它利用先进的自然语言处理（NLP）技术为你的视频自动生成准确的字幕。本文将深入探讨这个项目的原理、功能、应用场景及特点，以期吸引更多开发者和用户关注并使用。项目简介Auto-Su
橙武低代码平台：视频操作说明发布啦
橙武低代码平台：为制造业、零售、政企、CRM打造的高效数字化引擎在数字化浪潮席卷全球的今天，企业对高效、灵活、可扩展的数字化工具的需求愈发强烈。面对多变的市场环境，如何在最短的时间、以最少的成本构建出满足业务需求的系统，成为众多企业数字化转型的痛点。为此，我们基于Amis6.12.0+LogicFlow2.0.13+Pebble3.2.4+MySQL8技术栈，倾力打造了一款面向企业级场景的低代码开
机器视觉通用平台之点点距离算法工具类
usingCvBase;usingCWindowTool;usingSystem;usingSystem.Collections.Generic;usingSystem.Linq;usingSystem.Text;usingSystem.Threading.Tasks;usingHalconDotNet;usingNewtonsoft.Json;usingSystem.IO;namespaceCv
机器视觉通用平台之点轮廓距离算法工具类小治视觉 c#算法 visual studio windows ui
usingCvBase;usingCWindowTool;usingHalconDotNet;usingSystem;usingSystem.Collections.Generic;usingSystem.IO;usingSystem.Linq;usingSystem.Text;usingSystem.Threading.Tasks;namespaceCvImageTool.DistancePC{
自学软件测试需要学什么？ AIZHINAN 软件测试软件测试面试自学软件测试软件测试培训转行软件测试
软件测试是一个系统化的领域，需要掌握测试理论、工具、编程、环境配置、业务流程等多方面知识。以下是系统化的学习路径，涵盖从入门到进阶的核心内容：软件测试视频教程，从入门到精通（完整版）零基础小白也可学！一、测试理论基础1.测试基础概念软件测试的定义、目的（质量保障、缺陷预防）。测试流程：需求分析→测试计划→用例设计→执行→缺陷管理→报告。常见术语：黑盒/白盒测试、回归测试、冒烟测试、Alpha/Be
为什么选择Selenium自动化测试？ AIZHINAN selenium 测试工具自动化测试 pytest python 职场和发展
选择Selenium作为自动化测试工具的主要原因包括其开源、跨平台、多语言支持和强大的生态系统等优势。以下是详细分析：软件测试-Selenium自动化测试教程，零基础小白也能快速入门！python+selenium1.开源免费零成本：Selenium是开源工具，无需支付许可费用，适合预算有限的团队。社区支持：活跃的开发者社区提供丰富的学习资源、插件和问题解决方案。2.跨平台&跨浏览器支持多浏览器：
浮漂式水质监测设备：智能守护水环境的未来之眼柏峰电子人工智能
浮漂式水质监测设备：智能守护水环境的未来之眼柏峰【BF-FBSZ】随着全球水资源短缺和水污染问题日益严峻，水质监测技术正迎来前所未有的发展机遇。作为这一领域的创新突破，浮漂式水质监测设备凭借其实时性、智能化和网络化优势，正在重塑水资源管理的新格局。本文将深入探讨这一技术的原理、特点、应用场景及未来发展趋势。一、技术原理与系统架构浮漂式水质监测设备是一种集成了现代传感器技术、物联网和大数据分析的智能
Python+Selenium自动化
1，什么是seleniumselenium是一个开源的自动化测试框架，主要适用WEB测试，可以支持多种语言(Java,C#,Python,php等)，既然支持多语言开发，那跨平台自然就不用多说啦，selenium有几个版本，一个是seleniumIDE(是一个安装在火狐浏览器上的一个插件，可以用来录制脚本，然后导出自动生成对应的开发语言文件)，seleniumGrid(自动化辅助工具，楼主还没深入
高频面试雷区：Java Object六大核心方法源码剖析
JavaObject核心方法全解：从源码到实战的深度指南在Java开发中，90%的对象操作都离不开Object类的方法，但大多数开发者仅停留在表面理解。本文将深入源码揭示每个方法的底层机制，并通过真实场景展示如何正确使用这些基础但强大的工具。一、Object类全景图：Java对象的基因库Object+wait():void+wait(longtimeout):void+notify():void+
AI-调查研究-33- 咖啡价格战连锁咖啡低价策略全景分析：补贴、成本与盈利模型
点一下关注吧！！！非常感谢！！持续更新！！！AI篇持续更新中！（长期更新）AI炼丹日志-30-新发布【1T万亿】参数量大模型！Kimi‑K2开源大模型解读与实践，持续打造实用AI工具指南！Java篇正式开启！（300篇）目前2025年07月16日更新到：Java-74深入浅出RPCDubboAdmin可视化管理安装使用源码编译、Docker启动MyBatis已完结，Spring已完结，Nginx已
养成良好的学习习惯，从细心开始大木c老师
作者：大木c老师数学活动，辉拿到自己的作业单，他打开工具盒，拿出铅笔，开始做了第一页，很快完成了第一页的题目。第二页，他完成了2题就翻到第3页了，第4页是涂颜色，他边看边涂，涂了一会，就走到卫的旁边，看卫，一会儿后，他又回到自己的座位上，拿起笔涂了起来，涂完了就交给老师。他的作业错了一些，还有一些没有做。他又回到自己的座位上改错和完成没有完成的作业。可以看出辉对数学是感兴趣的，他开始的时候是认真的
基于AutoCut实现在文档中按照片段剪辑视频 Mr数据杨 Python 音频技术音视频
本项目致力于通过构建一个具备深度学习支持的多功能视频处理环境，为用户提供高效、智能的视频编辑和字幕生成工具。依托Anaconda环境管理工具和PyTorch的GPU加速能力，用户能够迅速搭建一个符合项目需求的Python环境。结合FunClip的源代码以及相关插件的安装和配置，用户可充分利用项目所支持的图像、音频识别功能，并以极少的配置便获得理想的视频裁剪效果。项目的核心在于简化深度学习项目的环境
告别“刀耕火种”！我用Maven搭建的现代化开发“武器库” 满分观察网友z Java maven java
告别“刀耕火种”！我用Maven搭建的现代化开发“武器库”嘿，各位新来的小伙伴们，今天想和大家聊聊一个老生常谈但又至关重要的工具——Maven。可能你觉得，不就是个包管理工具嘛，有啥好聊的？别急，回想一下你（或者我当年）经历过的噩梦场景：场景一：混乱的lib文件夹每个项目都得手动创建一个lib文件夹，然后去网上下载各种jar包，一股脑塞进去。项目A用log4j-1.2.17.jar，项目B用log
维基框架发布 1.0.11 至中央仓，深化国产化 DevOps 生态整合维基框架维基框架 spring boot spring cloud mybatis 架构
一、核心事件：维基框架1.0.11正式入驻中央仓库维基框架（Wiki-Framework）作为国产全场景Java企业级开发框架，于7月9日正式发布v1.0.11版本至中央软件仓库（MavenCentral），标志着其正式纳入全球主流开发工具生态。本次发布聚焦安全增强与云原生适配：安全升级：集成OAuth2.1协议，修复CVE-2025-0113等5项高危漏洞，支持国密算法SM4加密通信。云原生支持
小程序如何开发？圆盾潮汐哥
小程序如今已经是企业和商家的标配工具，更有越来越多的商家涌入其中。在进行小程序开发前，你还需要清楚这些事项。1、小程序什么时候开发比较好？对于小程序来说，越是早开发效果越好，抓住当下。因为早开发可以更早的抢注好的关键词，甚至可以率先抓住一波用户。2、小程序的关键词如何抉择？因为小程序现在主要入口就是二维码、附近的、搜索关键词，对于关键词来说怎么强调都不为过，那么我们如何选择更加适合的？一个是行业关
借助AI学习开源代码git0.7之编译和使用余很多之很多源码学习 git 学习
如何学习优秀的开源代码？目前大部分的优秀开源代码，代码量都已经非常庞大，比如git。以git为例，git最新版本代码有279814行，而git0.7版本已经大部分实现了现在git版本的基本功能，而代码量却只有4950行，借助ai工具帮忙分析和整理，加上自己的代码阅读和学习验证，就可以从这些开源大神的代码中学到很多，从而提高自己。学习源码之前，先编译和研究下现有编译的程序的使用。编译本人使用的笔记本
MATLAB实现基于多目标粒子群优化算法（MOPSO）进行无人机三维路径规划的详细项目实例 nantangyuxi MATLAB matlab 算法无人机人工智能深度学习机器学习数据挖掘
目录MATLAB实她基她她目标粒子群优化算法（MOPSO）进行无人机三维路径规划她详细项目实例1项目背景介绍...1项目目标她意义...2优化无人机飞行路径她安全她...2提升路径规划她她目标协调能力...2实她三维环境下她动态路径规划...2降低计算复杂度，实她高效路径规划...2提供具有工程实践价值她路径规划工具...3丰富她目标优化算法她应用案例...3促进无人机智能自主飞行技术进步...3
找到正确的方法，才能达到事半功倍的效果似水年华平
当今社会是个信息大爆炸的时代，每天面对铺面盖地的信息，我们如何进行筛选，如何吸取对我们有用的知识呢？彭小六老师的《洋葱阅读法》以讲故事的顺序、游戏化的场景，来讲碎片化阅读、快速阅读、主题阅读、建立个人的“知识图书馆”等让我们能学以致用的阅读方法，并且还教我们如何使用工具，使阅读变得好玩又高效，并且还能通过阅读实现多渠道变现和打造个人品牌。总之，这是一本教我们如何阅读以及怎样阅读，而且还便于我们根据
前言 | 围巾哥萧尘 | Trae AI 从小白到大神的学习之路 [特殊字符] 围巾哥萧尘经验分享
前言大家好！我是围巾哥萧尘，一名Rails全栈工程师，也是TraeAI的超级体验官！欢迎拿起这本《TraeAI从小白到大神的学习之路》，与我一起踏上AI编程的奇妙旅程！无论你是刚刚接触编程的新手，还是已经在代码世界摸爬滚打多年的老兵，这本书都将为你打开一扇通往AI驱动开发的大门。TraeAI不仅是一款工具，更是一个让你从零到一、从平凡到卓越的编程伙伴。在这篇前言中，我将分享我的故事、TraeAI的
git常用操作及git submodule子模块操作和简单讲解，git源码包下载镜像网站推荐，编译安装git，配置git局域网ssh服务端免密操作
项目多人协作开发一般都要用到版本管理工具并配置代码仓库服务器，这里根据网上资料汇总并实操修改整理出了源码包编译安装git，ssh涉服务端操作免密以及盘点一些git常用操作一：源码包安装git从官网或者镜像网站下到源码包，这里给一个镜像网站，里边找到想要的git-版本号.tar.gzhttps://mirrors.edge.kernel.org/pub/software/scm/git/先校准系统时
基于蜣螂算法优化多头注意力机制的卷积神经网络结合双向长短记忆神经网络实现温度预测DBO-CNN-biLSTM-Multihead-Attention附matlab代码 matlab科研助手神经网络算法 cnn
✅作者简介：热爱科研的Matlab仿真开发者，修心和技术同步精进，代码获取、论文复现及科研仿真合作可私信。个人主页：Matlab科研工作室个人信条：格物致知。更多Matlab完整代码及仿真定制内容点击智能优化算法神经网络预测雷达通信无线传感器电力系统信号处理图像处理路径规划元胞自动机无人机物理应用机器学习内容介绍温度预测在气象学、农业、能源等领域具有重要的应用价值。随着大数据和人工智能技术的快速发
股票基金量化开源平台对比 Mr.小海开源开源金融
股票基金量化开源平台对比分析报告引言研究背景与意义在金融科技快速发展的背景下，量化交易已成为现代金融市场中投资者追求高效与精准交易的核心工具。通过程序化方式，投资者能够迅速处理海量市场数据，制定并执行复杂交易策略，其高效性、低情绪干扰及策略多样性等优势显著[1]。特别是随着人工智能技术的深化，2025年基于深度学习与机器学习的开源量化工具持续涌现，推动行业向数据驱动转型——量化交易将决策逻辑从经验
开源基金/股票量化平台调研报告 Mr.小海金融
开源基金/股票量化平台调研报告引言调研背景与目的近年来，随着人工智能技术的持续深化，量化交易领域迎来了深刻变革。2025年，基于深度学习和机器学习的开源工具不断涌现，不仅在技术层面实现突破，更在实际应用中展现出强大竞争优势，推动行业创新与升级[1].作为融合数学、统计与计算机技术的科技驱动型金融策略，量化交易通过自动化与数据驱动方法提升投资决策效率与准确性，已成为金融机构与投资者追求超额收益的重要
Spring Boot整合阿里云OSS企业级实践：高可用文件存储解决方案努力的小郑 Spring spring boot 阿里云后端
在云原生时代，文件存储已成为现代应用的刚需。阿里云对象存储OSS作为国内市场份额第一的云存储服务，为开发者提供了安全可靠、高扩展的存储解决方案。本文将深入探讨SpringBoot整合OSS的最佳实践。为什么选择阿里云OSS？阿里云OSS在以下场景中展现显著优势：海量数据存储：单Bucket支持EB级存储，轻松应对业务增长高并发访问：支持百万级QPS，满足电商大促等高并发场景成本优化：存储费用低至0
内测分发平台应用的异地容灾和负载均衡处理和实现思路咕噜企业签名分发-大圣负载均衡运维
内测分发平台应用的异地容灾和负载均衡处理和实现思路如下：一、异地容灾1.风险评估和需求分析：首先，对现有的IT基础设施进行全面的风险评估和需求分析，评估潜在风险和灾害的可能性，确定业务和数据的关键性。2.设计备份架构：根据风险评估和需求分析的结果，设计合理的备份架构，选择合适的备份设备和工具，确定备份频率和存储位置，确保数据的完整性和可用性。3.数据备份和同步：一旦备份架构设计完成，开始进行数据备
怎么做抖客赚佣金？抖客具体怎么做的？测评君高省
在淘宝上有很多人在做商品的推广，这些人被称为淘宝客，其实在抖音上也有一群人做推广，他们被称为抖客，其实也是抖音的一种电商推广工具了，那么在抖音上怎么做抖客来赚取佣金呢?下面小编就和大家说说这方面的内容，希望对大家有帮助。大家好，我是飞儿导师，我最后为什么会选择【高省app】呢？因为使用【高省app】网购，更便宜更划算！高省app上不但有各大网购平台(淘宝天猫京东拼多多唯品会抖音快手等）的内部优惠券
网络安全人士必知的35个安全框架及模型
一、概述网络安全专业机构制定的一套标准、准则和程序，旨在帮助组织了解和管理面临的网络安全风险。优秀的安全框架及模型应该为用户提供一种可靠方法，帮助其实现网络安全建设计划。对于那些希望按照行业最佳实践来设计或改进安全策略的组织或个人来说，网络安全框架及模型是不可或缺的指导工具。使用安全模型对业务安全进行总结和指导，避免思维被局限，出现安全短板。本文仅做简单介绍，做到穿针引线的作用，详细介绍等后续安排
查看.bin二进制文件的方式（HxD十六进制编辑器的安装） Ac157ol 编辑器
文章目录Windows系统上安装HxD十六进制编辑器的步骤。**HxD是一款免费、轻量级的工具，适合查看和编辑.bin等二进制文件。****PS:实际安装过程中会发现找不到Windows11的版本，安装windows10的即可，并且没有区别setup版和portable版**安装HxD的步骤1.访问官方网站2.**下载安装程序**3.运行安装程序4.验证安装5.注意事项6.后续使用Windows系
2024双11活动：想知道活动的日期吗？还有更多惊喜等着你！日常购物技巧呀
2023双11活动全攻略：如何把握活动规则与抢购技巧？双11购物节即将来临，对于消费者来说，这是一个不容错过的购物盛宴。各大电商平台都会推出各种优惠活动和促销政策，让消费者们享受到更多的实惠。本文将为您详细解析2023年双11活动的规则和抢购技巧，帮助您更好地把握这个购物狂欢节的机会。我们在开始讲今天的文章之前，小编想和大家分享我正在使用的副业兼职工具---高省，官方邀请码140326。此码已开通
mongodb3.03开启认证 21jhf mongodb
下载了最新mongodb3.03版本，当使用--auth 参数命令行开启mongodb用户认证时遇到很多问题，现总结如下：（百度上搜到的基本都是老版本的，看到db.addUser的就是，请忽略） Windows下我做了一个bat文件，用来启动mongodb，命令行如下： mongod --dbpath db\data --port 27017 --directoryperdb --logp
【Spark103】Task not serializable bit1129 Serializable
Task not serializable是Spark开发过程最令人头疼的问题之一，这里记录下出现这个问题的两个实例，一个是自己遇到的，另一个是stackoverflow上看到。等有时间了再仔细探究出现Task not serialiazable的各种原因以及出现问题后如何快速定位问题的所在，至少目前阶段碰到此类问题，没有什么章法 1. package spark.exampl
你所熟知的 LRU(最近最少使用) dalan_123 java
关于LRU这个名词在很多地方或听说，或使用，接下来看下lru缓存回收的实现 1、大体的想法 a、查询出最近最晚使用的项 b、给最近的使用的项做标记通过使用链表就可以完成这两个操作，关于最近最少使用的项只需要返回链表的尾部；标记最近使用的项，只需要将该项移除并放置到头部，那么难点就出现你如何能够快速在链表定位对应的该项？这时候多
Javascript 跨域周凡杨 JavaScript jsonp 跨域 cross-domain
linux下安装apache服务器 g21121 apache
安装apache 下载windows版本apache，下载地址：http://httpd.apache.org/download.cgi 1.windows下安装apache Windows下安装apache比较简单，注意选择路径和端口即可，这里就不再赘述了。 2.linux下安装apache：下载之后上传到linux的相关目录，这里指定为/home/apach
FineReport的JS编辑框和URL地址栏语法简介老A不折腾 finereport web报表报表软件语法总结
JS编辑框： 1.FineReport的js。作为一款BS产品，browser端的JavaScript是必不可少的。 FineReport中的js是已经调用了finereport.js的。大家知道，预览报表时，报表servlet会将cpt模板转为html，在这个html的head头部中会引入FineReport的js，这个finereport.js中包含了许多内置的fun
根据STATUS信息对MySQL进行优化墙头上一根草 status
mysql 查看当前正在执行的操作，即正在执行的sql语句的方法为: show processlist 命令 mysql> show global status;可以列出MySQL服务器运行各种状态值，我个人较喜欢的用法是show status like '查询值%';一、慢查询mysql> show variab
我的spring学习笔记7-Spring的Bean配置文件给Bean定义别名 aijuans Spring 3
本文介绍如何给Spring的Bean配置文件的Bean定义别名？原始的 <bean id="business" class="onlyfun.caterpillar.device.Business"> <property name="writer"> <ref b
高性能mysql 之性能剖析 annan211 性能 mysql mysql 性能剖析剖析
1 定义性能优化 mysql服务器性能，此处定义为响应时间。在解释性能优化之前，先来消除一个误解，很多人认为，性能优化就是降低cpu的利用率或者减少对资源的使用。这是一个陷阱。资源时用来消耗并用来工作的，所以有时候消耗更多的资源能够加快查询速度，保持cpu忙绿，这是必要的。很多时候发现编译进了新版本的InnoDB之后，cpu利用率上升的很厉害，这并不
主外键和索引唯一性约束百合不是茶索引唯一性约束主外键约束联机删除
目标;第一步;创建两张表用户表和文章表第二步;发表文章 1,建表; ---用户表 BlogUsers --userID唯一的 --userName --pwd --sex create
线程的调度 bijian1013 java 多线程 thread 线程的调度 java多线程
1. Java提供一个线程调度程序来监控程序中启动后进入可运行状态的所有线程。线程调度程序按照线程的优先级决定应调度哪些线程来执行。 2. 多数线程的调度是抢占式的（即我想中断程序运行就中断，不需要和将被中断的程序协商） a)
查看日志常用命令 bijian1013 linux 命令 unix
一.日志查找方法，可以用通配符查某台主机上的所有服务器grep "关键字" /wls/applogs/custom-*/error.log 二.查看日志常用命令1.grep '关键字' error.log：在error.log中搜索'关键字'2.grep -C10 '关键字' error.log：显示关键字前后10行记录3.grep '关键字' error.l
【持久化框架MyBatis3一】MyBatis版HelloWorld bit1129 helloworld
MyBatis这个系列的文章，主要参考《Java Persistence with MyBatis 3》。样例数据本文以MySQL数据库为例，建立一个STUDENTS表，插入两条数据，然后进行单表的增删改查 CREATE TABLE STUDENTS ( stud_id int(11) NOT NULL AUTO_INCREMENT,
【Hadoop十五】Hadoop Counter bit1129 hadoop
1. 只有Map任务的Map Reduce Job File System Counters FILE: Number of bytes read=3629530 FILE: Number of bytes written=98312 FILE: Number of read operations=0 FILE: Number of lar
解决Tomcat数据连接池无法释放 ronin47 tomcat 连接池　优化
近段时间，公司的检测中心报表系统(SMC)的开发人员时不时找到我，说用户老是出现无法登录的情况。前些日子因为手头上有Jboss集群的测试工作，发现用户不能登录时，都是在Tomcat中将这个项目Reload一下就好了，不过只是治标而已，因为大概几个小时之后又会再次出现无法登录的情况。今天上午，开发人员小毛又找到我，要我协助将这个问题根治一下，拖太久用户难保不投诉。简单分析了一
java-75-二叉树两结点的最低共同父结点 bylijinnan java
import java.util.LinkedList; import java.util.List; import ljn.help.*; public class BTreeLowestParentOfTwoNodes { public static void main(String[] args) { /* * node data is stored in
行业垂直搜索引擎网页抓取项目 carlwu Lucene Nutch Heritrix Solr
公司有一个搜索引擎项目，希望各路高人有空来帮忙指导，谢谢！这是详细需求：（1）通过提供的网站地址(大概100-200个网站)，网页抓取程序能不断抓取网页和其它类型的文件（如Excel、PDF、Word、ppt及zip类型），并且程序能够根据事先提供的规则，过滤掉不相干的下载内容。（2）程序能够搜索这些抓取的内容，并能对这些抓取文件按照油田名进行分类，然后放到服务器不同的目录中。
[通讯与服务]在总带宽资源没有大幅增加之前,不适宜大幅度降低资费 comsci 资源
降低通讯服务资费，就意味着有更多的用户进入，就意味着通讯服务提供商要接待和服务更多的用户，在总体运维成本没有由于技术升级而大幅下降的情况下，这种降低资费的行为将导致每个用户的平均带宽不断下降，而享受到的服务质量也在下降，这对用户和服务商都是不利的。。。。。。。。 &nbs
Java时区转换及时间格式 Cwind java
本文介绍Java API 中 Date, Calendar, TimeZone和DateFormat的使用，以及不同时区时间相互转化的方法和原理。问题描述：向处于不同时区的服务器发请求时需要考虑时区转换的问题。譬如，服务器位于东八区（北京时间，GMT+8:00），而身处东四区的用户想要查询当天的销售记录。则需把东四区的“今天”这个时间范围转换为服务器所在时区的时间范围。
readonly,只读，不可用 dashuaifu js jsp disable readOnly readOnly
readOnly 和 readonly 不同，在做js开发时一定要注意函数大小写和jsp黄线的警告！！！我就经历过这么一件事：使用readOnly在某些浏览器或同一浏览器不同版本有的可以实现“只读”功能，有的就不行，而且函数readOnly有黄线警告！！！就这样被折磨了不短时间！！！（期间使用过disable函数，但是发现disable函数之后后台接收不到前台的的数据！！！）
LABjs、RequireJS、SeaJS 介绍 dcj3sjt126com js Web
LABjs 的核心是 LAB（Loading and Blocking）：Loading 指异步并行加载，Blocking 是指同步等待执行。LABjs 通过优雅的语法（script 和 wait）实现了这两大特性，核心价值是性能优化。LABjs 是一个文件加载器。RequireJS 和 SeaJS 则是模块加载器，倡导的是一种模块化开发理念，核心价值是让 JavaScript 的模块化开发变得更
[应用结构]入口脚本 dcj3sjt126com PHP yii2
入口脚本入口脚本是应用启动流程中的第一环，一个应用（不管是网页应用还是控制台应用）只有一个入口脚本。终端用户的请求通过入口脚本实例化应用并将将请求转发到应用。 Web 应用的入口脚本必须放在终端用户能够访问的目录下，通常命名为 index.php，也可以使用 Web 服务器能定位到的其他名称。控制台应用的入口脚本一般在应用根目录下命名为 yii（后缀为.php），该文
haoop shell命令 eksliang hadoop hadoop shell
cat chgrp chmod chown copyFromLocal copyToLocal cp du dus expunge get getmerge ls lsr mkdir movefromLocal mv put rm rmr setrep stat tail test text
MultiStateView不同的状态下显示不同的界面 gundumw100 android
只要将指定的view放在该控件里面，可以该view在不同的状态下显示不同的界面，这对ListView很有用，比如加载界面，空白界面，错误界面。而且这些见面由你指定布局，非常灵活。 PS：ListView虽然可以设置一个EmptyView，但使用起来不方便，不灵活，有点累赘。 <com.kennyc.view.MultiStateView xmlns:android=&qu
jQuery实现页面内锚点平滑跳转 ini JavaScript html jquery html5 css
平时我们做导航滚动到内容都是通过锚点来做，刷的一下就直接跳到内容了，没有一丝的滚动效果，而且 url 链接最后会有“小尾巴”，就像#keleyi，今天我就介绍一款 jquery 做的滚动的特效，既可以设置滚动速度，又可以在 url 链接上没有“小尾巴”。效果体验：http://keleyi.com/keleyi/phtml/jqtexiao/37.htmHTML文件代码： &
kafka offset迁移 kane_xie kafka
在早前的kafka版本中（0.8.0），offset是被存储在zookeeper中的。到当前版本（0.8.2）为止，kafka同时支持offset存储在zookeeper和offset manager（broker）中。从官方的说明来看，未来offset的zookeeper存储将会被弃用。因此现有的基于kafka的项目如果今后计划保持更新的话，可以考虑在合适
android > 搭建 cordova 环境 mft8899 android
1 , 安装 node.js http://nodejs.org node -v 查看版本 2, 安装 npm 可以先从 https://github.com/isaacs/npm/tags 下载源码解压到
java封装的比较器，比较是否全相同，获取不同字段名字 qifeifei
非常实用的java比较器，贴上代码： import java.util.HashSet; import java.util.List; import java.util.Set; import net.sf.json.JSONArray; import net.sf.json.JSONObject; import net.sf.json.JsonConfig; i
记录一些函数用法 .Aky. 位运算 PHP 数据库函数 IP
高手们照旧忽略。想弄个全天朝IP段数据库，找了个今天最新更新的国内所有运营商IP段，copy到文件，用文件函数，字符串函数把玩下。分割出startIp和endIp这样格式写入.txt文件，直接用phpmyadmin导入.csv文件的形式导入。（生命在于折腾，也许你们觉得我傻X，直接下载人家弄好的导入不就可以，做自己的菜鸟，让别人去说吧）当然用到了ip2long()函数把字符串转为整型数
sublime text 3 rust wudixiaotie Sublime Text
1.sublime text 3 => install package => Rust 2.cd ~/.config/sublime-text-3/Packages 3.mkdir rust 4.git clone https://github.com/sp0/rust-style 5.cd rust-style 6.cargo build --release 7.ctrl

StarRocks

StarRocks

基本概念

系统架构

功能

排序键

物化视图

数据导入

使用

库表创建

数据类型

注意事项

新增分区

修改字段类型

问题

问题1：

问题2：

问题3：

问题4：

问题5：

ClickHouse与StarRocks的对比

你可能感兴趣的:(#,数据存储工具,大数据)