夹毛局的程序员

3.doris Rollup与索引

Rollup

ROLLUP 在多维分析中是“上卷”的意思，即将数据按某种指定的粒度进行进一步聚合

基本概念

在 Doris 中，我们将用户通过建表语句创建出来的表称为 Base 表（Base Table）。Base 表中保存着按用户建表语句指定的方式存储的基础数据

在 Base 表之上，我们可以创建任意多个 ROLLUP 表。这些 ROLLUP 的数据是基于 Base 表产生的，并且在物理上是独立存储的

ROLLUP 表的基本作用，在于在 Base 表的基础上，获得更粗粒度的聚合数据

Rollup语法

-- 创建rollup
alter table TABLE_NAME add rollup ROLLUP_NAME(field1,field2...);
-- 查看rollup
SHOW ALTER TABLE ROLLUP;
-- 查看是否命中rollup
explain SELECT ...;

Duplicate 模型中的 ROLLUP

因为 Duplicate 模型没有聚合的语意。所以该模型中的 ROLLUP，已经失去了“上卷”这一层含义。而仅仅是作为调整列顺序，以命中前缀索引的作用。我们将在前缀索引详细介绍前缀索引，以及如何使用ROLLUP改变前缀索引，以获得更好的查询效率

ROLLUP使用说明

ROLLUP 最根本的作用是提高某些查询的查询效率（无论是通过聚合来减少数据量，还是修改列顺序以匹配前缀索引）。
ROLLUP 是附属于 Base 表的，可以看做是 Base 表的一种辅助数据结构。用户可以在 Base 表的基础上，创建或删除 ROLLUP，但是不能在查询中显式的指定查询某 ROLLUP。是否命中 ROLLUP 完全由 Doris 系统自动决定。
ROLLUP 的数据是独立物理存储的。因此，创建的 ROLLUP 越多，占用的磁盘空间也就越大。同时对导入速度也会有影响（导入的ETL阶段会自动产生所有 ROLLUP 的数据），但是不会降低查询效率（只会更好）。
ROLLUP 的数据更新与 Base 表是完全同步的。用户无需关心这个问题。
ROLLUP 中列的聚合方式，与 Base 表完全相同。在创建 ROLLUP 无需指定，也不能修改。
查询能否命中 ROLLUP 的一个必要条件（非充分条件）是，查询所涉及的所有列（包括 select list 和 where 中的查询条件列等）都存在于该 ROLLUP 的列中。否则，查询只能命中 Base 表。
某些类型的查询（如 count(*)）在任何条件下，都无法命中 ROLLUP。具体参见接下来的 聚合模型的局限性 一节。
可以通过 EXPLAIN your_sql; 命令获得查询执行计划，在执行计划中，查看是否命中 ROLLUP。
可以通过 DESC tbl_name ALL; 语句显示 Base 表和所有已创建完成的 ROLLUP。

在 Doris 里 Rollup 作为一份聚合物化视图，其在查询中可以起到两个作用：

索引

聚合数据（仅用于聚合模型，即aggregate key）

但为了命中 Rollup 需要满足一定的条件，并且可以通过执行计划中 ScanNode 节点的 PreAggregation 的值来判断是否可以命中 Rollup，以及 Rollup 字段来判断命中的是哪一张 Rollup 表

聚合物化视图其聚合数据的功能是必不可少的，这类物化视图对于聚合类查询或报表类查询都有非常大的帮助，要命中聚合物化视图需要下面一些前提：

查询或者子查询中涉及的所有列都存在一张独立的 Rollup 中。

如果查询或者子查询中有 Join，则 Join 的类型需要是 Inner join

如果符合上述条件，则针对聚合模型在判断命中 Rollup 的时候会有两个阶段：

首先通过条件匹配出命中前缀索引索引最长的 Rollup 表

然后比较 Rollup 的行数，选择最小的一张 Rollup

索引概述

目前 Doris 主要支持两类索引：

内建的智能索引，包括前缀索引和 ZoneMap 索引。
用户手动创建的二级索引，包括倒排索引、 bloomfilter索引、 ngram bloomfilter索引和bitmap索引

前缀索引

不同于传统的数据库设计，Doris 不支持在任意列上创建索引。Doris 这类 MPP 架构的 OLAP 数据库，通常都是通过提高并发，来处理大量数据的。

本质上，Doris 的数据存储在类似 SSTable（Sorted String Table）的数据结构中。该结构是一种有序的数据结构，可以按照指定的列进行排序存储。在这种数据结构上，以排序列作为条件进行查找，会非常的高效。

在 Aggregate、Unique 和 Duplicate 三种数据模型中。底层的数据存储，是按照各自建表语句中，AGGREGATE KEY、UNIQUE KEY 和 DUPLICATE KEY 中指定的列进行排序存储的。而前缀索引，即在排序的基础上，实现的一种根据给定前缀列，快速查询数据的索引方式

一行数据的前 36 个字节 作为这行数据的前缀索引。当遇到 VARCHAR 类型时，前缀索引会直接截断遇到VARCHAR会截取前20字节

ColumnName Type

user_id BIGINT

age INT

message VARCHAR(100)

max_dwell_time DATETIME

min_dwell_time DATETIME

如上索引匹配 user_id(8 Bytes) age(4 Bytes) message(prefix 20Bytes)【遇VARCHAR截断】

ColumnName Type

user_name VARCHAR(20)

age INT

message VARCHAR(100)

max_dwell_time DATETIME

min_dwell_time DATETIME

如上索引，user_name遇到VARCHAR只会匹配前20Bytes

ColumnName	Type
user_id	BIGINT
age	INT
message	VARCHAR(100)
max_dwell_time	DATETIME
min_dwell_time	DATETIME

ColumnName	Type
user_name	VARCHAR(20)
age	INT
message	VARCHAR(100)
max_dwell_time	DATETIME
min_dwell_time	DATETIME

Rollup 来调整前缀索引

因为建表时已经指定了列顺序，所以一个表只有一种前缀索引。这对于使用其他不能命中前缀索引的列作为条件进行的查询来说，效率上可能无法满足需求。因此，我们可以通过创建 ROLLUP 来人为的调整列顺序

倒排索引

doris2.0.0版本之后开始支持倒排索引，可以用来进行文本类型的全文检索、普通数值日期类型的等值范围查询，快速从海量数据中过滤出满足条件的行

原理介绍

在Doris的倒排索引实现中，table的一行对应一个文档、一列对应文档中的一个字段，因此利用倒排索引可以根据关键词快速定位包含它的行，达到WHERE子句加速的目的。

与Doris中其他索引不同的是，在存储层倒排索引使用独立的文件，跟segment文件有逻辑对应关系、但存储的文件相互独立。这样的好处是可以做到创建、删除索引不用重写tablet和segment文件，大幅降低处理开销

Doris倒排索引的功能简要介绍如下：

增加了字符串类型的全文检索
- 支持字符串全文检索，包括同时匹配多个关键字MATCH_ALL、匹配任意一个关键字MATCH_ANY、匹配短语词组MATCH_PHRASE
- 支持字符串数组类型的全文检索
- 支持英文、中文以及Unicode多语言分词
加速普通等值、范围查询，覆盖bitmap索引的功能，未来会代替bitmap索引
- 支持字符串、数值、日期时间类型的 =, !=, >, >=, <, <= 快速过滤
- 支持字符串、数字、日期时间数组类型的 =, !=, >, >=, <, <=
支持完善的逻辑组合
- 新增索引对OR NOT逻辑的下推
- 支持多个条件的任意AND OR NOT组合
灵活、快速的索引管理
- 支持在创建表上定义倒排索引
- 支持在已有的表上增加倒排索引，而且支持增量构建倒排索引，无需重写表中的已有数据
- 支持删除已有表上的倒排索引，无需重写表中的已有数据

创建语法

建表时定义倒排索引，语法说明如下
- USING INVERTED 是必须的，用于指定索引类型是倒排索引
- PROPERTIES 是可选的，用于指定倒排索引的额外属性，目前有三个属性
  - parser指定分词器
    - 默认不指定代表不分词
    - english是英文分词，适合被索引列是英文的情况，用空格和标点符号分词，性能高
    - chinese是中文分词，适合被索引列主要是中文的情况，性能比english分词低
    - unicode是多语言混合类型分词，适用于中英文混合、多语言混合的情况。它能够对邮箱前缀和后缀、IP地址以及字符数字混合进行分词，并且可以对中文按字符分词。
  - parser_mode用于指定分词的模式，目前parser = chinese时支持如下几种模式：
    - fine_grained：细粒度模式，倾向于分出比较短的词，比如 ‘武汉市长江大桥’ 会分成 ‘武汉’, ‘武汉市’, ‘市长’, ‘长江’, ‘长江大桥’, ‘大桥’ 6个词
    - coarse_grained：粗粒度模式，倾向于分出比较长的词，，比如 ‘武汉市长江大桥’ 会分成 ‘武汉市’ ‘长江大桥’ 2个词
    - 默认coarse_grained
  - support_phrase用于指定索引是否支持MATCH_PHRASE短语查询加速
    - true为支持，但是索引需要更多的存储空间
    - false为不支持，更省存储空间，可以用MATCH_ALL查询多个关键字
    - 默认false
  - char_filter：功能主要在分词前对字符串提前处理
    - char_filter_type：指定使用不同功能的char_filter（目前仅支持char_replace）
      - char_replace 将pattern中每个char替换为一个replacement中的char
        
        char_filter_pattern：需要被替换掉的字符数组
        
        char_filter_replacement：替换后的字符数组，可以不用配置，默认为一个空格字符
  - ignore_above：控制字符串是否建索引。
    - 长度超过 ignore_above 设置的字符串不会被索引。对于字符串数组，ignore_above 将分别应用于每个数组元素，长度超过 ignore_above 的字符串元素将不被索引。
    - 默认为 256 字节
  - lower_case: 是否将分词进行小写转换，从而在匹配的时候实现忽略大小写
    - true: 转换小写
    - false：不转换小写
- COMMENT 是可选的，用于指定注释

示例

CREATE TABLE table_name
(
  columns_difinition...,
  INDEX idx_name1(column_name1) USING INVERTED [PROPERTIES("parser" = "english|unicode|chinese")] [COMMENT 'your comment']
  INDEX idx_name2(column_name2) USING INVERTED [PROPERTIES("parser" = "english|unicode|chinese")] [COMMENT 'your comment']
  INDEX idx_name3(column_name3) USING INVERTED [PROPERTIES("parser" = "chinese", "parser_mode" = "fine_grained|coarse_grained")] [COMMENT 'your comment']
  INDEX idx_name4(column_name4) USING INVERTED [PROPERTIES("parser" = "english|unicode|chinese", "support_phrase" = "true|false")] [COMMENT 'your comment']
  INDEX idx_name5(column_name4) USING INVERTED [PROPERTIES("char_filter_type" = "char_replace", "char_filter_pattern" = "._"), "char_filter_replacement" = " "] [COMMENT 'your comment']
  INDEX idx_name5(column_name4) USING INVERTED [PROPERTIES("char_filter_type" = "char_replace", "char_filter_pattern" = "._")] [COMMENT 'your comment']
)
table_properties ... ;

倒排索引在不同数据模型中有不同的使用限制：

Aggregate 模型：只能为 Key 列建立倒排索引。

Unique 模型：需要开启 merge on write 特性，开启后，可以为任意列建立倒排索引。

Duplicate 模型：可以为任意列建立倒排索引

删除和查询语法

-- 删除
DROP INDEX idx_name ON table_name;
ALTER TABLE table_name DROP INDEX idx_name;
-- 取消创建
CANCEL BUILD INDEX ON TABLE_NAME;
CANCEL BUILD INDEX ON TABLE_NAME(job_id1,job_id2...);
-- 使用全文匹配
-- 1. 全文检索关键词匹配，通过MATCH_ANY MATCH_ALL完成
SELECT * FROM table_name WHERE column_name MATCH_ANY | MATCH_ALL 'keyword1 ...';

-- 1.1 logmsg中包含keyword1的行
SELECT * FROM table_name WHERE logmsg MATCH_ANY 'keyword1';

-- 1.2 logmsg中包含keyword1或者keyword2的行，后面还可以添加多个keyword
SELECT * FROM table_name WHERE logmsg MATCH_ANY 'keyword1 keyword2';

-- 1.3 logmsg中同时包含keyword1和keyword2的行，后面还可以添加多个keyword
SELECT * FROM table_name WHERE logmsg MATCH_ALL 'keyword1 keyword2';

-- 1.4 logmsg中同时包含keyword1和keyword2的行，并且按照keyword1在前，keyword2在后的顺序
SELECT * FROM table_name WHERE logmsg MATCH_PHRASE 'keyword1 keyword2';

-- 2. 普通等值、范围、IN、NOT IN，正常的SQL语句即可，例如
SELECT * FROM table_name WHERE id = 123;
SELECT * FROM table_name WHERE ts > '2023-01-01 00:00:00';
SELECT * FROM table_name WHERE op_type IN ('add', 'delete');

BloomFilter索引

BloomFilter是由Bloom在1970年提出的一种多哈希函数映射的快速查找算法。通常应用在一些需要快速判断某个元素是否属于集合，但是并不严格要求100%正确的场合，BloomFilter有以下特点：

空间效率高的概率型数据结构，用来检查一个元素是否在一个集合中。
对于一个元素检测是否存在的调用，BloomFilter会告诉调用者两个结果之一：可能存在或者一定不存在。
缺点是存在误判，告诉你可能存在，不一定真实存在。

布隆过滤器实际上是由一个超长的二进制位数组和一系列的哈希函数组成。二进制位数组初始全部为0，当给定一个待查询的元素时，这个元素会被一系列哈希函数计算映射出一系列的值，所有的值在位数组的偏移量处置为1。

Doris中BloomFilter使用场景

满足以下几个条件时可以考虑对某列建立Bloom Filter 索引：

首先BloomFilter适用于非前缀过滤。
查询会根据该列高频过滤，而且查询条件大多是 in 和 = 过滤。
不同于Bitmap, BloomFilter适用于高基数列。比如UserID。因为如果创建在低基数的列上，比如 “性别” 列，则每个Block几乎都会包含所有取值，导致BloomFilter索引失去意义。

Doris中使用BloomFilter注意事项

不支持对Tinyint、Float、Double 类型的列建Bloom Filter索引。
Bloom Filter索引只对 in 和 = 过滤查询有加速效果。
如果要查看某个查询是否命中了Bloom Filter索引，可以通过查询的Profile信息查看。

BloomFilte创建语法

-- PROPERTIES里加上"bloom_filter_columns"="k1,k2,k3"
CREATE TABLE IF NOT EXISTS sale_detail_bloom  (
    sale_date date NOT NULL COMMENT "销售时间",
    customer_id int NOT NULL COMMENT "客户编号",
    saler_id int NOT NULL COMMENT "销售员",
    sku_id int NOT NULL COMMENT "商品编号",
    category_id int NOT NULL COMMENT "商品分类",
    sale_count int NOT NULL COMMENT "销售数量",
    sale_price DECIMAL(12,2) NOT NULL COMMENT "单价",
    sale_amt DECIMAL(20,2)  COMMENT "销售总金额"
)
Duplicate  KEY(sale_date, customer_id,saler_id,sku_id,category_id)
PARTITION BY RANGE(sale_date)
(
PARTITION P_202111 VALUES [('2021-11-01'), ('2021-12-01'))
)
DISTRIBUTED BY HASH(saler_id) BUCKETS 10
PROPERTIES (
"replication_num" = "3",
"bloom_filter_columns"="saler_id,category_id",
"dynamic_partition.enable" = "true",
"dynamic_partition.time_unit" = "MONTH",
"dynamic_partition.time_zone" = "Asia/Shanghai",
"dynamic_partition.start" = "-2147483648",
"dynamic_partition.end" = "2",
"dynamic_partition.prefix" = "P_",
"dynamic_partition.replication_num" = "3",
"dynamic_partition.buckets" = "3"
);

-- 查看
 SHOW TABLE <TABLE_NAME>;
-- 删除
ALTER TABLE <DB_NAME.TABLE_NAME> SET ("bloom_filter_columns" = "");
-- 修改
ALTER TABLE <db.table_name> SET ("bloom_filter_columns" = "k1,k3");

NGram BloomFilter

Doris2.0新增的索引类型，为了提升like的查询性能

-- 创建语法
CREATE TABLE `table3` (
  `siteid` int(11) NULL DEFAULT "10" COMMENT "",
  `citycode` smallint(6) NULL COMMENT "",
  `username` varchar(32) NULL DEFAULT "" COMMENT "",
  INDEX idx_ngrambf (`username`) USING NGRAM_BF PROPERTIES("gram_size"="3", "bf_size"="256") COMMENT 'username ngram_bf index'
) ENGINE=OLAP
AGGREGATE KEY(`siteid`, `citycode`, `username`) COMMENT "OLAP"
DISTRIBUTED BY HASH(`siteid`) BUCKETS 10
PROPERTIES (
"replication_num" = "1"
);
-- PROPERTIES("gram_size"="3", "bf_size"="256")，分别表示gram的个数和bloom filter的字节数。
-- gram的个数跟实际查询场景相关，通常设置为大部分查询字符串的长度，bloom filter字节数，可以通过测试得出，通常越大过滤效果越好，可以从256开始进行验证测试看看效果。当然字节数越大也会带来索引存储、内存cost上升。
-- 如果数据基数比较高，字节数可以不用设置过大，如果基数不是很高，可以通过增加字节数来提升过滤效果。
-- 查看
SHOW INDEX FROM DB_NAME.TABLE_NAME;
-- 删除
ALTER TABLE DB_NAME.TABLE_NAME DROP INDEX INDEX_NAME;
-- 修改
ALTER TABLE DB_NAME.TABLE_NAME ADD INDEX INDEX_NAME(COL1,COL2...) USING NGRAM_BF PROPERTIES("gram_size"="256","bf_size"="512") COMMENT 'some commet'

NGram BloomFilter注意事项

NGram BloomFilter只支持字符串列
NGram BloomFilter索引和BloomFilter索引为互斥关系，即同一个列只能设置两者中的一个
NGram大小和BloomFilter的字节数，可以根据实际情况调优，如果NGram比较小，可以适当增加BloomFilter大小
如果要查看某个查询是否命中了NGram Bloom Filter索引，可以通过查询的Profile信息查看

Bitmap索引

用户可以通过创建bitmap index 加速查询

语法

-- 创建
CREATE INDEX [IF NOT EXISTS] index_name ON table1 (col_name) USING BITMAP COMMENT 'balabala';
-- 查看
SHOW INDEX FROM db_name.table_name;
-- 删除
DROP INDEX [IF EXISTS] index_name ON db_name.table_name;

BitMap索引注意事项

bitmap 索引仅在单列上创建。
bitmap 索引能够应用在 Duplicate、Uniq 数据模型的所有列和 Aggregate模型的key列上。
bitmap 索引支持的数据类型如下:
- TINYINT
- SMALLINT
- INT
- BIGINT
- CHAR
- VARCHAR
- DATE
- DATETIME
- LARGEINT
- DECIMAL
- BOOL
bitmap索引仅在 Segment V2 下生效。当创建 index 时，表的存储格式将默认转换为 V2 格式

Doris实战——拈花云科的数据中台实践吵吵叭火大数据 #Doris 数据仓库大数据
目录前言一、业务背景二、数据中台1.0—Lambda三、新架构的设计目标四、数据中台2.0—ApacheDoris4.1新架构数据流转4.2新架构收益五、新架构的落地实践5.1模型选择5.1.1Unique模型5.1.2Aggregate模型5.2资源管理5.3批量建表5.4计算实现5.4.1实时计算5.4.2准实时计算通过JavaUDF生成增量/全量数据基于Doris的大表优化DorisBork
Doris用户管理 Edingbrugh.南空运维大数据数据库 sql
用户管理是Doris权限体系的核心，所有用户操作均依赖于严格的权限控制。本文将用户管理操作与对应权限要求深度绑定，详细说明用户创建、修改、删除等全流程的权限边界及操作规范。一、用户标识与权限基础用户标识（UserIdentity）唯一标识格式：username@'userhost'，其中：username：用户名称（大小写敏感）userhost：登录IP限制（支持%通配符，如192.168.%）示
Doris、StarRocks 压测对比 xiaokebiubiubiu MPP数据库大数据
先说结论：0、本次测试，未调优二者的参数，开箱起服务，直接测试的，部署架构一致。1、在单表查询下，StarRocks在部分场景下优于Doris，但是二次查询，二者不分伯仲。2、在多表查询下，仅在一个场景下Doris速度逊于StarRocks，大部分场景是Doris优于StarRocks的。3、在cpu和内存的使用上，doris会比starrocks多吃1.5倍的资源。压测试验：1、基础环境组件cp
关于 Apache Doris 和 DorisDB、StarRocks 的关系白杨Shayne 大数据 Doris Starrocks
很多人都分不清ApacheDoris和DorisDB、StarRocks，以及他们之间的社区分化的原因是什么“、“为什么StarRocks不回馈给ApacheDoris”的问题。关于这些问题，ApacheDoris主要维护团队做了声明，以下是全文：关于ApacheDoris和DorisDB、StarRocks的关系ApacheDoris的前世今生相信很多同学都有些许了解，之前在公众号里有过历史文章
弄清Doris/StarRocks分区partition by和分桶distributed by的区别，以及如何选择对应的字段
一、首先，我们先弄清楚数据表中的数据是怎么分布的数据分布建表时，您需要通过设置分区和分桶，指定数据分布方式，并且建议您合理设置分区和分桶，实现数据均匀的分布。数据分布是指数据划分为子集，并按一定规则均衡地分布在不同节点上，能够有效裁剪数据扫描量，最大限度地利用集群的并发性能，从而提升查询性能。数据分布概览常见的数据分布方式现代分布式数据库中，常见的数据分布方式有如下四种：Round-Robin、R
clickhouse数据库表和doris数据库表迁移starrocks数据库时建表注意事项总结积跬步，慕至千里软件安装及程序错误解决方案集数据库 clickhouse
目录零、前言一、clickhouse数据库表在starrocks数据库建表时问题总结1.1数据类型类问题：1.2数据导出阶段：二、doris数据库表在starrocks数据库建表时问题总结2.1properties不支持的属性（直接删除）：2.2properties需修改属性2.3properties：doris建表语句分区明细，starrocks数据不需要明确设定，会自动更新2.4分桶设置问题2
KingbaseES 到 Apache Doris 实时同步实践｜国产数据库数据入仓解决方案数据库
国产数据库加速进入核心系统，传统同步工具却频频“掉链子”。本系列文章聚焦OceanBase、GaussDB、TDSQL、达梦等主流信创数据库，逐一拆解其日志机制与同步难点，结合TapData的实践经验，系统讲解从CDC捕获到实时入仓（Doris、StarRocks、ClickHouse等）的完整链路构建方案，为工程师提供切实可行的替代路径与最佳实践。本篇任务：KingbaseES→ApacheDo
大数据集群架构hadoop集群、Hbase集群、zookeeper、kafka、spark、flink、doris、dataeas(二) 争取不加班！ hadoop hbase zookeeper 大数据运维
zookeeper单节点部署wget-chttps://dlcdn.apache.org/zookeeper/zookeeper-3.8.4/apache-zookeeper-3.8.4-bin.tar.gz下载地址tarxfapache-zookeeper-3.8.4-bin.tar.gz-C/data/&&mv/data/apache-zookeeper-3.8.4-bin//data/zoo
利用大数据领域Doris提升企业数据决策效率大数据洞察大数据网络 ai
利用大数据领域Doris提升企业数据决策效率关键词：大数据、Doris、企业数据决策、数据处理、效率提升摘要：本文围绕利用大数据领域的Doris来提升企业数据决策效率展开。首先介绍了背景，包括目的、预期读者、文档结构和相关术语。接着阐述了Doris的核心概念、架构以及与其他系统的联系。详细讲解了Doris的核心算法原理和具体操作步骤，并给出Python代码示例。同时介绍了相关的数学模型和公式。通过
实时数仓工具-SelectDB 清平乐的技术博客实时数仓数据仓库
一、SelectDB简介官网：https://www.selectdb.com/1、ApacheDorisApacheDoris是一款采用MPP架构的实时分布式OLAP数据仓库，专注于高效的实时数据分析。Doris项目于2013年内部开发，2017年正式开源，目前在GitHub上获得了接近13,000星，全球已有超过5,000家企业采用，社区活跃度极高，累计贡献者超过650人，且曾连续数月在大数据
Apache Doris 3.0.6 版本正式发布数据库apache
亲爱的社区小伙伴们，ApacheDoris3.0.6版本已于2025年06月16日正式发布。该版本进一步提升了系统的性能及稳定性，欢迎大家下载体验。GitHub下载官网下载行为变更禁止Unique表使用时序Compaction#49905存算分离场景下AutoBucket单分桶容量调整为10GB#50566新特性Lakehouse支持访问AWSS3TableBuckets中的Iceberg表格式详
doris通过raft协议实现高可用 jiedaodezhuti 数据库服务器网络
在Doris中，Raft协议主要通过管理和同步‌FE（Frontend）节点的元数据‌来实现集群的高可用性，确保即使部分节点故障，系统仍能持续提供服务并保障数据一致性。其核心实现机制如下：一、Raft在FE元数据管理中的应用‌1.1元数据高可用保障‌FE节点分为‌Leader‌、‌Follower‌和‌Observer‌三种角色。‌Leader节点‌：负责处理所有元数据变更请求（如建表、数据导入等
信创 CDC 实战｜国产数据库的数据高速通道：OceanBase 实时入仓 StarRocks 数据库
国产数据库加速进入核心系统，传统同步工具却频频“掉链子”。本系列文章聚焦OceanBase、GaussDB、TDSQL、达梦等主流信创数据库，逐一拆解其日志机制与同步难点，结合TapData的实践经验，系统讲解从CDC捕获到实时入仓（Doris、StarRocks、ClickHouse等）的完整链路构建方案，为工程师提供切实可行的替代路径与最佳实践。本篇任务：OceanBase→StarRocks
Apache Doris 2.0.12 版本正式发布 SelectDB技术团队数据库大数据数据仓库 Doris 实时数仓
亲爱的社区小伙伴们，ApacheDoris2.0.12版本已于2024年6月27日正式与大家见面，该版本提交了99个改进项以及问题修复，欢迎大家下载体验。官网下载：https://doris.apache.org/download/GitHub下载：https://github.com/apache/doris/releases行为变更不再将建表的默认注释设置为表的类型，而是改成默认为空，比如CO
Apache Doris 3.0.6 版本正式发布 SelectDB技术团队 apache 大数据极速分析实时分析数据分析
亲爱的社区小伙伴们，ApacheDoris3.0.6版本已于2025年06月16日正式发布。该版本进一步提升了系统的性能及稳定性，欢迎大家下载体验。GitHub下载官网下载行为变更禁止Unique表使用时序Compaction存算分离场景下AutoBucket单分桶容量调整为10GB新特性Lakehouse支持访问AWSS3TableBuckets中的Iceberg表格式详情请参考文档：Icebe
Doris 数据集成 Apache Paimon 猫猫姐 Doris doris
Doris数据集成ApachePaimon湖仓一体（DataLakehouse）融合了数据仓库的高性能、实时性以及数据湖的低成本、灵活性等优势，帮助用户更加便捷地满足各种数据处理分析的需求。在过去多个版本中，ApacheDoris持续加深与数据湖的融合，已演进出一套成熟的湖仓一体解决方案。为便于用户快速入门，我们将通过系列文章介绍ApacheDoris与各类主流数据湖格式及存储系统的湖仓一体架构搭
Apache Doris 高频问题排查指南：从报错到性能优化智慧源点大数据 apache
一、部署与配置问题1.FE启动失败：AddressalreadyinuseERROR:fe.journal.Catalogconstructorexception.port=9010isalreadyused.原因：端口被占用或残留进程未释放解决：#查找占用进程lsof-i:9010#终止残留进程kill-9#清理元数据（谨慎操作）rm-rfdoris-meta/image/*2.BE节点无法加入
Doris数据集成 Apache Iceberg 猫猫姐 Doris doris iceberg
Doris数据集成ApacheIcebergApacheIceberg是一种开源、高性能、高可靠的数据湖表格式，可实现超大规模数据的分析与管理。它支持ApacheDoris在内的多种主流查询引擎，兼容HDFS以及各种对象云存储，具备ACID、Schema演进、高级过滤、隐藏分区和分区布局演进等特性，可确保高性能查询以及数据的可靠性及一致性，其时间旅行和版本回滚功能也为数据管理带来较高的灵活性。Ap
Apache Doris 2.1.10 版本正式发布 SelectDB技术团队 apache 数据仓库 doris
亲爱的社区小伙伴们，ApacheDoris2.1.10版本已正式发布。2.1.10版本对湖仓一体、半结构化数据类型、查询优化器、执行引擎、存储管理进行了若干改进优化。欢迎大家下载使用。官网下载：https://doris.apache.org/downloadGitHub下载：https://github.com/apache/doris/releases行为变更AuditLog中的SQLHash
Doris 数据库深度解析：架构、原理与实战应用从零开始学习人工智能数据库架构
一、Doris的架构与原理1.架构组成Doris是一个分布式MPP（大规模并行处理）数据库，它的架构主要由以下几部分组成：FE（Frontend）：负责管理元数据、解析SQL查询、优化查询计划，并将任务分配给BE。BE（Backend））：负责实际存储数据和执行查询任务。Broker：用于读取外部存储（如HDFS、S3等）的数据。MySQL客户端：用户通过MySQL客户端连接Doris，提交SQL
【Doris基础】Doris中的Replica详解：Replica原理、架构 IT成长日记 Apache Doris学习之旅 apache Doris Replica
目录1Replica基础概念1.1什么是Replica1.2Doris中的副本类型2Doris副本架构设计2.1副本分布机制2.2副本一致性模型3副本生命周期管理3.1副本创建流程3.2副本恢复机制4副本读写流程详解4.1写入流程与副本同步4.2查询流程与副本选择5副本均衡与调度5.1副本均衡策略5.2调度器工作原理6高级副本管理6.1副本放置策略（PlacementPolicy）6.2动态调整副
Doris实践——叮咚买菜基于OLAP引擎的应用实践吵吵叭火大数据大数据数据仓库
目录前言一、业务需求二、选型与对比三、架构体系四、应用实践4.1实时数据分析4.2B端业务查询取数4.3标签系统4.4BI看板4.5OLAP多维分析五、优化经验六、总结原文大佬介绍的这篇Doris数仓建设实践有借鉴意义的，这些摘抄下来用作沉淀学习。如有侵权请告知~前言随着叮咚买菜业务的发展，不同的业务场景对数据分析提出了不同的需求，希望引入一款实时OLAP数据库，构建一个灵活的多维实时查询和分析的
Apache Doris实时分析数据仓库的快速入门 AWsggdrg apache 数据仓库知识图谱 python
ApacheDoris是一个现代化的数据仓库，专为实时分析设计。它能够在大规模数据上快速进行分析，非常适合需要快速响应的业务场景。Doris通常被分类为OLAP数据库，并且在ClickBench（一个面向分析型数据库系统的基准测试）中表现出色。得益于其高效的向量化执行引擎，Doris也可以用作快速的向量数据库。1.技术背景介绍ApacheDoris旨在解决传统数据仓库在实时分析中的性能瓶颈问题。传
开源夜莺V8.Beta11发版，支持CK告警、事件Pipeline等运维监控开源开源监控软件
这个版本来得迟了一些，主要是新功能加的多，下面简单介绍一下新功能，下下周也计划做一次直播讲解。支持ClickHouse告警夜莺最重要的定位是告警引擎，所以会持续增加各类数据源的告警支持，ClickHouse之后还有Doris、MySQL、Postgres等。开源版主要是支持告警，不会支持看图可视化，实在是做不过来，答疑也答疑不过来。引入事件Pipeline告警引擎根据告警规则产生告警事件之后，会有
最全Doris实战——结合Flink构建极速易用的实时数仓_flink doris 2301_82241942 程序员 flink linq 大数据
3.6.4执行层查询加速四、行业最佳实践4.1跨境电商4.2运营服务商4.3供应链企业原文大佬的这篇Doris+Flink构建实时数仓的实战文章整体写的很深入，这里直接摘抄下来用作学习和知识沉淀。本篇文章介绍如何基于Doris和Flink快速构建一个极速易用的实时数仓，包括数据同步、数据集成、数仓分层、数据更新、性能提升等方面的具体应用方案。一、实时数仓的需求与挑战先介绍一下传统的数据架构如何设计
Apache Doris大厂高频面试题50道和参考答案大模型大数据攻城狮 doris doris面试 doris运维 mpp架构数据仓库数据湖物化视图
目录什么是ApacheDoris？它的主要功能是什么？Doris与传统关系型数据库的主要区别是什么？Doris的架构是怎样的？请详细说各个组件的功能。请描述一下Doris的基本架构，并解释其主要组成部分的作用。Doris的主要特点是什么？Doris的分布式架构有什么优势？请解释Doris的列式存储的优缺点。优点缺点Doris中的向量化执行引擎及优势是什么？提高计算效率减少内存访问开销增强数据处理能
doris如何实现自增id和uuid生成斑鸠同学 doris 大数据
doris没有uuid函数。可以通过可选就唯一字段群值加密即可。例如，结果表有维度和度量字段。已知一行结果组合一定为唯一值。利用concat和MD5函数生成uuid即可。selectmd5(concat("",hour,c_id,product,city))uuid,*fromads_t1;方法2，利用窗口函数生成自增id即可selectrow_number()over()uuid,*fromad
《Spark/Flink/Doris离线&实时数仓开发》目录大模型大数据攻城狮 spark flink 大数据数据面试离线数仓实时数仓调度器
欢迎加入《Spark/Flink/Doris离线&实时数仓开发》付费专栏！本专栏专为大数据工程师、数据分析师及准备大数据面试的求职者量身打造，聚焦Spark、Flink、Doris等核心技术，覆盖离线与实时数仓开发的全流程。无论你是想快速上手项目、提升技术能力，还是在面试中脱颖而出，这里都能为你提供系统化、实战化、可落地的内容。为什么选择本专栏？全面覆盖，分类清晰：从数仓架构设计、ETL开发、实时
Doris数据导入方式与Broker Load操作指南晚夜微雨问海棠呀大数据 sql
Doris数据导入方式与BrokerLoad操作指南ApacheDoris作为新一代MPP分析型数据库，提供了六种高效的数据导入方式，每种方式针对不同的数据源、数据规模和实时性需求，形成了完整的数据集成解决方案。BrokerLoad作为其中最常用的异步批量导入方式，特别适合从HDFS、S3等远程存储系统导入TB级大数据量，具有高吞吐、易管理、支持多种文件格式等优势。本文将全面解析Doris支持的数
【架构】-- StarRocks 和 Doris 介绍与选型建议 oo寻梦in记数据湖仓架构设计大数据 starrocks doris MPP
StarRocks和Doris的介绍随着大数据分析需求的不断增长，企业对高性能、低延迟的分析型数据库提出了更高的要求。StarRocks和ApacheDoris是当前主流的开源MPP（MassivelyParallelProcessing）数据库系统，广泛应用于实时分析、报表生成和数据仓库等场景。本文将从架构、性能、适用场景、优缺点等方面对这两款数据库进行深入分析，并提供选型建议。一、产品概述St
怎么样才能成为专业的程序员？ cocos2d-x小菜编程 PHP
如何要想成为一名专业的程序员？仅仅会写代码是不够的。从团队合作去解决问题到版本控制，你还得具备其他关键技能的工具包。当我们询问相关的专业开发人员，那些必备的关键技能都是什么的时候，下面是我们了解到的情况。关于如何学习代码，各种声音很多，然后很多人就被误导为成为专业开发人员懂得一门编程语言就够了？！呵呵，就像其他工作一样，光会一个技能那是远远不够的。如果你想要成为
java web开发高并发处理 BreakingBad java Web 并发开发处理高
java处理高并发高负载类网站中数据库的设计方法（java教程,java处理大量数据，java高负载数据）一：高并发高负载类网站关注点之数据库没错,首先是数据库,这是大多数应用所面临的首个SPOF。尤其是Web2.0的应用，数据库的响应是首先要解决的。一般来说MySQL是最常用的，可能最初是一个mysql主机，当数据增加到100万以上，那么，MySQL的效能急剧下降。常用的优化措施是M-S（
mysql批量更新 ekian mysql
mysql更新优化：一版的更新的话都是采用update set的方式，但是如果需要批量更新的话，只能for循环的执行更新。或者采用executeBatch的方式，执行更新。无论哪种方式，性能都不见得多好。三千多条的更新，需要3分多钟。查询了批量更新的优化，有说replace into的方式，即： replace into tableName(id,status) values
微软BI（3） 18289753290 微软BI SSIS
1) Q：该列违反了完整性约束错误；已获得 OLE DB 记录。源:“Microsoft SQL Server Native Client 11.0” Hresult: 0x80004005 说明:“不能将值 NULL 插入列 'FZCHID'，表 'JRB_EnterpriseCredit.dbo.QYFZCH'；列不允许有 Null 值。INSERT 失败。”。 A：一般这类问题的存在是
Java中的List g21121 java
List是一个有序的 collection（也称为序列）。此接口的用户可以对列表中每个元素的插入位置进行精确地控制。用户可以根据元素的整数索引（在列表中的位置）访问元素，并搜索列表中的元素。与 set 不同，列表通常允许重复
读书笔记永夜-极光读书笔记
1. K是一家加工厂,需要采购原材料,有A,B,C,D 4家供应商,其中A给出的价格最低,性价比最高,那么假如你是这家企业的采购经理,你会如何决策? 传统决策: A:100%订单 B,C,D:0% &nbs
centos 安装 Codeblocks 随便小屋 codeblocks
1.安装gcc,需要c和c++两部分,默认安装下,CentOS不安装编译器的,在终端输入以下命令即可yum install gccyum install gcc-c++ 2.安装gtk2-devel,因为默认已经安装了正式产品需要的支持库,但是没有安装开发所需要的文档.yum install gtk2* 3. 安装wxGTK yum search w
23种设计模式的形象比喻 aijuans 设计模式
1、ABSTRACT FACTORY—追MM少不了请吃饭了，麦当劳的鸡翅和肯德基的鸡翅都是MM爱吃的东西，虽然口味有所不同，但不管你带MM去麦当劳或肯德基，只管向服务员说“来四个鸡翅”就行了。麦当劳和肯德基就是生产鸡翅的Factory 　　工厂模式：客户类和工厂类分开。消费者任何时候需要某种产品，只需向工厂请求即可。消费者无须修改就可以接纳新产品。缺点是当产品修改时，工厂类也要做相应的修改。如：
开发管理 CheckLists aoyouzi 开发管理 CheckLists
开发管理 CheckLists(23) -使项目组度过完整的生命周期开发管理 CheckLists(22) -组织项目资源开发管理 CheckLists(21) -控制项目的范围开发管理 CheckLists(20) -项目利益相关者责任开发管理 CheckLists(19) -选择合适的团队成员开发管理 CheckLists(18) -敏捷开发 Scrum Master 工作开发管理 C
js实现切换百合不是茶 JavaScript 栏目切换
js主要功能之一就是实现页面的特效,窗体的切换可以减少页面的大小,被门户网站大量应用思路: 1,先将要显示的设置为display:bisible 否则设为none 2,设置栏目的id ,js获取栏目的id,如果id为Null就设置为显示 3,判断js获取的id名字;再设置是否显示代码实现: html代码: <di
周鸿祎在360新员工入职培训上的讲话 bijian1013 感悟项目管理人生职场
这篇文章也是最近偶尔看到的，考虑到原博客发布者可能将其删除等原因，也更方便个人查找，特将原文拷贝再发布的。“学东西是为自己的，不要整天以混的姿态来跟公司博弈，就算是混，我觉得你要是能在混的时间里，收获一些别的有利于人生发展的东西，也是不错的，看你怎么把握了”，看了之后，对这句话记忆犹新。 &
前端Web开发的页面效果 Bill_chen html Web Microsoft
1.IE6下png图片的透明显示： <img src="图片地址" border="0" style="Filter.Alpha(Opacity)=数值(100),style=数值(3)"/> 或在<head></head>间加一段JS代码让透明png图片正常显示。 2.<li>标
【JVM五】老年代垃圾回收：并发标记清理GC(CMS GC) bit1129 垃圾回收
CMS概述并发标记清理垃圾回收(Concurrent Mark and Sweep GC）算法的主要目标是在GC过程中，减少暂停用户线程的次数以及在不得不暂停用户线程的请夸功能，尽可能短的暂停用户线程的时间。这对于交互式应用，比如web应用来说，是非常重要的。 CMS垃圾回收针对新生代和老年代采用不同的策略。相比同吞吐量垃圾回收，它要复杂的多。吞吐量垃圾回收在执
Struts2技术总结白糖_ struts2
必备jar文件早在struts2.0.*的时候，struts2的必备jar包需要如下几个： commons-logging-*.jar Apache旗下commons项目的log日志包 freemarker-*.jar
Jquery easyui layout应用注意事项 bozch jquery 浏览器 easyui layout
在jquery easyui中提供了easyui-layout布局，他的布局比较局限，类似java中GUI的border布局。下面对其使用注意事项作简要介绍：如果在现有的工程中前台界面均应用了jquery easyui，那么在布局的时候最好应用jquery eaysui的layout布局，否则在表单页面（编辑、查看、添加等等）在不同的浏览器会出
java-拷贝特殊链表：有一个特殊的链表，其中每个节点不但有指向下一个节点的指针pNext，还有一个指向链表中任意节点的指针pRand，如何拷贝这个特殊链表？ bylijinnan java
public class CopySpecialLinkedList { /** * 题目：有一个特殊的链表，其中每个节点不但有指向下一个节点的指针pNext，还有一个指向链表中任意节点的指针pRand，如何拷贝这个特殊链表？拷贝pNext指针非常容易，所以题目的难点是如何拷贝pRand指针。假设原来链表为A1 -> A2 ->... -> An，新拷贝
color Chen.H JavaScript html css
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd"> <HTML> <HEAD>&nbs
[信息与战争]移动通讯与网络 comsci 网络
两个坚持:手机的电池必须可以取下来光纤不能够入户,只能够到楼宇建议大家找这本书看看:<&
oracle flashback query(闪回查询) daizj oracle flashback query flashback table
在Oracle 10g中，Flash back家族分为以下成员： Flashback Database Flashback Drop Flashback Table Flashback Query(分Flashback Query,Flashback Version Query，Flashback Transaction Query) 下面介绍一下Flashback Drop 和Flas
zeus持久层DAO单元测试 deng520159 单元测试
zeus代码测试正紧张进行中,但由于工作比较忙,但速度比较慢.现在已经完成读写分离单元测试了,现在把几种情况单元测试的例子发出来,希望有人能进出意见,让它走下去. 本文是zeus的dao单元测试: 1.单元测试直接上代码 package com.dengliang.zeus.webdemo.test; import org.junit.Test; import o
C语言学习三printf函数和scanf函数学习 dcj3sjt126com c printf scanf language
printf函数 /* 2013年3月10日20:42:32 地点：北京潘家园功能：目的：测试%x %X %#x %#X的用法 */ # include <stdio.h> int main(void) { printf("哈哈！\n"); // \n表示换行 int i = 10; printf
那你为什么小时候不好好读书? dcj3sjt126com life
dady, 我今天捡到了十块钱, 不过我还给那个人了 good girl! 那个人有没有和你讲thank you啊没有啦....他拉我的耳朵我才把钱还给他的, 他哪里会和我讲thank you 爸爸, 如果地上有一张5块一张10块你拿哪一张呢.... 当然是拿十块的咯... 爸爸你很笨的, 你不会两张都拿爸爸为什么上个月那个人来跟你讨钱, 你告诉他没
iptables开放端口 Fanyucai linux iptables 端口
1，找到配置文件 vi /etc/sysconfig/iptables 2，添加端口开放，增加一行，开放18081端口 -A INPUT -m state --state NEW -m tcp -p tcp --dport 18081 -j ACCEPT 3，保存 ESC :wq! 4，重启服务 service iptables
Ehcache（05）——缓存的查询 234390216 排序 ehcache 统计 query
缓存的查询目录 1. 使Cache可查询 1.1 基于Xml配置 1.2 基于代码的配置 2 指定可搜索的属性 2.1 可查询属性类型 2.2 &
通过hashset找到数组中重复的元素 jackyrong hashset
如何在hashset中快速找到重复的元素呢?方法很多，下面是其中一个办法： int[] array = {1,1,2,3,4,5,6,7,8,8}; Set<Integer> set = new HashSet<Integer>(); for(int i = 0
使用ajax和window.history.pushState无刷新改变页面内容和地址栏URL lanrikey history
后退时关闭当前页面 <script type="text/javascript"> jQuery(document).ready(function ($) { if (window.history && window.history.pushState) {
应用程序的通信成本 netkiller.github.com 虚拟机应用服务器陈景峰 netkiller neo
应用程序的通信成本什么是通信一个程序中两个以上功能相互传递信号或数据叫做通信。什么是成本这是是指时间成本与空间成本。时间就是传递数据所花费的时间。空间是指传递过程耗费容量大小。都有哪些通信方式全局变量线程间通信共享内存共享文件管道 Socket 硬件（串口，USB）等等全局变量全局变量是成本最低通信方法，通过设置
一维数组与二维数组的声明与定义恋洁e生二维数组一维数组定义声明初始化
/** * */ package test20111005; /** * @author FlyingFire * @date:2011-11-18 上午04:33:36 * @author ：代码整理 * @introduce :一维数组与二维数组的初始化 *summary： */ public c
Spring Mybatis独立事务配置 toknowme mybatis
在项目中有很多地方会使用到独立事务，下面以获取主键为例（1）修改配置文件spring-mybatis.xml  <tx:annotation-driven transaction-manager="transactionManager" /> &n
更新Anadroid SDK Tooks之后，Eclipse提示No update were found xp9802 eclipse
使用Android SDK Manager 更新了Anadroid SDK Tooks 之后，打开eclipse提示 This Android SDK requires Android Developer Toolkit version 23.0.0 or above, 点击Check for Updates 检测一会后提示 No update were found