迹说

Doris 一种实时多维分析的解决方案

Doris

Doris 这类 MPP 架构的 OLAP 数据库，通常都是通过提高并发，来处理大量数据的。本质上，Doris 的数据存储在类似 SSTable（Sorted String Table）的数据结构中。该结构是一种有序的数据结构，可以按照指定的列进行排序存储。在这种数据结构上，以排序列作为条件进行查找，会非常的高效。

限制

在 Count(*) 语法方面，原生的方式性能不是特别高，需要自行优化（http://doris.apache.org/documentation/cn/getting-started/data-model-rollup.html）
不存在除了维度和指标之外的字段类型存在，如果需要实现多种需求场景，需要创建多种表类型来冗余数据方式实现

数据存储结构

在 Doris 中，数据以表（Table）的形式进行逻辑上的描述。一张表包括行（Row）和列（Column）。Row 即用户的一行数据。Column 用于描述一行数据中不同的字段。

Column 可以分为两大类：Key 和 Value。从业务角度看，Key 和 Value 可以分别对应维度列和指标列。

Doris 的数据模型主要分为3类:

Aggregate
Uniq
Duplicate

Aggregate 模型

在 Doris 通过 key 来来决定 value 的聚合粒度大小。

CREATE TABLE IF NOT EXISTS example_db.expamle_tbl
(
    `user_id` LARGEINT NOT NULL COMMENT "用户id",
    `date` DATE NOT NULL COMMENT "数据灌入日期时间",
    `city` VARCHAR(20) COMMENT "用户所在城市",
    `age` SMALLINT COMMENT "用户年龄",
    `sex` TINYINT COMMENT "用户性别",
    `last_visit_date` DATETIME REPLACE DEFAULT "1970-01-01 00:00:00" COMMENT "用户最后一次访问时间",
    `cost` BIGINT SUM DEFAULT "0" COMMENT "用户总消费",
    `max_dwell_time` INT MAX DEFAULT "0" COMMENT "用户最大停留时间",
    `min_dwell_time` INT MIN DEFAULT "99999" COMMENT "用户最小停留时间",
)
AGGREGATE KEY(`user_id`, `date`, `timestamp`, `city`, `age`, `sex`)
... /* 省略 Partition 和 Distribution 信息 */
；

像带有 REPLACE、SUM、MAX、MIN 这种标记的字段都是属于 value，user_id, date, timestamp, city, age, sex 则为key。

Uniq模型

这类数据没有聚合需求，只需保证主键唯一性。

CREATE TABLE IF NOT EXISTS example_db.expamle_tbl
(
    `user_id` LARGEINT NOT NULL COMMENT "用户id",
    `username` VARCHAR(50) NOT NULL COMMENT "用户昵称",
    `city` VARCHAR(20) COMMENT "用户所在城市",
    `age` SMALLINT COMMENT "用户年龄",
    `sex` TINYINT COMMENT "用户性别",
    `phone` LARGEINT COMMENT "用户电话",
    `address` VARCHAR(500) COMMENT "用户地址",
    `register_time` DATETIME COMMENT "用户注册时间"
)
UNIQUE KEY(`user_id`, `user_name`)
... /* 省略 Partition 和 Distribution 信息 */
；

Duplicate 模型

在某些多维分析场景下，数据既没有主键，也没有聚合需求。因此，我们引入 Duplicate 数据模型来满足这类需求。

这种数据模型区别于 Aggregate 和 Uniq 模型。数据完全按照导入文件中的数据进行存储，不会有任何聚合。即使两行数据完全相同，也都会保留。而在建表语句中指定的 DUPLICATE KEY，只是用来指明底层数据按照那些列进行排序。

在 DUPLICATE KEY 的选择上，我们建议适当的选择前 2-4 列就可以。

CREATE TABLE IF NOT EXISTS example_db.expamle_tbl
(
    `timestamp` DATETIME NOT NULL COMMENT "日志时间",
    `type` INT NOT NULL COMMENT "日志类型",
    `error_code` INT COMMENT "错误码",
    `error_msg` VARCHAR(1024) COMMENT "错误详细信息",
    `op_id` BIGINT COMMENT "负责人id",
    `op_time` DATETIME COMMENT "处理时间"
)
DUPLICATE KEY(`timestamp`, `type`)
... /* 省略 Partition 和 Distribution 信息 */
；

数据模型的选择建议

因为数据模型在建表时就已经确定，且无法修改。所以，选择一个合适的数据模型非常重要。

Aggregate 模型可以通过预聚合，极大地降低聚合查询时所需扫描的数据量和查询的计算量，非常适合有固定模式的报表类查询场景。但是该模型对 count(*) 查询很不友好。同时因为固定了 Value 列上的聚合方式，在进行其他类型的聚合查询时，需要考虑语意正确性。
Uniq 模型针对需要唯一主键约束的场景，可以保证主键唯一性约束。但是无法利用 ROLLUP 等预聚合带来的查询优势（因为本质是 REPLACE，没有 SUM 这种聚合方式）。
Duplicate 适合任意维度的 Ad-hoc 查询。虽然同样无法利用预聚合的特性，但是不受聚合模型的约束，可以发挥列存模型的优势（只读取相关列，而不需要读取所有 Key 列）。

前缀索引

在 Aggregate、Uniq 和 Duplicate 三种数据模型中。底层的数据存储，是按照各自建表语句中，AGGREGATE KEY、UNIQ KEY 和 DUPLICATE KEY 中指定的列进行排序存储的。

而前缀索引，即在排序的基础上，实现的一种根据给定前缀列，快速查询数据的索引方式。

我们将一行数据的前 36 个字节 作为这行数据的前缀索引。当遇到 VARCHAR 类型时，前缀索引会直接截断。我们举例说明：

以下表结构的前缀索引为 user_id(8Byte) + age(4Bytes) + message(prefix 24 Bytes)。

ColumnName	Type
user_id	BIGINT
age	INT
message	VARCHAR(100)
max_dwell_time	DATETIME
min_dwell_time	DATETIME

以下表结构的前缀索引为 user_name(20 Bytes)。即使没有达到 36 个字节，因为遇到 VARCHAR，所以直接截断，不再往后继续。

ColumnName	Type
user_name	VARCHAR(20)
age	INT
message	VARCHAR(100)
max_dwell_time	DATETIME
min_dwell_time	DATETIME

当我们的查询条件，是前缀索引的前缀时，可以极大的加快查询速度。比如在第一个例子中，我们执行如下查询：

SELECT * FROM table WHERE user_id=1829239 and age=20；

该查询的效率会远高于如下查询：

SELECT * FROM table WHERE age=20；

所以在建表时，正确的选择列顺序，能够极大地提高查询效率。

物化视图（rollup）

ROLLUP 在多维分析中是“上卷”的意思，即将数据按某种指定的粒度进行进一步聚合。

在 Doris 中，我们将用户通过建表语句创建出来的表成为 Base 表（Base Table）。Base 表中保存着按用户建表语句指定的方式存储的基础数据。

在 Base 表之上，我们可以创建任意多个 ROLLUP 表。这些 ROLLUP 的数据是基于 Base 表产生的，并且在物理上是独立存储的。

ROLLUP 表的基本作用，在于在 Base 表的基础上，获得更粗粒度的聚合数据。

Rollup 本质上可以理解为原始表(Base Table)的一个物化索引。建立 Rollup 时可只选取 Base Table 中的部分列作为 Schema。Schema 中的字段顺序也可与 Base Table 不同。

ROLLUP 创建完成之后的触发是程序自动的，不需要任何其他指定或者配置。

例如：创建了 user_id （key），cost（value）格式的 rollup 时，当执行下方语句时，就会触发。

SELECT user_id, sum(cost) FROM table GROUP BY user_id;

Aggregate 和 Uniq 两种数据存储格式时，使用 rollup 会改变聚合数据的粒度，但对于 Duplicate 只是调整前缀索引。

因为建表时已经指定了列顺序，所以一个表只有一种前缀索引。这对于使用其他不能命中前缀索引的列作为条件进行的查询来说，效率上可能无法满足需求。因此，我们可以通过创建 ROLLUP 来人为的调整列顺序。举例说明。

Base 表结构如下：

ColumnName	Type
user_id	BIGINT
age	INT
message	VARCHAR(100)
max_dwell_time	DATETIME
min_dwell_time	DATETIME

我们可以在此基础上创建一个 ROLLUP 表：

ColumnName	Type
age	INT
user_id	BIGINT
message	VARCHAR(100)
max_dwell_time	DATETIME
min_dwell_time	DATETIME

可以看到，ROLLUP 和 Base 表的列完全一样，只是将 user_id 和 age 的顺序调换了。那么当我们进行如下查询时：

SELECT * FROM table where age=20 and massage LIKE "%error%";

会优先选择 ROLLUP 表，因为 ROLLUP 的前缀索引匹配度更高。

创建 rollup 语法

ALTER TABLE table1 ADD ROLLUP rollup_city(citycode, pv);
# 取消正在执行的作业
CANCEL ALTER TABLE ROLLUP FROM table1;

ROLLUP 调整前缀索引

因为建表时已经指定了列顺序，所以一个表只有一种前缀索引。这对于使用其他不能命中前缀索引的列作为条件进行的查询来说，效率上可能无法满足需求。因此，我们可以通过创建 ROLLUP 来人为的调整列顺序。

ROLLUP 的几点说明

ROLLUP 最根本的作用是提高某些查询的查询效率（无论是通过聚合来减少数据量，还是修改列顺序以匹配前缀索引）。因此 ROLLUP 的含义已经超出了 “上卷” 的范围。这也是为什么我们在源代码中，将其命名为 Materized Index（物化索引）的原因。
ROLLUP 是附属于 Base 表的，可以看做是 Base 表的一种辅助数据结构。用户可以在 Base 表的基础上，创建或删除 ROLLUP，但是不能在查询中显式的指定查询某 ROLLUP。是否命中 ROLLUP 完全由 Doris 系统自动决定。
ROLLUP 的数据是独立物理存储的。因此，创建的 ROLLUP 越多，占用的磁盘空间也就越大。同时对导入速度也会有影响（导入的ETL阶段会自动产生所有 ROLLUP 的数据），但是不会降低查询效率（只会更好）。
ROLLUP 的数据更新与 Base 表示完全同步的。用户无需关心这个问题。
ROLLUP 中列的聚合方式，与 Base 表完全相同。在创建 ROLLUP 无需指定，也不能修改。
查询能否命中 ROLLUP 的一个必要条件（非充分条件）是，查询所涉及的所有列（包括 select list 和 where 中的查询条件列等）都存在于该 ROLLUP 的列中。否则，查询只能命中 Base 表。
某些类型的查询（如 count(*)）在任何条件下，都无法命中 ROLLUP。
可以通过 EXPLAIN your_sql; 命令获得查询执行计划，在执行计划中，查看是否命中 ROLLUP。
可以通过 DESC tbl_name ALL; 语句显示 Base 表和所有已创建完成的 ROLLUP。

rollup 数量没有限制，但数量越多会消耗比较多的内存。支持 SQL 方式变更 rollup 字段数量。

分区和分桶

Doris 支持两级分区存储, 第一层为 RANGE 分区(partition), 第二层为 HASH 分桶(bucket)。

1.3.1. RANGE分区(partition)

RANGE分区用于将数据划分成不同区间, 逻辑上可以理解为将原始表划分成了多个子表。业务上，多数用户会选择采用按时间进行partition, 让时间进行partition有以下好处：

* 可区分冷热数据
* 可用上Doris分级存储(SSD + SATA)的功能
* 按分区删除数据时，更加迅速

1.3.2. HASH分桶(bucket)

根据hash值将数据划分成不同的 bucket。

* 建议采用区分度大的列做分桶, 避免出现数据倾斜
* 为方便数据恢复, 建议单个 bucket 的 size 不要太大, 保持在 10GB 以内, 所以建表或增加 partition 时请合理考虑 bucket 数目, 其中不同 partition 可指定不同的 buckets 数。

稀疏索引和 Bloom Filter

Doris对数据进行有序存储, 在数据有序的基础上为其建立稀疏索引,索引粒度为 block(1024行)。

稀疏索引选取 schema 中固定长度的前缀作为索引内容, 目前 Doris 选取 36 个字节的前缀作为索引。

建表时建议将查询中常见的过滤字段放在 Schema 的前面, 区分度越大，频次越高的查询字段越往前放。
这其中有一个特殊的地方,就是 varchar 类型的字段。varchar 类型字段只能作为稀疏索引的最后一个字段。索引会在 varchar 处截断, 因此 varchar 如果出现在前面，可能索引的长度可能不足 36 个字节。具体可以参阅数据模型、ROLLUP 及前缀索引。
除稀疏索引之外, Doris还提供bloomfilter索引, bloomfilter索引对区分度比较大的列过滤效果明显。如果考虑到varchar不能放在稀疏索引中, 可以建立bloomfilter索引。

Broadcast/Shuffle Join

系统默认实现 Join 的方式，是将小表进行条件过滤后，将其广播到大表所在的各个节点上，形成一个内存 Hash 表，然后流式读出大表的数据进行Hash Join。但是如果当小表过滤后的数据量无法放入内存的话，此时 Join 将无法完成，通常的报错应该是首先造成内存超限。

如果遇到上述情况，建议使用 Shuffle Join 的方式，也被称作 Partitioned Join。即将小表和大表都按照 Join 的 key 进行 Hash，然后进行分布式的 Join。这个对内存的消耗就会分摊到集群的所有计算节点上。

问题

在已经创建的表基础上进行表结构字段的变更和 rollup 索引的变更？

支持，但数据模式一旦表创建就无法变更。

rollup 是否存在数量的限制？

不存在，但越多的 rollup 内存资源会消耗更多，同时，导入数据会比较慢。

（A，B，C）构成的索引是否支持仅 A 字段作为查询条件查询？

支持，但要有顺序要求。

总结

Doris 表结构由 key 和 value 构成，key 为维度，value 为统计指标。适合做简单的聚合计算和维度计算，使用比较低的硬件条件拥有比较高的性能。

查询：满足 MySQL 语法
提升查询性能：使用前缀索引+rollup 或者使用 partition、bloom 过滤器。
提升 join 方式查询性能：Shuffle Join。
表结构和索引都支持变更，但数据模式不支持变更。

Doris 官方还推出了 Docker 的 Dev 版本进行特性试用。https://hub.docker.com/r/apachedoris/doris-dev

Doris用户管理 Edingbrugh.南空运维大数据数据库 sql
用户管理是Doris权限体系的核心，所有用户操作均依赖于严格的权限控制。本文将用户管理操作与对应权限要求深度绑定，详细说明用户创建、修改、删除等全流程的权限边界及操作规范。一、用户标识与权限基础用户标识（UserIdentity）唯一标识格式：username@'userhost'，其中：username：用户名称（大小写敏感）userhost：登录IP限制（支持%通配符，如192.168.%）示
Doris、StarRocks 压测对比 xiaokebiubiubiu MPP数据库大数据
先说结论：0、本次测试，未调优二者的参数，开箱起服务，直接测试的，部署架构一致。1、在单表查询下，StarRocks在部分场景下优于Doris，但是二次查询，二者不分伯仲。2、在多表查询下，仅在一个场景下Doris速度逊于StarRocks，大部分场景是Doris优于StarRocks的。3、在cpu和内存的使用上，doris会比starrocks多吃1.5倍的资源。压测试验：1、基础环境组件cp
关于 Apache Doris 和 DorisDB、StarRocks 的关系白杨Shayne 大数据 Doris Starrocks
很多人都分不清ApacheDoris和DorisDB、StarRocks，以及他们之间的社区分化的原因是什么“、“为什么StarRocks不回馈给ApacheDoris”的问题。关于这些问题，ApacheDoris主要维护团队做了声明，以下是全文：关于ApacheDoris和DorisDB、StarRocks的关系ApacheDoris的前世今生相信很多同学都有些许了解，之前在公众号里有过历史文章
弄清Doris/StarRocks分区partition by和分桶distributed by的区别，以及如何选择对应的字段
一、首先，我们先弄清楚数据表中的数据是怎么分布的数据分布建表时，您需要通过设置分区和分桶，指定数据分布方式，并且建议您合理设置分区和分桶，实现数据均匀的分布。数据分布是指数据划分为子集，并按一定规则均衡地分布在不同节点上，能够有效裁剪数据扫描量，最大限度地利用集群的并发性能，从而提升查询性能。数据分布概览常见的数据分布方式现代分布式数据库中，常见的数据分布方式有如下四种：Round-Robin、R
clickhouse数据库表和doris数据库表迁移starrocks数据库时建表注意事项总结积跬步，慕至千里软件安装及程序错误解决方案集数据库 clickhouse
目录零、前言一、clickhouse数据库表在starrocks数据库建表时问题总结1.1数据类型类问题：1.2数据导出阶段：二、doris数据库表在starrocks数据库建表时问题总结2.1properties不支持的属性（直接删除）：2.2properties需修改属性2.3properties：doris建表语句分区明细，starrocks数据不需要明确设定，会自动更新2.4分桶设置问题2
KingbaseES 到 Apache Doris 实时同步实践｜国产数据库数据入仓解决方案数据库
国产数据库加速进入核心系统，传统同步工具却频频“掉链子”。本系列文章聚焦OceanBase、GaussDB、TDSQL、达梦等主流信创数据库，逐一拆解其日志机制与同步难点，结合TapData的实践经验，系统讲解从CDC捕获到实时入仓（Doris、StarRocks、ClickHouse等）的完整链路构建方案，为工程师提供切实可行的替代路径与最佳实践。本篇任务：KingbaseES→ApacheDo
大数据集群架构hadoop集群、Hbase集群、zookeeper、kafka、spark、flink、doris、dataeas(二) 争取不加班！ hadoop hbase zookeeper 大数据运维
zookeeper单节点部署wget-chttps://dlcdn.apache.org/zookeeper/zookeeper-3.8.4/apache-zookeeper-3.8.4-bin.tar.gz下载地址tarxfapache-zookeeper-3.8.4-bin.tar.gz-C/data/&&mv/data/apache-zookeeper-3.8.4-bin//data/zoo
利用大数据领域Doris提升企业数据决策效率大数据洞察大数据网络 ai
利用大数据领域Doris提升企业数据决策效率关键词：大数据、Doris、企业数据决策、数据处理、效率提升摘要：本文围绕利用大数据领域的Doris来提升企业数据决策效率展开。首先介绍了背景，包括目的、预期读者、文档结构和相关术语。接着阐述了Doris的核心概念、架构以及与其他系统的联系。详细讲解了Doris的核心算法原理和具体操作步骤，并给出Python代码示例。同时介绍了相关的数学模型和公式。通过
实时数仓工具-SelectDB 清平乐的技术博客实时数仓数据仓库
一、SelectDB简介官网：https://www.selectdb.com/1、ApacheDorisApacheDoris是一款采用MPP架构的实时分布式OLAP数据仓库，专注于高效的实时数据分析。Doris项目于2013年内部开发，2017年正式开源，目前在GitHub上获得了接近13,000星，全球已有超过5,000家企业采用，社区活跃度极高，累计贡献者超过650人，且曾连续数月在大数据
Apache Doris 3.0.6 版本正式发布数据库apache
亲爱的社区小伙伴们，ApacheDoris3.0.6版本已于2025年06月16日正式发布。该版本进一步提升了系统的性能及稳定性，欢迎大家下载体验。GitHub下载官网下载行为变更禁止Unique表使用时序Compaction#49905存算分离场景下AutoBucket单分桶容量调整为10GB#50566新特性Lakehouse支持访问AWSS3TableBuckets中的Iceberg表格式详
doris通过raft协议实现高可用 jiedaodezhuti 数据库服务器网络
在Doris中，Raft协议主要通过管理和同步‌FE（Frontend）节点的元数据‌来实现集群的高可用性，确保即使部分节点故障，系统仍能持续提供服务并保障数据一致性。其核心实现机制如下：一、Raft在FE元数据管理中的应用‌1.1元数据高可用保障‌FE节点分为‌Leader‌、‌Follower‌和‌Observer‌三种角色。‌Leader节点‌：负责处理所有元数据变更请求（如建表、数据导入等
信创 CDC 实战｜国产数据库的数据高速通道：OceanBase 实时入仓 StarRocks 数据库
国产数据库加速进入核心系统，传统同步工具却频频“掉链子”。本系列文章聚焦OceanBase、GaussDB、TDSQL、达梦等主流信创数据库，逐一拆解其日志机制与同步难点，结合TapData的实践经验，系统讲解从CDC捕获到实时入仓（Doris、StarRocks、ClickHouse等）的完整链路构建方案，为工程师提供切实可行的替代路径与最佳实践。本篇任务：OceanBase→StarRocks
Apache Doris 2.0.12 版本正式发布 SelectDB技术团队数据库大数据数据仓库 Doris 实时数仓
亲爱的社区小伙伴们，ApacheDoris2.0.12版本已于2024年6月27日正式与大家见面，该版本提交了99个改进项以及问题修复，欢迎大家下载体验。官网下载：https://doris.apache.org/download/GitHub下载：https://github.com/apache/doris/releases行为变更不再将建表的默认注释设置为表的类型，而是改成默认为空，比如CO
Apache Doris 3.0.6 版本正式发布 SelectDB技术团队 apache 大数据极速分析实时分析数据分析
亲爱的社区小伙伴们，ApacheDoris3.0.6版本已于2025年06月16日正式发布。该版本进一步提升了系统的性能及稳定性，欢迎大家下载体验。GitHub下载官网下载行为变更禁止Unique表使用时序Compaction存算分离场景下AutoBucket单分桶容量调整为10GB新特性Lakehouse支持访问AWSS3TableBuckets中的Iceberg表格式详情请参考文档：Icebe
Doris 数据集成 Apache Paimon 猫猫姐 Doris doris
Doris数据集成ApachePaimon湖仓一体（DataLakehouse）融合了数据仓库的高性能、实时性以及数据湖的低成本、灵活性等优势，帮助用户更加便捷地满足各种数据处理分析的需求。在过去多个版本中，ApacheDoris持续加深与数据湖的融合，已演进出一套成熟的湖仓一体解决方案。为便于用户快速入门，我们将通过系列文章介绍ApacheDoris与各类主流数据湖格式及存储系统的湖仓一体架构搭
Apache Doris 高频问题排查指南：从报错到性能优化智慧源点大数据 apache
一、部署与配置问题1.FE启动失败：AddressalreadyinuseERROR:fe.journal.Catalogconstructorexception.port=9010isalreadyused.原因：端口被占用或残留进程未释放解决：#查找占用进程lsof-i:9010#终止残留进程kill-9#清理元数据（谨慎操作）rm-rfdoris-meta/image/*2.BE节点无法加入
Doris数据集成 Apache Iceberg 猫猫姐 Doris doris iceberg
Doris数据集成ApacheIcebergApacheIceberg是一种开源、高性能、高可靠的数据湖表格式，可实现超大规模数据的分析与管理。它支持ApacheDoris在内的多种主流查询引擎，兼容HDFS以及各种对象云存储，具备ACID、Schema演进、高级过滤、隐藏分区和分区布局演进等特性，可确保高性能查询以及数据的可靠性及一致性，其时间旅行和版本回滚功能也为数据管理带来较高的灵活性。Ap
Apache Doris 2.1.10 版本正式发布 SelectDB技术团队 apache 数据仓库 doris
亲爱的社区小伙伴们，ApacheDoris2.1.10版本已正式发布。2.1.10版本对湖仓一体、半结构化数据类型、查询优化器、执行引擎、存储管理进行了若干改进优化。欢迎大家下载使用。官网下载：https://doris.apache.org/downloadGitHub下载：https://github.com/apache/doris/releases行为变更AuditLog中的SQLHash
Doris 数据库深度解析：架构、原理与实战应用从零开始学习人工智能数据库架构
一、Doris的架构与原理1.架构组成Doris是一个分布式MPP（大规模并行处理）数据库，它的架构主要由以下几部分组成：FE（Frontend）：负责管理元数据、解析SQL查询、优化查询计划，并将任务分配给BE。BE（Backend））：负责实际存储数据和执行查询任务。Broker：用于读取外部存储（如HDFS、S3等）的数据。MySQL客户端：用户通过MySQL客户端连接Doris，提交SQL
【Doris基础】Doris中的Replica详解：Replica原理、架构 IT成长日记 Apache Doris学习之旅 apache Doris Replica
目录1Replica基础概念1.1什么是Replica1.2Doris中的副本类型2Doris副本架构设计2.1副本分布机制2.2副本一致性模型3副本生命周期管理3.1副本创建流程3.2副本恢复机制4副本读写流程详解4.1写入流程与副本同步4.2查询流程与副本选择5副本均衡与调度5.1副本均衡策略5.2调度器工作原理6高级副本管理6.1副本放置策略（PlacementPolicy）6.2动态调整副
Doris实践——叮咚买菜基于OLAP引擎的应用实践吵吵叭火大数据大数据数据仓库
目录前言一、业务需求二、选型与对比三、架构体系四、应用实践4.1实时数据分析4.2B端业务查询取数4.3标签系统4.4BI看板4.5OLAP多维分析五、优化经验六、总结原文大佬介绍的这篇Doris数仓建设实践有借鉴意义的，这些摘抄下来用作沉淀学习。如有侵权请告知~前言随着叮咚买菜业务的发展，不同的业务场景对数据分析提出了不同的需求，希望引入一款实时OLAP数据库，构建一个灵活的多维实时查询和分析的
Apache Doris实时分析数据仓库的快速入门 AWsggdrg apache 数据仓库知识图谱 python
ApacheDoris是一个现代化的数据仓库，专为实时分析设计。它能够在大规模数据上快速进行分析，非常适合需要快速响应的业务场景。Doris通常被分类为OLAP数据库，并且在ClickBench（一个面向分析型数据库系统的基准测试）中表现出色。得益于其高效的向量化执行引擎，Doris也可以用作快速的向量数据库。1.技术背景介绍ApacheDoris旨在解决传统数据仓库在实时分析中的性能瓶颈问题。传
开源夜莺V8.Beta11发版，支持CK告警、事件Pipeline等运维监控开源开源监控软件
这个版本来得迟了一些，主要是新功能加的多，下面简单介绍一下新功能，下下周也计划做一次直播讲解。支持ClickHouse告警夜莺最重要的定位是告警引擎，所以会持续增加各类数据源的告警支持，ClickHouse之后还有Doris、MySQL、Postgres等。开源版主要是支持告警，不会支持看图可视化，实在是做不过来，答疑也答疑不过来。引入事件Pipeline告警引擎根据告警规则产生告警事件之后，会有
最全Doris实战——结合Flink构建极速易用的实时数仓_flink doris 2301_82241942 程序员 flink linq 大数据
3.6.4执行层查询加速四、行业最佳实践4.1跨境电商4.2运营服务商4.3供应链企业原文大佬的这篇Doris+Flink构建实时数仓的实战文章整体写的很深入，这里直接摘抄下来用作学习和知识沉淀。本篇文章介绍如何基于Doris和Flink快速构建一个极速易用的实时数仓，包括数据同步、数据集成、数仓分层、数据更新、性能提升等方面的具体应用方案。一、实时数仓的需求与挑战先介绍一下传统的数据架构如何设计
Apache Doris大厂高频面试题50道和参考答案大模型大数据攻城狮 doris doris面试 doris运维 mpp架构数据仓库数据湖物化视图
目录什么是ApacheDoris？它的主要功能是什么？Doris与传统关系型数据库的主要区别是什么？Doris的架构是怎样的？请详细说各个组件的功能。请描述一下Doris的基本架构，并解释其主要组成部分的作用。Doris的主要特点是什么？Doris的分布式架构有什么优势？请解释Doris的列式存储的优缺点。优点缺点Doris中的向量化执行引擎及优势是什么？提高计算效率减少内存访问开销增强数据处理能
doris如何实现自增id和uuid生成斑鸠同学 doris 大数据
doris没有uuid函数。可以通过可选就唯一字段群值加密即可。例如，结果表有维度和度量字段。已知一行结果组合一定为唯一值。利用concat和MD5函数生成uuid即可。selectmd5(concat("",hour,c_id,product,city))uuid,*fromads_t1;方法2，利用窗口函数生成自增id即可selectrow_number()over()uuid,*fromad
《Spark/Flink/Doris离线&实时数仓开发》目录大模型大数据攻城狮 spark flink 大数据数据面试离线数仓实时数仓调度器
欢迎加入《Spark/Flink/Doris离线&实时数仓开发》付费专栏！本专栏专为大数据工程师、数据分析师及准备大数据面试的求职者量身打造，聚焦Spark、Flink、Doris等核心技术，覆盖离线与实时数仓开发的全流程。无论你是想快速上手项目、提升技术能力，还是在面试中脱颖而出，这里都能为你提供系统化、实战化、可落地的内容。为什么选择本专栏？全面覆盖，分类清晰：从数仓架构设计、ETL开发、实时
Doris数据导入方式与Broker Load操作指南晚夜微雨问海棠呀大数据 sql
Doris数据导入方式与BrokerLoad操作指南ApacheDoris作为新一代MPP分析型数据库，提供了六种高效的数据导入方式，每种方式针对不同的数据源、数据规模和实时性需求，形成了完整的数据集成解决方案。BrokerLoad作为其中最常用的异步批量导入方式，特别适合从HDFS、S3等远程存储系统导入TB级大数据量，具有高吞吐、易管理、支持多种文件格式等优势。本文将全面解析Doris支持的数
【架构】-- StarRocks 和 Doris 介绍与选型建议 oo寻梦in记数据湖仓架构设计大数据 starrocks doris MPP
StarRocks和Doris的介绍随着大数据分析需求的不断增长，企业对高性能、低延迟的分析型数据库提出了更高的要求。StarRocks和ApacheDoris是当前主流的开源MPP（MassivelyParallelProcessing）数据库系统，广泛应用于实时分析、报表生成和数据仓库等场景。本文将从架构、性能、适用场景、优缺点等方面对这两款数据库进行深入分析，并提供选型建议。一、产品概述St
基于Redis bitmaps人群圈群 colodoo（纸伞）大数据 redis 大数据 java clickhouse
由于基于bitmap技术的圈群场景在Clickhouse和Doris的压测表现不是很理想，查阅了资料发现很少有文章提到bitmap在高并发人群圈选的性能问题，难道钱能解决的问题就不是问题了？由于硬件资源有限只能通过工程去弥补这个问题，于是我做了一系列的尝试和测试，有了以下的一些测试和演进方案。测试方案方案1：基于SQL哈希，缓存结果这个方式能够解决同一SQL的多次查询，如果遇到真实的高并发场景，依
TOMCAT在POST方法提交参数丢失问题 357029540 java tomcat jsp
摘自http://my.oschina.net/luckyi/blog/213209 昨天在解决一个BUG时发现一个奇怪的问题，一个AJAX提交数据在之前都是木有问题的，突然提交出错影响其他处理流程。检查时发现页面处理数据较多，起初以为是提交顺序不正确修改后发现不是由此问题引起。于是删除掉一部分数据进行提交，较少数据能够提交成功。恢复较多数据后跟踪提交FORM DATA ，发现数
在MyEclipse中增加JSP模板删除-2008-08-18 ljy325 jsp xml MyEclipse
在D:\Program Files\MyEclipse 6.0\myeclipse\eclipse\plugins\com.genuitec.eclipse.wizards_6.0.1.zmyeclipse601200710\templates\jsp 目录下找到Jsp.vtl，复制一份，重命名为jsp2.vtl,然后把里面的内容修改为自己想要的格式，保存。然后在 D:\Progr
JavaScript常用验证脚本总结 eksliang JavaScript javaScript表单验证
转载请出自出处：http://eksliang.iteye.com/blog/2098985 下面这些验证脚本，是我在这几年开发中的总结，今天把他放出来，也算是一种分享吧，现在在我的项目中也在用！包括日期验证、比较，非空验证、身份证验证、数值验证、Email验证、电话验证等等...! &nb
微软BI（4） 18289753290 微软BI SSIS
1） Q:查看ssis里面某个控件输出的结果： A MessageBox.Show(Dts.Variables["v_lastTimestamp"].Value.ToString()); 这是我们在包里面定义的变量 2):在关联目的端表的时候如果是一对多的关系，一定要选择唯一的那个键作为关联字段。 3) Q：ssis里面如果将多个数据源的数据插入目的端一
定时对大数据量的表进行分表对数据备份酷的飞上天空大数据量
工作中遇到数据库中一个表的数据量比较大，属于日志表。正常情况下是不会有查询操作的，但如果不进行分表数据太多，执行一条简单sql语句要等好几分钟。。分表工具：linux的shell + mysql自身提供的管理命令原理：使用一个和原表数据结构一样的表，替换原表。 linux shell内容如下： =======================开始
本质的描述与因材施教永夜-极光感想随笔
不管碰到什么事,我都下意识的想去探索本质,找寻一个最形象的描述方式。我坚信,世界上对一件事物的描述和解释,肯定有一种最形象,最贴近本质,最容易让人理解 &
很迷茫。。。随便小屋随笔
小弟我今年研一，也是从事的咱们现在最流行的专业（计算机）。本科三流学校，为了能有个更好的跳板，进入了考研大军，非常有幸能进入研究生的行业（具体学校就不说了，怕把学校的名誉给损了）。先说一下自身的条件，本科专业软件工程。主要学习就是软件开发，几乎和计算机没有什么区别。因为学校本身三流，也就是让老师带着学生学点东西，然后让学生毕业就行了。对专业性的东西了解的非常浅。就那学的语言来说
23种设计模式的意图和适用范围 aijuans 设计模式
Factory Method 意图定义一个用于创建对象的接口，让子类决定实例化哪一个类。Factory Method 使一个类的实例化延迟到其子类。　　适用性当一个类不知道它所必须创建的对象的类的时候。　　当一个类希望由它的子类来指定它所创建的对象的时候。　　当类将创建对象的职责委托给多个帮助子类中的某一个，并且你希望将哪一个帮助子类是代理者这一信息局部化的时候。 Abstr
Java中的synchronized和volatile aoyouzi java volatile synchronized
说到Java的线程同步问题肯定要说到两个关键字synchronized和volatile。说到这两个关键字，又要说道JVM的内存模型。JVM里内存分为main memory和working memory。 Main memory是所有线程共享的，working memory则是线程的工作内存，它保存有部分main memory变量的拷贝，对这些变量的更新直接发生在working memo
js数组的操作和this关键字百合不是茶 js 数组操作 this关键字
js数组的操作; 一:数组的创建: 1、数组的创建 var array = new Array();　//创建一个数组 var array = new Array([size]);　//创建一个数组并指定长度，注意不是上限，是长度 var arrayObj = new Array([element0[, element1[, ...[, elementN]]]
别人的阿里面试感悟 bijian1013 面试分享工作感悟阿里面试
原文如下：http://greemranqq.iteye.com/blog/2007170 一直做企业系统，虽然也自己一直学习技术，但是感觉还是有所欠缺，准备花几个月的时间，把互联网的东西，以及一些基础更加的深入透析，结果这次比较意外，有点突然，下面分享一下感受吧！ &nb
淘宝的测试框架Itest Bill_chen spring maven 框架单元测试 JUnit
Itest测试框架是TaoBao测试部门开发的一套单元测试框架，以Junit4为核心，集合DbUnit、Unitils等主流测试框架，应该算是比较好用的了。近期项目中用了下，有关itest的具体使用如下： 1.在Maven中引入itest框架： <dependency> <groupId>com.taobao.test</groupId&g
【Java多线程二】多路条件解决生产者消费者问题 bit1129 java多线程
package com.tom; import java.util.LinkedList; import java.util.Queue; import java.util.concurrent.ThreadLocalRandom; import java.util.concurrent.locks.Condition; import java.util.concurrent.loc
汉字转拼音pinyin4j 白糖_ pinyin4j
以前在项目中遇到汉字转拼音的情况，于是在网上找到了pinyin4j这个工具包，非常有用，别的不说了，直接下代码： import java.util.HashSet; import java.util.Set; import net.sourceforge.pinyin4j.PinyinHelper; import net.sourceforge.pinyin
org.hibernate.TransactionException: JDBC begin failed解决方案 bozch ssh 数据库异常 DBCP
org.hibernate.TransactionException: JDBC begin failed: at org.hibernate.transaction.JDBCTransaction.begin(JDBCTransaction.java:68) at org.hibernate.impl.SessionImp
java-并查集（Disjoint-set）-将多个集合合并成没有交集的集合 bylijinnan java
import java.util.ArrayList; import java.util.Arrays; import java.util.HashMap; import java.util.HashSet; import java.util.Iterator; import java.util.List; import java.util.Map; import java.ut
Java PrintWriter打印乱码 chenbowen00 java
一个小程序读写文件，发现PrintWriter输出后文件存在乱码，解决办法主要统一输入输出流编码格式。读文件： BufferedReader 从字符输入流中读取文本，缓冲各个字符，从而提供字符、数组和行的高效读取。可以指定缓冲区的大小，或者可使用默认的大小。大多数情况下，默认值就足够大了。通常，Reader 所作的每个读取请求都会导致对基础字符或字节流进行相应的读取请求。因
[天气与气候]极端气候环境 comsci 环境
如果空间环境出现异变...外星文明并未出现,而只是用某种气象武器对地球的气候系统进行攻击,并挑唆地球国家间的战争,经过一段时间的准备...最大限度的削弱地球文明的整体力量,然后再进行入侵...... 那么地球上的国家应该做什么样的防备工作呢? &n
oracle order by与union一起使用的用法 daizj UNION oracle order by
当使用union操作时，排序语句必须放在最后面才正确，如下：只能在union的最后一个子查询中使用order by，而这个order by是针对整个unioning后的结果集的。So：如果unoin的几个子查询列名不同，如 Sql代码 select supplier_id, supplier_name from suppliers UNI
zeus持久层读写分离单元测试 deng520159 单元测试
本文是zeus读写分离单元测试,距离分库分表,只有一步了.上代码: 1.ZeusMasterSlaveTest.java package com.dengliang.zeus.webdemo.test; import java.util.ArrayList; import java.util.List; import org.junit.Assert; import org.j
Yii 截取字符串(UTF-8) 使用组件 dcj3sjt126com yii
1.将Helper.php放进protected\components文件夹下。 2.调用方法： Helper::truncate_utf8_string($content,20,false); //不显示省略号 Helper::truncate_utf8_string($content,20); //显示省略号 &n
安装memcache及php扩展 dcj3sjt126com PHP
安装memcache tar zxvf memcache-2.2.5.tgz cd memcache-2.2.5/ /usr/local/php/bin/phpize (?) ./configure --with-php-confi
JsonObject 处理日期 feifeilinlin521 java json JsonOjbect JsonArray JSONException
写这边文章的初衷就是遇到了json在转换日期格式出现了异常 net.sf.json.JSONException: java.lang.reflect.InvocationTargetException 原因是当你用Map接收数据库返回了java.sql.Date 日期的数据进行json转换出的问题话不多说直接上代码 &n
Ehcache（06）——监听器 234390216 监听器 listener ehcache
监听器 Ehcache中监听器有两种，监听CacheManager的CacheManagerEventListener和监听Cache的CacheEventListener。在Ehcache中，Listener是通过对应的监听器工厂来生产和发生作用的。下面我们将来介绍一下这两种类型的监听器。
activiti 自带设计器中chrome 34版本不能打开bug的解决 jackyrong Activiti
在acitivti modeler中，如果是chrome 34，则不能打开该设计器，其他浏览器可以，经证实为bug，参考 http://forums.activiti.org/content/activiti-modeler-doesnt-work-chrome-v34 修改为，找到 oryx.debug.js 在最头部增加 if (!Document.
微信收货地址共享接口-终极解决 laotu5i0 微信开发
最近要接入微信的收货地址共享接口，总是不成功，折腾了好几天，实在没办法网上搜到的帖子也是骂声一片。我把我碰到并解决问题的过程分享出来，希望能给微信的接口文档起到一个辅助作用，让后面进来的开发者能快速的接入，而不需要像我们一样苦逼的浪费好几天，甚至一周的青春。各种羞辱、谩骂的话就不说了，本人还算文明。如果你能搜到本贴，说明你已经碰到了各种 ed
关于人才 netkiller.github.com 工作面试招聘 netkiller 人才
关于人才每个月我都会接到许多猎头的电话，有些猎头比较专业，但绝大多数在我看来与猎头二字还是有很大差距的。与猎头接触多了，自然也了解了他们的工作，包括操作手法，总体上国内的猎头行业还处在初级阶段。总结就是“盲目推荐，以量取胜”。目前现状许多从事人力资源工作的人，根本不懂得怎么找人才。处在人才找不到企业，企业找不到人才的尴尬处境。企业招聘，通常是需要用人的部门提出招聘条件，由人
搭建 CentOS 6 服务器 - 目录 rensanning centos
(1) 安装CentOS ISO（desktop/minimal）、Cloud（AWS/阿里云）、Virtualization（VMWare、VirtualBox）详细内容 (2) Linux常用命令 cd、ls、rm、chmod...... 详细内容 (3) 初始环境设置用户管理、网络设置、安全设置...... 详细内容 (4) 常驻服务Daemon
【求助】mongoDB无法更新主键 toknowme mongodb
Query query = new Query(); query.addCriteria(new Criteria("_id").is(o.getId())); &n
jquery 页面滚动到底部自动加载插件集合 xp9802 jquery
很多社交网站都使用无限滚动的翻页技术来提高用户体验，当你页面滑到列表底部时候无需点击就自动加载更多的内容。下面为你推荐 10 个 jQuery 的无限滚动的插件： 1. jQuery ScrollPagination jQuery ScrollPagination plugin 是一个 jQuery 实现的支持无限滚动加载数据的插件。 2. jQuery Screw S