一只努力的微服务

【ClickHouse系列】ClickHouse表引擎MergeTree实践

MergeTree系列

Log、Special、Integration主要用于特殊用途，场景相对有限。MergeTree系列才是官方主推的存储引擎，支持几乎所有ClickHouse核心功能。

以下重点介绍MergeTree、ReplacingMergeTree、CollapsingMergeTree、VersionedCollapsingMergeTree、SummingMergeTree、AggregatingMergeTree引擎。

MergeTree

MergeTree表引擎主要用于海量数据分析，支持数据分区、存储有序、主键索引、稀疏索引、数据TTL等。MergeTree支持所有ClickHouse SQL语法，但是有些功能与MySQL并不一致，比如在MergeTree中主键并不用于去重，以下通过示例说明。

如下建表DDL所示，test_tbl的主键为(id, create_time)，并且按照主键进行存储排序，按照create_time进行数据分区。

CREATE TABLE test_tbl (
  id UInt16,
  create_time Date,
  comment Nullable(String)
) ENGINE = MergeTree()
   PARTITION BY create_time
	 ORDER BY  (id, create_time)
	 PRIMARY KEY (id, create_time)
	 SETTINGS index_granularity=8192;

写入数据：值得注意的是这里我们写入了几条primary key相同的数据。

insert into test_tbl values(0, '2020-03-20', null);
insert into test_tbl values(0, '2020-03-20', null);
insert into test_tbl values(1, '2020-03-21', null);
insert into test_tbl values(1, '2020-03-21', null);
insert into test_tbl values(2, '2020-03-22', null);

查询数据：可以看到虽然主键id、create_time相同的数据只有3条数据，但是结果却有5行。

select count(*) from test_tbl;
┌─count()─┐
│       5 │
└─────────┘

select * from test_tbl;
┌─id─┬─create_time─┬─comment─┐
│  1 │  2020-03-21 │ ᴺᵁᴸᴸ    │
└────┴─────────────┴─────────┘
┌─id─┬─create_time─┬─comment─┐
│  0 │  2020-03-20 │ ᴺᵁᴸᴸ    │
└────┴─────────────┴─────────┘
┌─id─┬─create_time─┬─comment─┐
│  0 │  2020-03-20 │ ᴺᵁᴸᴸ    │
└────┴─────────────┴─────────┘
┌─id─┬─create_time─┬─comment─┐
│  2 │  2020-03-22 │ ᴺᵁᴸᴸ    │
└────┴─────────────┴─────────┘
┌─id─┬─create_time─┬─comment─┐
│  1 │  2020-03-21 │ ᴺᵁᴸᴸ    │
└────┴─────────────┴─────────┘

由于MergeTree采用类似LSM tree的结构，很多存储层处理逻辑直到Compaction期间才会发生。因此强制后台compaction执行完毕，再次查询，发现仍旧有5条数据。

optimize table test_tbl final;

select * from test_tbl;
┌─id─┬─create_time─┬─comment─┐
│  0 │  2020-03-20 │ ᴺᵁᴸᴸ    │
│  0 │  2020-03-20 │ ᴺᵁᴸᴸ    │
└────┴─────────────┴─────────┘
┌─id─┬─create_time─┬─comment─┐
│  1 │  2020-03-21 │ ᴺᵁᴸᴸ    │
│  1 │  2020-03-21 │ ᴺᵁᴸᴸ    │
└────┴─────────────┴─────────┘
┌─id─┬─create_time─┬─comment─┐
│  2 │  2020-03-22 │ ᴺᵁᴸᴸ    │
└────┴─────────────┴─────────┘

结合以上示例可以看到，MergeTree虽然有主键索引，但是其主要作用是加速查询，而不是类似MySQL等数据库用来保持记录唯一。即便在Compaction完成后，主键相同的数据行也仍旧共同存在。

ReplacingMergeTree

为了解决MergeTree相同主键无法去重的问题，ClickHouse提供了ReplacingMergeTree引擎，用来做去重。

示例如下：

-- 建表
CREATE TABLE test_tbl_replacing (
  id UInt16,
  create_time Date,
  comment Nullable(String)
) ENGINE = ReplacingMergeTree()
   PARTITION BY create_time
	 ORDER BY  (id, create_time)
	 PRIMARY KEY (id, create_time)
	 SETTINGS index_granularity=8192;

-- 写入主键重复的数据
insert into test_tbl_replacing values(0, '2020-03-20', null);
insert into test_tbl_replacing values(0, '2020-03-20', null);
insert into test_tbl_replacing values(1, '2020-03-21', null);
insert into test_tbl_replacing values(1, '2020-03-21', null);
insert into test_tbl_replacing values(2, '2020-03-22', null);

-- 查询，可以看到未compaction之前，主键重复的数据，仍旧存在。
select * from test_tbl_replacing;
┌─id─┬─create_time─┬─comment─┐
│  0 │  2020-03-20 │ ᴺᵁᴸᴸ    │
└────┴─────────────┴─────────┘
┌─id─┬─create_time─┬─comment─┐
│  1 │  2020-03-21 │ ᴺᵁᴸᴸ    │
└────┴─────────────┴─────────┘
┌─id─┬─create_time─┬─comment─┐
│  1 │  2020-03-21 │ ᴺᵁᴸᴸ    │
└────┴─────────────┴─────────┘
┌─id─┬─create_time─┬─comment─┐
│  0 │  2020-03-20 │ ᴺᵁᴸᴸ    │
└────┴─────────────┴─────────┘
┌─id─┬─create_time─┬─comment─┐
│  2 │  2020-03-22 │ ᴺᵁᴸᴸ    │
└────┴─────────────┴─────────┘

-- 强制后台compaction：
optimize table test_tbl_replacing final;

select * from test_tbl_replacing;
┌─id─┬─create_time─┬─comment─┐
│  1 │  2020-03-21 │ ᴺᵁᴸᴸ    │
└────┴─────────────┴─────────┘
┌─id─┬─create_time─┬─comment─┐
│  0 │  2020-03-20 │ ᴺᵁᴸᴸ    │
└────┴─────────────┴─────────┘
┌─id─┬─create_time─┬─comment─┐
│  2 │  2020-03-22 │ ᴺᵁᴸᴸ    │
└────┴─────────────┴─────────┘

虽然ReplacingMergeTree提供了主键去重的能力，但是仍旧有以下限制：

在没有彻底optimize之前，可能无法达到主键去重的效果，比如部分数据已经被去重，而另外一部分数据仍旧有主键重复；
在分布式场景下，相同primary key的数据可能被sharding到不同节点上，不同shard间可能无法去重；
optimize是后台动作，无法预测具体执行时间点；
手动执行optimize在海量数据场景下要消耗大量时间，无法满足业务即时查询的需求；

因此ReplacingMergeTree更多被用于确保数据最终被去重，而无法保证查询过程中主键不重复。

CollapsingMergeTree

ClickHouse实现了CollapsingMergeTree来消除ReplacingMergeTree的限制。该引擎要求在建表语句中指定一个标记列Sign，后台Compaction时会将主键相同、Sign相反的行进行折叠，也即删除。

CollapsingMergeTree将行按照Sign的值分为两类：Sign=1的行称之为状态行，Sign=-1的行称之为取消行。

每次需要新增状态时，写入一行状态行；需要删除状态时，则写入一行取消行。

在后台Compaction时，状态行与取消行会自动做折叠（删除）处理。而尚未进行Compaction的数据，状态行与取消行同时存在。

因此为了能够达到主键折叠（删除）的目的，需要业务层进行适当改造：

1）执行删除操作需要写入取消行，而取消行中需要包含与原始状态行一样的数据（Sign列除外）。所以在应用层需要记录原始状态行的值，或者在执行删除操作前先查询数据库获取原始状态行；

2）由于后台Compaction时机无法预测，在发起查询时，状态行和取消行可能尚未被折叠；另外，ClickHouse无法保证primary key相同的行落在同一个节点上，不在同一节点上的数据无法折叠。因此在进行count(*)、sum(col)等聚合计算时，可能会存在数据冗余的情况。为了获得正确结果，业务层需要改写SQL，将count()、sum(col)分别改写为sum(Sign)、sum(col * Sign)。

以下用示例说明：

-- 建表
CREATE TABLE UAct
(
    UserID UInt64,
    PageViews UInt8,
    Duration UInt8,
    Sign Int8
)
ENGINE = CollapsingMergeTree(Sign)
ORDER BY UserID;

-- 插入状态行，注意sign一列的值为1
INSERT INTO UAct VALUES (4324182021466249494, 5, 146, 1);

-- 插入一行取消行，用于抵消上述状态行。注意sign一列的值为-1，其余值与状态行一致；
-- 并且插入一行主键相同的新状态行，用来将PageViews从5更新至6，将Duration从146更新为185.
INSERT INTO UAct VALUES (4324182021466249494, 5, 146, -1), (4324182021466249494, 6, 185, 1);

-- 查询数据：可以看到未Compaction之前，状态行与取消行共存。
SELECT * FROM UAct;
┌──────────────UserID─┬─PageViews─┬─Duration─┬─Sign─┐
│ 4324182021466249494 │         5 │      146 │    1 │
└─────────────────────┴───────────┴──────────┴──────┘
┌──────────────UserID─┬─PageViews─┬─Duration─┬─Sign─┐
│ 4324182021466249494 │         5 │      146 │   -1 │
│ 4324182021466249494 │         6 │      185 │    1 │
└─────────────────────┴───────────┴──────────┴──────┘

-- 为了获取正确的sum值，需要改写SQL： 
-- sum(PageViews) => sum(PageViews * Sign)、 
-- sum(Duration) => sum(Duration * Sign)
SELECT
    UserID,
    sum(PageViews * Sign) AS PageViews,
    sum(Duration * Sign) AS Duration
FROM UAct
GROUP BY UserID
HAVING sum(Sign) > 0;
┌──────────────UserID─┬─PageViews─┬─Duration─┐
│ 4324182021466249494 │         6 │      185 │
└─────────────────────┴───────────┴──────────┘


-- 强制后台Compaction
optimize table UAct final;

-- 再次查询，可以看到状态行、取消行已经被折叠，只剩下最新的一行状态行。
select * from UAct;
┌──────────────UserID─┬─PageViews─┬─Duration─┬─Sign─┐
│ 4324182021466249494 │         6 │      185 │    1 │
└─────────────────────┴───────────┴──────────┴──────┘

CollapsingMergeTree虽然解决了主键相同的数据即时删除的问题，但是状态持续变化且多线程并行写入情况下，状态行与取消行位置可能乱序，导致无法正常折叠。

如下面例子所示：

乱序插入示例。

-- 建表
CREATE TABLE UAct_order
(
    UserID UInt64,
    PageViews UInt8,
    Duration UInt8,
    Sign Int8
)
ENGINE = CollapsingMergeTree(Sign)
ORDER BY UserID;

-- 先插入取消行
INSERT INTO UAct_order VALUES (4324182021466249495, 5, 146, -1);
-- 后插入状态行
INSERT INTO UAct_order VALUES (4324182021466249495, 5, 146, 1);

-- 强制Compaction
optimize table UAct_order final;

-- 可以看到即便Compaction之后也无法进行主键折叠: 2行数据仍旧都存在。
select * from UAct_order;
┌──────────────UserID─┬─PageViews─┬─Duration─┬─Sign─┐
│ 4324182021466249495 │         5 │      146 │   -1 │
│ 4324182021466249495 │         5 │      146 │    1 │
└─────────────────────┴───────────┴──────────┴──────┘

VersionedCollapsingMergeTree

为了解决CollapsingMergeTree乱序写入情况下无法正常折叠问题，VersionedCollapsingMergeTree表引擎在建表语句中新增了一列Version，用于在乱序情况下记录状态行与取消行的对应关系。主键相同，且Version相同、Sign相反的行，在Compaction时会被删除。

与CollapsingMergeTree类似，为了获得正确结果，业务层需要改写SQL，将count()、sum(col)分别改写为sum(Sign)、sum(col * Sign)。

示例如下：

乱序插入示例。

-- 建表
CREATE TABLE UAct_version
(
    UserID UInt64,
    PageViews UInt8,
    Duration UInt8,
    Sign Int8,
    Version UInt8
)
ENGINE = VersionedCollapsingMergeTree(Sign, Version)
ORDER BY UserID;


-- 先插入一行取消行，注意Signz=-1, Version=1
INSERT INTO UAct_version VALUES (4324182021466249494, 5, 146, -1, 1);
-- 后插入一行状态行，注意Sign=1, Version=1；及一行新的状态行注意Sign=1, Version=2，将PageViews从5更新至6，将Duration从146更新为185。
INSERT INTO UAct_version VALUES (4324182021466249494, 5, 146, 1, 1),(4324182021466249494, 6, 185, 1, 2);


-- 查询可以看到未compaction情况下，所有行都可见。
SELECT * FROM UAct_version;
┌──────────────UserID─┬─PageViews─┬─Duration─┬─Sign─┐
│ 4324182021466249494 │         5 │      146 │   -1 │
│ 4324182021466249494 │         6 │      185 │    1 │
└─────────────────────┴───────────┴──────────┴──────┘
┌──────────────UserID─┬─PageViews─┬─Duration─┬─Sign─┐
│ 4324182021466249494 │         5 │      146 │    1 │
└─────────────────────┴───────────┴──────────┴──────┘


-- 为了获取正确的sum值，需要改写SQL： 
-- sum(PageViews) => sum(PageViews * Sign)、 
-- sum(Duration) => sum(Duration * Sign)
SELECT
    UserID,
    sum(PageViews * Sign) AS PageViews,
    sum(Duration * Sign) AS Duration
FROM UAct_version
GROUP BY UserID
HAVING sum(Sign) > 0;
┌──────────────UserID─┬─PageViews─┬─Duration─┐
│ 4324182021466249494 │         6 │      185 │
└─────────────────────┴───────────┴──────────┘


-- 强制后台Compaction
optimize table UAct_version final;


-- 再次查询，可以看到即便取消行与状态行位置乱序，仍旧可以被正确折叠。
select * from UAct_version;
┌──────────────UserID─┬─PageViews─┬─Duration─┬─Sign─┬─Version─┐
│ 4324182021466249494 │         6 │      185 │    1 │       2 │
└─────────────────────┴───────────┴──────────┴──────┴─────────┘

SummingMergeTree

ClickHouse通过SummingMergeTree来支持对主键列进行预先聚合。在后台Compaction时，会将主键相同的多行进行sum求和，然后使用一行数据取而代之，从而大幅度降低存储空间占用，提升聚合计算性能。

值得注意的是：

ClickHouse只在后台Compaction时才会进行数据的预先聚合，而compaction的执行时机无法预测，所以可能存在部分数据已经被预先聚合、部分数据尚未被聚合的情况。因此，在执行聚合计算时，SQL中仍需要使用GROUP BY子句。
在预先聚合时，ClickHouse会对主键列之外的其他所有列进行预聚合。如果这些列是可聚合的（比如数值类型），则直接sum；如果不可聚合（比如String类型），则随机选择一个值。
通常建议将SummingMergeTree与MergeTree配合使用，使用MergeTree来存储具体明细，使用SummingMergeTree来存储预先聚合的结果加速查询。

示例如下：

-- 建表
CREATE TABLE summtt
(
    key UInt32,
    value UInt32
)
ENGINE = SummingMergeTree()
ORDER BY key

-- 插入数据
INSERT INTO summtt Values(1,1),(1,2),(2,1)

-- compaction前查询，仍存在多行
select * from summtt;
┌─key─┬─value─┐
│   1 │     1 │
│   1 │     2 │
│   2 │     1 │
└─────┴───────┘

-- 通过GROUP BY进行聚合计算
SELECT key, sum(value) FROM summtt GROUP BY key
┌─key─┬─sum(value)─┐
│   2 │          1 │
│   1 │          3 │
└─────┴────────────┘

-- 强制compaction
optimize table summtt final;

-- compaction后查询，可以看到数据已经被预先聚合
select * from summtt;
┌─key─┬─value─┐
│   1 │     3 │
│   2 │     1 │
└─────┴───────┘


-- compaction后，仍旧需要通过GROUP BY进行聚合计算
SELECT key, sum(value) FROM summtt GROUP BY key
┌─key─┬─sum(value)─┐
│   2 │          1 │
│   1 │          3 │
└─────┴────────────┘

AggregatingMergeTree

AggregatingMergeTree也是预先聚合引擎的一种，用于提升聚合计算的性能。与SummingMergeTree的区别在于：SummingMergeTree对非主键列进行sum聚合，而AggregatingMergeTree则可以指定各种聚合函数。

AggregatingMergeTree的语法比较复杂，需要结合物化视图或ClickHouse的特殊数据类型AggregateFunction一起使用。在insert和select时，也有独特的写法和要求：写入时需要使用-State语法，查询时使用-Merge语法。

以下通过示例进行介绍。

示例一：配合物化视图使用。

-- 建立明细表
CREATE TABLE visits
(
    UserID UInt64,
    CounterID UInt8,
    StartDate Date,
    Sign Int8
)
ENGINE = CollapsingMergeTree(Sign)
ORDER BY UserID;

-- 对明细表建立物化视图，该物化视图对明细表进行预先聚合
-- 注意：预先聚合使用的函数分别为： sumState, uniqState。对应于写入语法-State.
CREATE MATERIALIZED VIEW visits_agg_view
ENGINE = AggregatingMergeTree() PARTITION BY toYYYYMM(StartDate) ORDER BY (CounterID, StartDate)
AS SELECT
    CounterID,
    StartDate,
    sumState(Sign)    AS Visits,
    uniqState(UserID) AS Users
FROM visits
GROUP BY CounterID, StartDate;

-- 插入明细数据
INSERT INTO visits VALUES(0, 0, '2019-11-11', 1);
INSERT INTO visits VALUES(1, 1, '2019-11-12', 1);

-- 对物化视图进行最终的聚合操作
-- 注意：使用的聚合函数为 sumMerge， uniqMerge。对应于查询语法-Merge.
SELECT
    StartDate,
    sumMerge(Visits) AS Visits,
    uniqMerge(Users) AS Users
FROM visits_agg_view
GROUP BY StartDate
ORDER BY StartDate;

-- 普通函数 sum, uniq不再可以使用
-- 如下SQL会报错： Illegal type AggregateFunction(sum, Int8) of argument 
SELECT
    StartDate,
    sum(Visits),
    uniq(Users)
FROM visits_agg_view
GROUP BY StartDate
ORDER BY StartDate;

示例二：配合特殊数据类型AggregateFunction使用。

-- 建立明细表
CREATE TABLE detail_table
(   CounterID UInt8,
    StartDate Date,
    UserID UInt64
) ENGINE = MergeTree() 
PARTITION BY toYYYYMM(StartDate) 
ORDER BY (CounterID, StartDate);

-- 插入明细数据
INSERT INTO detail_table VALUES(0, '2019-11-11', 1);
INSERT INTO detail_table VALUES(1, '2019-11-12', 1);

-- 建立预先聚合表，
-- 注意：其中UserID一列的类型为：AggregateFunction(uniq, UInt64)
CREATE TABLE agg_table
(   CounterID UInt8,
    StartDate Date,
    UserID AggregateFunction(uniq, UInt64)
) ENGINE = AggregatingMergeTree() 
PARTITION BY toYYYYMM(StartDate) 
ORDER BY (CounterID, StartDate);

-- 从明细表中读取数据，插入聚合表。
-- 注意：子查询中使用的聚合函数为 uniqState， 对应于写入语法-State
INSERT INTO agg_table
select CounterID, StartDate, uniqState(UserID)
from detail_table
group by CounterID, StartDate

-- 不能使用普通insert语句向AggregatingMergeTree中插入数据。
-- 本SQL会报错：Cannot convert UInt64 to AggregateFunction(uniq, UInt64)
INSERT INTO agg_table VALUES(1, '2019-11-12', 1);

-- 从聚合表中查询。
-- 注意：select中使用的聚合函数为uniqMerge，对应于查询语法-Merge
SELECT uniqMerge(UserID) AS state 
FROM agg_table 
GROUP BY CounterID, StartDate;

clickhouse分布式表插入数据不用带ON CLUSTER 时时刻刻看着自己的心 clickhouse 分布式
向分布式表插入数据时，通常不需要使用ONCLUSTER，因为分布式表的写入操作会自动将数据分发到底层表（bm_online_user_count_part）的对应节点。但对于DDL（数据定义语句，例如ALTERTABLE）操作，在分布式环境中修改底层表时，建议使用ONCLUSTER，以确保所有相关节点上的表结构和数据同步。区分DDL和DMLDML（数据操作语句，例如INSERT）向分布式表插入数据
ClickHouse高频面试题野老杂谈数据库
ClickHouse高频面试题1、简单介绍一下ClickHouse2、ClickHouse具有哪些特点3、ClickHouse作为一款高性能OLAP数据库，存在哪些不足4、ClickHouse有哪些表引擎5、介绍下Log系列表引擎应用场景共性特点不支持6、简单介绍下MergeTree系列引擎7、简单介绍下外部集成表引擎ODBCJDBCMySQLHDFSKafkaRabbitMQ8、ClickHou
clickhouse数据库表和doris数据库表迁移starrocks数据库时建表注意事项总结积跬步，慕至千里软件安装及程序错误解决方案集数据库 clickhouse
目录零、前言一、clickhouse数据库表在starrocks数据库建表时问题总结1.1数据类型类问题：1.2数据导出阶段：二、doris数据库表在starrocks数据库建表时问题总结2.1properties不支持的属性（直接删除）：2.2properties需修改属性2.3properties：doris建表语句分区明细，starrocks数据不需要明确设定，会自动更新2.4分桶设置问题2
KingbaseES 到 Apache Doris 实时同步实践｜国产数据库数据入仓解决方案数据库
国产数据库加速进入核心系统，传统同步工具却频频“掉链子”。本系列文章聚焦OceanBase、GaussDB、TDSQL、达梦等主流信创数据库，逐一拆解其日志机制与同步难点，结合TapData的实践经验，系统讲解从CDC捕获到实时入仓（Doris、StarRocks、ClickHouse等）的完整链路构建方案，为工程师提供切实可行的替代路径与最佳实践。本篇任务：KingbaseES→ApacheDo
Flink ClickHouse 连接器：实现 Flink 与 ClickHouse 无缝对接 Edingbrugh.南空大数据 flink flink clickhouse 大数据
引言在大数据处理领域，ApacheFlink是一款强大的流处理和批处理框架，而ClickHouse则是一个高性能的列式数据库，专为在线分析处理（OLAP）场景设计。FlinkClickHouse连接器为这两者之间搭建了一座桥梁，使得用户能够在Flink中方便地与ClickHouse数据库进行交互，实现数据的读写操作。本文将详细介绍FlinkClickHouse连接器的相关内容，包括其特点、使用方法
ClickHouse【理论篇】01：什么是ClickHouse
ClickHouse是一款开源的列式数据库管理系统（Column-OrientedDBMS），专为高性能实时数据分析（OLAP,OnlineAnalyticalProcessing）场景设计。它由俄罗斯搜索引擎公司Yandex开发（2016年开源），目前由独立基金会ClickHouse,Inc.维护，广泛应用于大数据分析、日志处理、用户行为洞察等领域。一、核心定位：OLAP场景的“性能标杆”传统关
ClickHouse【理论篇】02：ClickHouse架构和组件做一个有趣的人Zz ClickHouse clickhouse 架构
ClickHouse的架构设计深度适配OLAP（在线分析处理）场景，通过列式存储、向量化执行、分布式分片与副本等核心技术，实现了对海量数据的高效分析与实时查询。以下从核心存储引擎、查询处理流程、分布式架构、元数据管理、复制与分片等维度详细解析其内部架构与关键组件。一、核心存储引擎：MergeTree系列ClickHouse的存储引擎是其性能的核心，其中MergeTree系列引擎（如MergeTre
SeaTunnel 社区月报（5-6 月）：全新功能上线、Bug 大扫除、Merge 之星是谁？ SeaTunnel bug SeaTunnel 开源数据集成大数据
在5月和6月，SeaTunnel社区迎来了一轮密集更新：2.3.11正式发布，新增对Databend、Elasticsearch向量、HTTP批量写入、ClickHouse多表写入等多个连接器能力，全面提升了数据同步灵活性。同时，近100个修复与优化PR合入，涵盖Spark引擎并行性修复、Paimon精度兼容性增强、Mongo-CDCExactlyOnce默认值优化、OracleDDL类型支持补全
ClickHouse 导入数据报错愿与狸花过一生 ClickHouse clickhouse
报错信息ERROR:Thereisnolinefeed."�"foundinstead.It'slikeyourfilehasmorecolumnsthanexpected.Andifyourfilehastherightnumberofcolumns,maybeithasanunquotedstringvaluewithacomma.ClickHouse导入csv文件中发现多了一列导致报错解决方
SeaTunnel 社区月报（5-6 月）：全新功能上线、Bug 大扫除、Merge 之星是谁？数据库
在5月和6月，SeaTunnel社区迎来了一轮密集更新：2.3.11正式发布，新增对Databend、Elasticsearch向量、HTTP批量写入、ClickHouse多表写入等多个连接器能力，全面提升了数据同步灵活性。同时，近100个修复与优化PR合入，涵盖Spark引擎并行性修复、Paimon精度兼容性增强、Mongo-CDCExactlyOnce默认值优化、OracleDDL类型支持补全
Clickhouse源码分析-Replicated Database创建流程
前置准备DDL：CREATEDATABASEmy_replicated_dbENGINE=Replicated('/clickhouse/databases/my_replicated_db','{shard}','{replica}');这里需要你提前启动1个clickhouse，1个clickhouse-keeper。源码分析断点：bInterpreters/DDLWorker.cpp:146
ClickHouse：在 CentOS7.4 中编译 ClickHouse
目录一、环境准备二、创建编译使用的脚本三、编译ClickHouse一、环境准备1.1、CentOS版本为7.4.17081.2、从githubcloneClickHouse源码，checkout到tagv21.2.6.1-stable。cloneClickHOuse代码的时候需要把依赖的子项目也都clone下来，命令如下：gitclone--recursivehttps://github.com/
CentOS 7 编译ClickHouse 24.8完整指南
前言在CentOS7上编译ClickHouse24.8可能会遇到一些挑战，主要是因为CentOS7的默认软件版本较旧。本文将详细介绍从零开始构建ClickHouse24.8的完整过程，包括依赖安装和环境配置。准备工作首先确保系统已更新到最新版本：yumupdate-y1.安装CMakeClickHouse需要CMake3.1.7以上版本，我们安装3.25.3：wget--no-check-cert
gorm 配置数据库三金C_C go 数据库
介绍GORM是Go语言中最流行的ORM（对象关系映射）库之一，基于数据库操作的封装，提供类似DjangoORM/SQLAlchemy的开发体验。特性描述支持多种数据库MySQL、PostgreSQL、SQLite、SQLServer、ClickHouse等自动迁移自动根据struct生成数据库表结构CRUD操作简洁简洁直观的增删查改接口支持事务内置事务管理预加载一行代码加载关联数据（Preload
Clickhouse数据库的探索与安装 PerterTingle 华为云+Ubuntu操作系统 spring boot java 华为云数据库
以下是一个简洁的教程，指导你在Ubuntu系统上通过Docker下载并运行ClickHouse（一个开源的列存储数据库，专为在线分析处理OLAP设计），并确保其支持远程访问。教程基于官方文档和相关资源，适用于初学者。使用Docker部署ClickHouse教程前提条件Ubuntu系统（本教程以Ubuntu22.04为例）。已安装Docker和DockerCompose（若未安装，见下方步骤）。具有
clickhouse安装日记唯独不开心 clickhouse 数据库
#下载安装包下载地址：Indexof/repos/clickhouse#安装rpm-ivh*.rpm错误：依赖检测失败：libcrypto.so.10()(64bit)被clickhouse-compressor-1.1.54236-4.el7.x86_64需要libicudata.so.50()(64bit)被clickhouse-compressor-1.1.54236-4.el7.x86_6
信创 CDC 实战｜国产数据库的数据高速通道：OceanBase 实时入仓 StarRocks 数据库
国产数据库加速进入核心系统，传统同步工具却频频“掉链子”。本系列文章聚焦OceanBase、GaussDB、TDSQL、达梦等主流信创数据库，逐一拆解其日志机制与同步难点，结合TapData的实践经验，系统讲解从CDC捕获到实时入仓（Doris、StarRocks、ClickHouse等）的完整链路构建方案，为工程师提供切实可行的替代路径与最佳实践。本篇任务：OceanBase→StarRocks
Python实现MySQL建表语句转换成Clickhouse SQL weixin_30777913 python mysql clickhouse sql 数据库
主程序：**main_converter.py**importreimportjsonimportargparsedefload_config(config_path:str)->dict:'''配置管理模块:加载JSON格式配置文件'''withopen(config_path,mode="r",encoding="utf-8")asf:returnjson.load(f)classBaseCo
大数据学习（141）-分布式数据库 viperrrrrrr 大数据学习分布式 clickhouse hdfs hbase
在分布式数据库中主要有hdfs、hbase、clickhouse三种。HDFS（HadoopDistributedFileSystem）、HBase和ClickHouse都是处理大数据的分布式系统，但它们的设计目标、架构和适用场景有所不同。一、HDFS（HadoopDistributedFileSystem）HDFS是Hadoop生态系统的一部分，是一个高度容错的系统，适合存储大量数据。它被设计为
PostHog 的核心原理草明运维 PosHog op
“事件驱动的数据采集+本地部署的分析系统+全栈可观测能力”下面是对PostHog工作原理的详细拆解，从架构层次到数据流转流程，并涵盖其核心模块。架构总览PostHog通常由以下几个关键组件构成：用户前端→PostHogJSSDK/API→IngestionPipeline→Kafka（事件队列）↓PostgreSQL/ClickHouse（事件存储）↓后端处理服务+插件系统+分析引擎↓WebUI/
Python实现高效导入Excel数据到ClickHouse weixin_30777913 python 开发语言 clickhouse excel pandas
设计一个从Excel文件导入Clickhouse表的程序流程，并用Python来实现。单进程读取Excel文件，分批读取，每批读取1000条，使用INSERT的语句带多组值来写入数据库，比如100组值，可以创建多个列表来缓存这些插入数据库的语句，实现连续读取数据不中断，创建单个进程来读取顺序这些列表来写入表，读取完列表的数据之后，清空列表以便下一次再写入插入数据库的依据，我希望读取和写入数据库的操
数据库选型之路YMatrix与Clickhouse对比星*语数据库数据仓库时序数据库
背锅我们是被迫的数据库问题‘触发’越来越频繁了，开发、业务人员也一直抱怨数据库不行，作为运维人员，天天各种处理问题，还被其他部门喷，有问题矛头全部指向数据库。刚上任的部门领导整天也是压力山大，内部会议分析了当前的情况，最终解决方案是架构变更。当前的生产系统运行在Mysql上，从开始的保留半年的数据，到现在缩减到保留不足三个月的数据，全量数据实时同步到Hadoop，随着业务的发展，Mysql和Had
Clickhouse统计指定表中各字段的空值、空字符串或零值比例 weixin_30777913 clickhouse 运维数据仓库
下面是一段ClickhouseSQL代码，用于统计指定数据库中多张表的字段空值情况。代码通过动态生成查询语句实现自动化统计，处理逻辑如下：从系统表获取指定数据库（替换your_database）中所有表的字段元数据根据字段类型动态生成对应的空值统计逻辑使用sum聚合函数统计空值记录数计算空值占比百分比结果包含数据库名、表名、字段名、字段类型、空值计数、总行数和空值占比SELECTdatabase,
dbeaver 查询clickhouse，数据库时间差了8小时 Sayai 大数据数据库 clickhouse oracle
️调整步骤修改DBeaver连接配置在DBeaver中右键点击ClickHouse连接，选择“编辑连接”。切换到“驱动属性”选项卡，找到以下参数并修改：use_server_time_zone：设置为true（强制使用服务器时区）。use_server_time_zone_for_dates：设置为true（日期字段同步服务器时区）。use_time_zone：设置为目标时区（例如Asia/Sha
硬核实战 | 3分钟Docker部署ClickHouse列存数据库
本文来自「大千AI助手」技术实战系列，专注用真话讲技术，拒绝过度包装。ClickHouse作为OLAP领域性能标杆，其列式存储引擎比传统数据库快100倍以上。本文将用Docker实战部署，并解析关键配置：安装# 拉取最新镜像（当前版本23.8）docker pull clickhouse/clickhouse-server# 运行容器（关键参数解析）docker run -d \ --name=
开源夜莺支持MySQL数据源，更方便做业务指标监控了开源运维监控sremysql
夜莺监控项目最核心的定位，是做一个告警引擎，支持多种数据源的告警。这个版本的更新主要是增加了对MySQL数据源的支持，进一步增强了夜莺在业务指标监控方面的能力。之前版本的夜莺主要聚焦在Prometheus、VictoriaMetrics、ElasticSearch等传统监控数据源上，从上个版本引入ClickHouse开始，夜莺开始支持更多样化的数据源，本次版本迭代则引入了MySQL数据源的支持，给
ClickHouse在数据库领域的多租户架构设计数据库管理艺术 clickhouse 数据库 ai
ClickHouse在数据库领域的多租户架构设计关键词：ClickHouse、数据库、多租户架构、资源隔离、数据安全摘要：本文深入探讨了ClickHouse在数据库领域的多租户架构设计。首先介绍了多租户架构在数据库领域的背景和重要性，接着阐述了ClickHouse多租户架构的核心概念与联系，包括其原理和架构示意图。详细讲解了实现多租户架构的核心算法原理和具体操作步骤，并给出了相应的Python代码
我借鉴了 PHP PDO 对象预处理的方式，设计并开发一个组件 php组件设计
在KK集团工作期间开发过一个组件，至于为啥要开发这个组件，每家公司业务不一样，当时是用于从Elasticsearch和ClickHouse两个数据源里面查询数据，代码实现并不复杂，我自豪的是设计思路，分享一下。因为我看过也用过PDO的预处理，所以借鉴了其预处理思路，文档地址https://www.php.net/manual/zh/pdo.prepare.phpPDO的好处是，SQL语句只解析一次
开源夜莺V8.Beta11发版，支持CK告警、事件Pipeline等运维监控开源开源监控软件
这个版本来得迟了一些，主要是新功能加的多，下面简单介绍一下新功能，下下周也计划做一次直播讲解。支持ClickHouse告警夜莺最重要的定位是告警引擎，所以会持续增加各类数据源的告警支持，ClickHouse之后还有Doris、MySQL、Postgres等。开源版主要是支持告警，不会支持看图可视化，实在是做不过来，答疑也答疑不过来。引入事件Pipeline告警引擎根据告警规则产生告警事件之后，会有
jemalloc环境变量介绍小卡丘性能优化 c++
jemalloc环境变量详解与设置方法jemalloc是一款高性能、可扩展的通用内存分配器，广泛应用于Redis、MySQL、ClickHouse、Facebook等高并发场景。合理配置jemalloc的环境变量，可以更好地控制内存分配和调优程序性能。本文将详细介绍jemalloc常见环境变量的含义及其设置方式。一、环境变量作用jemalloc支持通过环境变量调整其运行时行为，涵盖内存分配策略、统
书其实只有三类西蜀石兰类
一个人一辈子其实只读三种书，知识类、技能类、修心类。知识类的书可以让我们活得更明白。类似十万个为什么这种书籍，我一直不太乐意去读，因为单纯的知识是没法做事的，就像知道地球转速是多少一样（我肯定不知道），这种所谓的知识，除非用到，普通人掌握了完全是一种负担，维基百科能找到的东西，为什么去记忆？知识类的书，每个方面都涉及些，让自己显得不那么没文化，仅此而已。社会认为的学识渊博，肯定不是站在
《TCP/IP 详解，卷1：协议》学习笔记、吐槽及其他 bylijinnan tcp
《TCP/IP 详解，卷1：协议》是经典，但不适合初学者。它更像是一本字典，适合学过网络的人温习和查阅一些记不清的概念。这本书，我看的版本是机械工业出版社、范建华等译的。这本书在我看来，翻译得一般，甚至有明显的错误。如果英文熟练，看原版更好： http://pcvr.nl/tcpip/ 下面是我的一些笔记，包括我看书时有疑问的地方，也有对该书的吐槽，有不对的地方请指正： 1.
Linux—— 静态IP跟动态IP设置 eksliang linux IP
一.在终端输入 vi /etc/sysconfig/network-scripts/ifcfg-eth0 静态ip模板如下： DEVICE="eth0" #网卡名称 BOOTPROTO="static" #静态IP（必须） HWADDR="00:0C:29:B5:65:CA" #网卡mac地址 IPV6INIT=&q
Informatica update strategy transformation 18289753290
更新策略组件：标记你的数据进入target里面做什么操作，一般会和lookup配合使用，有时候用0,1,1代表 forward rejected rows被选中，rejected row是输出在错误文件里，不想看到reject输出，将错误输出到文件，因为有时候数据库原因导致某些column不能update，reject就会output到错误文件里面供查看，在workflow的
使用Scrapy时出现虽然队列里有很多Request但是却不下载，造成假死状态酷的飞上天空 request
现象就是：程序运行一段时间，可能是几十分钟或者几个小时，然后后台日志里面就不出现下载页面的信息，一直显示上一分钟抓取了0个网页的信息。刚开始已经猜到是某些下载线程没有正常执行回调方法引起程序一直以为线程还未下载完成，但是水平有限研究源码未果。经过不停的google终于发现一个有价值的信息，是给twisted提出的一个bugfix 连接地址如下http://twistedmatrix.
利用预测分析技术来进行辅助医疗蓝儿唯美医疗
2014年，克利夫兰诊所（Cleveland Clinic）想要更有效地控制其手术中心做膝关节置换手术的费用。整个系统每年大约进行2600例此类手术，所以，即使降低很少一部分成本，都可以为诊所和病人节约大量的资金。为了找到适合的解决方案，供应商将视野投向了预测分析技术和工具，但其分析团队还必须花时间向医生解释基于数据的治疗方案意味着什么。克利夫兰诊所负责企业信息管理和分析的医疗
java 线程(一)：基础篇 DavidIsOK java 多线程线程
&nbs
Tomcat服务器框架之Servlet开发分析 aijuans servlet
最近使用Tomcat做web服务器，使用Servlet技术做开发时，对Tomcat的框架的简易分析：疑问：为什么我们在继承HttpServlet类之后，覆盖doGet(HttpServletRequest req, HttpServetResponse rep)方法后，该方法会自动被Tomcat服务器调用，doGet方法的参数有谁传递过来？怎样传递？分析之我见： doGet方法的
揭秘玖富的粉丝营销之谜与小米粉丝社区类似 aoyouzi 揭秘玖富的粉丝营销之谜
玖富旗下悟空理财凭借着一个微信公众号上线当天成交量即破百万，第七天成交量单日破了1000万;第23天时，累计成交量超1个亿……至今成立不到10个月，粉丝已经超过500万，月交易额突破10亿，而玖富平台目前的总用户数也已经超过了1800万，位居P2P平台第一位。很多互联网金融创业者慕名前来学习效仿，但是却鲜有成功者，玖富的粉丝营销对外至今仍然是个谜。　　近日，一直坚持微信粉丝营销
Java web的会话跟踪技术百合不是茶 url会话 Cookie会话 Seession会话 Java Web 隐藏域会话
会话跟踪主要是用在用户页面点击不同的页面时,需要用到的技术点会话:多次请求与响应的过程 1,url地址传递参数,实现页面跟踪技术格式:传一个参数的 url?名=值传两个参数的 url?名=值 &名=值关键代码
web.xml之Servlet配置 bijian1013 java web.xml Servlet配置
定义： <servlet> <servlet-name>myservlet</servlet-name> <servlet-class>com.myapp.controller.MyFirstServlet</servlet-class> <init-param> <param-name>
利用svnsync实现SVN同步备份 sunjing SVN 同步 E000022 svnsync 镜像
1. 在备份SVN服务器上建立版本库 svnadmin create test 2. 创建pre-revprop-change文件 cd test/hooks/ cp pre-revprop-change.tmpl pre-revprop-change 3. 修改pre-revprop-
【分布式数据一致性三】MongoDB读写一致性 bit1129 mongodb
本系列文章结合MongoDB，探讨分布式数据库的数据一致性，这个系列文章包括：数据一致性概述与CAP 最终一致性(Eventually Consistency) 网络分裂(Network Partition)问题多数据中心(Multi Data Center) 多个写者(Multi Writer)最终一致性一致性图表(Consistency Chart) 数据
Anychart图表组件-Flash图转IMG普通图的方法白糖_ Flash
问题背景：项目使用的是Anychart图表组件，渲染出来的图是Flash的，往往一个页面有时候会有多个flash图，而需求是让我们做一个打印预览和打印功能，让多个Flash图在一个页面上打印出来。那么我们打印预览的思路是获取页面的body元素，然后在打印预览界面通过$("body").append(html)的形式显示预览效果，结果让人大跌眼镜：Flash是
Window 80端口被占用 WHY? bozch 端口占用 window
平时在启动一些可能使用80端口软件的时候，会提示80端口已经被其他软件占用，那一般又会有那些软件占用这些端口呢？下面坐下总结： 1、web服务器是最经常见的占用80端口的，例如：tomcat , apache , IIS , Php等等； 2
编程之美-数组的最大值和最小值-分治法（两种形式） bylijinnan 编程之美
import java.util.Arrays; public class MinMaxInArray { /** * 编程之美数组的最大值和最小值分治法 * 两种形式 */ public static void main(String[] args) { int[] t={11,23,34,4,6,7,8,1,2,23}; int[]
Perl正则表达式 chenbowen00 正则表达式 perl
首先我们应该知道 Perl 程序中，正则表达式有三种存在形式，他们分别是：匹配：m/<regexp>;/ （还可以简写为 /<regexp>;/ ，略去 m）替换：s/<pattern>;/<replacement>;/ 转化：tr/<pattern>;/<replacemnt>;
[宇宙与天文]行星议会是否具有本行星大气层以外的权力呢? comsci
举个例子: 地球,地球上由200多个国家选举出一个代表地球联合体的议会,那么现在地球联合体遇到一个问题,地球这颗星球上面的矿产资源快要采掘完了....那么地球议会全体投票,一致通过一项带有法律性质的议案,既批准地球上的国家用各种技术手段在地球以外开采矿产资源和其它资源........ &
Oracle Profile 使用详解 daizj oracle profile 资源限制
Oracle Profile 使用详解转一、目的： Oracle系统中的profile可以用来对用户所能使用的数据库资源进行限制，使用Create Profile命令创建一个Profile，用它来实现对数据库资源的限制使用，如果把该profile分配给用户，则该用户所能使用的数据库资源都在该profile的限制之内。二、条件：创建profile必须要有CREATE PROFIL
How HipChat Stores And Indexes Billions Of Messages Using ElasticSearch & Redis dengkane elasticsearch Lucene
This article is from an interview with Zuhaib Siddique, a production engineer at HipChat, makers of group chat and IM for teams. HipChat started in an unusual space, one you might not
循环小示例，菲波拉契序列，循环解一元二次方程以及switch示例程序 dcj3sjt126com c 算法
# include <stdio.h> int main(void) { int n; int i; int f1, f2, f3; f1 = 1; f2 = 1; printf("请输入您需要求的想的序列："); scanf("%d", &n); for (i=3; i<n; i
macbook的lamp环境 dcj3sjt126com lamp
sudo vim /etc/apache2/httpd.conf /Library/WebServer/Documents 是默认的网站根目录重启Mac上的Apache服务这个命令很早以前就查过了，但是每次使用的时候还是要在网上查：停止服务：sudo /usr/sbin/apachectl stop 开启服务：s
java ArrayList源码下 shuizhaosi888 ArrayList源码
版本 jdk-7u71-windows-x64 JavaSE7 ArrayList源码上：http://flyouwith.iteye.com/blog/2166890 /** * 从这个列表中移除所有c中包含元素 */ public boolean removeAll(Collection<?> c) {
Spring Security（08）——intercept-url配置 234390216 Spring Security intercept-url 访问权限访问协议请求方法
intercept-url配置目录 1.1 指定拦截的url 1.2 指定访问权限 1.3 指定访问协议 1.4 指定请求方法 1.1 &n
Linux环境下的oracle安装 jayung oracle
linux系统下的oracle安装本文档是Linux(redhat6.x、centos6.x、redhat7.x) 64位操作系统安装Oracle 11g(Oracle Database 11g Enterprise Edition Release 11.2.0.4.0 - 64bit Production)，本文基于各种网络资料精心整理而成，共享给有需要的朋友。如有问题可联系：QQ：52-7
hotspot虚拟机 leichenlei java HotSpot jvm 虚拟机文档
JVM参数 http://docs.oracle.com/javase/6/docs/technotes/guides/vm/index.html JVM工具 http://docs.oracle.com/javase/6/docs/technotes/tools/index.html JVM垃圾回收 http://www.oracle.com
读《Node.js项目实践：构建可扩展的Web应用》 ——引编程慢慢变成系统化的“砌砖活” noaighost Web node.js
读《Node.js项目实践：构建可扩展的Web应用》 ——引编程慢慢变成系统化的“砌砖活” 眼里的Node.JS 初初接触node是一年前的事，那时候年少不更事。还在纠结什么语言可以编写出牛逼的程序，想必每个码农都会经历这个月经性的问题：微信用什么语言写的？facebook为什么推荐系统这么智能，用什么语言写的？dota2的外挂这么牛逼，用什么语言写的？……用什么语言写这句话，困扰人也是阻碍
快速开发Android应用 rensanning android
Android应用开发过程中，经常会遇到很多常见的类似问题，解决这些问题需要花时间，其实很多问题已经有了成熟的解决方案，比如很多第三方的开源lib，参考 Android Libraries 和 Android UI/UX Libraries。编码越少，Bug越少，效率自然会高。但可能由于根本没听说过、听说过但没用过、特殊原因不能用、自己已经有了解决方案等等原因，这些成熟的解决
理解Java中的弱引用 tomcat_oracle java 工作面试
　不久之前，我面试了一些求职Java高级开发工程师的应聘者。我常常会面试他们说，“你能给我介绍一些Java中得弱引用吗？”，如果面试者这样说，“嗯，是不是垃圾回收有关的？”，我就会基本满意了，我并不期待回答是一篇诘究本末的论文描述。　　然而事与愿违，我很吃惊的发现，在将近20多个有着平均5年开发经验和高学历背景的应聘者中，居然只有两个人知道弱引用的存在，但是在这两个人之中只有一个人真正了
标签输出html标签" target="_blank">关于标签输出html标签 xshdch jsp
http://back-888888.iteye.com/blog/1181202 关于<c:out value=""/>标签的使用，其中有一个属性是escapeXml默认是true(将html标签当做转移字符，直接显示不在浏览器上面进行解析)，当设置escapeXml属性值为false的时候就是不过滤xml，这样就能在浏览器上解析html标签， &nb

【ClickHouse系列】ClickHouse表引擎MergeTree实践

MergeTree系列

MergeTree

ReplacingMergeTree

CollapsingMergeTree

VersionedCollapsingMergeTree

SummingMergeTree

AggregatingMergeTree

你可能感兴趣的:(ClickHouse)