coder_szc

ClickHouse学习笔记之优化

文章目录

建表优化
- 数据类型
- - 时间字段的类型
  - 空值存储类型
- 分区和索引
- 表参数
- 写入和删除优化
- 常见配置
- - CPU资源
  - 内存资源
  - 存储
语法优化
- count优化
- 消除子查询重复字段
- 谓词下推
- 聚合计算外推
- 聚合函数消除
- 删除重复的`order by key`
- 删除重复的`limit by key`
- 删除重复的`using key`
- 标量替换
- 三元运算优化
查询优化
- 单表查询
- - `prewhere`代替`where`
  - 数据采样
  - 列裁剪和分区裁剪
  - `order by`结合`where`与`limit`
  - 避免构建虚拟列
  - `uniqCombined`代替`distinct`
  - 使用物化视图
  - 查询熔断
  - 关闭虚拟内存
  - 配置`join_use_nulls`
  - 批量写入前先排序
  - 关注CPU
- 多表关联
- - 用`in`代替`join`
  - 大小表`join`
  - 注意谓词下推
  - 分布式表用`global`
  - 使用字典表
  - 提前过滤
物化视图
- 概述
- - 物化视图和普通视图的区别
  - 优缺点
  - 基本语法
- 案例
- - 准备测试表和数据
  - 创建物化视图
  - 导入增量数据
  - 导入历史数据

建表优化

数据类型

时间字段的类型

建表时能用数值型或日期时间型表示的字段就不要用字符串，Hive中经常出现全String类型的表，但ClickHouse中不应该这样。虽然ClickHouse底层将DateTime存储为Long类型的时间戳，但仍不建议存储Long类型，因为DateTime不需要经过函数转换处理，拥有更高的执行效率和可读性：

create table t_type2(
id UInt32,
sku_id String,
total_amount Decimal(16,2) ,
create_time Int32
) engine =ReplacingMergeTree(create_time)
partition by toYYYYMMDD(toDate(create_time))
primary key (id)
order by (id, sku_id);

上例中create_time是Int32类型，但要把它传给toYYYYMMDD()函数，就必须先通过toDate()函数对其进行类型转换

空值存储类型

官方指出Nullable类型几乎总是拖累性能，因为存储Nullable列时需要创建一个文件存储NULL标记，并且Nullable列不能被索引。因此，需要直接使用字段默认值或非法值(如-1)来表示空。

下例是一个使用Nullable列建表的例子：

CREATE TABLE t_null(x Int8, y Nullable(Int8)) ENGINE TinyLog;
INSERT INTO t_null VALUES (1, NULL), (2, 3);
SELECT x + y FROM t_null;

查看Nullable列的标记存储文件：

[root@scentos clickhouse-server]# cd /var/lib/clickhouse/data/default/t_null/ # default是数据库名，t_null是表名
[root@scentos t_null]# ll
total 16
-rw-r----- 1 clickhouse clickhouse 95 Dec 11 19:08 sizes.json
-rw-r----- 1 clickhouse clickhouse 28 Dec 11 19:08 x.bin
-rw-r----- 1 clickhouse clickhouse 28 Dec 11 19:08 y.bin
-rw-r----- 1 clickhouse clickhouse 28 Dec 11 19:08 y.null.bin # Nullable列(y列)的标记存储文件

官网说明

分区和索引

分区粒度根据业务特点决定，一般选择按天分区，也可以制定为Tuple()，如果单表数据量为亿，分区大小控制在10-30个为佳。
必须指定索引列，ClickHouse中的索引列即排序列，通过order by指定，一般在查询条件中经常被用来充当筛选条件的属性可以被纳入为索引列：可以是单一维度，也可以是组合维度。通常需要满足高级列在前，查询频率大的在前原则，基数特别大的列不适合做索引列，比如用户表的userid字段，通常筛选后的数据量满足在百万以内的为佳。

以官方案例为例：

……
PARTITION BY toYYYYMM(EventDate)
ORDER BY (CounterID, EventDate, intHash32(UserID))
……

表参数

Index_granularity是用来控制索引粒度的，默认值8192，不建议调整。如果表中不是必须保留全量历史数据，建议指定TTL，可免去手动去除过期历史数据的麻烦，TTL也可以通过alter table语句随时修改，参考相关笔记——表引擎。

写入和删除优化

尽量不要执行单条或小批量的删除和插入操作，这样会产生小分区文件，给后台merge任务带来巨大压力。
不要一次写入太多分区，或写入数据太快，数据写入太快会导致merge速度跟不上而报错，一般建议每秒发起2~3次写入操作，每次操作写入2w~5w条数据，当然这由服务器性能决定。

写入过快报错信息如下：

1. Code: 252, e.displayText() = DB::Exception: Too many parts(304). Merges are processing significantly slower than inserts
2. Code: 241, e.displayText() = DB::Exception: Memory limit (for query) exceeded:would use 9.37 GiB (attempt to allocate chunk of 301989888 bytes), maximum: 9.31 GiB

处理方式：

Too many parts：使用WAL预写日志，提高写入性能，而in_memory_parts_enable_wal默认即为true；
Memory limit：内存爆满，在服务器内存充裕的情况下可增加内存配额，一般通过max_memory_usage实现；
在服务器内存不充裕的情况下，建议将超出部分内容分配到系统硬盘上，但会降低执行速度，一般通过max_bytes_before_external_group_by、max_bytes_before_external_sort参数实现。

常见配置

配置项主要在config.xml和users.xml中，基本都在users.xml里。参见官方说明：
config.xml配置项
users.xml配置项

CPU资源

内存资源

存储

ClickHouse不支持设置多数据目录，为了提升数据的IO性能，可以挂在虚拟卷组，一个卷组绑定多块物理磁盘以提升读写性能。多数据查询场景下，SSD会比普通机械硬盘快2~3倍。

语法优化

ClickHouse的SQL优化规则是基于RBO(Rule Based Optimization，基于规则的优化)的，在介绍这些规则前，我们需要先准备测试表。
先把数据压缩包解压到ClickHouse的数据路径：

[root@scentos clickHouse_data]# tar -xvf hits_v1.tar -C /var/lib/clickhouse/
[root@scentos clickHouse_data]# tar -xvf visits_v1.tar -C /var/lib/clickhouse/

再修改数据集目录的所属用户：

[root@scentos clickHouse_data]# chown -R clickhouse:clickhouse /var/lib/clickhouse/data/datasets/
[root@scentos clickHouse_data]# chown -R clickhouse:clickhouse /var/lib/clickhouse/metadata/datasets/

重启ClickHouse服务器：

[root@scentos clickHouse_data]# systemctl restart clickhouse-server

执行查询：

scentos :) use datasets;
USE datasets

Query id: 6a4e442e-f6df-41ac-a529-4b8546097e01

Ok.

0 rows in set.

Elapsed: 0.001 sec.
scentos :) show tables;
SHOW TABLES

Query id: c99f28d7-e952-47ea-8080-38836e1f6e9c

┌─name──────┐
│ hits_v1   │
│ visits_v1 │
└───────────┘

2 rows in set.
 
Elapsed: 0.002 sec.
scentos :) select count(*) from hits_v1;
SELECT count(*)
FROM hits_v1

Query id: 9cc1e5c5-8102-4782-aeee-80d890a40c08

┌─count()─┐
│ 8873898 │
└─────────┘

1 rows in set. 

Elapsed: 0.002 sec.

至此，数据导入完毕。

count优化

调用count()函数时，如果使用的是count()或count(*)，且没有where条件，则直接使用system.tables的total_rows，例如：

scentos :) explain select count() from hits_v1;

EXPLAIN
SELECT count()
FROM hits_v1

Query id: 5b1f854b-4289-4204-b748-2cd4282a0095

┌─explain──────────────────────────────────────────────┐
│ Expression ((Projection + Before ORDER BY))          │
│   MergingAggregated                                  │
│     ReadFromPreparedSource (Optimized trivial count) │
└──────────────────────────────────────────────────────┘

3 rows in set. Elapsed: 0.006 sec.

其中的Optimized trivial count就是对count()的优化。

如果count()具体的字段，则不会有此优化：

scentos :) explain select count(CounterID) from hits_v1;

EXPLAIN
SELECT count(CounterID)
FROM hits_v1

Query id: ec045da4-33a3-4c5d-b3b7-d9e560a6b16b

┌─explain───────────────────────────────────────────────────────────────────────┐
│ Expression ((Projection + Before ORDER BY))                                   │
│   Aggregating                                                                 │
│     Expression (Before GROUP BY)                                              │
│       SettingQuotaAndLimits (Set limits and quota after reading from storage) │
│         ReadFromMergeTree                                                     │
└───────────────────────────────────────────────────────────────────────────────┘

5 rows in set. Elapsed: 0.038 sec.

消除子查询重复字段

下面语句的子查询中有两个重复的字段(UserID)，将会被去重：

EXPLAIN SYNTAX SELECT
a.UserID,
b.VisitID,
a.URL,
b.UserID
FROM
hits_v1 AS a
LEFT JOIN (
SELECT
UserID,
UserID as HaHa,
VisitID
FROM visits_v1) AS b
USING (UserID)
limit 3;

返回的优化语句为：

┌─explain───────────────┐
│ SELECT                │
│     UserID,           │
│     VisitID,          │
│     URL,              │
│     b.UserID          │
│ FROM hits_v1 AS a     │
│ ALL LEFT JOIN         │
│ (                     │
│     SELECT            │
│         UserID,       │
│         VisitID       │
│     FROM visits_v1    │
│ ) AS b USING (UserID) │
│ LIMIT 3               │
└───────────────────────┘

谓词下推

当group by有having子句，但没有with cube/with rollup/with totals时，having过滤会被下推到where中提前过滤，例如下例中having name变成了where name，在group by之前过滤：

scentos :) EXPLAIN SYNTAX SELECT UserID FROM hits_v1 GROUP BY UserID HAVING UserID = '8585742290196126178';

EXPLAIN SYNTAX
SELECT UserID
FROM hits_v1
GROUP BY UserID
HAVING UserID = '8585742290196126178'

Query id: 7566eef5-8026-4c70-b7c3-57372879ae71

┌─explain──────────────────────────────┐
│ SELECT UserID                        │
│ FROM hits_v1                         │
│ WHERE UserID = '8585742290196126178' │
│ GROUP BY UserID                      │
└──────────────────────────────────────┘

4 rows in set. Elapsed: 0.002 sec.

scentos :)

子查询也支持谓词下推，下例中，where条件被加入到了子查询中：

scentos :) EXPLAIN SYNTAX
:-] SELECT *
:-] FROM
:-] (
:-]  SELECT UserID
:-]  FROM visits_v1
:-] )
:-] WHERE UserID = '8585742290196126178';

EXPLAIN SYNTAX
SELECT *
FROM
(
    SELECT UserID
    FROM visits_v1
)
WHERE UserID = '8585742290196126178'


Query id: 04c3ee06-f5ea-4b5e-9e3b-c9919f31cb5a

┌─explain──────────────────────────────────┐
│ SELECT UserID                            │
│ FROM                                     │
│ (                                        │
│     SELECT UserID                        │
│     FROM visits_v1                       │
│     WHERE UserID = '8585742290196126178' │
│ )                                        │
│ WHERE UserID = '8585742290196126178'     │
└──────────────────────────────────────────┘

8 rows in set. Elapsed: 0.003 sec.

再来一个比较复杂的例子：

scentos :) EXPLAIN SYNTAX
:-] SELECT * FROM (
:-] SELECT
:-] *
:-] FROM
:-] (
:-] SELECT
:-] UserID
:-] FROM visits_v1)
:-] UNION ALL
:-] SELECT
:-] *
:-] FROM
:-] (
:-] SELECT
:-] UserID
:-] FROM visits_v1)
:-] )
:-] WHERE UserID = '8585742290196126178';

EXPLAIN SYNTAX
SELECT *
FROM
(
    SELECT *
    FROM
    (
        SELECT UserID
        FROM visits_v1
    )
    UNION ALL
    SELECT *
    FROM
    (
        SELECT UserID
        FROM visits_v1
    )
)
WHERE UserID = '8585742290196126178'

Query id: 2bc733ea-cd02-4e13-8f47-1a5f73acceba

┌─explain──────────────────────────────────────┐
│ SELECT UserID                                │
│ FROM                                         │
│ (                                            │
│     SELECT UserID                            │
│     FROM                                     │
│     (                                        │
│         SELECT UserID                        │
│         FROM visits_v1                       │
│         WHERE UserID = '8585742290196126178' │
│     )                                        │
│     WHERE UserID = '8585742290196126178'     │
│     UNION ALL                                │
│     SELECT UserID                            │
│     FROM                                     │
│     (                                        │
│         SELECT UserID                        │
│         FROM visits_v1                       │
│         WHERE UserID = '8585742290196126178' │
│     )                                        │
│     WHERE UserID = '8585742290196126178'     │
│ )                                            │
│ WHERE UserID = '8585742290196126178'         │
└──────────────────────────────────────────────┘

22 rows in set. Elapsed: 0.006 sec.

聚合计算外推

聚合函数内的计算会被外推，例如：

scentos :) EXPLAIN SYNTAX
:-] SELECT sum(UserID * 2)
:-] FROM visits_v1;

EXPLAIN SYNTAX
SELECT sum(UserID * 2)
FROM visits_v1

Query id: cd319404-bdf9-4634-b8c5-c40b48cca2dd

┌─explain────────────────┐
│ SELECT sum(UserID) * 2 │
│ FROM visits_v1         │
└────────────────────────┘

2 rows in set. Elapsed: 0.013 sec.

聚合函数消除

如果对聚合键，如group by key使用min、max、any等聚合函数，这些聚合函数会被消除，例如：

scentos :) EXPLAIN SYNTAX
:-] SELECT
:-]  sum(UserID * 2),
:-]  max(VisitID),
:-]  max(UserID)
:-] FROM visits_v1
:-] GROUP BY UserID;

EXPLAIN SYNTAX
SELECT
    sum(UserID * 2),
    max(VisitID),
    max(UserID)
FROM visits_v1
GROUP BY UserID

Query id: 06c4cc13-a0a3-4665-bb6e-e321f11d87a6

┌─explain──────────────┐
│ SELECT               │
│     sum(UserID) * 2, │
│     max(VisitID),    │
│     UserID           │
│ FROM visits_v1       │
│ GROUP BY UserID      │
└──────────────────────┘

6 rows in set. Elapsed: 0.002 sec.

删除重复的`order by key`

重复的order by key会被去重，例如：

scentos :) EXPLAIN SYNTAX
           SELECT *
           FROM visits_v1
           ORDER BY
            UserID ASC,
            UserID ASC,
            VisitID ASC,
           VisitID ASC;

EXPLAIN SYNTAX
SELECT *
FROM visits_v1
ORDER BY
    UserID ASC,
    UserID ASC,
    VisitID ASC,
    VisitID ASC

Query id: 1d2ca7c8-2e21-44e7-912b-083c3284b07b

┌─explain───────────────────────────────────┐
│ SELECT                                    │
│     CounterID,                            │
│     StartDate,                            │
│     Sign,                                 │
│     IsNew,                                │
│     VisitID,                              │
│     UserID,                               │
│     ..........                            │ 
│ FROM visits_v1                            │
│ ORDER BY                                  │
│     UserID ASC,                           │
│     VisitID ASC                           │
└───────────────────────────────────────────┘

186 rows in set. Elapsed: 0.004 sec.

删除重复的`limit by key`

例如下面的语句，重复声明的VisitID会被去重：

scentos :) EXPLAIN SYNTAX
:-] SELECT *
:-] FROM visits_v1
:-] LIMIT 3 BY
:-]  VisitID,
:-]  VisitID
:-] LIMIT 10;

EXPLAIN SYNTAX
SELECT *
FROM visits_v1
LIMIT 3 BY
    VisitID,
    VisitID
LIMIT 10

Query id: 98ba0545-6ab4-4a61-b7a0-db8e93ee3b4a

┌─explain───────────────────────────────────┐
│ SELECT                                    │
│     CounterID,                            │
│     StartDate,                            │
│     Sign,                                 │
│     IsNew,                                │
│     VisitID,                              │
│     UserID,                               │
│     StartTime,                            │
│     Duration,                             │
│     UTCStartTime,                         │
│     PageViews,                            │
│     ........                              │
│ FROM visits_v1                            │
│ LIMIT 3 BY VisitID                        │
│ LIMIT 10                                  │
└───────────────────────────────────────────┘

185 rows in set. Elapsed: 0.003 sec.

删除重复的`using key`

例如下面语句，重复的关联键UserID字段会被去重：

scentos :) EXPLAIN SYNTAX
:-] SELECT
:-] a.UserID,
:-] a.UserID,
:-] b.VisitID,
:-] a.URL,
:-] b.UserID
:-] FROM hits_v1 AS a
:-] LEFT JOIN visits_v1 AS b USING (UserID, UserID);

EXPLAIN SYNTAX
SELECT
    a.UserID,
    a.UserID,
    b.VisitID,
    a.URL,
    b.UserID
FROM hits_v1 AS a
LEFT JOIN visits_v1 AS b USING (UserID, UserID)

Query id: 8901a535-e976-4460-86d7-2a7dc431d927

┌─explain─────────────────────────────────────┐
│ SELECT                                      │
│     UserID,                                 │
│     UserID,                                 │
│     VisitID,                                │
│     URL,                                    │
│     b.UserID                                │
│ FROM hits_v1 AS a                           │
│ ALL LEFT JOIN visits_v1 AS b USING (UserID) │
└─────────────────────────────────────────────┘

8 rows in set. Elapsed: 0.005 sec.

标量替换

如果子查询只返回一行数据，那么在被引用的时候会用标量(即结果)替换该子查询，例如下面语句的total_disk_usage字段：

scentos :) EXPLAIN SYNTAX
:-] WITH
:-]  (
:-]  SELECT sum(bytes)
:-]  FROM system.parts
:-]  WHERE active
:-]  ) AS total_disk_usage
:-] SELECT
:-]  (sum(bytes) / total_disk_usage) * 100 AS table_disk_usage,
:-]  table
:-] FROM system.parts
:-] GROUP BY table
:-] ORDER BY table_disk_usage DESC
:-] LIMIT 10;

EXPLAIN SYNTAX
WITH (
        SELECT sum(bytes)
        FROM system.parts
        WHERE active
    ) AS total_disk_usage
SELECT
    (sum(bytes) / total_disk_usage) * 100 AS table_disk_usage,
    table
FROM system.parts
GROUP BY table
ORDER BY table_disk_usage DESC
LIMIT 10

Query id: 7a776482-04fd-4df2-9913-5796792072cd

┌─explain─────────────────────────────────────────────────────────────────────────┐
│ WITH identity(_CAST(0, 'Nullable(UInt64)')) AS total_disk_usage                 │
│ SELECT                                                                          │
│     (sum(bytes_on_disk AS bytes) / total_disk_usage) * 100 AS table_disk_usage, │
│     table                                                                       │
│ FROM system.parts                                                               │
│ GROUP BY table                                                                  │
│ ORDER BY table_disk_usage DESC                                                  │
│ LIMIT 10                                                                        │
└─────────────────────────────────────────────────────────────────────────────────┘

8 rows in set. Elapsed: 0.002 sec.

三元运算优化

如果开启了optimize_if_chain_to_multiif参数，三元运算符会被替换成multiIf函数，例如：

scentos :) EXPLAIN SYNTAX
:-] SELECT number = 1 ? 'hello' : (number = 2 ? 'world' : 'szc')
:-] FROM numbers(10)
:-] settings optimize_if_chain_to_multiif = 1;

EXPLAIN SYNTAX
SELECT if(number = 1, 'hello', if(number = 2, 'world', 'szc'))
FROM numbers(10)
SETTINGS optimize_if_chain_to_multiif = 1

Query id: 7f0af9fa-f80b-4cb3-a62c-fbc600a218d3

┌─explain─────────────────────────────────────────────────────────┐
│ SELECT multiIf(number = 1, 'hello', number = 2, 'world', 'szc') │
│ FROM numbers(10)                                                │
│ SETTINGS optimize_if_chain_to_multiif = 1                       │
└─────────────────────────────────────────────────────────────────┘

3 rows in set. Elapsed: 0.001 sec.

查询优化

单表查询

`prewhere`代替`where`

prewhere语句和where语句相同，都是用来过滤数据。不同之处在于prewhere只支持合并树系列的引擎表，首先会读取指定的列数据，来进行数据过滤，再将过滤后剩下的数据读取select中需要读取的列字段，形成完整的返回数据。

当查询列明显多于筛选列时使用prewhere可显著提高查询性能，prewhere会自动优化执行过滤阶段的数据读取方式，降低IO频率。在某些场合下，prewhere子句要比where子句处理的数据量更少，性能更高。

我们可以先关闭where自动转prewhere：

set optimize_move_to_prewhere=0;

再分别使用where和prewhere进行查询：

scentos :) select WatchID,
:-]  JavaEnable,
:-]  Title,
:-]  GoodEvent,
:-]  EventTime,
:-]  EventDate,
:-]  CounterID,
:-]  ClientIP,
:-]  ClientIP6,
:-]  RegionID,
:-]  UserID,
:-]  CounterClass,
:-]  OS,
:-]  UserAgent,
:-]  URL,
:-]  Referer,
:-]  URLDomain,
:-]  RefererDomain,
:-]  Refresh,
:-]  IsRobot,
:-]  RefererCategories,
:-]  URLCategories,
:-]  URLRegions,
:-]  RefererRegions,
:-]  ResolutionWidth,
:-]  ResolutionHeight,
:-]  ResolutionDepth,
:-]  FlashMajor,
:-]  FlashMinor,
:-]  FlashMinor2
:-] from datasets.hits_v1 where UserID='3198390223272470366';

SELECT
    WatchID,
    JavaEnable,
    Title,
    GoodEvent,
    EventTime,
    EventDate,
    CounterID,
    ClientIP,
    ClientIP6,
    RegionID,
    UserID,
    CounterClass,
    OS,
    UserAgent,
    URL,
    Referer,
    URLDomain,
    RefererDomain,
    Refresh,
    IsRobot,
    RefererCategories,
    URLCategories,
    URLRegions,
    RefererRegions,
    ResolutionWidth,
    ResolutionHeight,
    ResolutionDepth,
    FlashMajor,
    FlashMinor,
    FlashMinor2
FROM datasets.hits_v1
WHERE UserID = '3198390223272470366'

Query id: 53cd4c0a-14f6-4584-80bd-5ba0d20b4250

.......

152 rows in set. Elapsed: 1.648 sec. Processed 8.87 million rows, 3.86 GB (5.38 million rows/s., 2.34 GB/s.)

scentos :) select WatchID,
            JavaEnable,
            Title,
            GoodEvent,
            EventTime,
            EventDate,
            CounterID,
           select WatchID,
            JavaEnable,
            Title,
            GoodEvent,
            EventTime,
            EventDate,
            CounterID,
           select WatchID,
            JavaEnable,
            Title,
            GoodEvent,
            EventTime,
            EventDate,
            CounterID,
           select WatchID,
            JavaEnable,
            Title,
            GoodEvent,
            EventTime,
            EventDate,
            CounterID,
           select WatchID,
            JavaEnable,
            Title,
            GoodEvent,
            EventTime,
            EventDate,
            CounterID,
           select WatchID,
            JavaEnable,
            Title,
            GoodEvent,
            EventTime,
            EventDate,
            CounterID,
            ClientIP,
            ClientIP6,
            RegionID,
            UserID,
            CounterClass,
            OS,
            UserAgent,
            URL,
            Referer,
            URLDomain,
            RefererDomain,
            Refresh,
            IsRobot,
            RefererCategories,
            URLCategories,
            URLRegions,
            RefererRegions,
            ResolutionWidth,
            ResolutionHeight,
            ResolutionDepth,
            FlashMajor,
            FlashMinor,
            FlashMinor2
           from datasets.hits_v1 prewhere UserID='3198390223272470366';
SELECT
    WatchID,
    JavaEnable,
    Title,
    GoodEvent,
    EventTime,
    EventDate,
    CounterID,
    ClientIP,
    ClientIP6,
    RegionID,
    UserID,
    CounterClass,
    OS,
    UserAgent,
    URL,
    Referer,
    URLDomain,
    RefererDomain,
    Refresh,
    IsRobot,
    RefererCategories,
    URLCategories,
    URLRegions,
    RefererRegions,
    ResolutionWidth,
    ResolutionHeight,
    ResolutionDepth,
    FlashMajor,
    FlashMinor,
    FlashMinor2
FROM datasets.hits_v1
PREWHERE UserID = '3198390223272470366'

Query id: a739c72e-393f-4f8d-9c27-a2600aaa9099

.......

152 rows in set. Elapsed: 0.085 sec. Processed 8.87 million rows, 110.00 MB (104.62 million rows/s., 1.30 GB/s.)

行处理效率：104.62：5.83，prewhere的效率提升非常明显。因此，默认情况，我们肯定不会关闭where自动优化成prewhere，在某些场景下，计时开启优化，又不会自动转换成prewhere，需要我们手动指定：

使用常量表达式；
使用默认值为alias类型的字段；
包含了arrayJoin、globalIn、globalNotIn或indexHint的查询；
select查询的字段和where过滤的字段一样；
where中使用了主键字段。

数据采样

通过采样运算可以极大提升数据分析的性能：

scentos :) SELECT Title,count(*) AS PageViews
:-] FROM hits_v1
:-] SAMPLE 0.1
:-] WHERE CounterID =57
:-] GROUP BY Title
:-] ORDER BY PageViews DESC LIMIT 1000;

SELECT
    Title,
    count(*) AS PageViews
FROM hits_v1
SAMPLE 1 / 10
WHERE CounterID = 57
GROUP BY Title
ORDER BY PageViews DESC
LIMIT 1000

Query id: cce550d8-9aa0-4f57-96bc-34b63278cd06

┌─Title────────────────────────────────────────────────────────────────┬─PageViews─┐
│                                                                      │        77 │
│ Фильмы онлайн на сегодня                                             │         6 │
│ Сбербанка «Работа, мебель обувь бензор.НЕТ « Новости, аксессионально │         6 │
└──────────────────────────────────────────────────────────────────────┴───────────┘

3 rows in set. Elapsed: 0.046 sec. Processed 8.19 thousand rows, 1.16 MB (177.52 thousand rows/s., 25.24 MB/s.)

SAMPLE 0.1表示采样10%，也可以指定采样多少行。采样修饰符只有在合并树MergeTree引擎表中才有效，且在创建表时需要制定采样策略。

列裁剪和分区裁剪

列裁剪：数据量太大时应该避免使用select *操作，查询的字段越少，查询的性能就越好：

select WatchID,
JavaEnable,
Title,
GoodEvent,
EventTime,
EventDate,
CounterID,
ClientIP,
ClientIP6,
RegionID,
UserID
from datasets.hits_v1;

分区裁剪：只读取需要的分区，在where中指定即可：

select WatchID,
JavaEnable,
Title,
GoodEvent,
EventTime,
EventDate,
CounterID,
ClientIP,
ClientIP6,
RegionID,
UserID
from datasets.hits_v1
where EventDate='2014-03-23';

`order by`结合`where`与`limit`

千万级以上的数据集进行order by查询时需要搭配where和limit一起使用：

SELECT UserID,Age
FROM hits_v1
WHERE CounterID=57
ORDER BY Age DESC LIMIT 1000;

避免构建虚拟列

如非必需，不要在结果集上构建虚拟列，虚拟列非常消耗资源，可以考虑在前端处理，或者在表中构造实际字段：

SELECT Income,Age FROM datasets.hits_v1;

拿到Income和Age后再在使用端进行处理。

`uniqCombined`代替`distinct`

uniqCombined的性能可以是distinct的十倍以上，uniqCombined底层采用类似HyperLog算法时间，能接收2%的数据误差，可直接使用这种去重方式提升查询性能，而distinct则是uniqExact进行精确去重。在千万级数据集上建议使用uniqCombined，而非distinct：

SELECT uniqCombined(rand()) from datasets.hits_v1;

使用物化视图

参见本文第4章，此处略过。

查询熔断

为了避免因为个别慢查询引起的服务器崩盘，除了可以为单个查询设置超时外，还可以配置周期熔断，在一个查询周期内，如果用户的慢查询操作数超过规定阈值后将在此周期内无法进行查询操作。

关闭虚拟内存

物理内存和虚拟内存之间的数据交换会导致查询变慢，因此在资源允许的情况下建议关闭虚拟内存。

配置`join_use_nulls`

为每一个账户添加join_use_nulls配置，两表join时，如果左表中的一条记录在右表中不存在，右表的相应字段会返回该字段对应数据类型的默认值，而不是标准SQL中的Null。

批量写入前先排序

批量写入数据时，必须控制每个批次的数据中涉及到的分区数，在写入之前也最好对需要导入的数据进行合并。无序的数据或涉及的分区太多，会导致ClickHouse无法及时对新导入的数据进行合并，从而影响查询性能。

关注CPU

CPU使用率在50%左右会出现查询波动，70%时会出现大范围的查询超时，因此需要额外关注服务器的CPU使用率。

多表关联

首先我们要创建visits_v1的子集表：

CREATE TABLE visits_v2
ENGINE = CollapsingMergeTree(Sign)
PARTITION BY toYYYYMM(StartDate)
ORDER BY (CounterID, StartDate, intHash32(UserID), VisitID)
SAMPLE BY intHash32(UserID)
SETTINGS index_granularity = 8192
as select * from visits_v1 limit 10000;

然后创建join结果表，以避免控制台疯狂输出数据：

CREATE TABLE hits_v2
ENGINE = MergeTree()
PARTITION BY toYYYYMM(EventDate)
ORDER BY (CounterID, EventDate, intHash32(UserID))
SAMPLE BY intHash32(UserID)
SETTINGS index_granularity = 8192
as select * from hits_v1 where 1=0;

用`in`代替`join`

多表联查时，如果查询的数据仅从其中的一张表输出，可以考虑使用in而不是join：

scentos :) insert into hits_v2 select a.* from hits_v1 a where a. CounterID in (select CounterID from visits_v1);

INSERT INTO hits_v2 SELECT a.*
FROM hits_v1 AS a
WHERE a.CounterID IN (
    SELECT CounterID
    FROM visits_v1
)

Query id: 2c9bbd2f-225e-4b07-81de-1d1154178be9

Ok.

0 rows in set. Elapsed: 1.941 sec. Processed 5.41 million rows, 5.14 GB (2.79 million rows/s., 2.65 GB/s.)

大小表`join`

多表join时，要满足小表在右的原则，因为右表关联时会被加载内存中和左表进行比较。ClickHouse中无论是LeftJoin、RightJoin还是InnerJoin，都是拿着右表中的每一条数据到左表中查找记录是否存在，因此右表必须是小表：

insert into table hits_v2
select a.* from hits_v1 a left join visits_v2 b on a. CounterID=b.
CounterID;

上例中，hits_v1是大表，visits_v2是小表，小表在右。

注意谓词下推

ClickHouse在join查询时不会主动发起谓词下推操作，需要每个子查询提前完成过滤。需要注意的是，是否执行谓词下推对性能影响差别很大，不过在新版本中已经不存在此问题，但是要注意版本差异。

scentos :) Explain syntax
:-] select a.* from hits_v1 a left join visits_v2 b on a. CounterID=b.CounterID
:-] having a.EventDate = '2014-03-17';

EXPLAIN SYNTAX
SELECT a.*
FROM hits_v1 AS a
LEFT JOIN visits_v2 AS b ON a.CounterID = b.CounterID
HAVING a.EventDate = '2014-03-17'

Query id: d4aeff23-530a-45cb-bdf2-3c7c3a768a22

┌─explain─────────────────────────────────────────────────┐
│ SELECT                                                  │
│     WatchID,                                            │
│     JavaEnable,                                         │
│     Title,                                              │
│     GoodEvent,                                          │
│     EventTime,                                          │
│     ..........                                          │
│ FROM hits_v1 AS a                                       │
│ ALL LEFT JOIN visits_v2 AS b ON CounterID = b.CounterID │
│ PREWHERE EventDate = '2014-03-17'                       │
└─────────────────────────────────────────────────────────┘

137 rows in set. Elapsed: 0.005 sec.

上例中，将having子句推入了到主查询中，成为prewhere子句，下例也是如此，只不过变成了where子句：

scentos :) Explain syntax
:-] select a.* from hits_v1 a left join visits_v2 b on a. CounterID=b.CounterID
:-] having b.StartDate = '2014-03-17';

EXPLAIN SYNTAX
SELECT a.*
FROM hits_v1 AS a
LEFT JOIN visits_v2 AS b ON a.CounterID = b.CounterID
HAVING b.StartDate = '2014-03-17'

Query id: 20382e92-4dd0-4711-a37e-19da94fead58

┌─explain─────────────────────────────────────────────────┐
│ SELECT                                                  │
│     WatchID,                                            │
│     JavaEnable,                                         │
│     Title,                                              │
│     GoodEvent,                                          │
│     EventTime,                                          │
│     ..........                                          │
│ FROM hits_v1 AS a                                       │
│ ALL LEFT JOIN visits_v2 AS b ON CounterID = b.CounterID │
│ WHERE StartDate = '2014-03-17'                          │
└─────────────────────────────────────────────────────────┘

137 rows in set. Elapsed: 0.004 sec.

分布式表用`global`

在两张分布式表上进行的in或join必须加上global关键字，右表只会在接收查询请求的结点查询一次，再把结果分发到其他结点。不加global的话，每个结点都会单独发起一次对右表的查询，而右表又是分布式表，导致右表会被查询N^2次（N为该分布式表的分片数），从而发生查询放大现象，严重影响性能。

使用字典表

将一些需要关联分析的业务创建成字典表进行join操作，不过字段表不宜太大，以为它会常驻内存。

提前过滤

通过增加逻辑过滤可以减少数据扫描，以达到提高执行速度和降低内存消耗的目的。

物化视图

ClickHouse的物化视图是对查询结果的持久化，可以提升查询效率。物化视图是一张表，仿佛时刻都在进行预计算，它创建时使用了一种特殊的引擎，可以提高查询效率。查询结果集的范围很宽泛，可以是基础表中部分数据的简单拷贝，也可以是多表join产生的结果或其子集，也可以是原始数据的聚合指标等。物化视图是一种快照，不会随着基础表的变化而变化。

概述

物化视图和普通视图的区别

普通视图不保存数据，仅保存查询语句，查询的时候还是从数据表中读取数据，所以普通视图是一个子查询。物化视图则是把查询结果根据相应的引擎存入到了内存或磁盘中，重新对数据进行组织，可以把物化视图理解成一张新表。

优缺点

优点：查询速度快，如果把物化视图的规则全部写好，使用它时将比原始数据查询快很多，因为已经执行了预计算；
缺点：物化视图本质是流式数据，是累加式的技术，因此要使用历史数据进行去重等分析，所以使用难度较大、场景优先，且如果一张表中加入了很多物化视图，对该表的写操作也会消耗很多额外的资源。

基本语法

是create语法，ClickHouse会创建一个隐藏的目标表来保存视图数据。to后面可以自定义物化视图对应的普通表表名，默认是.inner.物化视图名：

CREATE [MATERIALIZED] VIEW [IF NOT EXISTS] [db.]table_name [TO[db.]name] [ENGINE = engine] [POPULATE] AS SELECT ...

创建物化视图的限制：

必须指定物化视图的engine；
to [db.]name时，不能使用populate；
select语句中可以包含distinct、group by、order by、limit等子句；
物化视图的alter操作有限制，操作起来不太方便；
若物化视图定义时使用了to [db.]name，则可以将目标表的视图卸载(detach)再装载(attach)。

物化视图的数据更新：

物化视图创建好后，源数据表被写入数据时也会同步更新物化视图；
populate关键字决定了物化视图的更新策略：
- 若有populate，则在创建视图的过程中将源表中已经存在的数据一并导入；
- 否则，物化视图在创建后没有数据，只会在同步之后进行更新。
- ClickHouse官方不推荐使用populate，因为在创建物化视图过程中同时写入的数据，不能被插入到物化视图中；
物化视图不支持同步删除，若源表的数据不存在了，物化视图中的数据依旧保留；
物化视图是一种特殊的表，可以用show tables查看。

案例

对于一些确定的数据模型，可以将统计指标通过物化视图的方式创建，可以避免查询时的重复计算，并实时更新数据。

准备测试表和数据

建表：

CREATE TABLE hits_test
(
EventDate Date,
CounterID UInt32,
UserID UInt64,
URL String,
Income UInt8
)
ENGINE = MergeTree()
PARTITION BY toYYYYMM(EventDate)
ORDER BY (CounterID, EventDate, intHash32(UserID))
SAMPLE BY intHash32(UserID)
SETTINGS index_granularity = 8192

导入数据：

INSERT INTO hits_test
SELECT
EventDate,
CounterID,
UserID,
URL,
Income
FROM hits_v1
limit 10000;

创建物化视图

CREATE MATERIALIZED VIEW hits_mv
ENGINE=SummingMergeTree
PARTITION BY toYYYYMM(EventDate) ORDER BY (EventDate, intHash32(UserID))
AS SELECT
UserID,
EventDate,
count(URL) as ClickCount,
sum(Income) AS IncomeSum
FROM hits_test
WHERE EventDate >= '2014-03-20'
GROUP BY UserID,EventDate;

WHERE EventDate >= '2014-03-20'用来设置更新点，该时间点之前的数据可以另外通过insert into select进行插入。
也可以使用以下语法，表A是一张合并树表：

CREATE MATERIALIZED VIEW 物化视图名 TO 表 A
AS SELECT FROM 表 B;

不建议添加populate关键字进行全量更新。

因为我们没有指定to [db.]name，所以会创建名为.inner.hits_mv的表，用来保存物化视图数据

scentos :) show tables;

SHOW TABLES

Query id: a3acf91a-1308-46f6-a609-364d16adcc34

┌─name───────────┐
│ .inner.hits_mv │
│ hits_mv        │
│ hits_test      │
│ hits_v1        │
│ hits_v2        │
│ visits_v1      │
│ visits_v2      │
└────────────────┘

我们直接通过查询hits_mv物化视图就好。

导入增量数据

先查询一下物化视图：

scentos :) select * from hits_mv;

SELECT *
FROM hits_mv

Query id: a1915362-5a0a-4921-9a55-c50df710e43d

Ok.

0 rows in set. Elapsed: 0.001 sec.

再插入增量数据：

INSERT INTO hits_test
SELECT
EventDate,
CounterID,
UserID,
URL,
Income
FROM hits_v1
WHERE EventDate >= '2014-03-23'
limit 10;

再查询物化视图：

scentos :) select * from hits_mv;

SELECT *
FROM hits_mv

Query id: 46661160-76d1-436f-9a8f-21161998a21e

┌──────────────UserID─┬──EventDate─┬─ClickCount─┬─IncomeSum─┐
│ 8585742290196126178 │ 2014-03-23 │          8 │        16 │
│ 1095363898647626948 │ 2014-03-23 │          2 │         0 │
└─────────────────────┴────────────┴────────────┴───────────┘

2 rows in set. Elapsed: 0.002 sec.

导入历史数据

比如我们导入2014年3月20号的数据：

INSERT INTO hits_mv
SELECT
UserID,
EventDate,
count(URL) as ClickCount,
sum(Income) AS IncomeSum
FROM hits_test
WHERE EventDate = '2014-03-20'
GROUP BY UserID,EventDate;

然后查询物化视图：

scentos :) select * from hits_mv;

SELECT *
FROM hits_mv

Query id: 03700a27-929a-4b4a-b51f-b22d6e73f9b9

┌───────────────UserID─┬──EventDate─┬─ClickCount─┬─IncomeSum─┐
│  8682581061680449960 │ 2014-03-20 │         36 │         0 │
│  1685423974857227293 │ 2014-03-20 │         87 │       261 │
│  9912771070916119619 │ 2014-03-20 │          1 │         3 │
│ 10163473165296684099 │ 2014-03-20 │         90 │         0 │
│  ......................................................... │
│    35119926053556948 │ 2014-03-20 │          2 │         4 │
│  1913746513358768143 │ 2014-03-20 │          2 │         4 │
└──────────────────────┴────────────┴────────────┴───────────┘
┌──────────────UserID─┬──EventDate─┬─ClickCount─┬─IncomeSum─┐
│ 8585742290196126178 │ 2014-03-23 │          8 │        16 │
│ 1095363898647626948 │ 2014-03-23 │          2 │         0 │
└─────────────────────┴────────────┴────────────┴───────────┘

341 rows in set. Elapsed: 0.008 sec.

可见数据同步导入到了物化视图中。

你可能感兴趣的:(clickhouse)

全面指南：用户行为从前端数据采集到实时处理的最佳实践数字沉思营销流量运营系统架构前端内容运营大数据
引言在当今的数据驱动世界，实时数据采集和处理已经成为企业做出及时决策的重要手段。本文将详细介绍如何通过前端JavaScript代码采集用户行为数据、利用API和Kafka进行数据传输、通过Flink实时处理数据的完整流程。无论你是想提升产品体验还是做用户行为分析，这篇文章都将为你提供全面的解决方案。设计一个通用的ClickHouse表来存储用户事件时，需要考虑多种因素，包括事件类型、时间戳、用户信
从底层原理上理解ClickHouse 中的稀疏索引 goTsHgo 大数据分布式 Clickhouse 数据库 clickhouse
稀疏索引（SparseIndexes）是ClickHouse中一个重要的加速查询机制。与传统数据库使用的B-Tree或哈希索引不同，ClickHouse的稀疏索引并不是为每一行数据构建索引，而是为数据存储的块或部分数据生成索引。这种索引的核心思想是通过减少需要扫描的数据范围来加速查询，特别适用于大数据量场景。1.基本概念：数据存储与索引在理解稀疏索引之前，首先需要理解ClickHouse的列式存储
ClickHouse 高性能的列式数据库管理系统小丁学Java ClickHouse clickhouse 数据库
ClickHouse是一个高性能的列式数据库管理系统（DBMS），主要用于在线分析处理查询（OLAP）。以下是对ClickHouse的详细介绍：基本信息：来源：由俄罗斯的Yandex公司于2016年开源。全称：ClickStream,DataWareHouse，简称ClickHouse。创始人：AaronKatz、AlexeyMilovidov、YuryIzrailevsky。主要特点：高性能：能
对话 ClickHouse 创始人 Alexey：不仅是数据库，所有的数据处理系统都能从 AI 受益 AI科技大本营 clickhouse 数据库人工智能
“Alexey，你希望ClickHouse的未来怎么发展？”我希望ClickHouse成为最流行的开源分析数据库，从此任何人考虑分析数据库的时候，脑海里第一个也是显而易见的选择就是ClickHouse。顺便说一句，我们其实已经是最流行的开源分析数据库了，所以我想让这个现状保持下去，以便更多的人能知道这一点。作者|王启隆出品|《新程序员》编辑部当今的分析型数据库领域，ClickHouse是最闪亮的名
clickhouse-v24.1-离线部署 Wonderful呀数据库 clickhouse 数据库运维 linux
部署版本数据库版本：24.1.1.2048jdk版本：jdk84个文件（三个ck的包）：OpenJDK8U-jdk_x64_linux_hotspot_8u382b05.tarclickhouse-client-24.1.1.2048.x86_64.rpmclickhouse-common-static-24.1.1.2048.x86_64.rpmclickhouse-server-24.1.1.
starrocks和clickhouse数据库比较 CodeMaster_37714848 clickhouse 数据库
Starrocks和ClickHouse都是用于数据分析的数据库，但它们的设计理念和用途有所不同。下面是这两者的一些主要比较点：1.基础架构与设计目标Starrocks:Starrocks是一个专注于实时数据分析的平台，常用于大数据处理和商业智能应用。它设计用于高效处理大规模数据集，并且支持复杂查询和数据处理。支持多种数据源的集成，并且可以与其他大数据技术（如Hadoop、Spark）协同工作。C
clickhouse对比两台机器数据微亮之海 clickhouse
selectconcat(database,'.',name),total_rowsfromsystem.tableswhereengine='MergeTree'anddatabase!='system'andtotal_rows!=0orderbydatabase,name;两台机器分别跑，导出数据后对比
ClickHouse与其他数据库的对比九州Pro ClickHouse 数据库 clickhouse 数据仓库大数据 sql
目录1与传统关系型数据库的对比1.1性能差异1.2数据模型差异1.3适用场景差异2与其他列式存储数据库的对比2.1ApacheCassandra2.2HBase3与分布式数据库的对比3.1GoogleBigQuery3.2AmazonRedshift3.3Snowflake4ClickHouse的缺点5ClickHouse的其他优点1与传统关系型数据库的对比1.1性能差异ClickHouse是一种
Hbase、hive以及ClickHouse的介绍和区别？ damokelisijian866 hbase hive clickhouse
一、Hbase介绍：HBase是一个分布式的、面向列的开源数据库，由ApacheSoftwareFoundation开发，是Hadoop生态系统中的一个重要组件。HBase的设计灵感来源于Google的Bigtable论文，它通过提供类似于Bigtable的能力，在Hadoop之上构建了一个高可靠性、高性能、面向列、可伸缩的分布式存储系统。HBase主要用于存储大量结构化数据，并支持随机读写访问，
ClickHouse 分布式部署、分布式表创建及数据迁移指南努力做一名技术 clickhouse 分布式
文章目录部署ClickHouse集群1.1环境准备1.2安装ClickHouse1.3配置集群创建分布式表2.1创建本地表2.2创建分布式表2.3删除分布式表测试分布式表3.1插入测试数据。配置和管理4.1配置监控4.2数据备份数据迁移5.1导出5.2导入部署ClickHouse集群QuantumInsights的部署将基于一个高可用的分布式ClickHouse集群，以实现对大规模数据的高效处理和
ClickHouse实战处理（一）：MergeTree系列引擎 sheep8521 clickhouse 数据库大数据
MergeTree作为家族系列最基础的表引擎，主要有以下特点：存储的数据按照主键排序：创建稀疏索引加快数据查询速度。支持数据分区，可以通过PARTITIONBY语句指定分区字段。支持数据副本。支持数据采样。总之适用于高负载任务的最通用和功能最强大的表引擎。可以快速插入数据并进行后续的后台数据处理。支持数据复制（使用Replicated*的引擎版本）、分区和其他引擎不支持的特性MergeTree系列
ClickHouse 二进制特征值怎么转化为字符串树下水月 clickhouse
要将二进制特征值转化为字符串，可以使用以下方法：1.使用base64编码base64是一种将二进制数据编码为ASCII字符串的方法。在ClickHouse中，可以使用函数base64Encode()来将二进制特征值转化为base64编码的字符串。例如：SELECTbase64Encode(feature)FROMmy_table;2.使用hex编码hex是一种将二进制数据转化为十六进制字符串的方法
ClickHouse安装与使用指南富艾霏
ClickHouse安装与使用指南clickhouseNodeJSclientforClickHouse项目地址:https://gitcode.com/gh_mirrors/clic/clickhouse项目介绍ClickHouse是由Yandex开发的一个用于在线分析处理(OLAP)的列式数据库管理系统(DBMS)。此开源项目位于https://github.com/TimonKK/click
【开端】clickhouse入门使用奋力向前123 数据库 clickhouse
一、绪论这两天使用clickhouse进行数据分析，在使用上和mysql等关系型数据库还是有区别的，在SQL语法上也有差别，所以这里总结一下使用。二、clickhouse入门使用ClickHouse介绍ClickHouse是俄罗斯的Yandex公司于2016年开源的列式存储数据库（DBMS），它使用C++语言编写，主要面向在线分析处理查询（OLAP），能够使用SQL查询实时生成分析数据报告。Cli
APO选择ClickHouse存储Trace的考量云观秋毫 apo clickhouse
OpenTelemetry生态已经很成熟，但对用户而言，选择OpenTelemetry仍然需要考虑以下几个问题：探针的成熟度海量Trace数据的存储和展示的问题本文重点讨论海量Trace数据的存储与展示问题，APO定位是一个OpenTelmetry的发行版，本文将重点讨论APO团队是如何考虑这个问题的。现有OpenTelemetry的Trace存储方案OpenTelemetry生态过于灵活，选择众
clickhouse安装教程 123 黑曼巴大数据
官网地址安装教程https://clickhouse.com/learn/lessons/gettingstarted/#1-installing-clickhouse
Clickhouse篇之数据的备份与恢复听说唐僧不吃肉 Clickhouse clickhouse 数据库
Clickhouse数据的备份与恢复要备份ClickHouse数据库中的数据表，你可以使用ClickHouse提供的BACKUP和RESTORE功能，或者通过手动备份文件系统中的数据目录来实现。以下是两种常用的方法：方法一：使用BACKUP和RESTORE功能从ClickHouse21.8版本开始，支持BACKUP和RESTORE命令。以下是备份和恢复的步骤：1.备份数据库备份整个数据库BACKU
click house学习路线——开篇 Fred3D Click house 数据库
clickhouse学习路线官方文档前提:最近要计算数据指标,开始使用olap列示存储的数据库,对clickhouse的使用进行了系统学习推荐阅读的书官方文档地址ClickHouse原理解析与应用实践(朱凯)占位后续更新…
Clickhouse 集群部署安装想当厨子的小章同学 Clickhouse linux 服务器运维
ClickHouse集群部署安装1、环境准备（1）、阿里云服务器两台集群节点信息192.168.5.13ch01192.168.5.14ch02（2）、修改/etc/cloud/cloud.cfg(所有节点)[root@iZbp1fsk0p3opmtlo52u91Z~]#vim/etc/cloud/cloud.cfg注释掉#manage_etc_hosts:localhost（3）、文件打开数调整
clickhouse集群部署林鸟鸟 clickhouse clickhouse 服务器
单节点设置为了延迟演示分布式环境的复杂性，我们将首先在单个服务器或虚拟机上部署ClickHouse。ClickHouse通常是从deb或rpm包安装，但对于不支持它们的操作系统也有其他方法。例如，您选择deb安装包，执行:sudoapt-getinstall-yapt-transport-httpsca-certificatesdirmngrsudoapt-keyadv--keyserverhkp
clickhouse-neighbor 坑爹的排序 [email protected] clickhouse
对于排序规则明显的数据集，使用neighbor来做分析，是一个非常强大的函数，能完成很多复杂的计算，例如高速公路分析车辆流量。高速公路截面流量一般是通过路面上的门架采集设备采集通行卡的信息和识别牌照组成，在路面行驶的车辆，受天气、车辆密集度、电子卡片、采集设备等因素影响，也不能100%准确采集到通行数据，如果仅仅以单一采集点来分析流量，准确度必然打折扣。不过，任何方法都不能说完全准确分析出数据，肯
【离线安装clickhouse集群】 eddianliu bigdata clickhouse centos
离线安装clickhouse集群clickhouse介绍Clickhouse是俄罗斯yandex公司于2016年开源的一个列式数据库管理系统，在OLAP领域像一匹黑马一样，以其超高的性能受到业界的青睐。特性：基于shard+replica实现的线性扩展和高可靠采用列式存储，数据类型一致，压缩性能更高硬件利用率高，连续IO，提高了磁盘驱动器的效率向量化引擎与SIMD提高了CPU利用率，多核多节点并行
clickhouse集群搭建颍天 clickhouse 数据库
文章目录安装clickhouse修改集群配置文件启动clickhouse集群测试集群的可用性安装clickhouse本次用了4台服务器搭建clickhouse集群，使用rpm安装方式在4台服务器上安装clickhouse，步骤如下：sudoyuminstall-ycurlcurl-shttps://packagecloud.io/install/repositories/altinity/clic
k8s上的clickhouse集群部署并创建分布式表（附详细参数说明和参考链接） KirutoCode 开发技能
k8s上的clickhouse集群部署并创建分布式表制作docker镜像创建configmap创建clickhouseservicepod创建clickhouseclientpod创建Service创建分布式表部署总体参考：https://blog.csdn.net/tototuzuoquan/article/details/111305125clickhouse的配置文件相关解读：https:/
Clickhouse和MySQL的区别以及适用业务场景听说唐僧不吃肉 Clickhouse MySQL clickhouse mysql 数据库
Clickhouse和MySQL的区别ClickHouse和MySQL是两种不同类型的数据库管理系统，它们在设计理念、数据处理方式和应用场景上有着明显的区别。区别和特点1.设计目标ClickHouseClickHouse是一种面向分析的列式存储数据库，旨在处理大规模数据的高性能查询和实时分析。它专注于快速的数据插入和复杂的分析查询。MySQLMySQL是一种传统的关系型数据库管理系统(RDBMS)
从零到一建设数据中台 - 关键技术汇总我码玄黄数据中台数据挖掘数据分析大数据
一、数据中台关键技术汇总语言框架：Java、Maven、SpringBoot数据分布式采集：Flume、Sqoop、kettle数据分布式存储：HadoopHDFS离线批处理计算：MapReduce、Spark、Flink实时流式计算：Storm/SparkStreaming、Flink批处理消息队列：Kafka查询分析：Hbase、Hive、ClickHouse、Presto搜索引擎：Elast
clickhouse自定义函数的困惑 [email protected] clickhouse
近期遇到一个困惑的问题，自定义函数中，如果出现查询语句，则传递的参数，不能传递字段名，只能传递常量或者表达式，文档中也没有找到对应的解决办法。需求其实比较简单，查询的时候，要做一个“少数服从多数”的决定，在一行记录中，存在多个字段值是String类型，使用哪个字段值，取决于字段内容出现的频率次数最高的字符串，注意，这里是一行记录，可以理解成，一个数组字段类型，常规想法就是selectgroupby
【Hadoop】使用Scala与Spark连接ClickHouse进行数据处理音乐学家方大刚 Scala Hadoop hadoop scala spark
风不懂不懂得叶的梦月不听不听闻窗里琴声意难穷水不见不曾见绿消红霜不知不知晓将别人怎道珍重落叶有风才敢做一个会飞的梦孤窗有月才敢登高在夜里从容桃花有水才怕身是客身是客此景不能久TieYann(铁阳)、薄彩生《不知晓》在大数据分析和处理领域，ApacheSpark是一个广泛使用的高性能、通用的计算框架，而ClickHouse作为一个高性能的列式数据库，特别适合在线分析处理（OLAP）。结合Scala语
ClickHouse副本节点数据损坏恢复旺仔_牛奶 ClickHouse clickhouse 数据库 java
参考链接：https://blog.csdn.net/qq_42082701/article/details/127771766参考链接：https://kb.altinity.com/altinity-kb-setup-and-maintenance/suspiciously-many-broken-parts/#背景CK配置为1分片2副本#配置参数,这里我们将max_suspicious_br
ClickHouse存储引擎之ReplacingMergeTree引擎小枫@码大数据运维 clickhouse
一、ReplacingMergeTree作用ClickHouse中最常用也是最基础的表引擎为MergeTree，在它的功能上添加特定功能就构成了MergeTree系列引擎。MergeTree支持主键，但主键主要用来缩小查询范围，且不具备唯一性约束，可以正常写入相同主键的数据。但在一些情况下，可能需要表中没有主键重复的数据。ReplacingMergeTree就是在MergeTree的基础上加入了去
ViewController添加button按钮解析。（翻译）张亚雄 c
<div class="it610-blog-content-contain" style="font-size: 14px"></div>// ViewController.m // Reservation software // // Created by 张亚雄 on 15/6/2.
mongoDB 简单的增删改查开窍的石头 mongodb
在上一篇文章中我们已经讲了mongodb怎么安装和数据库/表的创建。在这里我们讲mongoDB的数据库操作在mongo中对于不存在的表当你用db.表名他会自动统计下边用到的user是表明，db代表的是数据库添加(insert):
log4j配置 0624chenhong log4j
1) 新建java项目 2) 导入jar包，项目右击，properties—java build path—libraries—Add External jar，加入log4j.jar包。 3) 新建一个类com.hand.Log4jTest package com.hand; import org.apache.log4j.Logger; public class
多点触摸(图片缩放为例) 不懂事的小屁孩多点触摸
多点触摸的事件跟单点是大同小异的，上个图片缩放的代码，供大家参考一下 import android.app.Activity; import android.os.Bundle; import android.view.MotionEvent; import android.view.View; import android.view.View.OnTouchListener
有关浏览器窗口宽度高度几个值的解析换个号韩国红果果 JavaScript html
1 元素的 offsetWidth 包括border padding content 整体的宽度。 clientWidth 只包括内容区 padding 不包括border。 clientLeft = offsetWidth -clientWidth 即这个元素border的值 offsetLeft 若无已定位的包裹元素
数据库产品巡礼：IBM DB2概览蓝儿唯美 db2
IBM DB2是一个支持了NoSQL功能的关系数据库管理系统，其包含了对XML，图像存储和Java脚本对象表示（JSON）的支持。DB2可被各种类型的企业使用，它提供了一个数据平台，同时支持事务和分析操作，通过提供持续的数据流来保持事务工作流和分析操作的高效性。 DB2支持的操作系统 DB2可应用于以下三个主要的平台: 工作站，DB2可在Linus、Unix、Windo
java笔记5 a-john java
控制执行流程： 1，true和false 利用条件表达式的真或假来决定执行路径。例：（a==b）。它利用条件操作符“==”来判断a值是否等于b值，返回true或false。java不允许我们将一个数字作为布尔值使用，虽然这在C和C++里是允许的。如果想在布尔测试中使用一个非布尔值，那么首先必须用一个条件表达式将其转化成布尔值，例如if(a!=0)。 2，if-els
Web开发常用手册汇总 aijuans PHP
一门技术，如果没有好的参考手册指导,很难普及大众。这其实就是为什么很多技术，非常好，却得不到普遍运用的原因。正如我们学习一门技术，过程大概是这个样子： ①我们日常工作中，遇到了问题，困难。寻找解决方案，即寻找新的技术； ②为什么要学习这门技术？这门技术是不是很好的解决了我们遇到的难题，困惑。这个问题，非常重要，我们不是为了学习技术而学习技术，而是为了更好的处理我们遇到的问题，才需要学习新的
今天帮助人解决的一个sql问题 asialee sql
今天有个人问了一个问题，如下： type AD value A
意图对象传递数据百合不是茶 android 意图Intent Bundle对象数据的传递
学习意图将数据传递给目标活动; 初学者需要好好研究的 1,将下面的代码添加到main.xml中 <?xml version="1.0" encoding="utf-8"?> <LinearLayout xmlns:android="http:/
oracle查询锁表解锁语句 bijian1013 oracle object session kill
一.查询锁定的表如下语句，都可以查询锁定的表语句一： select a.sid, a.serial#, p.spid, c.object_name, b.session_id, b.oracle_username, b.os_user_name from v$process p, v$s
mac osx 10.10 下安装 mysql 5.6 二进制文件［tar.gz］征客丶 mysql osx
场景：在 mac osx 10.10 下安装 mysql 5.6 的二进制文件。环境：mac osx 10.10、mysql 5.6 的二进制文件步骤：[所有目录请从根“/”目录开始取，以免层级弄错导致找不到目录] 1、下载 mysql 5.6 的二进制文件，下载目录下面称之为 mysql5.6SourceDir；下载地址：http://dev.mysql.com/downl
分布式系统与框架 bit1129 分布式
RPC框架 Dubbo 什么是Dubbo Dubbo是一个分布式服务框架，致力于提供高性能和透明化的RPC远程服务调用方案，以及SOA服务治理方案。其核心部分包含: 远程通讯: 提供对多种基于长连接的NIO框架抽象封装，包括多种线程模型，序列化，以及“请求-响应”模式的信息交换方式。集群容错: 提供基于接
那些令人蛋痛的专业术语白糖_ spring Web SSO IOC
spring 【控制反转(IOC)/依赖注入(DI)】：由容器控制程序之间的关系，而非传统实现中，由程序代码直接操控。这也就是所谓“控制反转”的概念所在：控制权由应用代码中转到了外部容器，控制权的转移，是所谓反转。简单的说：对象的创建又容器(比如spring容器)来执行，程序里不直接new对象。 Web 【单点登录(SSO)】：SSO的定义是在多个应用系统中，用户
《给大忙人看的java8》摘抄 braveCS java8
函数式接口：只包含一个抽象方法的接口 lambda表达式：是一段可以传递的代码你最好将一个lambda表达式想象成一个函数，而不是一个对象，并记住它可以被转换为一个函数式接口。事实上，函数式接口的转换是你在Java中使用lambda表达式能做的唯一一件事。方法引用：又是要传递给其他代码的操作已经有实现的方法了，这时可以使
编程之美-计算字符串的相似度 bylijinnan java 算法编程之美
public class StringDistance { /** * 编程之美计算字符串的相似度 * 我们定义一套操作方法来把两个不相同的字符串变得相同，具体的操作方法为： * 1.修改一个字符（如把“a”替换为“b”）; * 2.增加一个字符（如把“abdd”变为“aebdd”）; * 3.删除一个字符（如把“travelling”变为“trav
上传、下载压缩图片 chengxuyuancsdn 下载
/** * * @param uploadImage --本地路径(tomacat路径) * @param serverDir --服务器路径 * @param imageType --文件或图片类型 * 此方法可以上传文件或图片.txt,.jpg,.gif等 */ public void upload(String uploadImage,Str
bellman-ford(贝尔曼-福特)算法 comsci 算法 F#
Bellman-Ford算法(根据发明者 Richard Bellman 和 Lester Ford 命名)是求解单源最短路径问题的一种算法。单源点的最短路径问题是指：给定一个加权有向图G和源点s，对于图G中的任意一点v，求从s到v的最短路径。有时候这种算法也被称为 Moore-Bellman-Ford 算法，因为 Edward F. Moore zu 也为这个算法的发展做出了贡献。与迪科
oracle ASM中ASM_POWER_LIMIT参数 daizj ASM oracle ASM_POWER_LIMIT 磁盘平衡
ASM_POWER_LIMIT 该初始化参数用于指定ASM例程平衡磁盘所用的最大权值，其数值范围为0~11，默认值为1。该初始化参数是动态参数，可以使用ALTER SESSION或ALTER SYSTEM命令进行修改。示例如下： SQL>ALTER SESSION SET Asm_power_limit=2;
高级排序:快速排序 dieslrae 快速排序
public void quickSort(int[] array){ this.quickSort(array, 0, array.length - 1); } public void quickSort(int[] array,int left,int right){ if(right - left <= 0
C语言学习六指针_何谓变量的地址一个指针变量到底占几个字节 dcj3sjt126com C语言
# include <stdio.h> int main(void) { /* 1、一个变量的地址只用第一个字节表示 2、虽然他只使用了第一个字节表示，但是他本身指针变量类型就可以确定出他指向的指针变量占几个字节了 3、他都只存了第一个字节地址，为什么只需要存一个字节的地址，却占了4个字节，虽然只有一个字节，但是这些字节比较多，所以编号就比较大，
phpize使用方法 dcj3sjt126com PHP
phpize是用来扩展php扩展模块的，通过phpize可以建立php的外挂模块,下面介绍一个它的使用方法,需要的朋友可以参考下安装（fastcgi模式）的时候，常常有这样一句命令：代码如下: /usr/local/webserver/php/bin/phpize 一、phpize是干嘛的？ phpize是什么？ phpize是用来扩展php扩展模块的，通过phpi
Java虚拟机学习 - 对象引用强度 shuizhaosi888 JAVA虚拟机
本文原文链接：http://blog.csdn.net/java2000_wl/article/details/8090276 转载请注明出处！无论是通过计数算法判断对象的引用数量，还是通过根搜索算法判断对象引用链是否可达，判定对象是否存活都与“引用”相关。引用主要分为：强引用(Strong Reference)、软引用(Soft Reference)、弱引用(Wea
.NET Framework 3.5 Service Pack 1（完整软件包）下载地址 happyqing .net 下载 framework
Microsoft .NET Framework 3.5 Service Pack 1（完整软件包） http://www.microsoft.com/zh-cn/download/details.aspx?id=25150 Microsoft .NET Framework 3.5 Service Pack 1 是一个累积更新，包含很多基于 .NET Framewo
JAVA定时器的使用 jingjing0907 java timer 线程定时器
1、在应用开发中，经常需要一些周期性的操作，比如每5分钟执行某一操作等。对于这样的操作最方便、高效的实现方式就是使用java.util.Timer工具类。 privatejava.util.Timer timer; timer = newTimer(true); timer.schedule( newjava.util.TimerTask() { public void run()
Webbench 流浪鱼 webbench
首页下载地址 http://home.tiscali.cz/~cz210552/webbench.html Webbench是知名的网站压力测试工具，它是由Lionbridge公司（http://www.lionbridge.com）开发。 Webbench能测试处在相同硬件上，不同服务的性能以及不同硬件上同一个服务的运行状况。webbench的标准测试可以向我们展示服务器的两项内容：每秒钟相
第11章动画效果（中） onestopweb 动画
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
windows下制作bat启动脚本. sanyecao2314 java cmd 脚本 bat
java -classpath C:\dwjj\commons-dbcp.jar;C:\dwjj\commons-pool.jar;C:\dwjj\log4j-1.2.16.jar;C:\dwjj\poi-3.9-20121203.jar;C:\dwjj\sqljdbc4.jar;C:\dwjj\voucherimp.jar com.citsamex.core.startup.MainStart
Java进行RSA加解密的例子 tomcat_oracle java
加密是保证数据安全的手段之一。加密是将纯文本数据转换为难以理解的密文；解密是将密文转换回纯文本。　　数据的加解密属于密码学的范畴。通常，加密和解密都需要使用一些秘密信息，这些秘密信息叫做密钥，将纯文本转为密文或者转回的时候都要用到这些密钥。　　对称加密指的是发送者和接收者共用同一个密钥的加解密方法。　　非对称加密(又称公钥加密)指的是需要一个私有密钥一个公开密钥，两个不同的密钥的
Android_ViewStub 阿尔萨斯 ViewStub
public final class ViewStub extends View java.lang.Object android.view.View android.view.ViewStub 类摘要： ViewStub 是一个隐藏的，不占用内存空间的视图对象，它可以在运行时延迟加载布局资源文件。当 ViewSt