Throwable文摘

ClickHouse数据库数据定义手记-不一般的DDL和DML

前提

前面一篇文章已经很详细地介绍了ClickHouse中每种数据类型的定义和基本使用，这篇文章会详细地介绍ClickHouse中的DDL和DML，很多操作区别于传统的DBMS，特别是代价巨大的DELETE和UPDATE操作。接下来开始吧????????

❝
一般情况下，笔者建议ClickHouse的关键字全用大写，这样可以更加凸显出自定义的驼峰命名和大写关键字的不同，可读性和可维护性更高
❞

❝
本文使用的ClickHouse服务版本为当前最新的20.10.3.30
❞

数据库DDL

ClickHouse服务启动后，默认会生成一个命名为default的数据库（除了系统数据库之外，不切换数据库创建表默认就是在default数据库创建），数据库就像命名空间，物理上实现了数据隔离，同时有效避免了表命名冲突等问题。通过SHOW DATABASES可以列出当前服务中的所有数据库：

f5abc88ff7e4 :) SHOW DATABASES

SHOW DATABASES

┌─name───────────────────────────┐
│ _temporary_and_external_tables │
│ default                        │
│ system                         │
└────────────────────────────────┘

3 rows in set. Elapsed: 0.023 sec.

创建数据库的基本语法如下：

CREATE DATABASE [IF NOT EXISTS] $db_name [ON CLUSTER $cluster] [ENGINE = $engine(...)]

其中有三段可选的子句：

IF NOT EXISTS：代表不存在$db_name同名数据库的时候才创建，否则忽略，不使用此子句如果数据库中已经存在同名的数据库定义则会抛出一个异常
ON CLUSTER $cluster：指定集群中的所有ClickHouse服务实例都执行对应的DDL，高级的分布式DDL功能
[ENGINE = $engine(...)]：指定数据库引擎（挺意外的，不单表有对应的表引擎，数据库也有相应的引擎）

常用的数据库DDL：

DDL	功能	备注
`SHOW DATABASES`	列出服务中所有数据库
`SHOW CREATE DATABASE $db_name`	返回建库的`DDL`语句
`CREATE DATABASE $db_name`	创建数据库
`USE DATABASE $db_name`	切换（当前会话中使用的）数据库

例如：

f5abc88ff7e4 :) CREATE DATABASE db_test;

CREATE DATABASE db_test

Ok.

0 rows in set. Elapsed: 0.034 sec.

f5abc88ff7e4 :) SHOW CREATE DATABASE db_test;

SHOW CREATE DATABASE db_test

┌─statement──────────────────────────────┐
│ CREATE DATABASE db_test
ENGINE = Atomic │
└────────────────────────────────────────┘

1 rows in set. Elapsed: 0.007 sec.

数据库引擎

这个是ClickHouse的一个十分先进的特性，数据库可以定义引擎类型，不同的引擎应用于不同的场景，用得熟练就可以领略一下"万物皆为表"的远大宏愿。官方文档上只提到了三种数据库引擎：默认的数据库引擎、MySQL和Lazy。但是从大部分参考资料来看，ClickHouse支持「至少五种」数据库引擎。已知可用的数据库引擎如下：

引擎	特点	备注
`Ordinary`	选用此数据库引擎可以使用任意类型的表引擎	默认的数据库引擎
`Dictionary`	字典引擎，会为所有数据字典创建对应的关联表	此引擎使用内置的字典功能，应该是不常用的
`Memory`	内存引擎，表和数据都存放在内存，重启后数据会被清理	可以简单认为这类数据库中所有表的引擎被设置为`Memory`
`Lazy`	日志引擎，此类型数据库只能使用`Log`系列的表引擎	需要配置一个`expiration_time_in_seconds`时间值指定最后一次访问后表驻留于内存的过期时间
`MySQL`	`MySQL`引擎，使用此引擎的数据库需要指定一个`MySQL`实例的链接参数，自动同步`MySQL`的表和数据	格式`ENGINE = MySQL('HOST:PORT','DATABASE','USERNAME','PASSWORD')`
`Atomic`	不指定任何数据库引擎的时候自动选用的数据库引擎	`20.10.3.30`版本不指定数据库引擎创建的数据库就是此类型，猜测是`Ordinary`类型的别名

绝大多数情况下，选用Ordinary类型或者不需要指定数据库引擎即可。测试一下：

f5abc88ff7e4 :) CREATE DATABASE db_default;

CREATE DATABASE db_default

Ok.

0 rows in set. Elapsed: 0.027 sec.

f5abc88ff7e4 :) SHOW CREATE DATABASE db_default;

SHOW CREATE DATABASE db_default

┌─statement─────────────────────────────────┐
│ CREATE DATABASE db_default
ENGINE = Atomic │
└───────────────────────────────────────────┘

1 rows in set. Elapsed: 0.007 sec.

f5abc88ff7e4 :) CREATE DATABASE db_ordinary ENGINE = Ordinary;

CREATE DATABASE db_ordinary
ENGINE = Ordinary

Ok.

0 rows in set. Elapsed: 0.019 sec.

f5abc88ff7e4 :) CREATE DATABASE db_memory ENGINE = Memory;

CREATE DATABASE db_memory
ENGINE = Memory

Ok.

0 rows in set. Elapsed: 0.014 sec.

f5abc88ff7e4 :) CREATE DATABASE db_lazy ENGINE = Lazy(60);

CREATE DATABASE db_lazy
ENGINE = Lazy(60)

Ok.

0 rows in set. Elapsed: 0.017 sec.

数据表DDL

数据表DDL有很多用法类似于传统的DBMS例如MySQL的使用方式，但是也添加了一些新的特性。

建表DDL

就创建数据库表来说，一共有三种方式：

第一种：基于严格的Schema语法定义创建数据库表
第二种：拷贝其他表的Schema建立新的表，同时可以选择指定表引擎，有点像MySQL中的CREATE TABLE XX LIKE YY
第三种：拷贝其他表的Schema建立新的表并且导入SELECT查询的数据，同时必须指定表引擎

「严格的Schema语法定义」

# 语法定义
CREATE TABLE [IF NOT EXISTS] [$db_name.]$table_name [ON CLUSTER $cluster_name](
    name1 [type1] [DEFAULT|MATERIALIZED|ALIAS expr1] [compression_codec] [TTL expr1] [COMMENT comment1],
    name2 [type2] [DEFAULT|MATERIALIZED|ALIAS expr2] [compression_codec] [TTL expr2] [COMMENT comment1],
    ...
) ENGINE = $engine

举例：

f5abc88ff7e4 :) CREATE TABLE t_test(id UInt64 COMMENT 'ID',name String COMMENT '姓名') ENGINE = Memory;

CREATE TABLE t_test
(
    `id` UInt64 COMMENT 'ID',
    `name` String COMMENT '姓名'
)
ENGINE = Memory

Ok.

0 rows in set. Elapsed: 0.032 sec.

「拷贝表结构且可以修改表引擎」

# 语法定义
CREATE TABLE [IF NOT EXISTS] [$db_name.]$table_name AS [$other_db_name.]$other_table_name [ENGINE = engine]

# 例如
CREATE TABLE default.t_new_test AS default.t_test

举例：

f5abc88ff7e4 :) CREATE TABLE default.t_new_test AS default.t_test;

CREATE TABLE default.t_new_test AS default.t_test

Ok.

0 rows in set. Elapsed: 0.028 sec.

f5abc88ff7e4 :) DESC default.t_new_test;

DESCRIBE TABLE default.t_new_test

┌─name─┬─type───┬─default_type─┬─default_expression─┬─comment─┬─codec_expression─┬─ttl_expression─┐
│ id   │ UInt64 │              │                    │ ID      │                  │                │
│ name │ String │              │                    │ 姓名    │                  │                │
└──────┴────────┴──────────────┴────────────────────┴─────────┴──────────────────┴────────────────┘

2 rows in set. Elapsed: 0.004 sec.

「拷贝表结构导入数据并且指定表引擎」

# 语法定义
CREATE TABLE [IF NOT EXISTS] [$db_name.]$table_name AS table_function()

# 例如
CREATE TABLE [IF NOT EXISTS] [$db_name.]$table_name ENGINE = $engine AS SELECT ...

举例：

f5abc88ff7e4 :) CREATE TABLE default.t_test_func ENGINE = Memory AS SELECT * FROM t_test;

CREATE TABLE default.t_test_func
ENGINE = Memory AS
SELECT *
FROM t_test

Ok.

0 rows in set. Elapsed: 0.028 sec.

默认值表达式

ClickHouse推荐所有写入的数据列都包含值，「否则会填充对应类型的零值」，或者通过默认值表达式指定默认值。假如某个字段定义了默认值，那么该字段就不需要强制指定数据类型，ClickHouse会基于默认值表达式推断出它的（合理类型内的较窄范围的）数据类型，没错，定义了默认值甚至都不需要定义类型。此外，默认值表达式可以定义为「常量或者基于其他列的计算表达式」，ClickHouse会检查这些表达式是否出现循环依赖。默认值表达式包含三种关键字：

DEFAULT $expression：例如amount Decimal(10,2) DEFAULT 0、c2 UInt32 DEFAULT c1（c2 DEFAULT 1000）
MATERIALIZED $expression：例如a MATERIALIZED (b+1), b UInt16
ALIAS $expression：例如a ALIAS (b+1), b UInt16

三者的区别如下：

关键字	特点	列数据是否持久化
`DEFAULT`	对应的列可以出现在`INSERT`语句中，不出现则通过表达式计算和填充，`SELECT *`查询结果会包含对应的列	如果使用的表引擎支持物理持久化则可以持久化
`MATERIALIZED`	对应的列不可以出现在`INSERT`语句中，`SELECT `查询结果不会包含对应的列，但是`SELECT`指定列名则会返回，返回值依赖于动态计算，`dump`数据场景下通过`INSERT ... SELECT `可以导入对应列数据	如果使用的表引擎支持物理持久化则可以持久化
`ALIAS`	对应的列不可以出现在`INSERT`语句中，`SELECT *`查询结果不会包含对应的列，但是`SELECT`指定列名则会返回，返回值依赖于动态计算	不支持持久化，甚至列数据都不会存储在表中，取值总是动态计算

❝
如果使用习惯了MySQL中的DEFAULT关键字，那么可以认为ClickHouse的DEFAULT关键与之类似，只是更加先进可以基于表达式进行计算
❞

使用默认值表达式需要注意几点：

可以使用ALTER关键字修改某个列的默认值：ALTER TABLE [$db_name.]$table_name MODIFY COLUMN $column_name [DEFAULT|MATERIALIZED|ALIAS] exp，但是修改的动作不会影响数据表中之前已经存在的数据
默认值的修改有比较多的限制，MergeTree系列的表引擎中主键字段无法修改默认值，甚至有某些表引擎类型完全不允许修改任意列的默认值（如TinyLog）
无法为Nested类型数据结构中的元素设置默认值

DEFAULT关键字举例：

f5abc88ff7e4 :) CREATE TABLE t_d(a UInt16,b DEFAULT (a + 1)) ENGINE = Memory;

CREATE TABLE t_d
(
    `a` UInt16,
    `b` DEFAULT a + 1
)
ENGINE = Memory

Ok.

0 rows in set. Elapsed: 0.024 sec.

f5abc88ff7e4 :) INSERT INTO t_d(a,b) VALUES(1,11);

INSERT INTO t_d (a, b) VALUES

Ok.

1 rows in set. Elapsed: 0.007 sec.

f5abc88ff7e4 :) INSERT INTO t_d(a) VALUES(3);

INSERT INTO t_d (a) VALUES

Ok.

1 rows in set. Elapsed: 0.004 sec.

f5abc88ff7e4 :) select * from t_d;

SELECT *
FROM t_d

┌─a─┬──b─┐
│ 1 │ 11 │
└───┴────┘
┌─a─┬─b─┐
│ 3 │ 4 │
└───┴───┘

2 rows in set. Elapsed: 0.004 sec.

MATERIALIZED关键字举例：

f5abc88ff7e4 :) CREATE TABLE t_m(a UInt16,b MATERIALIZED (a + 1)) ENGINE = Memory;

CREATE TABLE t_m
(
    `a` UInt16,
    `b` MATERIALIZED a + 1
)
ENGINE = Memory

Ok.

0 rows in set. Elapsed: 0.019 sec.

f5abc88ff7e4 :) INSERT INTO t_m(a) VALUES (2);

INSERT INTO t_m (a) VALUES

Ok.

1 rows in set. Elapsed: 0.004 sec.

f5abc88ff7e4 :) SELECT * FROM t_m;

SELECT *
FROM t_m

┌─a─┐
│ 2 │
└───┘

1 rows in set. Elapsed: 0.005 sec.

f5abc88ff7e4 :) SELECT b FROM t_m;

SELECT b
FROM t_m

┌─b─┐
│ 3 │
└───┘

1 rows in set. Elapsed: 0.004 sec.

f5abc88ff7e4 :) INSERT INTO t_m(a,b) VALUES (2,3);

INSERT INTO t_m (a, b) VALUES


Received exception from server (version 20.10.3):
Code: 44. DB::Exception: Received from clickhouse-server:9000. DB::Exception: Cannot insert column b, because it is MATERIALIZED column..

0 rows in set. Elapsed: 0.004 sec.

ALIAS关键字举例：

f5abc88ff7e4 :) CREATE TABLE t_a(a UInt16,b ALIAS (a + 1)) ENGINE = Memory;

CREATE TABLE t_a
(
    `a` UInt16,
    `b` ALIAS a + 1
)
ENGINE = Memory

Ok.

0 rows in set. Elapsed: 0.021 sec.

f5abc88ff7e4 :) INSERT INTO TABLE t_a(a) VALUES (11);

INSERT INTO t_a (a) VALUES

Ok.

1 rows in set. Elapsed: 0.003 sec.

f5abc88ff7e4 :) SELECT *,b FROM t_a;

SELECT
    *,
    b
FROM t_a

┌──a─┬──b─┐
│ 11 │ 12 │
└────┴────┘

1 rows in set. Elapsed: 0.005 sec.

其他常用的表操作

命令	功能
`SHOW CREATE TABLE $table_name`	查看建表语句
`DESC TABLE $table_name \| DESCRIBE TABLE $table_name`	展示表的所有列定义
`DROP TABLE $table_name`	删除表，表数据会从文件系统中物理删除
`TRUNCATE TABLE $table_name`	清空表数据

例如：

f5abc88ff7e4 :) DESCRIBE TABLE p_v1

DESCRIBE TABLE p_v1

┌─name──────┬─type───┬─default_type─┬─default_expression─┬─comment─┬─codec_expression─┬─ttl_expression─┐
│ Id        │ UInt64 │              │                    │         │                  │                │
│ EventTime │ Date   │              │                    │         │                  │                │
│ name      │ String │ DEFAULT      │ 'dv'               │         │                  │                │
│ age       │ UInt16 │              │                    │         │                  │                │
└───────────┴────────┴──────────────┴────────────────────┴─────────┴──────────────────┴────────────────┘

4 rows in set. Elapsed: 0.004 sec.

f5abc88ff7e4 :) SHOW CREATE TABLE p_v1

SHOW CREATE TABLE p_v1

┌─statement─────────────────────────────────────────────────────────────────────────────────────┐
│ CREATE TABLE default.p_v1
(
    `Id` UInt64,
    `EventTime` Date,
    `name` String DEFAULT 'dv',
    `age` UInt16
)
ENGINE = MergeTree()
PARTITION BY toYYYYMM(EventTime)
ORDER BY Id
SETTINGS index_granularity = 8192 │
└───────────────────────────────────────────────────────────────────────────────────────────────┘

1 rows in set. Elapsed: 0.008 sec.

列压缩编码

ClickHouse服务为了节省磁盘空间，会使用高性能压缩算法对存储的数据进行压缩。默认启用的是lz4（lz4 fast compression）压缩算法，在MergeTree家族引擎下可以通过ClickHouse服务端配置中的compression节点选项配置来改变默认的压缩算法。基本语法：

## 建表
$column_name [type] COCEC($算法类型)

## 修改
ALTER TABLE $table_name MODIFY COLUMN $column_name CODEC($算法类型);

## 建表例子
CREATE TABLE codec_example
(
    ts DateTime CODEC(LZ4),
    dt Date CODEC(DEFAULT)
)

可以选用的算法：

None：无压缩
Default：默认的压缩算法，缺省值也是使用默认的压缩算法
LZ4：lz4压缩算法中的快速压缩算法版本
LZ4HC[(level)]：lz4高压缩率压缩算法版本，level默认值为9，支持[1,12]，推荐选用[4,9]
ZSTD[(level)]：zstd压缩算法，level默认值为1，支持[1,22]

采用不同的表引擎，会支持不同的压缩算法，目前的支持列表如下：

MergeTree系列引擎：支持所有可选的压缩算法，并且支持在服务端配置默认压缩算法
Log系列引擎：默认使用lz4压缩算法，支持所有可选的压缩算法
Set系列引擎：只支持默认的压缩算法
Join系列引擎：只支持默认的压缩算法

还有几个特殊的编码解码方法如Delta(delta_bytes)、DoubleDelta、Gorilla和T64，这里不做展开。

临时表

ClickHouse也支持临时表，不过有比较多的限制：

生命周期绑定在会话的生命周期，会话结束（例如连接断开），临时表会消失
临时表无法指定表引擎，创建时候隐式使用Memory引擎
创建临时表的时候无法指定数据库，临时表总是在数据库"外部"创建（换言之，临时表不属于任何数据库）
如果一个临时表与另一个非临时表的名称相同，并且查询的时候不指定数据库，那么将使用临时表查询（换言之，不指定数据库进行查询前提下，临时表优先级比普通表要高）

创建临时表的语法如下：

CREATE TEMPORARY TABLE [IF NOT EXISTS] $table_name
(
    $column_name1 [type1] [DEFAULT|MATERIALIZED|ALIAS expr1],
    $column_name2 [type2] [DEFAULT|MATERIALIZED|ALIAS expr2],
    ...
)

❝
注意：官方文档提醒，绝大多数情况下，临时表都不是手动创建的而是内部创建，一般用于分布式全局的外部数据查询，例如用于集群间数据的查询传递，因此官方应该是不建议使用临时表
❞

视图

ClickHouse支持视图功能，目前一共支持两种视图：普通（Normal）视图和物化（Materialized）视图。通过DROP TABLE [$db_name.]$view_table_name语句可以直接删除视图，而通过SHOW TABLES可以展示所有的表，视图也会被认为是一种特殊的表一并进行展示。

普通视图

普通视图的创建语法如下：

CREATE [OR REPLACE] VIEW [IF NOT EXISTS] [$db_name.]$view_table_name [ON CLUSTER] AS SELECT ...

普通视图不会存储任何数据，它只是一个查询映射，起到了简化查询语义的作用，对查询的性能也不会有任何正负作用。假设有一个表叫t_test，创建一个普通视图view_test：

CREATE VIEW view_test AS SELECT * FROM t_test

如果直接从视图view_test做查询SELECT * FROM view_test，语义完全等价于SELECT * FROM (SELECT * FROM t_test)。

物化视图

物化视图支持定义表引擎，因为其数据保存的形式由表引擎决定。创建物化视图的语法如下：

CREATE MATERIALIZED VIEW [IF NOT EXISTS] [$db_name.]$view_table_name [ON CLUSTER] [TO[$db_name.]$table_name] [ENGINE = $engine] [POPULATE] AS SELECT ...

物化视图的特点如下：

需要定义表引擎，决定数据存储的形式
物化视图创建后会生成内部表，表名以.inner.开头，可以通过SHOW TABLES验证
[TO[$db_name.]$table_name]子句和[POPULATE]子句互斥，二者只能选其中一者或者都不选
在使用[TO[$db_name.]$table_name]子句的时候，必须显式指定表引擎
POPULATE关键字决定了物化视图的更新策略，如果使用了POPULATE则在创建视图的过程会将源表已经存在的数据一并导入，类似于CREATE TABLE ... AS，如果不指定POPULATE关键字，创建的物化视图是全新没有数据的，创建完成之后才会开始同步源表写入的数据（官方不推荐使用POPULATE关键字，因为启用会有可能导致创建物化视图过程中新写入源表的数据无法同步到视图中）
物化视图中的数据不支持同步删除，如果源表的数据不存在或者源表被删除了，物化视图的数据依然存在

ClickHouse中的物化视图的实现更像是数据插入触发器。如果视图查询中存在某些聚合，则这些聚合操作仅仅会作用于这些新写入的数据。对源表的现有数据进行的任何更改（例如更新、删除、删除分区等）都不会更改物化视图中的数据。

❝
笔者注：物化视图是一把双刃剑，用的合理会简化大量同步和聚合的工作，滥用则会导致维护十分困难还会影响性能
❞

基本的列操作

基本的列操作都是围绕ALTER关键字执行。通用的基本语法是：

ALTER TABLE [$db_name.]$table_name [ON CLUSTER cluster] ADD|DROP|CLEAR|COMMENT|MODIFY COLUMN ...

下面为了简化语法，暂时省略[$db_name.]和[ON CLUSTER cluster]等子句。

追加新的列 - ADD COLUMN

ADD COLUMN语句用于在指定的表添加一个新的列。基本语法：

ALTER TABLE $table_name ADD COLUMN [IF EXISTS] $column_name [type] [default_expr] [codec] [AFTER $pre_column_name]

type：可选，用于指定列类型
default_expr：可选，用于设置默认值表达式
codec：可选，见前面一节的「列压缩编码」
AFTER子句：可选，用于指定在哪个已经存在的列后面添加新的列

举例：

ALTER TABLE default.p_v1 ADD COLUMN age UInt16 AFTER name

修改列 - MODIFY COLUMN

MODIFY COLUMN语句可以用于修改已经存在的列的类型、默认值表达式或者TTL表达式。基本语法：

ALTER TABLE $table_name MODIFY COLUMN [IF EXISTS] $column_name [type] [default_expr] [TTL]

举例：

ALTER TABLE default.p_v1 MODIFY COLUMN age UInt32

类型修改的时候，本质上会使用内置函数toType()进行转换，如果当前类型与期望类型不能兼容无法转换，则列修改操作会失败，抛出异常。

添加或者修改列备注 - COMMENT COLUMN

ClickHouse中添加或者修改列注释使用特殊的COMMENT COLUMN子句。基本语法：

ALTER TABLE $table_name COMMENT COLUMN [IF EXISTS] $column_name '备注内容'

举例：

ALTER TABLE default.p_v1 COMMENT COLUMN age '年龄'

删除列 - DROP COLUMN

DROP COLUMN语句用于删除列，对应的列数据会从文件系统中「物理删除」。基本语法：

ALTER TABLE $table_name DROP COLUMN [IF EXISTS] $column_name

举例：

ALTER TABLE default.p_v1 DROP COLUMN age

重置对应列和分区的所有值 - CLEAR COLUMN

CLEAR COLUMN语句用于重置对应的列和指定分区的所有值为默认值，如果没有设置默认值表达式，则对应列的所有值重置为其类型的零值。基本语法：

ALTER TABLE $table_name CLEAR COLUMN [IF EXISTS] $column_name IN PARTITION $partition_name

举例：

f5abc88ff7e4 :) CREATE TABLE p_v1(Id UInt64,EventTime Date,name String DEFAULT 'dv')ENGINE = MergeTree() PARTITION BY toYYYYMM(EventTime) ORDER BY Id

CREATE TABLE p_v1
(
    `Id` UInt64,
    `EventTime` Date,
    `name` String DEFAULT 'dv'
)
ENGINE = MergeTree()
PARTITION BY toYYYYMM(EventTime)
ORDER BY Id

Ok.

0 rows in set. Elapsed: 0.047 sec.

f5abc88ff7e4 :) INSERT INTO p_v1 VALUES(1,'2020-11-28','doge1'),(2,'2020-10-29','doge2');

INSERT INTO p_v1 VALUES

Ok.

2 rows in set. Elapsed: 0.074 sec.

f5abc88ff7e4 :) ALTER TABLE p_v1 clear column name IN partition 202011;

ALTER TABLE p_v1
    CLEAR COLUMN name     IN PARTITION 202011


Ok.

0 rows in set. Elapsed: 0.163 sec.

f5abc88ff7e4 :) SELECT * FROM  p_v1;

SELECT *
FROM p_v1

┌─Id─┬──EventTime─┬─name──┐
│  2 │ 2020-10-29 │ doge2 │
└────┴────────────┴───────┘
┌─Id─┬──EventTime─┬─name─┐
│  1 │ 2020-11-28 │ dv   │
└────┴────────────┴──────┘

数据分区

数据分区在ClickHouse中就是分区表，本质是数据表DDL，但是考虑到数据分区的重要性，把这个特性单独拉出来一个h2章节。ClickHouse中的数据分区是指同一个本地实例中的数据的纵向切分，跟横向切分中的数据分片概念完全不同。ClickHouse目前只有使用了MergeTree系列表引擎的表（包括REPLICATED*系列和使用了MergeTree系列表引擎的物化视图）才支持数据分区。这里仅仅简单介绍一下PARTITION关键字的使用和常用的分区相关操作。

分区是数据表中记录按指定条件的逻辑组合，可以通过任意条件（例如按月、按日或者按事件类型）设置分区，每个分区的数据分别储存，以简化数据操作和提高性能，因此在访问数据的时候尽可能使用最小的分区子集。ClickHouse在创建表的时候通过PARTITION BY expr子句指定分区定义，分区键可以是基于表中数据列组成的任意表达式。例如有个字段是Date类型，如果按月分区可以使用表达式toYYYYMM(date_column)，例如：

CREATE TABLE pv (
    visitDate Date,
    hour UInt8,
    clientID String
)
ENGINE = MergeTree()
PARTITION BY toYYYYMM(visitDate)
ORDER BY hour;

创建完此表，使用INSERT INTO pv VALUES('2020-11-01',1,'11'),('2020-10-01',2,'22');写入两条数据后，通过下面的语句查询分区信息：

f5abc88ff7e4 :) SELECT partition,name,path,active FROM system.parts WHERE table = 'pv'

SELECT
    partition,
    name,
    path,
    active
FROM system.parts
WHERE table = 'pv'

┌─partition─┬─name─────────┬─path─────────────────────────────────────────────────────────────────────────────┬─active─┐
│ 202010    │ 202010_5_5_0 │ /var/lib/clickhouse/store/f17/f1729bf7-7baf-40d0-bd4f-6ee13877d0db/202010_5_5_0/ │      1 │
│ 202010    │ 202010_7_7_0 │ /var/lib/clickhouse/store/f17/f1729bf7-7baf-40d0-bd4f-6ee13877d0db/202010_7_7_0/ │      1 │
│ 202011    │ 202011_2_2_0 │ /var/lib/clickhouse/store/f17/f1729bf7-7baf-40d0-bd4f-6ee13877d0db/202011_2_2_0/ │      1 │
│ 202011    │ 202011_4_4_0 │ /var/lib/clickhouse/store/f17/f1729bf7-7baf-40d0-bd4f-6ee13877d0db/202011_4_4_0/ │      1 │
│ 202011    │ 202011_6_6_0 │ /var/lib/clickhouse/store/f17/f1729bf7-7baf-40d0-bd4f-6ee13877d0db/202011_6_6_0/ │      1 │
└───────────┴──────────────┴──────────────────────────────────────────────────────────────────────────────────┴────────┘

5 rows in set. Elapsed: 0.005 sec.

可见分区一共有202010和202011两个，而name属性是分区数据部分（parts）的名称，例如202010_5_5_0：

第一部分202010是分区名称
第一个5是数据块最小编号（MinBlockNum）
第二个5是数据块最大编号（MaxBlockNum）
最后的0表示分区的层级，指某个分区合并过的次数

这个name属性是合并树家族表引擎特有的，后面如果有机会分析合并树的基本原理的时候会更加深入分析其具体含义。分区完毕之后，通过分区键进行查询就能采用分区最小数据集：

f5abc88ff7e4 :) SELECT * FROM pv WHERE visitDate = '2020-11-01'

SELECT *
FROM pv
WHERE visitDate = '2020-11-01'

┌──visitDate─┬─hour─┬─clientID─┐
│ 2020-11-01 │    1 │ 11       │
└────────────┴──────┴──────────┘

3 rows in set. Elapsed: 0.020 sec.

❝
如果一个分区有多部分没合并，一般在写入数据的15分钟之后会对新写入的分区部分数据进行合并，然后对应的部分就会变成非活跃状态，可以通过OPTIMIZE TABLE table_name PARTITION partition进行执行计划触发合并，不过这是一个相当耗时的操作，一般不建议主动使用。
❞

数据分区的其他操作主要是围绕ALTER关键字，语法是：

ALTER TABLE $table_name $OP PARTITION|PART $partition(_part)_expr

查询分区信息

查询分区信息主要依赖到系统表system.parts，可以通过DESC system.parts查看列元数据定义（一共有44个列），这里一般选用下面几个常用的属性：

partition：分区名称
name：分区部分名称（这个应该是目标表对于某个表分区的最小单元）
active：分区部分是否活跃
path：分区部分的存储磁盘路径
database：分区所在数据库
table：分区所在的表
engine：分区所在的表引擎

例如：

f5abc88ff7e4 :) SELECT database,table,engine,partition,name,path,active FROM system.parts WHERE table = 'pv';

SELECT
    database,
    table,
    engine,
    partition,
    name,
    path,
    active
FROM system.parts
WHERE table = 'pv'

┌─database─┬─table─┬─engine────┬─partition─┬─name─────────┬─path─────────────────────────────────────────────────────────────────────────────┬─active─┐
│ default  │ pv    │ MergeTree │ 202010    │ 202010_5_5_0 │ /var/lib/clickhouse/store/f17/f1729bf7-7baf-40d0-bd4f-6ee13877d0db/202010_5_5_0/ │      1 │
│ default  │ pv    │ MergeTree │ 202010    │ 202010_7_7_0 │ /var/lib/clickhouse/store/f17/f1729bf7-7baf-40d0-bd4f-6ee13877d0db/202010_7_7_0/ │      1 │
│ default  │ pv    │ MergeTree │ 202011    │ 202011_2_2_0 │ /var/lib/clickhouse/store/f17/f1729bf7-7baf-40d0-bd4f-6ee13877d0db/202011_2_2_0/ │      1 │
│ default  │ pv    │ MergeTree │ 202011    │ 202011_4_4_0 │ /var/lib/clickhouse/store/f17/f1729bf7-7baf-40d0-bd4f-6ee13877d0db/202011_4_4_0/ │      1 │
│ default  │ pv    │ MergeTree │ 202011    │ 202011_6_6_0 │ /var/lib/clickhouse/store/f17/f1729bf7-7baf-40d0-bd4f-6ee13877d0db/202011_6_6_0/ │      1 │
└──────────┴───────┴───────────┴───────────┴──────────────┴──────────────────────────────────────────────────────────────────────────────────┴────────┘

5 rows in set. Elapsed: 0.005 sec.

删除分区

物理删除分区或者分区部分通过DROP PARTITION|PART子句完成，基本语法如下：

ALTER TABLE $table_name DROP PARTITION|PART partition(_part)_expr

此删除操作是异步的，执行语句完毕后对应的分区或者分区部分会先设置为非活跃（也就是设置active = 0），然后在10分钟后进行物理删除。

例如：

ALTER TABLE pv DROP PARTITION 202010;

ALTER TABLE pv DROP PART 202010_5_5_0;

ALTER TABLE pv DROP PART all_5_5_0;

分区的卸载与装载

ClickHouse的分区支持热卸载和热装载（仔细阅读文档发现应该是相对耗时的异步操作，操作时候需要谨慎），主要通过关键字DETACH PARTITION|PART和ATTACH PARTITION|PART完成，两者刚好也是互逆操作。

「卸载分区 - DETACH PARTITION|PART」

基本语法如下：

ALTER TABLE $table_name DETACH PARTITION|PART $partition_expr

分区卸载并不会对该分区数据进行物理删除，而是把整个分区数据转移到对应数据表目录的detached子目录下，此时直接通过SELECT查询对应分区的数据集不会返回任何数据（这个是当然的，数据目录都被移动了......）。分区一旦被移动到了detached子目录下就会一直存在，除非主动删除或者使用ATTACH | DROP DETACHED命令去重新装载或者删除对应的数据目录。

「装载分区 - ATTACH PARTITION|PART」

基本语法如下：

ALTER TABLE $table_name ATTACH PARTITION|PART $partition_expr

分区装载是分区卸载的逆操作，其实就是把detached子目录下的分区数据重新转移到数据表的分区目录中。

「移除分区卸载备份 - DROP DETACHED PARTITION|PART」

基本语法如下：

ALTER TABLE $table_name DROP DETACHED PARTITION|PART $partition_expr

移除detached子目录下对应的分区数据，物理删除，移除完成之后无法通过ATTACH关键字重新装载。

分区数据的拷贝覆盖

基本语法如下：

ALTER TABLE $table_y_name REPLACE PARTITION $partition_expr FROM $table_x_name

直接拷贝数据表table_x_name的分区到数据表table_y_name的已经存在的分区，覆盖整个分区的数据，并且table_x_name原有的分区数据不会被删除。前提条件如下：

两个表的表结构完全一样（列定义）
两个表的分区键完全一样

分区数据的移动

基本语法如下：

ALTER TABLE $table_source MOVE PARTITION $partition_expr TO TABLE $table_dest

移动数据表table_source指定分区到数据表table_dest中，类似于剪切操作，数据表table_source原有的分区数据会被删除。前提条件如下：

两个表的表结构完全一样（列定义）
两个表的分区键完全一样
两个表的表引擎完全一样
两个表的存储策略（storage policy）完全一样

重置分区列数据

基本语法如下：

ALTER TABLE $table_name CLEAR COLUMN $column_name IN PARTITION $partition_expr

重置分区的列数据为默认值，如果没有定义默认值表达式，则重置为对应类型的零值。

重置分区索引

基本语法如下：

ALTER TABLE $table_name CLEAR INDEX $index_name IN PARTITION $partition_expr

文档中提到：有点像重置分区列数据的操作，但是只重置分区的对应的索引，不会重置数据（具体功能未知，因为尚未深入了解索引的原理）。

其他分区操作

分区备份：ALTER TABLE table_name FREEZE [PARTITION partition_expr]
分区还原：ALTER TABLE table_name FETCH PARTITION partition_expr FROM 'path-in-zookeeper'
移动分区到磁盘：ALTER TABLE table_name MOVE PARTITION|PART partition_expr TO DISK|VOLUME 'disk_name'

涉及到配置、磁盘路径甚至是Zookeeper中的路径，比较复杂，暂时不做展开。

TTL表达式

TTL（Time To Live）表达式是ClickHouse一项比较创新的高级功能，用于指定数据的存活时间。TTL表达式有列字段级别（到期会重置对应列的过期数据），也有表级别（到期会删除整张表）。如果同时指定了列TTL和表TTL，则按照先到期先执行的原则处理。TTL表达式用于确定目标的生命周期，表达式计算的结果必须是Date或者DateTime数据类型，时间间隔使用关键字INTERVAL定义，而且还可以在表达式中定义数据在磁盘和数据卷之间移动的逻辑（限于表TTL）。基本的语法如下：

TTL time_column
TTL time_column + interval

## 需要使用INTERVAL关键字定义时间间隔
TTL date_time + INTERVAL 1 MONTH
TTL date_time + INTERVAL 15 HOUR

❝
到目前为止，ClickHouse只提供了TTL定义和更新的语法，没有提供指定某个TTL表达式进行停止的语法，只有一个全局停止所有TTL合并的命令：SYSTEM STOP/START TTL MERGES
❞

表TTL表达式

表TTL通过某个Date或者DateTime数据类型进行表级别设定过期时间（从目前来看，应该只有MergeTree表引擎家族的表支持表级别TTL），当触发TTL清理时，那些满足过期时间的数据列将会被删除（或者被移动）。基本表达式如下：

TTL $expr [DELETE|TO DISK 'aaa'|TO VOLUME 'bbb'], ...

举个例子：

CREATE TABLE test_ttl
(
    d DateTime,
    a Int
)
ENGINE = MergeTree
PARTITION BY toYYYYMM(d)
ORDER BY d
TTL d + INTERVAL 1 MONTH [DELETE],   # <--- 这里DELETE可以不填，因为默认策略就是DELETE
    d + INTERVAL 1 WEEK TO VOLUME '数据卷',
    d + INTERVAL 2 WEEK TO DISK '磁盘目录';

上面的例子说明：

基于d过期1个星期的数据会被移动到其他数据卷
基于d过期2个星期的数据会被移动到其他磁盘目录
基于d过期1个月的数据会被物理删除

可以通过ALTER关键字修改表级别的TTL，如：

ALTER TABLE $table_name MODIFY TTL $data(_time)_column + INTERVAL 1 DAY

列TTL表达式

列级别的TTL通过表达式定义列数据过期时候，过期的列数据会被ClickHouse重置为默认值或者对应类型的零值。KEY（主键）列不能定义TTL表达式，如果某个列的所有数据都已经过期了，那么ClickHouse会把该列直接从文件系统中移除。基本语法如下：

$column_name type $Date(_Time)_column + INTERVAL_EXP

# 例如
CREATE TABLE example_table
(
    d DateTime,
    a Int TTL d + INTERVAL 1 MONTH,
    b Int TTL d + INTERVAL 1 MONTH,
    c String
)
ENGINE = MergeTree
PARTITION BY toYYYYMM(d)
ORDER BY d;

DML

DML对应于日常开发理解中的CURD，主要关键字包括INSERT、SELECT、UPDATE和DELETE。

SELECT

ClickHouse中的SELECT基本用法和主流的关系型DBMS相似，支持指定列、*、内置函数和大量的聚合相关的关键，这里不做深入展开，后面分析关键和函数的时候应该会大量用到SELECT操作。

INSERT

INSERT关键字的主要功能就是写入数据，此操作在ClickHouse中会比主流的关系型DBMS更加多样灵活。基本语法如下：

INSERT INTO [$db_name.]$table_name [(c1, c2, c3) | (*)] VALUES (v11, v12, v13), (v21, v22, v23), ...

指定列写入：INSERT INTO table (x_col,y_col,z_col) VALUES (x1,y1,z1),(x2,y2,z2)或者INSERT INTO table COLUMNS(x_col,y_col,z_col) VALUES (x1,y1,z1),(x2,y2,z2)
不指定列（按照列定义顺序一一对应写入）写入：INSERT INTO table VALUES (x1,y1,z1),(x2,y2,z2)或者INSERT INTO table (*) VALUES (x1,y1,z1),(x2,y2,z2)
排除指定的列写入（剩余的列）：INSERT INTO table (* EXCEPT(x_col,y_col)) VALUES (z1),(z2)

❝
写入的时候如果有的列没有被填充数据，会使用默认值或者对应类型的零值填充。
❞

还可以指定数据格式进行数据写入，基本语法是：

INSERT INTO [$db_name.]$table_name [(c1, c2, c3)] FORMAT $format_name $data_set

例如：

写入基于Tab分隔的数据：

INSERT INTO test_tab FORMAT TabSeparated
1 foo
2 bar

写入csv格式的数据：

INSERT INTO test_csv FORMAT CSV
1,'foo'
2,'bar'

最后一种是通过SELECT子句写入数据，此过程支持表达式或者函数，基本语法如下：

INSERT INTO [$db_name.]$table_name [(c1, c2, c3)] SELECT ...

## 例如
INSERT INTO test_insert SELECT 1,'doge',now()

追求性能的前提下，尽可能不要在后面的SELECT子句中附带函数，因为函数最终也是需要ClickHouse服务端进行解析和调用，大量使用会导致写入性能下降。

出于写入性能的考量，官方建议：

批量写入数据
写入数据之前通过分区键对数据进行预分组

ClickHouse对于数据写入都是面向Block数据结构，单个Block数据块写入是原子性的，而单个Block数据块允许写入的行数由配置项max_insert_block_size控制，默认值是1048576，注意此原子性基于CLI命令写入数据是不生效的，只有使用JDBC或者HTTP协议的时候才生效。

UPDATE和DELETE

ClickHouse虽然提供UPDATE和DELETE关键字，但是这两种操作是重量级操作，被称为Mutation查询，通过ALTER执行。Mutation查询有几个特点：

不支持事务
重量级操作，消耗严重，必须尽可能批量操作
异步执行，提交后立即返回，但是结果需要从系统表system.mutations中查询

基本语法如下：

# DELETE
ALTER $table_name DELETE WHERE $filter_exp

## DELETE例子
ALTER test_delete DELETE WHERE id = 1;

# UPDATE
ALTER $table_name UPDATE columnx = exp_x,... WHERE $filter_exp

## UPDATE例子
ALTER test_update UPDATE name = 'throwable' WHERE id = 1;

查询system.mutations的执行结果：

SELECT database,table,mutation_id,blick_numbers.number,is_done FROM system.mutations

❝
ClickHouse对写入和查询性能的倾斜，导致他会放弃一些特性，例如事务和高效的精确更新或删除功能，这些是利弊权衡，没有所谓正确与否。
❞

小结

这篇文章比较详细地介绍了ClickHouse中常用的DDL和DML，部分高级特性如分布式DDL会在后面分析ClickHouse集群搭建的时候再介绍。接下来会详细学习一下ClickHouse目前支持的主流的表引擎和对应的使用场景。

参考资料

https://clickhouse.tech
《ClickHouse原理解析与应用实践》

（c-10-d e-a-20201208 封面自《斗罗大陆》小舞）

你可能感兴趣的:(大数据,ClickHouse,数据库,大数据)

Google earth studio 简介陟彼高冈yu 旅游
GoogleEarthStudio是一个基于Web的动画工具，专为创作使用GoogleEarth数据的动画和视频而设计。它利用了GoogleEarth强大的三维地图和卫星影像数据库，使用户能够轻松地创建逼真的地球动画、航拍视频和动态地图可视化。网址为https://www.google.com/earth/studio/。GoogleEarthStudio是一个基于Web的动画工具，专为创作使用G
关于提高复杂业务逻辑代码可读性的思考编程经验分享开发经验 java 数据库开发语言
目录前言需求场景常规写法拆分方法领域对象总结前言实际工作中大部分时间都是在写业务逻辑，一般都是三层架构，表示层（Controller）接收客户端请求，并对入参做检验，业务逻辑层（Service）负责处理业务逻辑，一般开发都是在这一层中写具体的业务逻辑。数据访问层（Dao）是直接和数据库交互的，用于查数据给业务逻辑层，或者是将业务逻辑层处理后的数据写入数据库。简单的增删改查接口不用多说，基本上写好一
SQL Server_查询某一数据库中的所有表的内容 qq_42772833 SQL Server 数据库 sqlserver
1.查看所有表的表名要列出CrabFarmDB数据库中的所有表（名），可以使用以下SQL语句：USECrabFarmDB;--切换到目标数据库GOSELECTTABLE_NAMEFROMINFORMATION_SCHEMA.TABLESWHERETABLE_TYPE='BASETABLE';对这段SQL脚本的解释：SELECTTABLE_NAME：这个语句的作用是从查询结果中选择TABLE_NAM
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
MongoDB Oplog 窗口喝醉酒的小白 MongoDB 运维
在MongoDB中，oplog（操作日志）是一个特殊的日志系统，用于记录对数据库的所有写操作。oplog允许副本集成员（通常是从节点）应用主节点上已经执行的操作，从而保持数据的一致性。它是MongoDB副本集实现数据复制的基础。MongoDBOplog窗口oplog窗口是指在MongoDB副本集中，从节点可以用来同步数据的时间范围。这个窗口通常由以下因素决定：Oplog大小：oplog的大小是有限
python os 环境变量 CV矿工 python 开发语言 numpy
环境变量：环境变量是程序和操作系统之间的通信方式。有些字符不宜明文写进代码里，比如数据库密码，个人账户密码，如果写进自己本机的环境变量里，程序用的时候通过os.environ.get（）取出来就行了。os.environ是一个环境变量的字典。环境变量的相关操作importos"""设置/修改环境变量：os.environ[‘环境变量名称’]=‘环境变量值’#其中key和value均为string类
【PG】常见数据库、表属性设置江无羡数据库
PG的常见属性配置方法数据库复制、备份相关表的复制标识单表操作批量表操作链接数据库复制、备份相关表的复制标识单表操作通过ALTER语句单独更改一张表的复制标识。ALTERTABLE[tablename]REPLICAIDENTITYFULL;批量表操作通过代码块的方式，对某个schema中的所有表一起更新其复制标识。SELECTtablename,CASErelreplidentWHEN'd'TH
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
insert into select 主键自增_mybatis拦截器实现主键自动生成 weixin_39521651 insert into select 主键自增 mybatis delete返回值 mybatis insert返回主键 mybatis insert返回对象 mybatis plus insert返回主键 mybatis plus 插入生成id
前言前阵子和朋友聊天，他说他们项目有个需求，要实现主键自动生成，不想每次新增的时候，都手动设置主键。于是我就问他，那你们数据库表设置主键自动递增不就得了。他的回答是他们项目目前的id都是采用雪花算法来生成，因此为了项目稳定性，不会切换id的生成方式。朋友问我有没有什么实现思路，他们公司的orm框架是mybatis，我就建议他说，不然让你老大把mybatis切换成mybatis-plus。mybat
ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
关于Mysql 中 Row size too large (＞ 8126) 错误的解决和理解秋刀prince mysql mysql 数据库
提示：啰嗦一嘴，数据库的任何操作和验证前，一定要记得先备份！！！不会有错；文章目录问题发现一、问题导致的可能原因1、页大小2、行格式2.1compact格式2.2Redundant格式2.3Dynamic格式2.4Compressed格式3、BLOB和TEXT列二、解决办法1、修改页大小（不推荐）2、修改行格式3、修改数据类型为BLOB和TEXT列4、其他优化方式（可以参考使用）4.1合理设置数据
Java爬虫框架（一）--架构设计狼图腾-狼之传说 java 框架 java 任务 html解析器存储电子商务
一、架构图那里搜网络爬虫框架主要针对电子商务网站进行数据爬取，分析，存储，索引。爬虫：爬虫负责爬取，解析，处理电子商务网站的网页的内容数据库：存储商品信息索引：商品的全文搜索索引Task队列：需要爬取的网页列表Visited表：已经爬取过的网页列表爬虫监控平台：web平台可以启动，停止爬虫，管理爬虫，task队列，visited表。二、爬虫1.流程1)Scheduler启动爬虫器，TaskMast
MongoDB知识概括 GeorgeLin98 持久层 mongodb
MongoDB知识概括MongoDB相关概念单机部署基本常用命令索引-IndexSpirngDataMongoDB集成副本集分片集群安全认证MongoDB相关概念业务应用场景：传统的关系型数据库（如MySQL），在数据操作的“三高”需求以及应对Web2.0的网站需求面前，显得力不从心。解释：“三高”需求：①Highperformance-对数据库高并发读写的需求。②HugeStorage-对海量数
Mongodb Error: queryTxt ETIMEOUT xxxx.wwwdz.mongodb.net 佛一脚 error react mongodb 数据库
背景每天都能遇到奇怪的问题，做个记录，以便有缘人能得到帮助！换了一台电脑开发nextjs程序。需要连接mongodb数据，对数据进行增删改查。上一台电脑好好的程序，新电脑死活连不上mongodb数据库。同一套代码，没任何修改，搞得我怀疑人生了，打开浏览器进入mongodb官网毫无问题，也能进入线上系统查看数据，网络应该是没问题。于是我尝试了一下手机热点，这次代码能正常跑起来，连接数据库了！！！是不
入门MySQL——查询语法练习 K_un
前言：前面几篇文章为大家介绍了DML以及DDL语句的使用方法，本篇文章将主要讲述常用的查询语法。其实MySQL官网给出了多个示例数据库供大家实用查询，下面我们以最常用的员工示例数据库为准，详细介绍各自常用的查询语法。1.员工示例数据库导入官方文档员工示例数据库介绍及下载链接：https://dev.mysql.com/doc/employee/en/employees-installation.h
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
博客网站制作教程 2401_85194651 java maven
首先就是技术框架：后端：Java+SpringBoot数据库：MySQL前端：Vue.js数据库连接：JPA(JavaPersistenceAPI)1.项目结构blog-app/├──backend/│├──src/main/java/com/example/blogapp/││├──BlogApplication.java││├──config/│││└──DatabaseConfig.java
ubuntu安装wordpress lissettecarlr
1安装nginx网上安装方式很多，这就就直接用apt-get了apt-getinstallnginx不用启动啥，然后直接在浏览器里面输入IP:80就能看到nginx的主页了。如果修改了一些配置可以使用下列命令重启一下systemctlrestartnginx.service2安装mysql输入安装前也可以更新一下软件源，在安装过程中将会让你输入数据库的密码。sudoapt-getinstallmy
深入浅出 -- 系统架构之负载均衡Nginx的性能优化 xiaoli8748_软件开发系统架构系统架构负载均衡 nginx
一、Nginx性能优化到这里文章的篇幅较长了，最后再来聊一下关于Nginx的性能优化，主要就简单说说收益最高的几个优化项，在这块就不再展开叙述了，毕竟影响性能都有多方面原因导致的，比如网络、服务器硬件、操作系统、后端服务、程序自身、数据库服务等，对于性能调优比较感兴趣的可以参考之前《JVM性能调优》中的调优思想。优化一：打开长连接配置通常Nginx作为代理服务，负责分发客户端的请求，那么建议开启H
【RabbitMQ 项目】服务端：数据管理模块之绑定管理月夜星辉雪 rabbitmq 分布式
文章目录一.编写思路二.代码实践一.编写思路定义绑定信息类交换机名称队列名称绑定关键字：交换机的路由交换算法中会用到没有是否持久化的标志，因为绑定是否持久化取决于交换机和队列是否持久化，只有它们都持久化时绑定才需要持久化。绑定就好像一根绳子，两端连接着交换机和队列，当一方不存在，它就没有存在的必要了定义绑定持久化类构造函数：如果数据库文件不存在则创建，打开数据库，创建binding_table插入
计算机毕业设计PHP仓储综合管理系统（源码+程序+VUE+lw+部署） java毕设程序源码王哥 php 课程设计 vue.js
该项目含有源码、文档、程序、数据库、配套开发软件、软件安装教程。欢迎交流项目运行环境配置：phpStudy+Vscode+Mysql5.7+HBuilderX+Navicat11+Vue+Express。项目技术：原生PHP++Vue等等组成，B/S模式+Vscode管理+前后端分离等等。环境需要1.运行环境：最好是小皮phpstudy最新版，我们在这个版本上开发的。其他版本理论上也可以。2.开发
免费的GPT可在线直接使用（一键收藏） kkai人工智能 gpt
1、LuminAI（https://kk.zlrxjh.top）LuminAI标志着一款融合了星辰大数据模型与文脉深度模型的先进知识增强型语言处理系统，旨在自然语言处理（NLP）的技术开发领域发光发热。此系统展现了卓越的语义把握与内容生成能力，轻松驾驭多样化的自然语言处理任务。VisionAI在NLP界的应用领域广泛，能够胜任从机器翻译、文本概要撰写、情绪分析到问答等众多任务。通过对大量文本数据的
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
3.增删改查--连接查询问女何所忆
关系型数据库的一个特点就是，多张表之间存在关系，以致于我们可以连接多张表进行查询操作，所以连接查询会是关系型数据库中最常见的操作。连接查询主要分为三种，交叉连接、内连接和外连接，我们一个个说。1、交叉连接交叉连接其实连接查询的第一个阶段，它简单表现为两张表的笛卡尔积形式，具体例子：如果你没学过数学中的笛卡尔积概念，你可以这样简单的理解这里的交叉连接：两张表的交叉连接就是一个连接合并的过程，T1表中
docker from指令的含义_多个FROM-含义 weixin_39722188 docker from指令的含义
小编典典什么是基本图片？一组文件，加上EXPOSE端口ENTRYPOINT和CMD。您可以添加文件并基于该基础图像构建新图像，Dockerfile并以FROM指令开头：后面提到的图像FROM是新图像的“基础图像”。这是否意味着如果我neo4j/neo4j在FROM指令中声明，则在运行映像时，neo数据库将自动运行并且可在端口7474的容器中使用？仅当您不覆盖CMD和时ENTRYPOINT。但是图像
Redis:缓存击穿我的程序快快跑啊缓存 redis java
缓存击穿(热点key)：部分key(被高并发访问且缓存重建业务复杂的)失效,无数请求会直接到数据库，造成巨大压力1.互斥锁：可以保证强一致性线程一：未命中之后，获取互斥锁，再查询数据库重建缓存，写入缓存，释放锁线程二：查询未命中，未获得锁(已由线程一获得)，等待一会，缓存命中互斥锁实现方式：redis中setnxkeyvalue:改变对应key的value,仅当value不存在时执行，以此来实现互
mysql学习教程，从入门到精通，TOP 和MySQL LIMIT 子句（15）知识分享小能手大数据数据库 MySQL mysql 学习 oracle 数据库开发语言 adb 大数据
1、TOP和MySQLLIMIT子句内容在SQL中，不同的数据库系统对于限制查询结果的数量有不同的实现方式。TOP关键字主要用于SQLServer和Access数据库中，而LIMIT子句则主要用于MySQL、PostgreSQL（通过LIMIT/OFFSET语法）、SQLite等数据库中。下面将分别详细介绍这两个功能的语法、语句以及案例。1.1、TOP子句（SQLServer和Access）1.1
ERROR 1064 (42000): You have an error in your SQL syntax; check the manual that corresponds to your †徐先森® Oracle数据库 Web相关错误集
createtablestudents(idintunsignedprimarykeyauto_increment,namevarchar(50)notnull,ageintunsigned,highdecimal(3,2),genderenum('男','女','中性','保密','妖')default'保密',cls_idintunsigned);在对数据库插入如上带有中文带有默认值的字段的时
Redis 有哪些危险命令？如何防范？花小疯 redis 缓存数据库危险命令大数据
Redis有哪些危险命令？Redis的危险命令主要有以下几个：1.keys客户端可查询出所有存在的键。2.flushdb删除Redis中当前所在数据库中的所有记录，并且此命令从不会执行失败。3.flushall删除Redis中所有数据库中的所有记录，不止是当前所在数据库，并且此命令从不会执行失败。4.config客户端可修改Redis配置。怎么禁用和重命名危险命令？看下redis.conf默认配置
【Golang】 Golang 的 GORM 库中的 Rows 函数不爱洗脚的小滕 golang 开发语言后端
文章目录前言一、Rows函数解释二、代码实现三、总结前言在使用Go语言进行数据库操作时，GORM（GoObject-RelationalMapping）库是一个常用的工具。它提供了一种简洁和强大的方式来处理数据库操作。本文将介绍GORM库中的Rows函数，这是一个用于执行原生SQL查询并返回结果的函数。一、Rows函数解释在GORM库中，Rows函数用于执行原生SQL查询并返回*sql.Rows结
书其实只有三类西蜀石兰类
一个人一辈子其实只读三种书，知识类、技能类、修心类。知识类的书可以让我们活得更明白。类似十万个为什么这种书籍，我一直不太乐意去读，因为单纯的知识是没法做事的，就像知道地球转速是多少一样（我肯定不知道），这种所谓的知识，除非用到，普通人掌握了完全是一种负担，维基百科能找到的东西，为什么去记忆？知识类的书，每个方面都涉及些，让自己显得不那么没文化，仅此而已。社会认为的学识渊博，肯定不是站在
《TCP/IP 详解，卷1：协议》学习笔记、吐槽及其他 bylijinnan tcp
《TCP/IP 详解，卷1：协议》是经典，但不适合初学者。它更像是一本字典，适合学过网络的人温习和查阅一些记不清的概念。这本书，我看的版本是机械工业出版社、范建华等译的。这本书在我看来，翻译得一般，甚至有明显的错误。如果英文熟练，看原版更好： http://pcvr.nl/tcpip/ 下面是我的一些笔记，包括我看书时有疑问的地方，也有对该书的吐槽，有不对的地方请指正： 1.
Linux—— 静态IP跟动态IP设置 eksliang linux IP
一.在终端输入 vi /etc/sysconfig/network-scripts/ifcfg-eth0 静态ip模板如下： DEVICE="eth0" #网卡名称 BOOTPROTO="static" #静态IP（必须） HWADDR="00:0C:29:B5:65:CA" #网卡mac地址 IPV6INIT=&q
Informatica update strategy transformation 18289753290
更新策略组件：标记你的数据进入target里面做什么操作，一般会和lookup配合使用，有时候用0,1,1代表 forward rejected rows被选中，rejected row是输出在错误文件里，不想看到reject输出，将错误输出到文件，因为有时候数据库原因导致某些column不能update，reject就会output到错误文件里面供查看，在workflow的
使用Scrapy时出现虽然队列里有很多Request但是却不下载，造成假死状态酷的飞上天空 request
现象就是：程序运行一段时间，可能是几十分钟或者几个小时，然后后台日志里面就不出现下载页面的信息，一直显示上一分钟抓取了0个网页的信息。刚开始已经猜到是某些下载线程没有正常执行回调方法引起程序一直以为线程还未下载完成，但是水平有限研究源码未果。经过不停的google终于发现一个有价值的信息，是给twisted提出的一个bugfix 连接地址如下http://twistedmatrix.
利用预测分析技术来进行辅助医疗蓝儿唯美医疗
2014年，克利夫兰诊所（Cleveland Clinic）想要更有效地控制其手术中心做膝关节置换手术的费用。整个系统每年大约进行2600例此类手术，所以，即使降低很少一部分成本，都可以为诊所和病人节约大量的资金。为了找到适合的解决方案，供应商将视野投向了预测分析技术和工具，但其分析团队还必须花时间向医生解释基于数据的治疗方案意味着什么。克利夫兰诊所负责企业信息管理和分析的医疗
java 线程(一)：基础篇 DavidIsOK java 多线程线程
&nbs
Tomcat服务器框架之Servlet开发分析 aijuans servlet
最近使用Tomcat做web服务器，使用Servlet技术做开发时，对Tomcat的框架的简易分析：疑问：为什么我们在继承HttpServlet类之后，覆盖doGet(HttpServletRequest req, HttpServetResponse rep)方法后，该方法会自动被Tomcat服务器调用，doGet方法的参数有谁传递过来？怎样传递？分析之我见： doGet方法的
揭秘玖富的粉丝营销之谜与小米粉丝社区类似 aoyouzi 揭秘玖富的粉丝营销之谜
玖富旗下悟空理财凭借着一个微信公众号上线当天成交量即破百万，第七天成交量单日破了1000万;第23天时，累计成交量超1个亿……至今成立不到10个月，粉丝已经超过500万，月交易额突破10亿，而玖富平台目前的总用户数也已经超过了1800万，位居P2P平台第一位。很多互联网金融创业者慕名前来学习效仿，但是却鲜有成功者，玖富的粉丝营销对外至今仍然是个谜。　　近日，一直坚持微信粉丝营销
Java web的会话跟踪技术百合不是茶 url会话 Cookie会话 Seession会话 Java Web 隐藏域会话
会话跟踪主要是用在用户页面点击不同的页面时,需要用到的技术点会话:多次请求与响应的过程 1,url地址传递参数,实现页面跟踪技术格式:传一个参数的 url?名=值传两个参数的 url?名=值 &名=值关键代码
web.xml之Servlet配置 bijian1013 java web.xml Servlet配置
定义： <servlet> <servlet-name>myservlet</servlet-name> <servlet-class>com.myapp.controller.MyFirstServlet</servlet-class> <init-param> <param-name>
利用svnsync实现SVN同步备份 sunjing SVN 同步 E000022 svnsync 镜像
1. 在备份SVN服务器上建立版本库 svnadmin create test 2. 创建pre-revprop-change文件 cd test/hooks/ cp pre-revprop-change.tmpl pre-revprop-change 3. 修改pre-revprop-
【分布式数据一致性三】MongoDB读写一致性 bit1129 mongodb
本系列文章结合MongoDB，探讨分布式数据库的数据一致性，这个系列文章包括：数据一致性概述与CAP 最终一致性(Eventually Consistency) 网络分裂(Network Partition)问题多数据中心(Multi Data Center) 多个写者(Multi Writer)最终一致性一致性图表(Consistency Chart) 数据
Anychart图表组件-Flash图转IMG普通图的方法白糖_ Flash
问题背景：项目使用的是Anychart图表组件，渲染出来的图是Flash的，往往一个页面有时候会有多个flash图，而需求是让我们做一个打印预览和打印功能，让多个Flash图在一个页面上打印出来。那么我们打印预览的思路是获取页面的body元素，然后在打印预览界面通过$("body").append(html)的形式显示预览效果，结果让人大跌眼镜：Flash是
Window 80端口被占用 WHY? bozch 端口占用 window
平时在启动一些可能使用80端口软件的时候，会提示80端口已经被其他软件占用，那一般又会有那些软件占用这些端口呢？下面坐下总结： 1、web服务器是最经常见的占用80端口的，例如：tomcat , apache , IIS , Php等等； 2
编程之美-数组的最大值和最小值-分治法（两种形式） bylijinnan 编程之美
import java.util.Arrays; public class MinMaxInArray { /** * 编程之美数组的最大值和最小值分治法 * 两种形式 */ public static void main(String[] args) { int[] t={11,23,34,4,6,7,8,1,2,23}; int[]
Perl正则表达式 chenbowen00 正则表达式 perl
首先我们应该知道 Perl 程序中，正则表达式有三种存在形式，他们分别是：匹配：m/<regexp>;/ （还可以简写为 /<regexp>;/ ，略去 m）替换：s/<pattern>;/<replacement>;/ 转化：tr/<pattern>;/<replacemnt>;
[宇宙与天文]行星议会是否具有本行星大气层以外的权力呢? comsci
举个例子: 地球,地球上由200多个国家选举出一个代表地球联合体的议会,那么现在地球联合体遇到一个问题,地球这颗星球上面的矿产资源快要采掘完了....那么地球议会全体投票,一致通过一项带有法律性质的议案,既批准地球上的国家用各种技术手段在地球以外开采矿产资源和其它资源........ &
Oracle Profile 使用详解 daizj oracle profile 资源限制
Oracle Profile 使用详解转一、目的： Oracle系统中的profile可以用来对用户所能使用的数据库资源进行限制，使用Create Profile命令创建一个Profile，用它来实现对数据库资源的限制使用，如果把该profile分配给用户，则该用户所能使用的数据库资源都在该profile的限制之内。二、条件：创建profile必须要有CREATE PROFIL
How HipChat Stores And Indexes Billions Of Messages Using ElasticSearch & Redis dengkane elasticsearch Lucene
This article is from an interview with Zuhaib Siddique, a production engineer at HipChat, makers of group chat and IM for teams. HipChat started in an unusual space, one you might not
循环小示例，菲波拉契序列，循环解一元二次方程以及switch示例程序 dcj3sjt126com c 算法
# include <stdio.h> int main(void) { int n; int i; int f1, f2, f3; f1 = 1; f2 = 1; printf("请输入您需要求的想的序列："); scanf("%d", &n); for (i=3; i<n; i
macbook的lamp环境 dcj3sjt126com lamp
sudo vim /etc/apache2/httpd.conf /Library/WebServer/Documents 是默认的网站根目录重启Mac上的Apache服务这个命令很早以前就查过了，但是每次使用的时候还是要在网上查：停止服务：sudo /usr/sbin/apachectl stop 开启服务：s
java ArrayList源码下 shuizhaosi888 ArrayList源码
版本 jdk-7u71-windows-x64 JavaSE7 ArrayList源码上：http://flyouwith.iteye.com/blog/2166890 /** * 从这个列表中移除所有c中包含元素 */ public boolean removeAll(Collection<?> c) {
Spring Security（08）——intercept-url配置 234390216 Spring Security intercept-url 访问权限访问协议请求方法
intercept-url配置目录 1.1 指定拦截的url 1.2 指定访问权限 1.3 指定访问协议 1.4 指定请求方法 1.1 &n
Linux环境下的oracle安装 jayung oracle
linux系统下的oracle安装本文档是Linux(redhat6.x、centos6.x、redhat7.x) 64位操作系统安装Oracle 11g(Oracle Database 11g Enterprise Edition Release 11.2.0.4.0 - 64bit Production)，本文基于各种网络资料精心整理而成，共享给有需要的朋友。如有问题可联系：QQ：52-7
hotspot虚拟机 leichenlei java HotSpot jvm 虚拟机文档
JVM参数 http://docs.oracle.com/javase/6/docs/technotes/guides/vm/index.html JVM工具 http://docs.oracle.com/javase/6/docs/technotes/tools/index.html JVM垃圾回收 http://www.oracle.com
读《Node.js项目实践：构建可扩展的Web应用》 ——引编程慢慢变成系统化的“砌砖活” noaighost Web node.js
读《Node.js项目实践：构建可扩展的Web应用》 ——引编程慢慢变成系统化的“砌砖活” 眼里的Node.JS 初初接触node是一年前的事，那时候年少不更事。还在纠结什么语言可以编写出牛逼的程序，想必每个码农都会经历这个月经性的问题：微信用什么语言写的？facebook为什么推荐系统这么智能，用什么语言写的？dota2的外挂这么牛逼，用什么语言写的？……用什么语言写这句话，困扰人也是阻碍
快速开发Android应用 rensanning android
Android应用开发过程中，经常会遇到很多常见的类似问题，解决这些问题需要花时间，其实很多问题已经有了成熟的解决方案，比如很多第三方的开源lib，参考 Android Libraries 和 Android UI/UX Libraries。编码越少，Bug越少，效率自然会高。但可能由于根本没听说过、听说过但没用过、特殊原因不能用、自己已经有了解决方案等等原因，这些成熟的解决
理解Java中的弱引用 tomcat_oracle java 工作面试
　不久之前，我面试了一些求职Java高级开发工程师的应聘者。我常常会面试他们说，“你能给我介绍一些Java中得弱引用吗？”，如果面试者这样说，“嗯，是不是垃圾回收有关的？”，我就会基本满意了，我并不期待回答是一篇诘究本末的论文描述。　　然而事与愿违，我很吃惊的发现，在将近20多个有着平均5年开发经验和高学历背景的应聘者中，居然只有两个人知道弱引用的存在，但是在这两个人之中只有一个人真正了
标签输出html标签" target="_blank">关于标签输出html标签 xshdch jsp
http://back-888888.iteye.com/blog/1181202 关于<c:out value=""/>标签的使用，其中有一个属性是escapeXml默认是true(将html标签当做转移字符，直接显示不在浏览器上面进行解析)，当设置escapeXml属性值为false的时候就是不过滤xml，这样就能在浏览器上解析html标签， &nb