斗志昂-杨

ClickHouse从入门到精通（一）

文章目录

ClickHouse从入门到精通
- ClickHouse 入门篇
- - ClickHouse入门
  - - 1. ClickHouse 的特点
    - - 列式存储
      - DBMS的功能
      - 多样化引擎
      - 高吞吐写入能力
      - 数据分区与线程级并行
    - 2. 性能对比
  - ClickHouse安装
  - - 1. 准备工作
    - 2. 单机安装
    - 3. 使用 tgz 安装
    - 4. docker 安装
  - 数据类型
  - - 1. 整型
    - 2. 浮点型
    - 3. 布尔型
    - 4. Decimal型
    - 5. 字符型
    - 6. 枚举类型
    - 7. 时间类型
    - 8. 数组
    - 9. 可为空
    - 10. 其它类型
  - 库引擎
  - - 1. Atomic 库引擎
    - 2. MySQL 库引擎
  - 表引擎
  - - 1. TinyLog
    - 2. Memory
    - 3. MergeTree
    - - partition by 分区(可选)
      - primary key(可选)
      - order by(必选)
      - 二级索引
      - 数据TTL
    - 4. ReplacingMergeTree
    - - 去重机制
      - 去重范围
      - 案例演示
      - 结论
    - 5. SummingMergeTree
    - - 案例演示
      - 结论
      - 开发建议和问题

ClickHouse从入门到精通

ClickHouse 入门篇

ClickHouse入门

ClickHouse 是由俄罗斯的 Yandex 开源的一个用于联机分析 OLAP 的列式存储数据库管理系统，使用 C++ 语言编写，支持 SQL 实时查询的大型数据管理系统。由于 ClickHouse 在大型数据集查询处理的高效表现，从 2016 年开源以来，就吸引了全球的目光，甚至一度登上 github 的关注度头把交椅。
OLAP：ClickHouse 的设计定位就是用于 OLAP 离线数据处理，相比于 OLTP 在线事务处理，ClickHouse 更关注对海量数据的计算分析，关注的是数据吞吐、查询速度、计算性能能指标。而对于数据频繁的修改变更，则不太擅长。所以 ClickHouse 通常用来构建后端的实时数仓或者离线数仓。

1. ClickHouse 的特点

列式存储

ClickHouse 是一个真正意义上的列式存储数据库，传统数据库存储数据都是按照数据行进行存储。比如，常用的 MySQL，使用 B+ 树的叶子节点完整保留一行数据。

行式存储好处是，当想要查询一条数据时，可以通过一次磁盘查找+顺序读获取得到一条完整的数据。
而 ClickHouse 存储数据的方式是按列来存储，将来自不同的数据进行单独存储，每一列为一个文件进行存储。

列式存储的好处：
- 对于列的聚合、计数、求和等统计操作远优于行式存储；
- 由于每一列的数据类型都是相同的，针对于数据存储更容易进行数据压缩，每一列选择更优的数据压缩算法，大大提高了数据的压缩比；
由于数据压缩比更好，一方面节省了磁盘空间，另一方面对于 cache 也有了更大的发挥空间。

DBMS的功能

几乎覆盖了标准 SQL 的大部分语法，包括 DDL 和 DML，以及配套的各种函数，用户管理、权限管理，数据的备份与恢复。

多样化引擎

ClickHouse 和 MySQL 类似，把表级的存储引擎插件化，根据表的不同需求可以设定不同的存储引擎，包括合并树、日志、接口和其它四大类 20 多种引擎。

高吞吐写入能力

ClickHouse 采用类 LSM Tree 的结构，数据写入后定期在后台 Compation。通过类 LSM Tree 的结构，ClickHouse 在数据导入时全部都是顺序 append 写，写入后数据段不可更改，在后台 compation 时也是多个段 merge sort 后顺序协会磁盘。顺序写的特性，充分利用了磁盘的吞吐能力，即便在 HDD 上也有着优异的写入性能。
官方公开 benchmark 测试显示能够达到 50MB-200MB/s 的写入吞吐能力，按照每行 100Byte 估算，大约相当于 50W-200W 条/s 的写入速度。

数据分区与线程级并行

ClickHouse 将数据划分为多个 partition，每个 partition 再进一步划分为多个 index granularity(索引粒度)，然后通过多个 CPU 核心分别处理其中的一部分来实现并行数据处理。在这种设计下，单条Query就能利用整机所有 CPU。极致的并行处理能力，极大的降低了查询延迟。
所以，ClickHouse 即使对于大量数据的查询也能够化整为零并行处理。但是有一个弊端就是对于单条查询使用多 CPU，就不利于同时并发多条查询。所以对于高 QPS 的查询业务，ClickHouse 并不是强项。

2. 性能对比

单表查询

关联查询

ClickHouse 像很多 OLAP 数据库一样，单表查询速度优于关联查询，而且 ClickHouse 的两种差距更为明显。

ClickHouse安装

ClickHouse 提供了多种安装方式，安装部署教程：https://clickhouse.com/docs/zh/getting-started/install/

1. 准备工作

确认关闭防火墙

systemctl status firewalld.service

CentOS 取消打开文件数限制

# vim /etc/security/limits.conf
* soft nofile 65536
* hard nofile 65536
* soft nproc 131072
* hard nproc 131072

# vim /etc/security/limits.d/20-nproc.conf
* soft nofile 65536
* hard nofile 65536
* soft nproc 131072
* hard nproc 131072

2. 单机安装

下载安装包：https://packages.clickhouse.com/rpm/stable/，这里选择目前最新版本 22.3.3.44

安装：

sudo rpm -ivh *.rpm

# 查看安装情况
sudo rpm -qa|grep clickhouse

修改配置文件：把 :: 的注释打开，这样的话才能让 ClickHouse 被除本机以外的服务器访问

vim /etc/clickhouse-server/config.xml

启动 Server：

systemctl start clickhouse-server
# 关闭开机自启动
systemctl disable clickhouse-server

使用 client 连接 server：

3. 使用 tgz 安装

下载最新版本安装包：https://packages.clickhouse.com/tgz/lts/

解压缩安装

export LATEST_VERSION=22.3.3.44
# 1.
tar -zxvf clickhouse-common-static-$LATEST_VERSION-amd64.tgz
sudo clickhouse-common-static-$LATEST_VERSION/install/doinst.sh
# 2.
tar -zxvf clickhouse-common-static-dbg-$LATEST_VERSION-amd64.tgz
sudo clickhouse-common-static-dbg-$LATEST_VERSION/install/doinst.sh
# 3. 
tar -zxvf clickhouse-client-$LATEST_VERSION-amd64.tgz
sudo clickhouse-client-$LATEST_VERSION/install/doinst.sh
# 4. 需要设置密码
tar -zxvf clickhouse-server-$LATEST_VERSION-amd64.tgz
sudo clickhouse-server-$LATEST_VERSION/install/doinst.sh

启动

sudo clickhouse start

执行脚本：/usr/bin 里面有 clickhouse、clickhouse-client 等指令脚本
配置文件：/etc/clickhouse-server/ 这个目录下的 config.xml 和 users.xml 是最为重要的两个配置文件。
运行日志：/var/log/clickhouse-server/ 服务运行的详细日志。
数据目录：/var/lib/clickhouse/ 这个目录包含了clickhouse运行时的所有数据文件。例如metadata目录下存放了所有表的元数据，可以看到，clickhouse就是以sql文件的方式保存表结构，启动时加载这些sql文件就完成了数据加载。而data目录下存放了所有的表数据。像之前看到的default和system两个默认的数据库就对应data目录下的两个文件夹。

另外，clickhouse在安装时，会默认创建一个clickhouse用户来部署这些文件。所以，如果不是使用root用户进行操作的话，需要注意下用户权限的问题。

4. docker 安装

docker run -di --name docker_ch -p 8123:8123 -p 9000:9000 --ulimit nofile=262144:262144 --volume=/Volumes/D/dokcer_data/clickhouse:/var/lib/clickhouse clickhouse/clickhouse-server

数据类型

官方参考文档：https://clickhouse.com/docs/zh/sql-reference/data-types/

1. 整型

固定长度的整型，包括有符号整型或无符号整型，数值范围： $2^{n-1},\ 2^{n-1}-1]$ 。

	类型	数值范围	Java类型
有符号整型	Int8	$[-128,\ 127]$	byte
	Int16	$[-32768,\ 32767]$	short
	Int32	$[-2147483648,\ 2147483647]$	int
	Int64	$[-9223372036854775808,\ 9223372036854775807]$	long
无符号整型	UInt8	$[0,\ 255]$
	UInt16	$[0,\ 65535]$
	UInt32	$[0,\ 4294967295]$
	UInt64	$[0,\ 18446744073709551615]$

适用场景：个数、数量、存储型 id。

2. 浮点型

Float32 —— float、Float64 —— double
建议尽可能以整型形式存储数据。例如：将固定精度的数字转化为整数值，时间用毫秒为单位表示，因为浮点型进行计算时可能引起四舍五入的误差。

适用场景：一般数据值比较小，不涉及大量的统计计算，精度要求不高的时候。 比如：保存商品的重量。

3. 布尔型

没有单独的类型来存储布尔值。可以使用 UInt8 类型，取值限制为 0 或 1。

4. Decimal型

有符号的浮点数，可在加、减和乘法运算过程中保持精度。对于除法，最低有效数字会被丢弃（不舍入）。
有三种声明：s 标识小数位
- Decimal32(s)：相当于 Decimal(9-s,s)，有效位数为 1~9
- Decimal64(s)：相当于 Decimal(18-s,s)，有效位数为 1~18
- Decimal128(s)：相当于 Decimal(38-s,s)，有效位数为 1~38
适用场景：金额、汇率、利率等字段为了保证小数点精度，都使用 Decimal 进行存储。

5. 字符型

String：字符串可以任意长度的。它可以包含任意的字节集，包含空字节。
FixedString(N)：固定长度 N 的字符串，N 必须是严格的正自然数。当服务端读取长度小于 N 的字符串时候，通过在字符串末尾添加空字节来达到 N 字节长度。当服务端读取长度大于 N 的字符串时候，将返回错误消息。
- 与 String 相比，极少会使用 FixedString，因为使用起来不是很方便。
适用场景：名称、文字描述、字符型编码。固定长度的可以保存一些定长的内容，比如一些编码、性别等，但是考虑到一定的变化风险，带来收益不够明显，所以定长字符串使用意义有限。

6. 枚举类型

有 Enum8 和 Enum16 两种，保存 ‘string’ = integer 的对应关系。
用法演示：

-- 创建表
create table t_enum (
    x Enum8('hello' = 1, 'world' = 2)
) ENGINE = TinyLog;

-- 插入数据
insert into t_enum values('hello'), ('world'), ('hello');

-- 查询
select * from t_enum;

-- 尝试插入任何其它值，会报错
insert into t_enum values('hehe');

-- 查看对应行的数值
select cast(x, 'Int8') from t_enum;

适用场景：对一些状态、类型的字段算是一种空间优化，也算是一种数据约束。但是实际使用中往往因为一些数据内容的变化增加了一定的维护成本，甚至是数据丢失问题，所以谨慎使用。

7. 时间类型

类型	说明
Date	‘年-月-日’ 字符串	2022-04-12
Datetime	‘年-月-日时:分:秒’ 字符串	2022-04-12 12:12:12
Datetime64	‘年-月-日时:分:秒.毫秒’ 字符串	2022-04-12 12:12:12:123

日期类型，用两个字节存储，表示从 1970-01-01 (无符号) 到当前的日期值。

8. 数组

Array(T)：由 T 类型元素组成的数组。
- T 可以是任意类型，包含数组类型。但不推荐使用多维数组，ClickHouse 对多维数组的支持有限。例如，不能在 MergeTree 表中存储多维数组。
用法演示：

-- 创建数组方式一：使用 array 函数
select array(1, 2) as x, toTypeName(x);

-- 创建数组方式二：使用方括号
select [1, 2] as x, toTypeName(x);

9. 可为空

绝大部分的基础类型都可以通过在前面添加一个Nullable()声明来允许接受Null空值。例如Nullable(Int8)类型的列可以存储Int8类型的值，没有值的行将存储NULL。
Nullable类型字段不能包含在表索引中。并且使用Nullable几乎总是对性能产生负面影响，在设计数据库时要尽量避免使用Nullable。例如对于字符串，可以用空字符代替Null。而对于整型数据，可以用无业务意义的数字例如-1来表示Null。

10. 其它类型

clickhouse中还设计了很多非常有特色的数据类型，例如 Geo、Map、Tuple、UUID 等类型。

库引擎

使用数据库首先要建库，clickhouse提供了多种库引擎实现不同场景下的库声明。

1. Atomic 库引擎

是 ClickHouse 默认的库引擎，默认创建的 default 库就是这种引擎。可以在建库时进行声明：

CREATE DATABASE test [ENGINE = Atomic]

Atomic类型的数据库完全由clickhouse自己管理数据。每个数据库对应 /var/lib/clickhouse/data/ 目录下的一个子目录。数据库中的每个表会分配一个唯一的 UUID，数据存储在目录 /var/lib/clickhouse/store/。

2. MySQL 库引擎

ClickHouse 作为一个数据仓库，还提供了非常多与其它数据库整合的库引擎，最为常见的就是 MySQL。
MySQL引擎用于将远程的MySQL服务器中的表映射到ClickHouse中，并允许您对表进行INSERT和SELECT查询，以方便您在ClickHouse与MySQL之间进行数据交换。MySQL数据库引擎会将对其的查询转换为MySQL语法并发送到MySQL服务器中，因此您可以执行诸如SHOW TABLES或SHOW CREATE TABLE之类的操作。
通过MySQL引擎可以省掉很多 ETL 的过程。例如下面的语句就可以在 clickhouse 中创建一个mysqldb。

CREATE DATABASE IF NOT EXISTS mysqldb ENGINE = MySQL('node01:3306', 'test', 'root', '123456');

对于 mysqldb 库的操作，会转义成 mysql 语法，发送到相对于的 MySQL 中执行。接下来就可以像操作 clickhouse 自己的表一样进行 insert、delete 等操作，但是不能进行 RENAME、CREATE TABLE、ALTER 操作。
这种库引擎，clickhouse本身并不存储数据，只是将请求转发到mysql。同样，clickhouse还提供了针对PostgreSQL、SQLLite的库引擎。
是不是觉得只是请求转发还不够爽？性能不够高？clickhouse还提供了自己存储数据的物化引擎，针对 MySQL 的 MaterializedMySQL 引擎和针对 PostgreSQL 的MaterializedPostgreSQL 引擎。这两个引擎都会将 clickhouse 服务器作为对应数据库的从库工作。通过执行日志实时将主库中的数据同步到 clickhouse中。但是目前这两个引擎还在实验阶段。可以尝试，但不建议在生产上使用。
- 具体使用方法详见官方文档：https://clickhouse.com/docs/zh/engines/database-engines/materialized-mysql/
实际上，大部分场景下，我们就使用clickhouse自己的默认引擎就够了。而其他的引擎会通过定制的 ETL 过程来实现。但是 clickhouse 功能的朴实无华已经尽显无疑。

表引擎

官方文档：https://clickhouse.com/docs/zh/engines/table-engines/
表引擎是 ClickHouse 的一大特色，可以说表引擎决定了如何存储表中的数据。包括：
- 数据的存储方式和位置，写到哪里以及从哪里读取数据；
- 支持哪些查询以及如何支持；
- 并发数据访问；
- 索引的使用（如果存在）；
- 是否可以执行多线程请求；
- 数据复制参数
表引擎的使用方式就是必须显式在创建表时定义该表使用的引擎，以及引擎使用的相关参数。
- 注意：引擎的名称大小写敏感

1. TinyLog

以列文件的形式保存在磁盘上，不支持索引，没有并发控制。一般保存少量数据的小表，生产环境上作用有限，可以用作平时练习测试。

CREATE TABLE t_tinylog (id Int32, name String) ENGINE = TinyLog;

2. Memory

内存引擎，数据以未压缩的原始形式直接保存在内存当中，服务器重启数据就会消失。读写操作不会相互阻塞，不支持索引。简单查询下有非常非常高的性能表现（超过 10G/s）。
一般用到它的地方不多，除了用来测试，就是在需要非常高的性能，同时数据量又不太大（上限大概 1 亿行）的场景。

3. MergeTree

ClickHouse 中最强大的表引擎当属 MergeTree（合并树）引擎及该系列（*MergeTree）中的其它引擎，支持索引和分区，地位可以相当于 InnoDB 之于 MySQL。
建表语句：

CREATE TABLE [IF NOT EXISTS] [db.]table_name [ON CLUSTER cluster]
(
    name1 [type1] [DEFAULT|MATERIALIZED|ALIAS expr1] [TTL expr1],
    name2 [type2] [DEFAULT|MATERIALIZED|ALIAS expr2] [TTL expr2],
    ...
    INDEX index_name1 expr1 TYPE type1(...) GRANULARITY value1,
    INDEX index_name2 expr2 TYPE type2(...) GRANULARITY value2
) ENGINE = MergeTree()
ORDER BY expr
[PARTITION BY expr]
[PRIMARY KEY expr]
[SAMPLE BY expr]
[TTL expr [DELETE|TO DISK 'xxx'|TO VOLUME 'xxx'], ...]
[SETTINGS name=value, ...]

MergeTree 有很多参数，但比较重要的有三个：partition by、primary key、order by

-- 创建订单表
create table t_order (
    id UInt32,
    sku_id String,
    total_amount Decimal(16, 2),
    create_time Datetime
) engine = MergeTree
partition by toYYYYMMDD(create_time)
primary key (id)
order by (id, sku_id);

-- 插入数据
insert into t_order values (101, 'sku_001', 1000.00, '2022-04-12 11:00:00'), (102, 'sku_002', 1500.00, '2022-04-12 10:30:00'), (102, 'sku_003', 2500.00, '2022-04-12 12:30:00'), (102, 'sku_002', 1500.00, '2022-04-12 13:00:00'), (102, 'sku_002', 10000.00, '2022-04-12 13:00:00'), (102, 'sku_002', 800.00, '2022-04-13 12:00:00');

partition by 分区(可选)

作用：降低数据扫描范围，优化查询速度。例如示例中，按创建时间 create_time 进行了分区，当查询条件 where 中指定了日期，就只需要去扫描对应日期的数据，而不用进行全表扫描了。
使用分区后，涉及到跨分区的查询操作，clickhouse 将会以分区为单位进行并行处理。在clickhouse中这是一个可选项，如果不填，相当于只用一个分区。
分区目录：MergeTree 是以列文件+索引文件+表定义文件组成的，但是如果设定了分区那么这些文件就会保存到不同的分区目录中。

[root@centos128 t_order]# cd /var/lib/clickhouse/data/test/t_order/
[root@centos128 t_order]# tree .
.
├── 20220412_1_1_0
│   ├── checksums.txt	# 校验文件，用于校验各个文件的正确性，存放各个文件的 size 以及 hash 值
│   ├── columns.txt # 表的结构信息
│   ├── count.txt	# 当前分区的数据条数，所以对于clickhouse来说，查表的行数非常非常快
│   ├── data.bin	# 数据文件
│   ├── data.mrk3	# 标记文件，在 idx 索引文件和 bin 数据文件之间起到桥梁作用
│   ├── default_compression_codec.txt
│   ├── minmax_create_time.idx	# 分区键的最大最小值
│   ├── partition.dat	
│   └── primary.idx	# 主键索引文件，用于加快查询效率
├── 20220413_2_2_0
│   ├── checksums.txt
│   ├── columns.txt
│   ├── count.txt
│   ├── data.bin
│   ├── data.mrk3
│   ├── default_compression_codec.txt
│   ├── minmax_create_time.idx
│   ├── partition.dat
│   └── primary.idx
├── detached
└── format_version.txt

PartitionId_MinBlockNum_MaxBlockNum_Level：分区_最小分区块编号_最大分区块编号_合并层级
- PartitionId：数据分区ID，生成规则由PARTITION BY分区键决定。
  - 未定义分区键：默认生成一个目录名为 all 的数据分区，所有数据均存放在 all 目录下；
  - 整型分区键：直接用该整型值的字符串形式作为分区ID；
  - 日期类型分区键，或者可以转化为日志类型的字符串；
  - 其它类型分区键：String、Float 通过 128 位 Hash 算法取其 Hash 值作为分区 ID。
- MinBlockNum：最小分区块编号，自增类型，从 1 开始向上递增。每产生一个新的目录，分区就向上递增一个数字。
- MaxBlockNum：最大分区块编号，新创建的分区 MinBlockNum 等于 MaxBlockNum。
- Level：合并的层级，被合并的次数。合并次数越多，层级值越大。
并行：分区后，面对涉及跨分区的查询统计，ClickHouse 会以分区为单位进行处理。
数据写入和分区合并：任何一个批次的数据写入都会产生一个临时分区，不会纳入任何一个已有的分区。写入后的某个时刻（大概 10-15 分钟后），ClickHouse 会自动执行合并操作（等不及也可以手动通过 optimize 执行），把临时分区的数据，合并到已有分区中。

OPTIMIZE TABLE ${table_name} FINAL;

日志查看分区合并：

# pwd
/var/log/clickhouse-server

less clickhouse-server.log | grep 'c145f3c8-0833-4fa3-9dc1-17adf3ba65b7' -C 10

primary key(可选)

ClickHouse 中的主键和其它数据库不太一样，它只提供了数据的一级索引，但是却不是唯一约束。这就意味着是可以存在相同 primary key 的数据的。
主键的设定主要依据是查询语句中的 where 条件，根据条件通过对主键进行某种形式的二分查找，能够定位到对应的 index granularity，避免了全表扫描。
- index granularity：索引粒度，指在稀疏索引中两个相邻索引对应数据的间隔。ClickHouse 中的 MergeTree 默认是 8192。官方不建议修改这个值，除非该列存在大量重复值，比如在一个分区中几万行才有一个不同数据。
- 稀疏索引：可以用很少的索引数据，定位更多的数据，代价就是只能定位到索引粒度的第一行，然后再进行进行一点扫描。

order by(必选)

指定了分区内的数据按照哪些字段顺序进行有序保存。
order by 是 MergeTree 中唯一一个必填项，甚至比 primary key 还重要，因为当用户不设置主键的情况，很多处理会依照 order by 的字段进行处理（比如后面会讲的去重和汇总）。
注意：主键必须是 order by 字段的前缀字段。
- 比如 order by (id, sku_id)，那么主键必须是 id 或者 (id, sku_id)

二级索引

目前在 ClickHouse 的官网上二级索引的功能在 v20.1.2.4 之前是被标注为实验性的，在这个版本之后默认是开启的。
老版本使用二级索引前需要增加设置

set allow_experimental_data_skipping_indices=1;

添加索引：其中 GRANULARITY 是指定二级索引对于一级索引的粒度

ALTER TABLE t_order ADD INDEX idx_total_amount total_amount TYPE minmax GRANULARITY 5;

查询测试：二级索引能够为非主键字段的查询发挥作用

clickhouse-client --send_logs_level=trace <<< 'select * from test.t_order where total_amount > toDecimal32(1200., 2)' --password

数据TTL

TTL 即 Time To Live，MergeTree 提供了可以管理数据表或者列的生命周期的功能。
列级别TTL：

-- 创建测试表
create table t_order2 (
    id UInt32,
    sku_id String,
    total_amount Decimal(16, 2) TTL create_time + interval 10 SECOND,
    create_time Datetime
) engine = MergeTree
partition by toYYYYMMDD(create_time)
primary key (id)
order by (id, sku_id);

-- 插入数据
insert into t_order2 values (101, 'sku_001', 1000.00, '2022-04-15 09:00:00'), (102, 'sku_002', 1500.00, '2022-04-15 10:30:00'), (102, 'sku_003', 2500.00, '2022-04-15 12:30:00'), (102, 'sku_002', 1500.00, '2022-04-15 13:00:00'), (102, 'sku_002', 10000.00, '2022-04-15 13:00:00'), (102, 'sku_002', 800.00, '2022-04-15 12:00:00');

表级别TTL：
- 可以设置一个用于移除过期行的表达式，以及多个用于在磁盘或卷上自动转移数据片段的表达式

TTL expr
    [DELETE|TO DISK 'xxx'|TO VOLUME 'xxx'][, DELETE|TO DISK 'aaa'|TO VOLUME 'bbb'] ...
    [WHERE conditions]
    [GROUP BY key_expr [SET v1 = aggr_func(v1) [, v2 = aggr_func(v2) ...]] ]
    
-- TTL 规则的类型紧跟在每个 TTL 表达式后面，它会影响满足表达式时（到达指定时间时）应当执行的操作：
-- DELETE - 删除过期的行（默认操作）；
-- TO DISK 'aaa' - 将数据片段移动到磁盘 aaa；
-- TO VOLUME 'bbb' - 将数据片段移动到卷 bbb；
-- GROUP BY - 聚合过期的行。
    
-- 例如：下面这条语句是整行数据会在 create_time 之后 10 秒丢失
ALTER TABLE t_order2 MODIFY TTL create_time + INTERVAL 10 SECOND;

TTL 指定的字段不能指定是主键字段，而且必须是 Date 或者 Datetime 类型，推荐使用分区的日期字段。能够使用的的时间单位有：
- SECOND、MINUTE、HOUR、DAY、WEEK、MONTH、QUARTER、YEAR。

4. ReplacingMergeTree

是 MergeTree 的一个变种，它存储特性完全继承 MergeTree，只是多了一个去重的功能。尽管 MergeTree 可以设置主键，但是 primary key 其实没有唯一约束的功能。如果你想处理掉重复的数据，可以借助这个 ReplacingMergeTree。

去重机制

数据的去重只会在合并的过程中出现，合并会在未知的时间在后台进行，所以你无法预先作出计划，有一些数据可能仍未被处理。

去重范围

如果表经过了分区，去重只会在分区内部进行去重，不能执行跨分区的去重。
所以 ReplacingMergeTree 能力有限， ReplacingMergeTree 适用于在后台清除重复的数据以节省空间，但是它不保证没有重复的数据出现。

案例演示

创建表

create table t_order_rmt(
    id UInt32,
    sku_id String,
    total_amount Decimal(16, 2),
    create_time Datetime
) engine = ReplacingMergeTree(create_time) 
partition by toYYYYMMDD(create_time)
primary key (id)
order by (id, sku_id);

ReplacingMergeTree() 填入的参数为版本字段，重复数据保留版本字段值最大的。如果不填版本字段，默认按照插入顺序保留最后一条。
插入数据：

insert into t_order_rmt values (101, 'sku_001', 1000.00, '2022-04-15 11:00:00'), (102, 'sku_002', 2000.00, '2022-04-15 12:00:00'), (102, 'sku_003', 2500.00, '2022-04-15 11:20:00'), (102, 'sku_002', 2000.00, '2022-04-15 13:00:00'), (102, 'sku_002', 12000.00, '2022-04-16 12:00:00'), (102, 'sku_002', 800.00, '2022-04-15 13:30:00');

再次插入数据，并执行查询：

select * from t_order_rmt;
-- 手动合并
OPTIMIZE TABLE t_order_rmt FINAL;
-- 再次查询
select * from t_order_rmt;

结论

实际是使用 order by 字段作为唯一键；
去重不能跨分区；
只有同一批插入（新版本）或者合并分区时才会进行去重；
认定重复的数据保留版本字段值最大的；
如果版本字段相同则按插入顺序保留最后一条。

5. SummingMergeTree

对于不查询明细，只关心以维度进行汇总聚合结果的场景。如果只使用普通的 MergeTree 的话，无论是存储空间的开销，还是查询时临时聚合的开销都比较大。
ClickHouse 为这种场景，提供了一种能够“预聚合”的引擎 SummingMergeTree。

案例演示

创建表：

create table t_order_smt(
    id UInt32,
    sku_id String,
    total_amount Decimal(16, 2),
    create_time Datetime
) engine = SummingMergeTree(total_amount) 
partition by toYYYYMMDD(create_time)
primary key (id)
order by (id, sku_id);

插入数据：

insert into t_order_smt values (101, 'sku_001', 1000.00, '2022-04-15 11:00:00'), (102, 'sku_002', 2000.00, '2022-04-15 12:00:00'), (102, 'sku_003', 2500.00, '2022-04-15 11:20:00'), (102, 'sku_002', 2000.00, '2022-04-15 13:00:00'), (102, 'sku_002', 12000.00, '2022-04-16 12:00:00'), (102, 'sku_002', 800.00, '2022-04-15 13:30:00');

再次插入数据，并执行查询：

select * from t_order_smt;
-- 手动合并
OPTIMIZE TABLE t_order_smt FINAL;
-- 再次查询
select * from t_order_smt;

结论

以 SummingMergeTree() 中指定的列作为汇总数据列；
可以填写多列，必须是数字列；如果不填，那么以非维度列且为数字列的字段为汇总数据列；
以 order by 的列为准，作为维度列；
其它列按插入顺序保留第一行；
不在一个分区的数据不会被聚合；
只有在同一批次插入（新版本）或分片合并时才会进行聚合。

开发建议和问题

设计聚合表的话，唯一键值、流水号可以去掉，所有字段全部是维度、度量或者时间戳。

能不能直接执行以下 SQL 得到汇总值？
select total_amount from t_order_smt where sku_id = 'xxx' and create_time = 'yyy';

不行，可能会包含一些还没来得及聚合的临时明细。
如果要是获取汇总值，还是需要使用 sum 进行聚合，这样效率会有一定的提高，但本身 ClickHouse 是列式存储的，效率提升有限，不会特别明显。

select sum(total_amount) from t_order_smt where sku_id = 'xxx' and create_time = 'yyy';

你可能感兴趣的:(大数据,数据库,ClickHouse,安装,数据类型,库引擎,表引擎)

巨人学术搜索官网入口，免费参考文献论文及学术搜索引擎黄豆匿zlib 学习方法
巨人学术搜索自2024年上线以来，迅速成为学术界不可或缺的重要工具，尤其受到研究人员、教师及学生的青睐。这款专注于学术领域的专业搜索引擎，覆盖了自然科学、人文科学、社会科学等多个学科领域，整合了国内外众多主流数据库，包括维普、万方、Elsevier、WebofScience等，为用户提供了期刊论文、学位论文、专利、图书、预印本等多种类型资源的精准检索服务。与普通搜索引擎相比，巨人学术搜索的优势在于
分布式事务解决方案：Seata原理详解与实战教程 Cloud_. 分布式 wpf seata
一、为什么需要Seata？在微服务架构中，跨服务的事务管理成为核心痛点：传统事务失效：服务拆分导致无法使用本地事务数据不一致风险：网络抖动、服务宕机等情况导致数据错乱复杂场景处理难：涉及多个数据库、消息队列等异构存储Seata（SimpleExtensibleAutonomousTransactionArchitecture）是阿里开源的分布式事务解决方案，提供AT模式、TCC模式、Saga模式三
C++20 的 `std::remove_cvref`：简化类型处理的利器码事漫谈 C++20 c++20
文章目录1.`std::remove_cvref`是什么？2.示例代码3.为什么需要`std::remove_cvref`？4.实现原理5.使用场景6.注意事项7.总结在C++20中，标准库引入了许多新特性，其中std::remove_cvref是一个非常实用的类型特征工具，它极大地简化了类型处理的复杂性。1.std::remove_cvref是什么？std::remove_cvref是一个模板结
STM32 SPI总线驱动CH376T实现U盘/TF卡读写全解析—SPI通信、命令集与文件操作（下） | 零基础入门STM32第七十五步触角01010001 STM32入门教程（100步）stm32 驱动开发单片机嵌入式硬件物联网
主题内容教学目的/扩展视频CH376芯片重点课程电路原理，跳线设置，切换U盘和TF卡。手册分析。驱动程序。调用常用函数。会调用现有函数操作U盘即可。师从洋桃电子，杜洋老师文章目录1.引言2.硬件连接3.驱动程序分析3.1SPI通信机制4.CH376命令集详解4.1常用命令表4.2命令使用示例5.初始化程序解析6.数据读写函数实现6.1写数据到文件6.2从文件读取数据7.应用示例：U盘状态检测8.扩
查看 Linux 系统中安装的 CUDA 版本烟锁池塘柳0 Linux CUDA linux ubuntu
查看Linux系统中安装的CUDA版本的常见方法：文章目录1查看/usr/local/cuda目录2使用nvcc命令3检查libcublas版本注意：nvidia-smi1查看/usr/local/cuda目录通常，CUDA被安装在/usr/local/cuda目录下，所以可以使用ls命令来查看这个目录是否存在，以及查看其中的内容。ls/usr/local/cuda如果这个目录存在，通常它会是一个
【万字总结】前端全方位性能优化指南（四）——虚拟DOM批处理、文档碎片池、重排规避庸俗今天不摸鱼 Web性能优化合集前端性能优化
前言在浏览器宇宙中，DOM操作如同「时空裂缝」——一次不当的节点更新可能引发连锁重排，吞噬整条渲染流水线的性能。本章直面这一核心矛盾，以原子级操作合并、节点记忆重组、排版禁忌破解为三重武器，重构DOM更新的物理法则。通过虚拟DOM的批处理引擎将千次操作坍缩为单次提交，借助文档碎片池实现90%节点的跨时空复用，再以transform替代top等20项反重排铁律，我们将彻底终结「JavaScript线
Java泛型 lgily-1225 日常积累 java 开发语言后端
Java泛型是Java5引入的一项重要特性，旨在增强类型安全、减少代码冗余，并支持更灵活的代码设计。以下是对泛型的详细介绍及使用指南：一、泛型核心概念泛型允许在类、接口、方法中使用类型参数（如），使得代码可以处理多种数据类型，而无需重复编写逻辑。解决的问题类型安全：避免运行时ClassCastException。消除强制类型转换：编译器自动处理类型转换。代码复用：同一逻辑可处理不同类型的数据。二、
实现高德地图自定义点标记跳动，点标记随缩放大小显示和隐藏时光请留微笑 javascript 前端 vue.js
高德地图的自定义标记（Marker）添加一个循环动画效果，比如让图标上下跳动，你可以利用CSS动画或JavaScript动画库（如GSAP）。使用GSAP来创建动画，下面我将展示两种GSAP和CSS类来为Marker的内容添加循环动画。方法一：通过CSS动画实现图标上下跳动首先自定义点标记，在点标记显示内容content中自定义一个图标，这里我用的是element中的图标，给标签一个类名，如i-i
学习积累规划一个DBA的成功之路小藤椅 Oracle基础知识数据库 db2 sql server informix ibm oracle
一个DBA的数据库学习经验：选定发展方向1999年，我在开始读研时就给自己确定了以后的发展方向。当时有两个方向：网络，数据库技术。因为在2000年之时，网络大热，市场上拥有CCNP、CCIE证书的人特别牛。所以我当时也考下了CCNP证书，但后来发现网络方向涉及很多硬件层面的东西，这些都对厂商的依赖性太强，个人发挥空间不大。而我喜欢钻研，所以慢慢开始转向专攻数据库技术。在认准数据库这个方向后，我开始
Python的那些事第四十六篇：基于属性的测试库hypothesis研究暮雨哀尘 Python的那些事 python 开发语言属性测试库 hypothesis 执行流程构建
一、引言（一）研究背景随着软件系统复杂性的不断增加，软件测试在确保软件质量方面的重要性愈发凸显。传统测试方法在面对大规模、复杂软件系统时，往往存在测试用例设计不全面、测试执行效率低下等问题。基于属性的测试作为一种新兴的测试方法，通过定义软件系统的属性来指导测试用例的设计与执行，为解决上述问题提供了新的思路。（二）研究意义本研究旨在深入探讨基于属性的测试库的构建与应用，以提高软件测试的效率和质量，降
Android 扫码 - 集成 zxing-android-embedded 我命由我12345 Android -简化库编程 android java-ee java 安卓 android-studio android studio android jetpack
一、zxing-android-embedded1、ZXing概述ZXing是谷歌开源的让开发者更方便使用摄像头的库，而常用的扫码功能就是其中之一第三方ZXing库zxing-android-embedded，抽取其中的扫码功能单独使用2、基本使用（1）依赖与权限配置在项目级build.gradle中配置相关依赖implementation'com.journeyapps:zxing-androi
DataEase二开记录--踩坑和详细步骤（一）风_间 DataEase 数据库 mysql java
最近在看DataEase，发现挺好用的，推荐使用。用的过程中萌生了二开的想法，于是自己玩了玩，并做了一些记录。开发环境问题下载源码，选稳定版本的，本案例是1.17.0版本。下载地址开源社区-FIT2CLOUD飞致云数据库配置数据库初始化：DataEase使用MySQL数据库，推荐使用MySQL5.7版本。同时DataEase对数据库部分配置项有要求，请参考下附的数据库配置，修改开发环境中的数据库配
oracle基础知识之表的集合运算数字天下 oracle 数据库
一个查询就是一个集合：查询的结果集一条记录就是一个元素。集合运算是用来把两个或多个查询的结果集做并、交、查的集合运算，包含集合运算的查询称为复合查询。*Select基本语法如下：SELECTcolumn_1,column_2,…FROMtable_nameWHEREsearch_conditionORDERBYcolumn_1,column_2;2.常用集合运算方式的应用（1）联合运算：联合运算实
开源模型应用落地-qwen模型小试-调用Qwen2-7B-Instruct-进阶篇（十二）开源技术探险家开源模型-实际应用落地 #深度学习自然语言处理语言模型
一、前言经过前五篇“qwen模型小试”文章的学习，我们已经熟练掌握qwen大模型的使用。然而，就在前几天阿里云又发布了Qwen2版本。无论是语言模型还是多模态模型，均在大规模多语言和多模态数据上进行预训练，并通过高质量数据进行后期微调以贴近人类偏好。本文将介绍如何使用Transformers库进行模型推理（相较于qwen1系列，使用方式上有较大的调整），现在，我们赶紧跟上脚步，去体验一下新版本模型
PostgreSQL技术大讲堂 - 第82讲，主题：数据安全利器--密码安全策略构建 m0_65303136 postgresql 数据库
PostgreSQL技术大讲堂-第82讲，主题：数据安全利器--密码安全策略构建讲课内容：1、密码安全概述2、启用密码安全策略3、深入密码安全构建4、PG密码安全策略漏洞数据库用户的密码安全关系在整个数据库的安全，控制密码的复杂度、密码复用控制、密码定期重置直接影响密码的安全，本期技术公开课为大家展示如何构建密码安全策略。欢迎持续关注CUUGPostgreSQL技术大讲堂。
ocp考试有判断题吗?多少分及格? m0_65303136 开闭原则
ocp考试有判断题吗?多少分及格?OCP考试没有判断题。OCP考试指的是OracleOCP中级认证考试，是数据库领域非常有含金量的一种认证，如果拿到OCP证书对于个人入职或者涨薪都有帮助。OCP考试，可以说是数据库领域最值得考的一个认证，根据最新的OCP19c认证考试要求，以下是考试题型和通过成绩的详细信息：考试题型OCP认证考试均为全英文选择题，包括单选题和多选题，没有操作题或其他题型(如判断题
零基础掌握分布式ID生成：从理论到实战的完整指南 [特殊字符] 添砖Java中分布式分布式id java
一、为什么需要分布式ID？在单机系统中，使用数据库自增ID就能满足需求。但在分布式系统中，多个服务节点同时生成ID时会出现以下问题：ID冲突：不同节点生成相同ID扩展困难：数据库自增ID无法水平扩展安全性差：连续ID暴露业务数据量性能瓶颈：高并发场景下生成速度慢典型应用场景：✅电商订单号生成✅社交平台用户ID✅物流运单号生成✅金融交易流水号二、分布式ID的核心要求特性说明重要性全局唯一性整个分布式
Onlyoffice 更新字体 acheding 开源性能优化
复制Windows字体包，即C:\Windows\Fonts文件夹中字体。进入onlyOffice容器dockerexec-itonlyofficebash进入字体包目录cd/var/www/onlyoffice/documentserver/core-fonts删除所有字体库rm-rf\*进入字体缓存目录cd/var/www/onlyoffice/documentserver/fonts删除所有
网络系统管理专栏-配套练习+知识点详解漩涡·鸣人智能路由器网络
目录总体规划1、设备命名规范和设备的基础信息2、密码恢复和软件版本统一模块三：网络搭建与网络冗余备份方案部署表1-11Ipv6地址分配表模块五：出口安全防护与远程接入试题解析：考核点1：考点解析：2、Portfast+Bpduguard防环方案3、rldp◆考核点2：考点解析：◆考核点3：考点解析：◆考核点4：考点解析：◆考核点5：考点解析：◆考核点6：考点解析：◆考核点7：◆考核点8：◆考核点9
项目复盘：卓越项目经理的炼金术——将经验转化为组织黄金的终极法则
一、项目复盘的时空坐标：生命周期的涅槃时刻在NASA的项目管理体系中，复盘被称为"经验汲取引擎"，位于项目生命周期末端却影响未来所有项目起点。真正的复盘不是终点悼词，而是组织进化的基因重组。阶段复盘：敏捷开发每2周举行迭代复盘，如特斯拉软件团队通过156次迭代复盘将自动驾驶误判率降低83%终局复盘：波音787项目历时7年的终局复盘形成《复合材料应用手册》，成为航空业标准跨期复盘：华为建立"五年战略
实现图片处理功能鸿蒙示例代码
本文原创发布在华为开发者社区。介绍本项目基于OpenHarmony三方库ImageKnife进行图片处理场景开发使用：支持不同类型的本地与网络图片展示。支持拉起相机拍照展示与图库照片选择展示。支持图片单一种变换效果。支持本地/在线图片格式：JPG、PNG、SVG、GIF、DPG、WEBP、BMP实现图片处理功能源码链接效果预览使用说明下载安装根目录下的oh-package.json5中depend
【硬核实战】ETCD+AI智能调度深度整合！从架构设计到调优避坑，手把手教你打造高可用调度系统！码农突围计划人工智能 etcd 大数据
一、核心架构设计：ETCD如何赋能AI调度？架构图：[AI调度引擎]←实时数据→[ETCD集群]↓决策指令[执行层（车辆/物流/交通设备）]核心角色：ETCD：存储调度策略、节点状态、任务队列、实时环境数据（如交通流量、天气）AI模型：基于ETCD数据动态决策（如路径规划、资源分配）调度执行层：接收ETCD下发的指令并执行（如车辆调度、信号灯控制）优势：强一致性：ETCD的Raft协议确保调度策略
当我被面试官追问如何优化慢SQL时，我悟了这些底层逻辑 mysql数据库程序员后端
当我被面试官追问如何优化慢SQL时，我悟了这些底层逻辑去年面试字节跳动时，我遇到了一个至今印象深刻的场景：面试官在白板上写了一条包含三表JOIN且带有子查询的SQL，淡淡地说"请分析这条SQL的性能问题"。当时我的后背瞬间绷直——这道题考察的不仅是SQL优化技巧，更是对数据库底层原理的深刻理解。一、面试官到底在考察什么？实战经验：是否真正处理过线上慢查询问题，能否结合业务场景分析知识体系：从索引设
烧掉 700 亿学费后，中国企业终于懂了：换软件才是真正的省钱程序员安全数据库
2018年深圳宝安机场，76岁的中兴创始人侯为贵拖着行李箱赶赴美国的照片全网刷屏。芯片断供7天，这家通信巨头市值蒸发700亿；2022年某新能源车企因EDA软件禁用，耗资数十亿的研发项目直接停摆。中国企业终于意识到：躺在全球化温床上的时代，结束了。从芯片到数据库，从工业软件到办公系统，中国企业正把“进口零件”一个个抠下来——这不是赌气，而是被逼出来的生存智慧。一、当“卡脖子”变成商机2020年哈工
华纳云如何优化 MySQL 的内存使用？服务器
优化MySQL的内存使用是提高数据库性能和效率的关键步骤。以下是一些有效的策略和方法，结合了多轮对话中的信息，帮助您优化MySQL的内存使用：1.调整缓冲区和缓存大小InnoDB缓冲池（InnoDBBufferPool）：作用：用于缓存InnoDB表的数据和索引，是MySQL中最重要的内存区域之一。优化建议：将innodb_buffer_pool_size设置为物理内存的50%-80%，具体取决于
OSPO Summit 2025 正式定档！议题征集同步开启开源
历经二十余年的发展，OSPO已然成为企业数字化转型的战略枢纽、产学研协同创新的关键桥梁、公共领域开放生态建设的核心引擎。作为这一进程的重要见证者和推动者，OSPOSummit也将在2025年6月12日迎来它的第三次进化。会议信息时间：2025年6月12日地点：北京议题征集，期待你的声音现在，我们面向全球开源社区决策者、企业技术管理者、学术机构研究者及一线开发者，发起议题征集！诚邀您分享OSPO如何
深度解析Java中的代码分支策略规划：掌握GitFlow与GitHub Flow的艺术墨夶 Java学习资料2 java github 开发语言
在这个技术日新月异的时代，每一个开发者都在寻找提高效率、减少错误并优化团队协作的方法。而当涉及到代码管理时，选择正确的分支策略至关重要。今天，我们将深入探讨如何在Java项目中应用两种流行的分支策略——GitFlow和GitHubFlow，并通过详尽的示例代码来展示它们的实际运用。1.分支管理策略概览分支管理策略不仅帮助团队成员之间进行有效的沟通，还确保了代码库的健康状态。无论是小型创业公司还是大
Elasticsearch 介绍：分布式搜索与分析引擎吱屋猪_ elasticsearch
在如今大数据时代，企业和开发者面临着前所未有的数据量和实时性要求。为了能够高效地处理、存储和查询这些数据，Elasticsearch作为一种强大的分布式搜索引擎，已经成为了很多组织和开发者的首选解决方案。1.什么是Elasticsearch？Elasticsearch是一个开源的、基于ApacheLucene构建的全文搜索引擎。它提供了高效的搜索功能，并且非常适合处理大量数据，尤其是在需要快速搜索
https证书获取的方法及好处
获取HTTPS证书的多种方法及其优势✨在现代互联网环境中，HTTPS已成为保障网站安全的基本标准。获取HTTPS证书不仅能提升网站的安全性，还能增强用户信任度和提升搜索引擎排名。本文将详细介绍获取HTTPS证书的几种常见方法及其各自的优势，并通过图表和流程图帮助理解其工作原理。获取HTTPS证书的方法️1.购买商业证书购买商业证书是获取HTTPS证书的传统方式，适用于需要高信任度和额外保障的企业和
【MYSQL学习】5分钟学会MySQL登录，新手也能轻松搞定？墨瑾轩 MySql入门~精通 mysql 学习 adb
关注墨瑾轩，带你探索编程的奥秘！超萌技术攻略，轻松晋级编程高手技术宝库已备好，就等你来挖掘订阅墨瑾轩，智趣学习不孤单即刻启航，编程之旅更有趣5分钟学会MySQL登录，新手也能轻松搞定？引言嘿，小伙伴们！今天我们来聊聊MySQL的登录问题。对于初学者来说，登录数据库可能是你接触MySQL的第一步，也是最重要的一步。那么，MySQL是如何登录的呢？有哪些常见的问题需要注意？别急，今天我就带你一步步了解
ASM系列五利用TreeApi 解析生成Class lijingyao8206 ASM 字节码动态生成 ClassNode TreeAPI
前面CoreApi的介绍部分基本涵盖了ASMCore包下面的主要API及功能，其中还有一部分关于MetaData的解析和生成就不再赘述。这篇开始介绍ASM另一部分主要的Api。TreeApi。这一部分源码是关联的asm-tree-5.0.4的版本。在介绍前，先要知道一点， Tree工程的接口基本可以完
链表树——复合数据结构应用实例 bardo 数据结构树型结构表结构设计链表菜单排序
我们清楚：数据库设计中，表结构设计的好坏，直接影响程序的复杂度。所以，本文就无限级分类（目录）树与链表的复合在表设计中的应用进行探讨。当然，什么是树，什么是链表，这里不作介绍。有兴趣可以去看相关的教材。需求简介：经常遇到这样的需求，我们希望能将保存在数据库中的树结构能够按确定的顺序读出来。比如，多级菜单、组织结构、商品分类。更具体的，我们希望某个二级菜单在这一级别中就是第一个。虽然它是最后
为啥要用位运算代替取模呢 chenchao051 位运算哈希汇编
在hash中查找key的时候，经常会发现用&取代%，先看两段代码吧， JDK6中的HashMap中的indexFor方法： /** * Returns index for hash code h. */ static int indexFor(int h, int length) {
最近的情况麦田的设计者生活感悟计划软考想
今天是2015年4月27号整理一下最近的思绪以及要完成的任务 1、最近在驾校科目二练车，每周四天，练三周。其实做什么都要用心，追求合理的途径解决。为
PHP去掉字符串中最后一个字符的方法 IT独行者 PHP 字符串
今天在PHP项目开发中遇到一个需求，去掉字符串中的最后一个字符原字符串1,2,3,4,5,6, 去掉最后一个字符","，最终结果为1,2,3,4,5,6 代码如下： $str = "1,2,3,4,5,6,"; $newstr = substr($str,0,strlen($str)-1); echo $newstr;
hadoop在linux上单机安装过程 _wy_ linux hadoop
1、安装JDK jdk版本最好是1.6以上，可以使用执行命令java -version查看当前JAVA版本号，如果报命令不存在或版本比较低，则需要安装一个高版本的JDK，并在/etc/profile的文件末尾，根据本机JDK实际的安装位置加上以下几行： export JAVA_HOME=/usr/java/jdk1.7.0_25
JAVA进阶----分布式事务的一种简单处理方法无量多系统交互分布式事务
每个方法都是原子操作：提供第三方服务的系统，要同时提供执行方法和对应的回滚方法 A系统调用B,C,D系统完成分布式事务 =========执行开始======== A.aa(); try { B.bb(); } catch(Exception e) { A.rollbackAa(); } try { C.cc(); } catch(Excep
安墨移动广告：移动DSP厚积薄发引领未来广告业发展命脉矮蛋蛋 hadoop 互联网
　　“谁掌握了强大的DSP技术，谁将引领未来的广告行业发展命脉。”2014年，移动广告行业的热点非移动DSP莫属。各个圈子都在纷纷谈论，认为移动DSP是行业突破点，一时间许多移动广告联盟风起云涌，竞相推出专属移动DSP产品。　　到底什么是移动DSP呢? 　　DSP(Demand-SidePlatform)，就是需求方平台，为解决广告主投放的各种需求，真正实现人群定位的精准广
myelipse设置 alafqq IP
在一个项目的完整的生命周期中，其维护费用，往往是其开发费用的数倍。因此项目的可维护性、可复用性是衡量一个项目好坏的关键。而注释则是可维护性中必不可少的一环。注释模板导入步骤安装方法：打开eclipse/myeclipse 选择 window-->Preferences-->JAVA-->Code-->Code
java数组百合不是茶 java数组
java数组的声明创建初始化； java支持C语言数组中的每个数都有唯一的一个下标一维数组的定义声明： int[] a = new int[3];声明数组中有三个数int[3] int[] a 中有三个数，下标从0开始，可以同过for来遍历数组中的数
javascript读取表单数据 bijian1013 JavaScript
利用javascript读取表单数据，可以利用以下三种方法获取： 1、通过表单ID属性：var a = document.getElementByIdx_x_x("id"); 2、通过表单名称属性：var b = document.getElementsByName("name"); 3、直接通过表单名字获取：var c = form.content.
探索JUnit4扩展：使用Theory bijian1013 java JUnit Theory
理论机制（Theory）一.为什么要引用理论机制（Theory）当今软件开发中，测试驱动开发（TDD — Test-driven development）越发流行。为什么 TDD 会如此流行呢？因为它确实拥有很多优点，它允许开发人员通过简单的例子来指定和表明他们代码的行为意图。 TDD 的优点： &nb
[Spring Data Mongo一]Spring Mongo Template操作MongoDB bit1129 template
什么是Spring Data Mongo Spring Data MongoDB项目对访问MongoDB的Java客户端API进行了封装，这种封装类似于Spring封装Hibernate和JDBC而提供的HibernateTemplate和JDBCTemplate，主要能力包括 1. 封装客户端跟MongoDB的链接管理 2. 文档-对象映射，通过注解:@Document(collectio
【Kafka八】Zookeeper上关于Kafka的配置信息 bit1129 zookeeper
问题： 1. Kafka的哪些信息记录在Zookeeper中 2. Consumer Group消费的每个Partition的Offset信息存放在什么位置 3. Topic的每个Partition存放在哪个Broker上的信息存放在哪里 4. Producer跟Zookeeper究竟有没有关系？没有关系！！！ //consumers、config、brokers、cont
java OOM内存异常的四种类型及异常与解决方案 ronin47 java OOM 内存异常
　OOM异常的四种类型：　　　　　一：　StackOverflowError ：通常因为递归函数引起（死递归，递归太深）。-Xss 128k 一般够用。　二：　out Of memory: PermGen Space：通常是动态类大多，比如web 服务器自动更新部署时引起。-Xmx
java-实现链表反转-递归和非递归实现 bylijinnan java
20120422更新：对链表中部分节点进行反转操作，这些节点相隔k个： 0->1->2->3->4->5->6->7->8->9 k=2 8->1->6->3->4->5->2->7->0->9 注意1 3 5 7 9 位置是不变的。解法：将链表拆成两部分： a.0-&
Netty源码学习-DelimiterBasedFrameDecoder bylijinnan java netty
看DelimiterBasedFrameDecoder的API，有举例：接收到的ChannelBuffer如下： +--------------+ | ABC\nDEF\r\n | +--------------+ 经过DelimiterBasedFrameDecoder(Delimiters.lineDelimiter())之后，得到： +-----+----
linux的一些命令 -查看cc攻击-网口ip统计等 hotsunshine linux
Linux判断CC攻击命令详解 2011年12月23日 ⁄ 安全 ⁄ 暂无评论查看所有80端口的连接数 netstat -nat|grep -i '80'|wc -l 对连接的IP按连接数量进行排序 netstat -ntu | awk '{print $5}' | cut -d: -f1 | sort | uniq -c | sort -n 查看TCP连接状态 n
Spring获取SessionFactory ctrain sessionFactory
String sql = "select sysdate from dual"; WebApplicationContext wac = ContextLoader.getCurrentWebApplicationContext(); String[] names = wac.getBeanDefinitionNames(); for(int i=0; i&
Hive几种导出数据方式 daizj hive 数据导出
Hive几种导出数据方式 1.拷贝文件如果数据文件恰好是用户需要的格式，那么只需要拷贝文件或文件夹就可以。 hadoop fs –cp source_path target_path 2.导出到本地文件系统 --不能使用insert into local directory来导出数据，会报错 --只能使用
编程之美 dcj3sjt126com 编程 PHP 重构
我个人的 PHP 编程经验中，递归调用常常与静态变量使用。静态变量的含义可以参考 PHP 手册。希望下面的代码，会更有利于对递归以及静态变量的理解 header("Content-type: text/plain"); function static_function () { static $i = 0; if ($i++ < 1
Android保存用户名和密码 dcj3sjt126com android
转自：http://www.2cto.com/kf/201401/272336.html 我们不管在开发一个项目或者使用别人的项目，都有用户登录功能，为了让用户的体验效果更好，我们通常会做一个功能，叫做保存用户，这样做的目地就是为了让用户下一次再使用该程序不会重新输入用户名和密码，这里我使用3种方式来存储用户名和密码 1、通过普通的txt文本存储 2、通过properties属性文件进行存
Oracle 复习笔记之同义词 eksliang Oracle 同义词 Oracle synonym
转载请出自出处：http://eksliang.iteye.com/blog/2098861 1.什么是同义词同义词是现有模式对象的一个别名。概念性的东西，什么是模式呢？创建一个用户，就相应的创建了一个模式。模式是指数据库对象，是对用户所创建的数据对象的总称。模式对象包括表、视图、索引、同义词、序列、过
Ajax案例 gongmeitao Ajax jsp
数据库采用Sql Server2005 项目名称为:Ajax_Demo 1.com.demo.conn包 package com.demo.conn; import java.sql.Connection;import java.sql.DriverManager;import java.sql.SQLException; //获取数据库连接的类public class DBConnec
ASP.NET中Request.RawUrl、Request.Url的区别 hvt .net Web C#asp.net hovertree
如果访问的地址是：http://h.keleyi.com/guestbook/addmessage.aspx?key=hovertree%3C&n=myslider#zonemenu那么Request.Url.ToString() 的值是：http://h.keleyi.com/guestbook/addmessage.aspx?key=hovertree<&
SVG 教程（七）SVG 实例，SVG 参考手册天梯梦 svg
SVG 实例在线实例下面的例子是把SVG代码直接嵌入到HTML代码中。谷歌Chrome，火狐，Internet Explorer9，和Safari都支持。注意：下面的例子将不会在Opera运行，即使Opera支持SVG - 它也不支持SVG在HTML代码中直接使用。 SVG 实例 SVG基本形状一个圆矩形不透明矩形一个矩形不透明2 一个带圆角矩
事务管理 luyulong java spring 编程事务
事物管理 spring事物的好处为不同的事物API提供了一致的编程模型支持声明式事务管理提供比大多数事务API更简单更易于使用的编程式事务管理API 整合spring的各种数据访问抽象 TransactionDefinition 定义了事务策略 int getIsolationLevel()得到当前事务的隔离级别 READ_COMMITTED
基础数据结构和算法十一：Red-black binary search tree sunwinner Algorithm Red-black
The insertion algorithm for 2-3 trees just described is not difficult to understand; now, we will see that it is also not difficult to implement. We will consider a simple representation known
centos同步时间 stunizhengjia linux 集群同步时间
做了集群，时间的同步就显得非常必要了。以下是查到的如何做时间同步。在CentOS 5不再区分客户端和服务器，只要配置了NTP，它就会提供NTP服务。 1)确认已经ntp程序包： # yum install ntp 2)配置时间源（默认就行，不需要修改） # vi /etc/ntp.conf server pool.ntp.o
ITeye 9月技术图书有奖试读获奖名单公布 ITeye管理员 ITeye
ITeye携手博文视点举办的9月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 9月试读活动回顾：http://webmaster.iteye.com/blog/2118112本次技术图书试读活动的优秀奖获奖名单及相应作品如下（优秀文章有很多，但名额有限，没获奖并不代表不优秀）：《NFC：Arduino、Andro