不熬夜的靓仔

ClickHouse学习笔记

学习视频链接：
https://www.bilibili.com/video/BV1Yh411z7os/?spm_id_from=333.1007.top_right_bar_window_custom_collection.content.click&vd_source=05e91bcf9e12725fd6d21d00acc4851f

官方文档：
https://clickhouse.com/

部署推荐：128G服务器，100G内存，32线程内存。

Click House入门

使用过程中踩坑笔记：http://t.csdn.cn/elvDm

OLAP型数据库本就不应该执行删除、更新操作。
CH将数据划分为多个Partition，每个Partition进一步划分为多个Index Granularity（索引粒度），然后多个CPU核心分别处理器中的一部分实现并行数据处理。这种设计下，单条Query就能利用整机所有CPU，达到极致的并行处理能力，降低查询延时。
对于高qps（Query per Second）的查询业务，ClickHouse并不是强项。
不适合做初始存储，适合存储宽表。
避免做join操作：
- 简单原理：假设 table_A join table_B
- table_B的表会先加载入内存，再逐条匹配table_A中的数据，不论大小表。

数据类型

整型

int8 - byte
int16 - short
int32 - int
int64 - long
无符号
- Uint8
- Uint16
- Uint32
- Uint64

浮点型

建议不用double，进行运算时会精度丢失，一般用于数值比较小，不涉及大量计算统计的，精度要求不高的数据。

例：1-0.9 = 0.099999999……

Float32 - float
Float64 - double

布尔型

没有单独类型存储布尔值，可使用Uint8类型，取值限制为0、1

Decimal型

使用场景：一般金额字段、汇率、利率等字段为了保证小数点精度，都是用Decimal进行存储。

NULL

NOTE：
Using `Nullable` almost always negatively affects performance, keep this in mind when designing your databases.

如果要使用Null，可以定义字段中Null值为业务上没有意义的字段，比如：年龄的Null为-1。

表引擎

https://clickhouse.com/docs/zh/engines/table-engines/

表引擎（即表的类型）决定了：

特别注意：引擎的命名大小写敏感。
命名方式：大驼峰：BigTableData

数据的存储方式和位置，写到哪里以及从哪里读取数据。
支持哪些查询以及如何支持。
并发数据访问。
索引的使用（如果存在）。
是否可以执行多线程请求。
数据复制参数。

TinyLog

不支持索引
没有并发控制
一般保存少量的数据。

Memory

优点：快
缺点：服务器重启数据就会消失
不支持索引

集成引擎

含义：将ClickHouse数据直接映射到外部引擎中，在ClickHouse上进行查询。

因此：ClickHouse这种方式并不拥有数据，只做查询。

MySql

思考：
是不是可以直接把所有游戏表映射到CH中，进行查询？

https://clickhouse.com/docs/en/engines/table-engines/integrations/mysql

MergeTree

ClickHouse最强大的表引擎
支持索引和分区
有很多衍生引擎

建表语句

CREATE TABLE [IF NOT EXISTS] [db.]table_name [ON CLUSTER cluster]
(
    name1 [type1] [DEFAULT|MATERIALIZED|ALIAS expr1] [TTL expr1],
    name2 [type2] [DEFAULT|MATERIALIZED|ALIAS expr2] [TTL expr2],
    ...
    INDEX index_name1 expr1 TYPE type1(...) GRANULARITY value1,
    INDEX index_name2 expr2 TYPE type2(...) GRANULARITY value2,
    ...
    PROJECTION projection_name_1 (SELECT <COLUMN LIST EXPR> [GROUP BY] [ORDER BY]),
    PROJECTION projection_name_2 (SELECT <COLUMN LIST EXPR> [GROUP BY] [ORDER BY])
) ENGINE = MergeTree()
ORDER BY expr // 必选项
[PARTITION BY expr]
[PRIMARY KEY expr]
[SAMPLE BY expr]
[TTL expr
    [DELETE|TO DISK 'xxx'|TO VOLUME 'xxx' [, ...] ]
    [WHERE conditions]
    [GROUP BY key_expr [SET v1 = aggr_func(v1) [, v2 = aggr_func(v2) ...]] ] ]
[SETTINGS name=value, ...]

CREATE TABLE example_table
(
    d DateTime,
    a Int TTL d + INTERVAL 1 MONTH,
    b Int TTL d + INTERVAL 1 MONTH,
    c String
)ENGINE = MergeTree
PARTITION BY toYYYYMM(d)
primary key(a) // 注意：主键不存在唯一约束！！！
ORDER BY d;

PARTITION BY（可选）

作用

降低扫描范围，优化查询速度。

如果不填

只会使用一个分区-all。

分区目录

以列文件+索引文件+表定义文件组成。

并行

分区后，以分区为单位并行处理。

官方建议以“天”为分区条件。

分区不会加速查询。

文件含义


<分区值_最小分区块编号_最大分区块编号_合并层级>
PartitionId
	数据分区ID生成规则：
	数据分区规则由分区ID决定，分区ID由PARTITION BY分区键决定。根据分区键字段类型，ID生成规则可分为：
		未定义分区键：
		- 没有定义PARTITION BY，默认生成一个目录名为all的数据分区，所有数据均存放在all目录下。
		整形分区键：
		- 分区键为整形，那么直接用该整形值的字符串形式作为分区ID。
		日期类分区键：
		- 分区键为日期类型，或者可以转化成日期类型。
		其他类型分区键：
		- String、Float类型等，通过128位的Hash算法取其Hash值作为分区ID。
MinBlockNum
	最小分区块编号，自增类型，从1开始向上递增。每产生一个新的目录分区就香上递增一个数字。
MaxBlockNum
	最大分区块编号，新创建的分区MinBlockNum等于MaxBlockNum的编号。
Level
	合并的层级，被合并的次数。合并次数越多，层级值越大。

bin文件：数据文件

mrk：标记文件

count.txt：存储数据条数

data.bin

数据文件，表里面的数据存储在这里面

老版本中（21.7之前）是每一列存储一个.bin和.mrk2文件

columns.txt

列的结构信息

primary.idx

索引文件——>稀疏索引

minmax_create_time.idx

分区键的最大最小值

数据写入与分区合并

任何一个批次的数据写入都会产生一个临时分区，不会纳入任何已有分区。写入后一段时间（10-15mins后），clickhouse会自动执行合并操作（也可以手动通过optimize执行合并），将临时分区的数据，合并到以后分区中。

-- 加入了分区名表示仅对某个分区进行合并
optimize table 表名 [partition 分区名] final;

Primary Key（可选）

仅提供了一级索引，但不是唯一约束。

index granularity：索引粒度，指在稀疏索引中两个相邻索引对应数据的间隔。ClickHosue中的MergeTree默认是8192。官方不建议修改这个值，除非该列存在大量重复值，例如：一个分区中几万行才有一个不同数据。

Order By（必选）

分区内排序！！！

由于稀疏索引的类二分查找的特点，所以必须排序。
有序数据查询更加迅速。

要求：主键必须是order by字段的前缀字段！！！

例如：order by的字段是(id,sku_id)，主键若只有一个，只能是id，不能是sku_id。

二级索引

在一级索引分块的基础上，再次进行汇总

create table t_order_mt2(
    id UInt32,
    sku_id String,
    total_amount Decimal(16,2),
    create_time Datetime,
    -- GRANULARITY 是设定二级索引对于一级索引粒度的分区粒度
    -- 例如：一级索引：[0,5],[5,10],[10,15],[15,20]……
    -- GRANULARITY 2 ----> 则二级索引:[0,10],[10,20]……
    INDEX a total_amount TYPE min max GRANULARITY 5
)engine = MergeTree
partition by toYYYYMMDD(create_time)
primary key(id)
order by(id,sku_id)

数据TTL

TTL：Time To Live，MergeTree提供了可以管理数据表or列的生命周期功能。

列级别TTL

TTL不能用于键列。

https://clickhouse.com/docs/en/engines/table-engines/mergetree-family/mergetree/#creating-a-table-with-ttl

Creating a table with TTL

CREATE TABLE example_table
(
    d DateTime,
    a Int TTL d + INTERVAL 1 MONTH,
    b Int TTL d + INTERVAL 1 MONTH,
    c String
)
ENGINE = MergeTree
PARTITION BY toYYYYMM(d)
ORDER BY d;

Adding TTL to a column of an existing table

ALTER TABLE example_table
    MODIFY COLUMN
    c String TTL d + INTERVAL 1 DAY;

表级别TTL

https://clickhouse.com/docs/en/engines/table-engines/mergetree-family/mergetree/#mergetree-table-ttl

过期可以移动数据到指定位置。

ReplacingMergeTree

相对于MergeTree，只是多一个去重的功能。根据order by的字段去重。

去重时机

数据去重只会在合并的过程中出现。合并会在未知的时间在后台进行，所以无法预先做出计划，有一些数据可能仍未被处理。

去重范围

去重只会在分区内部进行去重，不能执行跨分区的去重。

因此，ReplacingMergeTree能力有限，不能保证没有重复的数据出现。

create table t_order_rmt(
    in UInt32,
    sku_id String,
    total_amount Decimal(16,2),
    create_time Datetime
)engine = ReplacingMergeTree(create_time) -- 这里create_time为版本字段
partition by toYYYYMMDD(create_time)
primary key(id)
order by(id,sku_id);

ReplacingMergeTree()填入的参数为版本字段，重复数据保留版本字段值最大的。如果不填版本字段，默认按照插入顺序保留最后一条。

新版本会在插入数据的时候进行一次去重
实际上利用order by字段作为唯一键
去重不能跨分区
只有同一批插入or合并分区才会进行去重
认定重复的数据，保留版本字段值最大的
如果版本字段相同，则按照插入数据的顺序保留最后一笔

SummingMergeTree

使用场景：对于不查询明细，只关心以维度进行汇总聚合结果的场景。

预聚合功能：①分区内聚合；②分片合并时才会聚合。

create table t_order_rmt(
    in UInt32,
    sku_id String,
    total_amount Decimal(16,2),
    create_time Datetime
)engine = SummingMergeTree(total_amount) -- 这里total_amount为聚合字段
partition by toYYYYMMDD(create_time)
primary key(id)
order by(id,sku_id); -- 根据这两个字段进行group by，预聚合

以SummingMergeTree（）中指定的列作为汇总数据列；
可以填写多列必须数字列，如果不填，以所有**非维度列（除order by以外的所有字段）**且为数字列的字段为汇总数据列
以order by的列为准，作为维度列
其他的列按插入顺序保留第一行
不在一个分区的数据不会被聚合
只有在同一批次插入or分片合并时才会进行聚合

开发建议：设计聚合表的话，唯一键值、流水号可以去掉，所有字段全部是维度、度量或者时间戳。

SQL操作

Update 和 Delete

这类操作被称为Mutation查询（可变查询），可以看作Alter的一种。

不支持事务。
每次修改or删除都会导致放弃目标数据的原有分区，重新建立分区。
建议尽量做批量更改，不要频繁小数据的操作（例如：个别字段的修改）。

Update

alter table t_order_smt update total_amount = toDecimal32(2000.00,2) where id =102;

Delete

alter table t_order_smt delete where sku_id = 'sku_001';

实现高性能Update或delete的思路

create table A(
    a XXX,
    b XXX,
    c XXX,
    _sign UInt8,
    _version UInt32
)
-- 更新：插入一条新的数据，_version + 1
	-- 查询：where version = max_version
-- 删除：_sign 0 表示未删除，1表示已删除
	-- 查询：where sign = 0 and version = max_version
-- 问题：时间久了，数据会膨胀
	-- 需要解决：类似合并机制，清理过期数据

查询

尽量避免使用JOIN：Join操作无法使用缓存，所以即使是两次相同的JOIN语句，Click House也会是为两条新的SQL。
不支持自定义函数。

multiIf

聚合函数

KEY words：with rollup, with cube, with totals

-- 这两个语句等同
SELECT year, month, day, count(*) FROM t GROUP BY CUBE(year, month, day);
SELECT year, month, day, count(*) FROM t GROUP BY year, month, day WITH CUBE;

假设维度是a，b

rollup：上卷，从右到左，维度增加
- group by null
- group by a
- group by (a,b)
cube：多维分析
- group by null
- group by a
- group by b
- group by (a,b)
totals：总计
- group by null
- group by (a,b)

alter操作

因为是列式存储，对字段的修改会更方便

导出数据

用的比较少，因为存储的是宽表，可以直接用于BI表

https://clickhouse.com/docs/en/interfaces/formats

clickhouse-client --query "select * from t_order_mt where create_time = '2020-06-01'" --format CSVWithNames> [导出地址]

副本

目的：主要是保障数据的高可用性，即使一台CH节点宕机，那么也可以从其他服务器获得相同数据。

副本写入流程

没有主从数据库的概念

client—写入数据—》CH-a—提交写入日志—》zookeeper-cluster—收到写入日志—》CH-b；
CH-a—提交写入日志的同时—》从目标副本下载新数据—传给—》CH-b

执行计划

https://clickhouse.com/docs/en/sql-reference/statements/explain/#explain-types

Click House高级

Explain查看执行计划

EXPLAIN [AST | SYNTAX |PLAN|PIPELINE] [setting = value,...] select ...

Syntax

跑语句之前可以使用这个语法查看，用于优化语法；

Pipeline

用于查看Pipeline计划

建表优化

数据类型

时间字段的类型

建表时能用数值型或日期时间类型表示的字段就不要用字符串，虽然ClickHouse底层将DateTime存储为时间戳Long类型，但不建议存储Long类型，因为DateTime不需要经过函数转换，执行效率高、可读性好。

create table test(
    id UInt32,
    sku_id String,
    total_amount Decimal(16,2),
    create_time Int32
)engine = ReplacingMergeTree(create_time)
partition by toYYYYMMDD(toDate(create_time)) -- 需要转换一次，否则报错
primary key (id)
order by (id,sku_id)

空值存储

click house中的空值位Nullable类型，官方指出，Nullable类型几乎总是会拖累性能
- 原因：存储Nullable列时需要创建一个额外的文件存储Null的标记，并且Nullable列无法被索引。
- 注：除极端情况，应直接使用默认值表示空，或者自定指定一个在业务中无意义的值来代替。

分区和索引

一般选择按天分区。
1亿条数据一般选择30个左右的分区。
索引：order by(a,b,c) 从左到右优先索引，高频查询的字段放在前面。
基数特别大的不适合做索引列。
- 基数大的列：该列的数据去重后和数据记录数越接近基数越大。
- 为什么基数大不适合做索引：基数过大，查找时越需要依次遍历，则失去了索引意义。

表参数

Index_granularity是用来控制索引粒度的，默认是8192，如非必须不建议调整。
如果表中不是必须保留全量历史数据，建议制定TTL（生存时间值）可以免去手动处理过期历史数据的麻烦，TTL也可以通过Alter table随时修改。

写入和删除优化

尽量不要执行单条或小批量删除和插入操作，这样会产生小分区文件，给后台Merge任务带来巨大压力；
不要一次写入太多分区，或数据写入太快：
- 数据写入太快会导致Merge速度跟不上而报错，一般建议每秒钟发起2-3次写入操作，每次操作写入2w-5w条数据（具体情况依据服务器性能而定）
写入太快会报错：
- “Too many parts”处理：
  1. 使用WAL预写日志，提高写入性能。
  2. 降低写入频率。
- ”Memory limit“处理：

常见配置

一般CH的瓶颈出现在CPU压力过大、内存不足、IO压力过大

配置项主要在config.xml 和 users.xml
- config.xml：服务端配置，用户的默认配置路径指向users.xml
  - 设定之后无法被覆盖
  - https://clickhouse.com/docs/en/operations/server-configuration-parameters/
- users.xml：
  - https://clickhouse.com/docs/en/operations/settings/settings-users

CPU资源

配置	描述
background_pool_size	后台线程池的大小，merge线程就是在该线程池中执行，该线程池不仅仅是给merge线程使用的，默认值16，允许的前提下建议改成CPU个数的2倍（一核可以虚拟化成两线程）
background_schedule_pool_size	执行后台任务的线程数，默认128，建议改成CPU个数的2倍（线程数）
background_distributed_schedule_pool_size	设置为分布式发送执行后台任务的线程数，默认16，建议改成CPU个数的2倍（线程数）
max_concurrent_queries	最大并发处理请求数（包含select、insert等），默认值100，推荐150（不够再加）~300，默认单位为个/每秒
max_threads	设置单个查询所能使用的最大CPU个数，默认是CPU核数

内存资源

配置	描述
max_memory_usage	此参数在users.xml中，表示单词Query占用内存最大值，该值可以设置的比较大，这样可以提升集群查询的上限。保留一点给OS，比如128G内存的机器，设置为100G。
max_bytes_before_external_group_by	一般按照max_memory_usage的一半设置内存，当group使用内存超过阈值后会刷新到磁盘进行。因为Click house聚合分为两个阶段：查询并建立中间数据、合并中间数据，结合上一项，建议50GB。
max_bytes_before_external_sort	当 order by已使用max＿bytes＿before＿external＿sort内存就进行溢写磁盘（基于磁盘排序），如果不设置该值，那么当内存不够时直接抛错，设置了该值 order by可以正常完成，但是速度相对存内存来说肯定要慢点（实测慢的非常多，无法接受）。
max_table_size_to_drop	此参数在 config.xml 中，应用于需要删除表或分区的情况，默认是50GB，意思是如果删除50GB以上的分区表会失败。建议修改为0，这样不管多大的分区表都可以删除。

存储

ClickHouse不支持设置多数据目录，为了提升数据IO性能，可以挂在虚拟券组，一个券组绑定多块物理磁盘提升读写性能，多数据查询性能场景SSD会比普通机械硬盘快2-3倍。

Click House语法优化规则

CH的SQL优化规则是基于RBO（Rule Based Optimization）

COUNT优化

在调用count函数时，如果使用的是count() or count(*)，且没有where条件，则会直接使用system.tables 的 total_rows。

explain syntax select count(*) from zs_game_role zgr 

-- 结果
SELECT count()
FROM zs_game_role AS zgr

消除子查询的重复字段

explain
syntax
select
	a.role_id,
	a.member_id,
	a.main_game_id
from
zs_game_role b
left join
	(
	select
		role_id,
		role_id,
		member_id,
		main_game_id,
		role_id
	from
		zs_game_role zgr 
) as a
using (role_id)
limit 3

-- 结果
SELECT
    a.role_id,
    a.member_id,
    a.main_game_id
FROM zs_game_role AS b
ALL LEFT JOIN
(
    SELECT
        role_id,
        member_id,
        main_game_id
    FROM zs_game_role AS zgr
) AS a USING (role_id)
LIMIT 3

谓词下推

原则：能提前过滤自动提前过滤
当 group by 有 having 子句，但是没有 with cube、with rollup 或者 with totals 修饰的时候，having 过滤会下推到 where 提前过滤。

explain
syntax
select
	*
from(
	select
		role_id
	from
		zs_game_role zgr 
) as a
WHERE a.role_id = 20

-- 结果
SELECT role_id
FROM
(
    SELECT role_id
    FROM zs_game_role AS zgr
    WHERE role_id = 20
) AS a
WHERE role_id = 20

explain
syntax
SELECT
	*
FROM
	(
	select
			role_id
	from
			zs_game_role zgr
union all
	select
			role_id
	from
			zs_game_role zgr 
) as a
WHERE
	a.role_id = 20
	
-- 结果
SELECT role_id
FROM
(
    SELECT role_id
    FROM zs_game_role AS zgr
    WHERE role_id = 20
    UNION ALL
    SELECT role_id
    FROM zs_game_role AS zgr
    WHERE role_id = 20
) AS a
WHERE role_id = 20

聚合计算外推

explain
syntax
SELECT sum(role_id * 2)
from
zs_game_role zgr 

-- 结果
SELECT sum(role_id) * 2
FROM zs_game_role AS zgr

聚合函数消除

如果对聚合键，也就是group by key 使用 min、max、any聚合函数，则将函数消除。

explain
syntax
SELECT
	sum(member_id * 2),
	max(game_id),
	any(role_id)
from
	zs_game_role zgr
group by
	role_id

-- 结果
SELECT
    sum(member_id) * 2,
    max(game_id),
    role_id
FROM zs_game_role AS zgr
GROUP BY role_id

删除重复的order by key

explain
syntax
SELECT
	role_id,
	member_id,
	main_game_id
from
	zs_game_role zgr
order by
	role_id,
	role_id ,
	member_id ,
	member_id

-- 结果
SELECT
    role_id,
    member_id,
    main_game_id
FROM zs_game_role AS zgr
ORDER BY
    role_id ASC,
    member_id ASC

删除重复的 limit by key、using key

explain
syntax
SELECT
	role_id,
	member_id,
	main_game_id
from
	zs_game_role zgr
limit 3 by role_id ,
member_id ,
role_id ,
member_id

-- 结果：会优化
SELECT
    role_id,
    member_id,
    main_game_id
FROM zs_game_role AS zgr
LIMIT 3 BY
    role_id,
    member_id

explain
syntax
SELECT
	zgr2.role_id,
	zgr2.member_id,
	zgr2.main_game_id
from
	zs_game_role zgr
	left join zs_game_role zgr2 on zgr.role_id = zgr2.role_id 
limit 3 by zgr.role_id ,
zgr.member_id ,
zgr2.role_id ,
zgr2.member_id

-- 结果：不会优化
SELECT
    zgr2.role_id,
    zgr2.member_id,
    zgr2.main_game_id
FROM zs_game_role AS zgr
ALL LEFT JOIN zs_game_role AS zgr2 ON role_id = zgr2.role_id
LIMIT 3 BY
    role_id,
    member_id,
    zgr2.role_id,
    zgr2.member_id

标量替换

标量：写死的值

explain
syntax
with
(
SELECT 
	count()
from
	zs_game_role zgr3 
) as total_num
SELECT
	zgr.role_id,
	zgr.member_id,
	SUM(zgr.main_game_id) / total_num as a
from
	zs_game_role zgr
group by
	zgr.role_id,
	zgr.member_id
order by
	zgr.role_id,
	zgr.member_id
limit 5

-- 结果：with的内容替换成一个标量值了
WITH identity(_CAST(0, 'Nullable(UInt64)')) AS total_num
SELECT
    role_id,
    member_id,
    sum(main_game_id) / total_num AS a
FROM zs_game_role AS zgr
GROUP BY
    role_id,
    member_id
ORDER BY
    role_id ASC,
    member_id ASC
LIMIT 5

三元运算的优化

嵌套的if会优化为multiIf的语句

查询优化

单表查询

Prewhere替代where

Prewhere 和where 语句的作用相同，用来过滤数据。不同之处在于 prewhere 只支持MergeTree 族系列引擎的表，首先会读取指定的列数据，来判断数据过滤，等待数据过滤之后再读取 select 声明的列字段来补全其余属性。
当查询列明显多于筛选列时使用Prewhere可十倍提升查询性能，Prewhere会自动优化执行过滤阶段的数据读取方式，降低io操作。
在某些场合下，prewhere 语句比 where 语句处理的数据量更少性能更高。

大部分场景where会自动优化为prewhere

某些场景不会自动转换成prewhere：

使用常量表达式
使用默认值为alias类型的字段
包含了arrayJoin、golbalIn、golbalNotIn或indexHint的查询
select查询的列字段和where的谓词完全相同
使用了主键字段（order by字段）

数据采样

通过采样运算可极大提升数据分析的性能。

select 
	Title,count(*) as pageViews
from
	table
SAMPLE 0.1
where countID = XX
group by XX
order by XX

列裁剪与分区裁剪

列裁剪：其实就是避免使用select * ，筛选出需要的字段
分区裁剪：避免使用select * ，在where中使用partition by字段，选择分区

orderby结合where、limit

千万以上的数据集进行order by查询时需要搭配where条件和limit语句一起使用。

因此，尽量不要order by单独使用

避免构建虚拟列

虚拟列：原表中不存在的列，计算出来的列，如：

select
	a,
	b,
	a+b -- 虚拟列
from
	table

虚拟列非常消耗资源，浪费性能。

uniqCombined替代distinct

uniqCombined：近似去重，但是精度不会很低，差别很小

性能可提升10倍以上，uniqCombined底层采用类似HyperLogLog算法实现。

不建议对千万以上的对准确度没有要求的数据进行精确去重，使用近似去重，例如：精确活跃率1千万，近似去重：0.999千万。

物化视图

视图：保存的是SQL的操作逻辑。

物化视图：不仅保存SQL的操作逻辑，还保存操作过后的结果。

其他注意事项

查询熔断

为了避免因个别慢查询引起的服务雪崩问题，除了可以为单个查询设置超时以外，还可以配置周期熔断，在一个查询周期内，如果用户频繁进行慢查询操作超出规定阈值后将无法继续进行查询。

关闭虚拟内存

物理内存和虚拟内存的数据交换，会导致查询变慢，资源允许的情况下关闭虚拟内存。

配置join_use_nulls

为每一个账户添加join_use_nulls配置，左表中的一条记录在右表中不存在，右表的相应字段会返回该字段相应数据类型的默认值，而不是标准SQL中的Null值。

批量写入时先排序

批量写入数据时，必须控制每个批次的数据中涉及到的分区的数量，在写入之前最好对需要导入的数据进行排序。无序的数据或者涉及的分区太多，会导致 CIick House 无法及时对新导入的数据进行合并，从而影响查询性能。

关注CPU

CPU一般在50%左右会出现查询波动，达到70%会出现大范围的查询超时，CPU是关键指标，要非常关注。

多表关联

CH的JOIN：

原理：右表加载到内存，再匹配；
为什么JOIN不行：因为1；
非要使用，如何使用：
- 能过滤先过滤，特别是右表；
- 右表放小表；
- 特殊场景可以考虑使用字典表；
- 可以替换的话，利用IN替换JOIN

-- 建表的时候，想要复制表结构：
create table XXX as select * from XXXX where 1 = 0; -- 条件不成立，数据永远不会写进来

Join原理

A join B，将B表全部加载到内存中，A表中的数据会逐条匹配内存中的B表。

用IN代替JOIN

当多表联查时，查询的数据仅从其中一张表出时，可以考虑从IN操作而不是JOIN

select table_a.* from table_a where table_a.count_id in (select count_id from table_b);

大小表JOIN

多表 join 时要满足小表在右的原则，右表关联时被加载到内存中与左表进行比较， Click House 中无论是 Left join 、 Right join 还是 Inner join 永远都是拿着右表中的每一条记录到左表中查找该记录是否存在，所以右表必须是小表。

注意谓词下推（版本差异）

尽量在join之前进行过滤

ClickHouse 在join查询时不会主动发起谓词下推的操作，需要每个子查询提前完成过滤操作，需要注意的是，是否执行谓词下推，对性能影响差别很大（新版本中已经不存在此问题，但是需要注意谓词的位置的不同依然有性能的差异）

分布式表使用GLOBAL

查询放大：两张分布式表进行JOIN的时候，两张表的N各节点互相发起查询，变成N*N次

两张分布式表上的IN和JOIN之前必须加上GLOBAL关键字，右表只会在接收查询请求的那个节点查询一次，并将其分发到其他节点上。如果不加GLOBAL关键字的话，每个节点都会单独发起一次对右表的查询，而右表又是分布式表，就导致右表一共会被查询N²次（N是该分布式表的分片数量），这就是查询放大，会带来很大开销。

使用字典表

可以是自己创建的表，也可以是外部文件。

将一些需要关联分析的业务创建成字典表进行join操作，前提是字典表不宜太大，因为字典表会常驻内存。

提前过滤

通过增加逻辑过滤可以减少数据扫描，达到提高执行速度、降低内存消耗的目的。

数据一致性（重点！！！）

查询CH手册发现，即便对数据一致性支持最好的MergeTree，也只是保持最终一致性。
数据一致性：
- replacingMergeTree不能保证查询时没重复，只能保证最终一致性；
- 解决：
  - 手动optimize，生产环境不推荐；
  - 通过sql实现去重：group by -->高级一点用法，加标记字段
  - 使用final：
    - 20.5之后，final可以是多线程，但是读取part是串行的；
  - 重复一点无所谓：特定业务条件下；

准备数据

建表

create table test_a(
	user_id UInt64,
	score String,
	deleted UInt8 DEFAULT 0,
	create_time DateTime DEFAULT toDateTime(0)
)ENGINE = ReplacingMergeTree(create_time)
order by
user_id;

写入数据

INSERT
	into
	table test_a(user_id,
	score)
with(
	select
		['A',
		'B',
		'C',
		'D',
		'E',
		'F',
		'G']
)as dict
select
	number as user_id,
	dict[number%7 + 1]
from
	numbers(10000000);

修改前50W行数据，修改内容包括name字段和create_time版本号字段

INSERT
	into
	table test_a (user_id,
	score,
	create_time)
with(
	select
		['AA',
		'BB',
		'CC',
		'DD',
		'EE',
		'FF',
		'GG']) as dict
select
	number as user_id,
	dict[number%7 + 1],
	NOW() as create_time
from
	numbers(500000);

手动OPTIMIZE（生产中一般不会使用）

optimize table test_a final

通过GroupBY去重

SELECT
	user_id,
	argMax(score,
	create_time) as score,
	argMax(deleted,
	create_time) as deleted,
	max(create_time) as ctime
from
	test_a ta
group by
	user_id
having
	deleted = 0;

创建视图，方便测试

create view view_test_a as
SELECT
	user_id,
	argMax(score,
	create_time) as score,
	argMax(deleted,
	create_time) as deleted,
	max(create_time) as ctime
from
	test_a ta
group by
	user_id
having
	deleted = 0;

插入数据，再次查询

insert into table test_a(user_id,score,create_time) values(0,'AAAA',now());

SELECT * FROM  view_test_a WHERE user_id = 0;

>>> 结果
id user_id score create_time 
0	AAAA	0	2022-09-13 15:43:38.000

“删除”测试数据

insert into table test_a (user_id,score,deleted,create_time) values(0,'AAAA',1,now());

select * from view_test_a WHERE user_id = 0;

>>> 结果：无数据

通过FINAL查询

在查询语句后增加Final修饰符，这样在查询的过程中将会执行Merge的特殊逻辑（如：数据去重，预聚合等）。

在v20.5.2.7-stable版本之后，FINAL查询支持多线程执行，并且可以通过max＿final＿threads参数控制单个查询的线程数。但是目前读取part部分的动作依然是串行的。

FINAL查询最终的性能和很多因素相关，列字段的大小、分区的数量等等都会影响到最终的查询时间，所以还要结合实际场景取舍。

参考链接：https://github.com/ClickHouse/ClickHouse/pull/10463

explain pipeline SELECT * from test_a ta WHERE create_time > toDateTime(0);

>>>结果
(Expression)
ExpressionTransform × 6
  (ReadFromMergeTree)
  MergeTreeThread × 6 0 → 1

物化视图

视图：保存的是SQL的操作逻辑。
物化视图：不仅保存SQL的操作逻辑，还保存操作过后的结果，结果根据相应的引擎存到磁盘或内存中。

ClickHouse 的物化视图是一种查询结果的持久化，它确实是给我们带来了查询效率的提升。用户查起来跟表没有区别，它就是一张表，它也像是一张时刻在预计算的表，创建的过程它是用了一个特殊引擎，加上后来 as select，就是 create一个table as select的写法。

“查询结果集”的范围很宽泛，可以是基础表中部分数据的一份简单拷贝，也可以是多表join之后产生的结果或其子集，或者原始数据的聚合指标等等。所以，物化视图不会随着基础表的变化而变化，所以它也称为快照（snapshot）。

优缺点

优点：查询速度快，要是把物化视图这些规则全部写好，它比原数据查询快了很多，总的行数少了，因为都预计算好了。

缺点：它的本质是一个流式数据的使用场景，是累加式的技术，所以如果要用历史数据做去重、去核这样的分析，在物化视图里面是不太好用的。在某些场景的使用也是有限的。而且如果一张表加了好多物化视图，在写这张表的时候，就会消耗很多机器的资源，比如数据带宽占满、存储一下子增加了很多。

基本语法

创建时会创建一个隐藏的目标表来保存视图数据。也可以TO表明，保存到一张显式的表。没有加TO表名，表名默认就是.inner.物化视图名。

CREATE MATERIALIZED VIEW [IF NOT EXISTS] [db.]table_name [ON CLUSTER] [TO[db.]name] [ENGINE = engine] [POPULATE] AS SELECT ...

[POPULATE]：添加之后，在创建视图时会遍历历史数据，会增加服务器负载，如果要历史数据，使用INSERT INTO写入数据。
在创建没有TO [db].[table]的物化视图时，您必须指定ENGINE- 用于存储数据的表引擎。
使用TO [db].[table]创建物化视图时，不得使用POPULATE.
物化视图的实现方式如下：向中指定的表中插入数据时，插入的SELECT部分数据通过该SELECT查询进行转换，并将结果插入到视图中。
查询语句可以包含下面的子句：DISTINCT , GROUP BY , ORDER BY , LIMIT……

准备数据

create table test_a_test(
	user_id UInt64,
	score String,
	deleted UInt8 DEFAULT 0,
	create_time Date
)ENGINE = MergeTree()
partition by toYYYYMM(create_time)
order by
(create_time,
intHash32(user_id))
sample by intHash32(user_id)
SETTINGS index_granularity = 8192;

insert
	into
	test_a_test
select
	*
FROM
	test_a
limit 10000;

创建视图

create materialized view test_mview
engine = SummingMergeTree
Partition by toYYYYMM(create_time)
order by
(create_time,
intHash32(user_id))
as
SELECT
	user_id,
	create_time,
	count(score),
	sum(deleted)
from
	test_a_test ta
WHERE
	create_time >= toDate(0)
group by user_id,create_time ;

show tables;
>>>结果
.inner_id.5bfba660-812e-49ec-885f-3fa63e16f2f4 -- 默认存储数据的表格
test_a
test_a_test
test_mview
view_test_a

插入数据

SELECT * from test_mview;-- 第一次查询结果为空

insert
	into
	test_a_test
select
	*
FROM
	test_a
limit 10;

SELECT * from test_mview;-- 插入后在查询有10条新增数据

select * from `.inner_id.068a0cde-c260-4fee-b902-c7f74cc4f194`; -- 自动创建的表中也有数据

导入历史数据（重点！！！）

insert
	into
	test_mview
-- 将物化视图的逻辑再写一遍
SELECT
	user_id,
	create_time,
	count(score),
	sum(deleted)
from
	test_a_test ta
WHERE
	create_time >= toDate(0)
group by user_id,create_time ;

你可能感兴趣的:(学习笔记,clickhouse,学习)

情绪觉察日记第37天露露_e800
今天是家庭关系规划师的第二阶最后一天，慧萍老师帮我做了个案，帮我处理了埋在心底好多年的一份恐惧，并给了我深深的力量！这几天出来学习，爸妈过来婆家帮我带小孩，妈妈出于爱帮我收拾东西，并跟我先生和婆婆产生矛盾，妈妈觉得他们没有照顾好我…。今晚回家见到妈妈，我很欣赏她并赞扬她，妈妈说今晚要跟我睡我说好，当我们俩躺在床上准备睡觉的时候，我握着妈妈的手对她说:妈妈这几天辛苦你了，你看你多利害把我们的家收拾得
机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
铭刻于星（四十二）随风至
69夜晚，绍敏同学做完功课后，看了眼房外，没听到动静才敢从书包的夹层里拿出那个心形纸团。折痕压得很深，都有些旧了，想来是已经写好很久了。绍敏同学慢慢地、轻轻地捏开折叠处，待到全部拆开后，又反复抚平纸张，然后仔细地一字字默看。只是开头的三个字是第一次看到，让她心漏跳了几拍。“亲爱的绍敏：从四年级的时候，我就喜欢你了，但是我一直不敢说，怕影响你学习。六年级的时候听说有人跟你表白，你接受了，我很难过，但
UI学习——cell的复用和自定义cell Magnetic_h ui 学习
目录cell的复用手动（非注册）自动（注册）自定义cellcell的复用在iOS开发中，单元格复用是一种提高表格（UITableView）和集合视图（UICollectionView）滚动性能的技术。当一个UITableViewCell或UICollectionViewCell首次需要显示时，如果没有可复用的单元格，则视图会创建一个新的单元格。一旦这个单元格滚动出屏幕，它就不会被销毁。相反，它被添
学点心理知识，呵护孩子健康静候花开_7090
昨天听了华中师范大学教育管理学系副教授张玲老师的《哪里才是学生心理健康的最后庇护所，超越教育与技术的思考》的讲座。今天又重新学习了一遍，收获匪浅。张玲博士也注意到了当今社会上的孩子由于心理问题导致的自残、自杀及伤害他人等恶性事件。她向我们普及了一个重要的命题，她说心理健康的一些基本命题，我们与我们通常的一些教育命题是不同的，她还举了几个例子，让我们明白我们原来以为的健康并非心理学上的健康。比如如果
ArcGIS栅格计算器常见公式（赋值、0和空值的转换、补充栅格空值）研学随笔 arcgis 经验分享
我们在使用ArcGIS时通常经常用到栅格计算器，今天主要给大家介绍我日常中经常用到的几个公式，供大家参考学习。将特定值（-9999）赋值为0，例如-9999.Con("raster"==-9999,0,"raster")2.给空值赋予特定的值（如0）Con(IsNull("raster"),0,"raster")3.将特定的栅格值(如1)赋值为空值，其他保留原值SetNull("raster"==
【一起学Rust | 设计模式】习惯语法——使用借用类型作为参数、格式化拼接字符串、构造函数广龙宇一起学Rust #Rust设计模式 rust 设计模式开发语言
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、使用借用类型作为参数二、格式化拼接字符串三、使用构造函数总结前言Rust不是传统的面向对象编程语言，它的所有特性，使其独一无二。因此，学习特定于Rust的设计模式是必要的。本系列文章为作者学习《Rust设计模式》的学习笔记以及自己的见解。因此，本系列文章的结构也与此书的结构相同（后续可能会调成结构），基本上分为三个部分
回溯 Leetcode 332 重新安排行程 mmaerd Leetcode刷题学习记录 leetcode 算法职场和发展
重新安排行程Leetcode332学习记录自代码随想录给你一份航线列表tickets，其中tickets[i]=[fromi,toi]表示飞机出发和降落的机场地点。请你对该行程进行重新规划排序。所有这些机票都属于一个从JFK（肯尼迪国际机场）出发的先生，所以该行程必须从JFK开始。如果存在多种有效的行程，请你按字典排序返回最小的行程组合。例如，行程[“JFK”,“LGA”]与[“JFK”,“LGB
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
2019-12-22-22:30 涓涓1016
今天是冬至，写下我的日更，是因为这两天的学习真的是能量的满满，让我看到了自己，未来另外一种可能性，也让我看到了这两年这几年的过程中我所接受那些痛苦的来源。一切的根源和痛苦都来自于人生，家庭，而你的原生家庭，你的爸爸和妈妈，是因为你这个灵魂在那一刻选择他们作为你的爸爸和妈妈来的，所以你得接受他，你得接纳他，他就是因为他的存在而给你的学习和成长带来这些痛苦，那其实是你必然要经历的这个过程，当你去接纳的
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
四章-32-点要素的聚合彩云飘过
本文基于腾讯课堂老胡的课《跟我学Openlayers--基础实例详解》做的学习笔记，使用的openlayers5.3.xapi。源码见1032.html，对应的官网示例https://openlayers.org/en/latest/examples/cluster.htmlhttps://openlayers.org/en/latest/examples/earthquake-clusters.
GitHub上克隆项目 bigbig猩猩 github
从GitHub上克隆项目是一个简单且直接的过程，它允许你将远程仓库中的项目复制到你的本地计算机上，以便进行进一步的开发、测试或学习。以下是一个详细的步骤指南，帮助你从GitHub上克隆项目。一、准备工作1.安装Git在克隆GitHub项目之前，你需要在你的计算机上安装Git工具。Git是一个开源的分布式版本控制系统，用于跟踪和管理代码变更。你可以从Git的官方网站（https://git-scm.
HTML网页设计制作大作业（div+css）云南我的家乡旅游景点带文字滚动二挡起步 web前端期末大作业 web设计网页规划与设计 html css javascript dreamweaver 前端
Web前端开发技术描述网页设计题材，DIV+CSS布局制作,HTML+CSS网页设计期末课程大作业游景点介绍|旅游风景区|家乡介绍|等网站的设计与制作HTML期末大学生网页设计作业HTML：结构CSS：样式在操作方面上运用了html5和css3，采用了div+css结构、表单、超链接、浮动、绝对定位、相对定位、字体样式、引用视频等基础知识JavaScript：做与用户的交互行为文章目录前端学习路线
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
node.js学习小猿L node.js node.js 学习 vim
node.js学习实操及笔记温故node.js，node.js学习实操过程及笔记~node.js学习视频node.js官网node.js中文网实操笔记githubcsdn笔记为什么学node.js可以让别人访问我们编写的网页为后续的框架学习打下基础，三大框架vuereactangular离不开node.jsnode.js是什么官网：node.js是一个开源的、跨平台的运行JavaScript的运行
阶段总结反思轻争
马上就要进入10月份了，今天做一下前段时间的总结和反思。前段时间，日更、英语、健身、护肤坚持的比较好。阅读、书法坚持的不好。1.中间被迫停更半个多月，其余时间一直在坚持日更挑战。偶尔也有不想写的时候，就做一下摘抄。因为阅读（输入）没跟上来，所以写作（输出）质量有待进一步加强。2.英语做到了一周至少学习5天，每次不少于30分钟，但是小班课没有跟上更新速度，下一步要争取利用零碎时间补听小班课。3.减肥
ARM驱动学习之基础小知识 JT灬新一 ARM 嵌入式 arm开发学习
ARM驱动学习之基础小知识•sch原理图工程师工作内容–方案–元器件选型–采购（能不能买到，价格）–原理图（涉及到稳定性）•layout画板工程师–layout（封装、布局，布线，log）（涉及到稳定性）–焊接的一部分工作（调试阶段板子的焊接）•驱动工程师–驱动，原理图，layout三部分的交集容易发生矛盾•PCB研发流程介绍–方案，原理图(网表)–layout工程师（gerber文件）–PCB板
ARM驱动学习之5 LEDS驱动 JT灬新一嵌入式 C 底层 arm开发学习单片机
ARM驱动学习之5LEDS驱动知识点：•linuxGPIO申请函数和赋值函数–gpio_request–gpio_set_value•三星平台配置GPIO函数–s3c_gpio_cfgpin•GPIO配置输出模式的宏变量–S3C_GPIO_OUTPUT注意点：DRIVER_NAME和DEVICE_NAME匹配。实现步骤：1.加入需要的头文件：//Linux平台的gpio头文件#include//三
ARM驱动学习之4小结 JT灬新一嵌入式 C++arm开发学习 linux
ARM驱动学习之4小结#include#include#include#include#include#defineDEVICE_NAME"hello_ctl123"MODULE_LICENSE("DualBSD/GPL");MODULE_AUTHOR("TOPEET");staticlonghello_ioctl(structfile*file,unsignedintcmd,unsignedlo
展现思维导图魅力，不断挖掘人生宝藏思维导图讲师Mandy
第13期最强思维导图训练营已经结束一周了，但是我依旧是感觉所有学员还在努力的学习，这些学员中有教师、学生、白领、公务员、宝妈等等，只要你努力，只要你想改变自己，任何行业，任何岗位都可以参与进来，28天足以让你见成效，在这28天中，我们的学员不仅仅是收获了一枚毕业证，最重要的是让自己的思维方式得到升级，今天的你为自己投资，明天的你就会感谢你今天的付出，我们来听一听来自13期最强思维导图训练营优秀学员
2019-3-23晨间日记红红火火小耳朵
今天是什么日子起床：7点40就寝：23点半天气：有太阳，不过一会儿出来一会儿进去特别清爽的凉意，还蛮舒服的心情：小激动要给女朋友过生日啦纪念日：田田女士过生日任务清单昨日完成的任务，最重要的三件事：1.英语一对一2.运动计划3.认真护肤习惯养成：调整状态周目标·完成进度英语七天打卡（5/7）轻课阅读（87/180）音标课（25/30）读书（福尔摩斯一章）学习·信息·阅读#英语课#Cookingte
【华为OD技术面试真题精选 - 非技术题】 -HR面，综合面_华为od hr面一个射手座的程序媛程序员华为od 面试职场和发展
最后的话最近很多小伙伴找我要Linux学习资料，于是我翻箱倒柜，整理了一些优质资源，涵盖视频、电子书、PPT等共享给大家！资料预览给大家整理的视频资料：给大家整理的电子书资料：如果本文对你有帮助，欢迎点赞、收藏、转发给朋友，让我有持续创作的动力！网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化的资料的朋友，可以点击这里获
教育用心灵温暖心灵
@陈春丽长期学习班冯倩。今天一早就听到说高职合并，取消中专教育的教育信息。感觉是虽然知道，再听还是吓一跳。国家重视职业教育为何还要取消中专技术学校的教育？再听高中就要进行技术教育了，一部分人学习好继续努力学习考大学，一部分人在高中就可以进行职业教育接受职业教育了还要中专技术教育学校干什么呢！a有些职业教育学校转型升级快，不是孩子上完给找工作，而是学校帮孩子创业，我觉得是不错的方向！新闻新你得实时更
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
学习“论语”-第59天春峰轩
12.14子张问政。子曰：“居之无倦，行之以忠。”子张问为政之道。孔子说：“在位尽职不懈怠，执行政令要忠诚。”12.15子曰：“博学于文，约之以礼，亦可以弗畔矣夫！”孔子说：“君子广泛地学习文献，并且用礼节约束自己，也就不会离经叛道了。”12.16子曰：“君子成人之美，不成人之恶。小人反是。”孔子说：“君子成全别人的好事，而不助长别人的坏处。小人则与此相反行事。”知识点:“成人之美，不成人之恶”贯
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
《Python数据分析实战终极指南》 xjt921122 python 数据分析开发语言
对于分析师来说，大家在学习Python数据分析的路上，多多少少都遇到过很多大坑**，有关于技能和思维的**：Excel已经没办法处理现有的数据量了，应该学Python吗？找了一大堆Python和Pandas的资料来学习，为什么自己动手就懵了？跟着比赛类公开数据分析案例练了很久，为什么当自己面对数据需求还是只会数据处理而没有分析思路？学了对比、细分、聚类分析，也会用PEST、波特五力这类分析法，为啥
2019-01-19 王小康KK
姓名:王康公司:扬州市方圆建筑工程有限公司2018年3月16日～3月18日上海361期《六项精进》感谢二组学员【日精进打卡第307天】【知～学习】《六项精进》大纲3遍共862遍《大学》通篇3遍共860遍《六项精进》全书40页【经典名句】思想决定行为，行为决定习惯，习惯决定性格，性格决定命运。【行～实践】一、修身：（对自己个人）1、践行六项精进的理念。二、齐家：（对家庭和家人）1、和女朋友视频聊天。
ViewController添加button按钮解析。（翻译）张亚雄 c
<div class="it610-blog-content-contain" style="font-size: 14px"></div>// ViewController.m // Reservation software // // Created by 张亚雄 on 15/6/2.
mongoDB 简单的增删改查开窍的石头 mongodb
在上一篇文章中我们已经讲了mongodb怎么安装和数据库/表的创建。在这里我们讲mongoDB的数据库操作在mongo中对于不存在的表当你用db.表名他会自动统计下边用到的user是表明，db代表的是数据库添加(insert):
log4j配置 0624chenhong log4j
1) 新建java项目 2) 导入jar包，项目右击，properties—java build path—libraries—Add External jar，加入log4j.jar包。 3) 新建一个类com.hand.Log4jTest package com.hand; import org.apache.log4j.Logger; public class
多点触摸(图片缩放为例) 不懂事的小屁孩多点触摸
多点触摸的事件跟单点是大同小异的，上个图片缩放的代码，供大家参考一下 import android.app.Activity; import android.os.Bundle; import android.view.MotionEvent; import android.view.View; import android.view.View.OnTouchListener
有关浏览器窗口宽度高度几个值的解析换个号韩国红果果 JavaScript html
1 元素的 offsetWidth 包括border padding content 整体的宽度。 clientWidth 只包括内容区 padding 不包括border。 clientLeft = offsetWidth -clientWidth 即这个元素border的值 offsetLeft 若无已定位的包裹元素
数据库产品巡礼：IBM DB2概览蓝儿唯美 db2
IBM DB2是一个支持了NoSQL功能的关系数据库管理系统，其包含了对XML，图像存储和Java脚本对象表示（JSON）的支持。DB2可被各种类型的企业使用，它提供了一个数据平台，同时支持事务和分析操作，通过提供持续的数据流来保持事务工作流和分析操作的高效性。 DB2支持的操作系统 DB2可应用于以下三个主要的平台: 工作站，DB2可在Linus、Unix、Windo
java笔记5 a-john java
控制执行流程： 1，true和false 利用条件表达式的真或假来决定执行路径。例：（a==b）。它利用条件操作符“==”来判断a值是否等于b值，返回true或false。java不允许我们将一个数字作为布尔值使用，虽然这在C和C++里是允许的。如果想在布尔测试中使用一个非布尔值，那么首先必须用一个条件表达式将其转化成布尔值，例如if(a!=0)。 2，if-els
Web开发常用手册汇总 aijuans PHP
一门技术，如果没有好的参考手册指导,很难普及大众。这其实就是为什么很多技术，非常好，却得不到普遍运用的原因。正如我们学习一门技术，过程大概是这个样子： ①我们日常工作中，遇到了问题，困难。寻找解决方案，即寻找新的技术； ②为什么要学习这门技术？这门技术是不是很好的解决了我们遇到的难题，困惑。这个问题，非常重要，我们不是为了学习技术而学习技术，而是为了更好的处理我们遇到的问题，才需要学习新的
今天帮助人解决的一个sql问题 asialee sql
今天有个人问了一个问题，如下： type AD value A
意图对象传递数据百合不是茶 android 意图Intent Bundle对象数据的传递
学习意图将数据传递给目标活动; 初学者需要好好研究的 1,将下面的代码添加到main.xml中 <?xml version="1.0" encoding="utf-8"?> <LinearLayout xmlns:android="http:/
oracle查询锁表解锁语句 bijian1013 oracle object session kill
一.查询锁定的表如下语句，都可以查询锁定的表语句一： select a.sid, a.serial#, p.spid, c.object_name, b.session_id, b.oracle_username, b.os_user_name from v$process p, v$s
mac osx 10.10 下安装 mysql 5.6 二进制文件［tar.gz］征客丶 mysql osx
场景：在 mac osx 10.10 下安装 mysql 5.6 的二进制文件。环境：mac osx 10.10、mysql 5.6 的二进制文件步骤：[所有目录请从根“/”目录开始取，以免层级弄错导致找不到目录] 1、下载 mysql 5.6 的二进制文件，下载目录下面称之为 mysql5.6SourceDir；下载地址：http://dev.mysql.com/downl
分布式系统与框架 bit1129 分布式
RPC框架 Dubbo 什么是Dubbo Dubbo是一个分布式服务框架，致力于提供高性能和透明化的RPC远程服务调用方案，以及SOA服务治理方案。其核心部分包含: 远程通讯: 提供对多种基于长连接的NIO框架抽象封装，包括多种线程模型，序列化，以及“请求-响应”模式的信息交换方式。集群容错: 提供基于接
那些令人蛋痛的专业术语白糖_ spring Web SSO IOC
spring 【控制反转(IOC)/依赖注入(DI)】：由容器控制程序之间的关系，而非传统实现中，由程序代码直接操控。这也就是所谓“控制反转”的概念所在：控制权由应用代码中转到了外部容器，控制权的转移，是所谓反转。简单的说：对象的创建又容器(比如spring容器)来执行，程序里不直接new对象。 Web 【单点登录(SSO)】：SSO的定义是在多个应用系统中，用户
《给大忙人看的java8》摘抄 braveCS java8
函数式接口：只包含一个抽象方法的接口 lambda表达式：是一段可以传递的代码你最好将一个lambda表达式想象成一个函数，而不是一个对象，并记住它可以被转换为一个函数式接口。事实上，函数式接口的转换是你在Java中使用lambda表达式能做的唯一一件事。方法引用：又是要传递给其他代码的操作已经有实现的方法了，这时可以使
编程之美-计算字符串的相似度 bylijinnan java 算法编程之美
public class StringDistance { /** * 编程之美计算字符串的相似度 * 我们定义一套操作方法来把两个不相同的字符串变得相同，具体的操作方法为： * 1.修改一个字符（如把“a”替换为“b”）; * 2.增加一个字符（如把“abdd”变为“aebdd”）; * 3.删除一个字符（如把“travelling”变为“trav
上传、下载压缩图片 chengxuyuancsdn 下载
/** * * @param uploadImage --本地路径(tomacat路径) * @param serverDir --服务器路径 * @param imageType --文件或图片类型 * 此方法可以上传文件或图片.txt,.jpg,.gif等 */ public void upload(String uploadImage,Str
bellman-ford(贝尔曼-福特)算法 comsci 算法 F#
Bellman-Ford算法(根据发明者 Richard Bellman 和 Lester Ford 命名)是求解单源最短路径问题的一种算法。单源点的最短路径问题是指：给定一个加权有向图G和源点s，对于图G中的任意一点v，求从s到v的最短路径。有时候这种算法也被称为 Moore-Bellman-Ford 算法，因为 Edward F. Moore zu 也为这个算法的发展做出了贡献。与迪科
oracle ASM中ASM_POWER_LIMIT参数 daizj ASM oracle ASM_POWER_LIMIT 磁盘平衡
ASM_POWER_LIMIT 该初始化参数用于指定ASM例程平衡磁盘所用的最大权值，其数值范围为0~11，默认值为1。该初始化参数是动态参数，可以使用ALTER SESSION或ALTER SYSTEM命令进行修改。示例如下： SQL>ALTER SESSION SET Asm_power_limit=2;
高级排序:快速排序 dieslrae 快速排序
public void quickSort(int[] array){ this.quickSort(array, 0, array.length - 1); } public void quickSort(int[] array,int left,int right){ if(right - left <= 0
C语言学习六指针_何谓变量的地址一个指针变量到底占几个字节 dcj3sjt126com C语言
# include <stdio.h> int main(void) { /* 1、一个变量的地址只用第一个字节表示 2、虽然他只使用了第一个字节表示，但是他本身指针变量类型就可以确定出他指向的指针变量占几个字节了 3、他都只存了第一个字节地址，为什么只需要存一个字节的地址，却占了4个字节，虽然只有一个字节，但是这些字节比较多，所以编号就比较大，
phpize使用方法 dcj3sjt126com PHP
phpize是用来扩展php扩展模块的，通过phpize可以建立php的外挂模块,下面介绍一个它的使用方法,需要的朋友可以参考下安装（fastcgi模式）的时候，常常有这样一句命令：代码如下: /usr/local/webserver/php/bin/phpize 一、phpize是干嘛的？ phpize是什么？ phpize是用来扩展php扩展模块的，通过phpi
Java虚拟机学习 - 对象引用强度 shuizhaosi888 JAVA虚拟机
本文原文链接：http://blog.csdn.net/java2000_wl/article/details/8090276 转载请注明出处！无论是通过计数算法判断对象的引用数量，还是通过根搜索算法判断对象引用链是否可达，判定对象是否存活都与“引用”相关。引用主要分为：强引用(Strong Reference)、软引用(Soft Reference)、弱引用(Wea
.NET Framework 3.5 Service Pack 1（完整软件包）下载地址 happyqing .net 下载 framework
Microsoft .NET Framework 3.5 Service Pack 1（完整软件包） http://www.microsoft.com/zh-cn/download/details.aspx?id=25150 Microsoft .NET Framework 3.5 Service Pack 1 是一个累积更新，包含很多基于 .NET Framewo
JAVA定时器的使用 jingjing0907 java timer 线程定时器
1、在应用开发中，经常需要一些周期性的操作，比如每5分钟执行某一操作等。对于这样的操作最方便、高效的实现方式就是使用java.util.Timer工具类。 privatejava.util.Timer timer; timer = newTimer(true); timer.schedule( newjava.util.TimerTask() { public void run()
Webbench 流浪鱼 webbench
首页下载地址 http://home.tiscali.cz/~cz210552/webbench.html Webbench是知名的网站压力测试工具，它是由Lionbridge公司（http://www.lionbridge.com）开发。 Webbench能测试处在相同硬件上，不同服务的性能以及不同硬件上同一个服务的运行状况。webbench的标准测试可以向我们展示服务器的两项内容：每秒钟相
第11章动画效果（中） onestopweb 动画
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
windows下制作bat启动脚本. sanyecao2314 java cmd 脚本 bat
java -classpath C:\dwjj\commons-dbcp.jar;C:\dwjj\commons-pool.jar;C:\dwjj\log4j-1.2.16.jar;C:\dwjj\poi-3.9-20121203.jar;C:\dwjj\sqljdbc4.jar;C:\dwjj\voucherimp.jar com.citsamex.core.startup.MainStart
Java进行RSA加解密的例子 tomcat_oracle java
加密是保证数据安全的手段之一。加密是将纯文本数据转换为难以理解的密文；解密是将密文转换回纯文本。　　数据的加解密属于密码学的范畴。通常，加密和解密都需要使用一些秘密信息，这些秘密信息叫做密钥，将纯文本转为密文或者转回的时候都要用到这些密钥。　　对称加密指的是发送者和接收者共用同一个密钥的加解密方法。　　非对称加密(又称公钥加密)指的是需要一个私有密钥一个公开密钥，两个不同的密钥的
Android_ViewStub 阿尔萨斯 ViewStub
public final class ViewStub extends View java.lang.Object android.view.View android.view.ViewStub 类摘要： ViewStub 是一个隐藏的，不占用内存空间的视图对象，它可以在运行时延迟加载布局资源文件。当 ViewSt