斗志昂-杨

ClickHouse从入门到精通（三）

文章目录

ClickHouse从入门到精通（三）
- ClickHouse 高级篇
- - Explain 查看执行计划
  - - 1. 基本语法
    - 2. 使用
  - 建表优化
  - - 1. 数据类型
    - - 时间字段类型
      - 空值存储类型
    - 2. 分区和索引
    - 3. 表参数
    - 4. 写入和删除优化
    - 5. 常见配置
  - ClickHouse 语法优化规则
  - - 0. 准备测试表
    - 1. count 优化
    - 2. 消除子查询重复字段
    - 3. 谓词下推
    - 4. 聚合计算外推
    - 5. 聚合函数消除
    - 6. 删除重复的 order by key
    - 7. 删除重复的 limit by key
    - 8. 删除重复的 using key
    - 9. 标量替换
    - 10. 三元运算优化
  - 查询优化
  - - 1. 单表查询
    - - prewhere替代where
      - 数据采样
      - 列裁剪与分区裁剪
      - order by 结合 where、limit
      - 避免构建虚拟列
      - uniqCombined 替代 distinct
      - 使用物化视图
      - 其它注意事项
    - 2. 多表关联
    - - 用 IN 代替 JOIN
      - 大小表 JOIN
      - 注意谓词下推(版本差异)
      - 分布式表使用 global
      - 使用字典表
      - 提前过滤

ClickHouse从入门到精通（三）

ClickHouse 高级篇

Explain 查看执行计划

在 clickhouse 20.6 版本之前要查看 SQL 语句的执行计划需要设置日志级别为 trace 才能可以看到，并且只能真正执行 sql，在执行日志里面查看。在 20.6 版本引入了原生的执行计划的语法。在 20.6.3 版本成为正式版本的功能。
Demo 使用：https://play.clickhouse.com/play?user=play
本文档基于当前最新版本 22.3.3.44

1. 基本语法

EXPLAIN [AST | SYNTAX | PLAN | PIPELINE | TABLE OVERRIDE] [setting = value, ...]
    [
      SELECT ... |
      tableFunction(...) [COLUMNS (...)] [ORDER BY ...] [PARTITION BY ...] [PRIMARY KEY] [SAMPLE BY ...] [TTL ...]
    ]
    [FORMAT ...]

举个

2. 使用

AST：用于查看语法树。支持所有类型的查询，不仅仅是 select

EXPLAIN AST SELECT 1;

┌─explain───────────────────────────┐
│ SelectWithUnionQuery (children 1) │
│  ExpressionList (children 1)      │
│   SelectQuery (children 1)        │
│    ExpressionList (children 1)    │
│     Literal UInt64_1              │
└───────────────────────────────────┘

EXPLAIN AST ALTER TABLE t1 DELETE WHERE date = today();
┌─explain────────────────────────────┐
│ AlterQuery  t1 (children 2)        │
│  ExpressionList (children 1)       │
│   AlterCommand DELETE (children 1) │
│    Function equals (children 1)    │
│     ExpressionList (children 2)    │
│      Identifier date               │
│      Function today (children 1)   │
│       ExpressionList               │
│  Identifier t1                     │
└────────────────────────────────────┘

SYNTAX：用于优化语法。

EXPLAIN SYNTAX SELECT * FROM system.numbers AS a, system.numbers AS b, system.numbers AS c;

┌─explain────────────────────────────┐
│ SELECT                             │
│     `--a.number` AS `a.number`,    │
│     `--b.number` AS `b.number`,    │
│     number AS `c.number`           │
│ FROM                               │
│ (                                  │
│     SELECT                         │
│         number AS `--a.number`,    │
│         b.number AS `--b.number`   │
│     FROM system.numbers AS a       │
│     CROSS JOIN system.numbers AS b │
│ ) AS `--.s`                        │
│ CROSS JOIN system.numbers AS c     │
└────────────────────────────────────┘

PLAN：用于查看执行计划，默认值。
- header：打印计划中各个步骤的 header 说明，默认值 0 关闭。
- description：打印计划中各个步骤的描述，默认值 1 开启。
- indexes：显示已使用的索引、已过滤部分的数量以及应用的每个索引的已过滤颗粒的数量。默认值 0 关闭。支持合并树表。
- actions：打印计划中各个步骤的详细信息，默认值 0 关闭。
- json：以JSON格式将查询计划步骤打印为一行，默认值 0 关闭。建议使用 TSVRaw 格式，以避免不必要的转义。

EXPLAIN SELECT sum(number) FROM numbers(10) GROUP BY number % 4;

┌─explain───────────────────────────────────────────────────────────────────────┐
│ Expression ((Projection + Before ORDER BY))                                   │
│   Aggregating                                                                 │
│     Expression (Before GROUP BY)                                              │
│       SettingQuotaAndLimits (Set limits and quota after reading from storage) │
│         ReadFromStorage (SystemNumbers)                                       │
└───────────────────────────────────────────────────────────────────────────────┘

PIPELINE：用于查看 PIPELINE 计划
- header：打印计划中各个步骤的 header 说明，默认值 0 关闭。
- graph：用 DOT 图形语言描述管道图，默认关闭，需要查看相关的图形需要配合 graphviz 查看。
- compact：如果开启了 graph，紧凑打印打，默认开启。

EXPLAIN PIPELINE SELECT sum(number) FROM numbers_mt(100000) GROUP BY number % 4;

┌─explain───────────────────────┐
│ (Expression)                  │
│ ExpressionTransform           │
│   (Aggregating)               │
│   AggregatingTransform        │
│     (Expression)              │
│     ExpressionTransform       │
│       (SettingQuotaAndLimits) │
│         (ReadFromStorage)     │
│         Limit                 │
│           Numbers 0 → 1       │
└───────────────────────────────┘

ESTIMATE：显示处理查询时要从表中读取的估计行数、标记数和分区数。使用MergeTree族中的表。

-- 创建表
CREATE TABLE ttt (i Int64) ENGINE = MergeTree() ORDER BY i SETTINGS index_granularity = 16, write_final_mark = 0;
-- 插入数据
INSERT INTO ttt SELECT number FROM numbers(128);
-- 优化表
OPTIMIZE TABLE ttt;

EXPLAIN ESTIMATE SELECT * FROM ttt;

┌─database─┬─table─┬─parts─┬─rows─┬─marks─┐
│ test     │ ttt   │     1 │  128 │     8 │
└──────────┴───────┴───────┴──────┴───────┘

TABLE OVERRIDE：显示通过表函数访问的表结构上的表重写的结果。进行一些验证，如果重写会导致某种失败，则会引发异常。

-- 在远程 MySQL 创建表
CREATE TABLE test.tbl (
    id INT PRIMARY KEY,
    created DATETIME DEFAULT now()
);

EXPLAIN TABLE OVERRIDE mysql('127.0.0.1:3306', 'test', 'tbl2', 'root', '123456')
PARTITION BY toYYYYMM(assumeNotNull(created));

┌─explain─────────────────────────────────────────────────┐
│ PARTITION BY uses columns: `created` Nullable(DateTime) │
└─────────────────────────────────────────────────────────┘

建表优化

1. 数据类型

时间字段类型

建表时能用数值型或日期时间型表示的字段就不要用字符串，全 String 类型在以 Hive 为中心的数仓建设中常见，但 ClickHouse 环境不应受此影响。
虽然 ClickHouse 底层将 DateTime 存储为时间戳 Long 类型，但不建议存储 Long 类型，因为 DateTime 不需要经过函数转换处理，执行效率高、可读性好。

create table t_type (
    id UInt32,
    sku_id String,
    total_amount Decimal(16,2),
    create_time Int32 
) engine = ReplacingMergeTree(create_time)
partition by toYYYYMMDD(toDate(create_time)) -- 需要转换一次，否则报错
primary key (id)
order by (id, sku_id);

空值存储类型

官方已经指出 Nullable 类型几乎总是会拖累性能，因为存储 Nullable 列时需要创建一个额外的文件来存储 NULL 的标记，并且 Nullable 列无法被索引。因此除非极特殊情况，应直接使用字段默认值表示空，或者自行指定一个在业务中无意义的值（例如用-1 表示没有商品ID）。

-- 创建表
CREATE TABLE t_null(x Int8, y Nullable(Int8)) ENGINE TinyLog;
-- 插入数据
INSERT INTO t_null VALUES (1, NULL), (2, 3);
-- 查询
SELECT x + y FROM t_null;

官网说明：https://clickhouse.com/docs/zh/sql-reference/data-types/nullable/

2. 分区和索引

分区粒度根据业务特点决定，不宜过粗或过细。一般选择按天分区，也可以指定为 Tuple()，以单表一亿数据为例，分区大小控制在 10-30 个为最佳。
必须指定索引列，ClickHouse 中的索引列即排序列，通过 order by 指定，一般在查询条件中经常被用来充当筛选条件的属性被纳入进来；
可以是单一维度，也可以是组合维度的索引；
通常需要满足高级列在前、查询频率大的在前原则；
基数特别大的不适合做索引列，如主键ID、用户表的 userid 字段；
通常筛选后的数据满足在百万以内为最佳。

-- 官方案例 hits_v1 表
...
PARTTION BY toYYYYMM(EventDate)
ORDER BY (CounterID, EventDate, intHash32(UserID))
...
-- 官方案例 visits_v1 表
...
PARTTION BY toYYYYMM(StartDate)
ORDER BY (CounterID, StartDate, intHash32(UserID), VisitID)
...

3. 表参数

Index_granularity 是用来控制索引粒度的，默认是 8192，如非必须不建议调整。
如果表中不是必须保留全量历史数据，建议指定 TTL（生存时间值），可以免去手动过期历史数据的麻烦，TTL 也可以通过 alter table 语句随时修改。

4. 写入和删除优化

尽量不要执行单条或小批量删除和插入操作，这样会产生小分区文件，给后台Merge 任务带来巨大压力。
不要一次写入太多分区，或数据写入太快，数据写入太快会导致 Merge 速度跟不上而报错，一般建议每秒钟发起 2-3 次写入操作，每次操作写入 2w~5w 条数据（依服务器性能而定）。

写入过快报错，报错信息

\1. Code: 252, e.displayText() = DB::Exception: Too many parts(304). Merges are processing significantly slower than inserts

\2. Code: 241, e.displayText() = DB::Exception: Memory limit (for query) exceeded:would use 9.37 GiB (attempt to allocate chunk of 301989888 bytes), maximum: 9.31 GiB

”Too many parts“处理：
- 使用 WAL 预写日志(in_memory_parts_enable_wal 默认开启)，提高写入性能；
”Memory limit“处理：
- 在服务器内存充裕的情况下增加内存配额，一般通过 max_memory_usage 来实现；
- 在服务器内存不充裕的情况下，建议将超出部分内容分配到系统硬盘上，但会降低执行速度，一般通过 max_bytes_before_external_group_by、max_bytes_before_external_sort 参数来实现。

5. 常见配置

配置项主要在 config.xml 或 users.xml 中，基本上都在 users.xml 里
config.xml 配置项：https://clickhouse.com/docs/en/operations/server-configuration-parameters/settings/
user.xml 配置项：https://clickhouse.com/docs/en/operations/settings/settings/
CPU 资源：

配置	描述
background_pool_size	后台线程池的大小，merge 线程就是在该线程池中执行，该线程池不仅仅是给 merge 线程用的，默认值 16，建议改成 cpu 个数的 2 倍(线程数)。
background_schedule_pool_size	执行后台任务（复制表、Kafka 流、DNS 缓存更新）的线程数。默认 128，建议改成 cpu 个数的 2 倍(线程数)。
background_distributed_schedule_pool_size	设置为分布式发送执行后台任务的线程数，默认 16，建议改成 cpu 个数的 2 倍(线程数)。
max_concurrent_queries	最大并发处理的请求数(包含 select,insert 等)，默认值 100，推荐 150(不够再加)~300。
max_threads	设置单个查询所能使用的最大 cpu 个数，默认是 cpu 核数。

内存资源：

配置	描述
max_memory_usage	此参数在 users.xml 中，表示单次 Query 占用内存最大值，该值可以设置的比较大，这样可以提升集群查询的上限。保留一点给 OS，比如 128G 内存的机器，设置为 100GB。
max_bytes_before_external_group_by	一般按照 max_memory_usage 的一半设置内存，当 group 使用内存超过阈值后会刷新到磁盘进行。因为 clickhouse 聚合分两个阶段：查询并及建立中间数据、合并中间数据，结合上一项，建议 50GB。
max_bytes_before_external_sort	当 order by 已使用 max_bytes_before_external_sort 内存就进行溢写磁盘(基于磁盘排序)，如果不设置该值，那么当内存不够时直接抛错，设置了该值 order by 可以正常完成，但是速度相对存内存来说肯定要慢点(实测慢的非常多，无法接受)。
max_table_size_to_drop	此参数在 config.xml 中，应用于需要删除表或分区的情况，默认是50GB，意思是如果删除 50GB 以上的分区表会失败。建议修改为 0，这样不管多大的分区表都可以删除。

存储：ClickHouse 不支持设置多数据目录，为了提升数据 io 性能，可以挂载虚拟券组，一个券组绑定多块物理磁盘提升读写性能，多数据查询场景 SSD 会比普通机械硬盘快 2-3 倍。

ClickHouse 语法优化规则

ClickHouse 的 SQL 优化规则是基于 RBO(Rule Based Optimization)，下面是一些优化规则

0. 准备测试表

下载官方测试数据集到 node01，并解压到 clickhouse 数据目录下

# 下载
wget https://datasets.clickhouse.com/hits/partitions/hits_v1.tar
wget https://datasets.clickhouse.com/visits/partitions/visits_v1.tar

# 解压缩
tar -xvf hits_v1.tar -C /var/lib/clickhouse
tar -xvf visits_v1.tar -C /var/lib/clickhouse

# 修改所属用户
chown -R clickhouse:clickhouse /var/lib/clickhouse/data/datasets
chown -R clickhouse:clickhouse /var/lib/clickhouse/metadata/datasets

重启 clickhouse-server，并执行查询：

clickhouse-client --password 123456 --query "select count(*), (select count(*) from system.columns where database = 'datasets' and table = 'hits_v1') from datasets.hits_v1"
clickhouse-client --password 123456 --query "select count(*), (select count(*) from system.columns where database = 'datasets' and table = 'visits_v1') from datasets.visits_v1"

官方的 tar 包，包含了建库、建表语句、数据内容，这种方式不需要手动建库、建表，最方便。

hits_v1 表有 133 个字段，880 多万条数据；visits_v1 表有 181 个字段，160 多万条数据。

1. count 优化

在调用 count 函数时，如果使用的是 count() 或者 count(*)，且没有 where 条件，则会直接使用 system.tables 的 total_rows，如果 count 具体的列字段，则不会使用此项优化。

2. 消除子查询重复字段

下面语句子查询中有两个重复的 id 字段，会被去重

explain syntax select a.UserID, b.VisitID, a.URL, b.UserID from hits_v1 as a left join (select UserID, UserID as uId, VisitID from visits_v1) as b using (UserID) limit 3;

-- 返回优化语句
┌─explain───────────────┐
│ SELECT                │
│     UserID,           │
│     VisitID,          │
│     URL,              │
│     b.UserID          │
│ FROM hits_v1 AS a     │
│ ALL LEFT JOIN         │
│ (                     │
│     SELECT            │
│         UserID,       │
│         VisitID       │
│     FROM visits_v1    │
│ ) AS b USING (UserID) │
│ LIMIT 3               │
└───────────────────────┘

3. 谓词下推

当 group by 有 having 子句，但是没有 with cube、with rollup 或者 with totals 修饰的时候，having 过滤会下推到 where 提前过滤。例如下面的查询，HAVING name 变成了 WHERE name，在 group by 之前过滤。

explain syntax select UserID from hits_v1 group by UserID having UserID = '8585742290196126178';

子查询也支持谓词下推：

explain syntax select * from (select UserID from visits_v1) where UserID = '8585742290196126178';

再来一个复杂的例子：

explain syntax select * from (
    select * from (select UserID from visits_v1)
    union all
    select * from (select UserID from visits_v1)
) where UserID = '8585742290196126178';

4. 聚合计算外推

聚合函数内的计算，会外推

explain syntax select sum(UserID * 2) from visits_v1;

-- 优化后的语句
┌─explain────────────────┐
│ SELECT sum(UserID) * 2 │
│ FROM visits_v1         │
└────────────────────────┘

5. 聚合函数消除

如果对聚合键，也就是 group by key 使用 min、max、any 聚合函数，则将函数消除。

explain syntax select sum(UserID * 2), max(VisitID), max(UserID) from visits_v1 group by UserID;

-- 优化后的语句
┌─explain──────────────┐
│ SELECT               │
│     sum(UserID) * 2, │
│     max(VisitID),    │
│     UserID           │
│ FROM visits_v1       │
│ GROUP BY UserID      │
└──────────────────────┘

6. 删除重复的 order by key

重复的聚合键 id 字段会被去重

explain syntax select * from visits_v1 order by UserID asc, UserID asc, VisitID asc, VisitID asc;

-- 优化后的语句
┌─explain───────────────────────────────────┐
│ SELECT                                    │
│     ......                                │
│ FROM visits_v1                            │
│ ORDER BY                                  │
│     UserID ASC,                           │
│     VisitID ASC                           │
└───────────────────────────────────────────┘

7. 删除重复的 limit by key

重复声明的 name 字段会被去重

explain syntax select * from visits_v1 limit 3 by VisitID, VisitID limit 10;

-- 优化后的语句
┌─explain───────────────────────────────────┐
│ SELECT                                    │
│     ......                                │
│ FROM visits_v1                            │
│ LIMIT 3 BY VisitID                        │
│ LIMIT 10                                  │
└───────────────────────────────────────────┘

8. 删除重复的 using key

重复的关联键 id 字段会被去重

explain syntax select a.UserID, a.UserID, b.VisitID, a.URL, b.UserID from hits_v1 as a left join visits_v1 as b using(UserID, UserID);

-- 优化后的语句

┌─explain─────────────────────────────────────┐
│ SELECT                                      │
│     UserID,                                 │
│     UserID,                                 │
│     VisitID,                                │
│     URL,                                    │
│     b.UserID                                │
│ FROM hits_v1 AS a                           │
│ ALL LEFT JOIN visits_v1 AS b USING (UserID) │
└─────────────────────────────────────────────┘

9. 标量替换

如果子查询只返回一行数据，在被引用的时候用标量替换，例如下面语句中的 total_disk_usage 字段：

-- 统计各个表使用disk的情况
explain syntax with (select sum(bytes) from system.parts where active) as total_disk_usage
select (sum(bytes) / total_disk_usage) * 100 as table_disk_usage, table from system.parts group by table order by table_disk_usage desc limit 10;

-- 优化后的语句
┌─explain─────────────────────────────────────────────────────────────────────────┐
│ WITH identity(_CAST(0, 'Nullable(UInt64)')) AS total_disk_usage                 │
│ SELECT                                                                          │
│     (sum(bytes_on_disk AS bytes) / total_disk_usage) * 100 AS table_disk_usage, │
│     table                                                                       │
│ FROM system.parts                                                               │
│ GROUP BY table                                                                  │
│ ORDER BY table_disk_usage DESC                                                  │
│ LIMIT 10                                                                        │
└─────────────────────────────────────────────────────────────────────────────────┘

10. 三元运算优化

如果开启了 optimize_if_chain_to_multiif 参数，三元运算符会被替换成 multiIf 函数，例如：

explain syntax select number = 1 ? 'hello' : (number = 2 ? 'world' : 'hehe') from numbers(10) settings optimize_if_chain_to_multiif = 1;

-- 优化后的语句
┌─explain──────────────────────────────────────────────────────────┐
│ SELECT multiIf(number = 1, 'hello', number = 2, 'world', 'hehe') │
│ FROM numbers(10)                                                 │
│ SETTINGS optimize_if_chain_to_multiif = 1                        │
└──────────────────────────────────────────────────────────────────┘

查询优化

1. 单表查询

prewhere替代where

prewhere 和 where 语句的作用相同，都是用来过滤数据。不同之处在于 prewhere 只支持 *MergeTree 族系列引擎的表，首先会读取指定的列数据，来判断数据过滤，等待数据过滤之后再读取 select 声明的列字段来补全其余属性。
当查询列明显多于筛选列时使用 prewhere 可十倍提升查询性能，prewhere 会自动优化执行过滤阶段的数据读取方式，降低 io 操作。
在某些场合下，prewhere 语句比 where 语句处理的数据量更少性能更高。
默认情况下， where 条件会自动优化成 prewhere。

-- 为了演示对比，先关闭 where 自动转 prewhere 
set optimize_move_to_prewhere = 0;

-- 使用 where
select WatchID, 
    JavaEnable, 
    Title, 
    GoodEvent, 
    EventTime, 
    EventDate, 
    CounterID, 
    ClientIP, 
    ClientIP6, 
    RegionID, 
    UserID, 
    CounterClass, 
    OS, 
    UserAgent, 
    URL, 
    Referer, 
    URLDomain, 
    RefererDomain, 
    Refresh, 
    IsRobot, 
    RefererCategories, 
    URLCategories, 
    URLRegions, 
    RefererRegions, 
    ResolutionWidth, 
    ResolutionHeight, 
    ResolutionDepth, 
    FlashMajor, 
    FlashMinor, 
    FlashMinor2
from datasets.hits_v1 where UserID='3198390223272470366';

-- 使用 prewhere 关键字
select WatchID, 
    JavaEnable, 
    Title, 
    GoodEvent, 
    EventTime, 
    EventDate, 
    CounterID, 
    ClientIP, 
    ClientIP6, 
    RegionID, 
    UserID, 
    CounterClass, 
    OS, 
    UserAgent, 
    URL, 
    Referer, 
    URLDomain, 
    RefererDomain, 
    Refresh, 
    IsRobot, 
    RefererCategories, 
    URLCategories, 
    URLRegions, 
    RefererRegions, 
    ResolutionWidth, 
    ResolutionHeight, 
    ResolutionDepth, 
    FlashMajor, 
    FlashMinor, 
    FlashMinor2
from datasets.hits_v1 prewhere UserID='3198390223272470366';

默认情况，我们肯定不会关闭 where 自动优化成 prewhere，但是某些场景即使开启优化，也不会自动转换成 prewhere，需要手动指定 prewhere：
- 使用常量表达式；
- 使用默认值为 alias 类型的字段；
- 包含了 arrayJoin、globalIn、globalNotIn 或 indexHint 的查询；
- select 查询的列字段和 where 的谓词相同；
```
select UserID from datasets.hits_v1 where UserID = '3198390223272470366';
```
- 使用了主键字段。

数据采样

有时候一些统计不要求完全的精准度，通过采样运算可极大提升数据分析的性能

select Title, count(*) as PageViews from hits_v1
sample 0.1	-- 代表采样 10% 的数据，也可以是具体的条数
where CounterID = 57
group by Title
order by PageViews desc limit 1000;

select Title, count(*) as PageViews from hits_v1
where CounterID = 57
group by Title
order by PageViews desc limit 1000;

采样修饰符只有在 MergeTree 引擎表中才有效，且在创建表时需要指定采样策略。

列裁剪与分区裁剪

数据量太大时应避免使用 select * 操作，查询的性能会与查询的字段大小和数量成线性变换，字段越少，消耗的 io 资源越少，性能就会越高。

-- 反例
select * from datasets.hits_v1;
-- 正例
select WatchID, 
    JavaEnable, 
    Title, 
    GoodEvent, 
    EventTime, 
    EventDate, 
    CounterID, 
    ClientIP, 
    ClientIP6, 
    RegionID, 
    UserID
from datasets.hits_v1;

分区裁剪就是只读取需要的分区，在过滤条件中指定。

select WatchID, 
    JavaEnable, 
    Title, 
    GoodEvent, 
    EventTime, 
    EventDate, 
    CounterID, 
    ClientIP, 
    ClientIP6, 
    RegionID, 
    UserID
from datasets.hits_v1
where EventDate='2014-03-23';

order by 结合 where、limit

千万以上数据集进行 order by 查询时需要搭配 where 条件和 limit 语句一起使用。

-- 正例
select UserID, Age from hits_v1 where CounterID = 57 order by Age desc limit 1000;
-- 反例
select UserID, Age from hits_v1 order by Age desc;

避免构建虚拟列

如非必须，不要在结果集上构建虚拟列，虚拟列非常消耗资源浪费性能，可以考虑在前端进行处理，或者在表中构造实际字段进行额外存储。

-- 反例
select Income, Age, Income/Age as IncRate from datasets.hits_v1;
-- 正例: 查出 Income, Age 后，考虑在前端进行处理，或者在表中构造实际字段进行额外存储
select Income, Age from datasets.hits_v1;

uniqCombined 替代 distinct

性能可提升 10 倍以上，uniqCombined 底层采用类似 HyperLogLog 算法实现，能接收 2% 左右的数据误差，可直接使用这种去重方式提升查询性能。Count(distinct )会使用 uniqExact 精确去重。
不建议在千万级不同数据上执行 distinct 去重查询，改为近似去重 uniqCombined。

-- 反例
select count(distinct rand()) from hits_v1;
explain syntax select count(distinct rand()) from hits_v1;

┌─explain──────────────────┐
│ SELECT uniqExact(rand()) │
│ FROM hits_v1             │
└──────────────────────────┘
-- 正例
select uniqCombined(rand()) from datasets.hits_v1

使用物化视图

后面再详细介绍。

其它注意事项

查询熔断：为了避免因个别慢查询引起的服务雪崩的问题，除了可以为单个查询设置超时以外，还可以配置周期熔断，在一个查询周期内，如果用户频繁进行慢查询操作超出规定阈值后将无法继续进行查询操作。
关闭虚拟内存：物理内存和虚拟内存的数据交换，会导致查询变慢，资源允许的情况下关闭虚拟内存。
配置 join_use_nulls：为每一个账户添加 join_use_nulls 配置，左表中的一条记录在右表中不存在，右表的相应字段会返回该字段相应数据类型的默认值，而不是标准 SQL 中的 Null 值。
批量写入时先排序：批量写入数据时，必须控制每个批次的数据中涉及到的分区的数量，在写入之前最好对需要导入的数据进行排序。无序的数据或者涉及的分区太多，会导致 ClickHouse 无法及时对新导入的数据进行合并，从而影响查询性能。
关注 CPU：cpu 一般在 50%左右会出现查询波动，达到 70%会出现大范围的查询超时，cpu 是最关键的指标，要非常关注。

2. 多表关联

准备表和数据

-- 创建小表
CREATE TABLE visits_v2 ENGINE = CollapsingMergeTree(Sign)
PARTITION BY toYYYYMM(StartDate)
ORDER BY (CounterID, StartDate, intHash32(UserID), VisitID)
SAMPLE BY intHash32(UserID)
SETTINGS index_granularity = 8192
as select * from visits_v1 limit 10000;

-- 创建 join 结果表：避免控制台疯狂打印数据
CREATE TABLE hits_v2 ENGINE = MergeTree()
PARTITION BY toYYYYMM(EventDate)
ORDER BY (CounterID, EventDate, intHash32(UserID))
SAMPLE BY intHash32(UserID)
SETTINGS index_granularity = 8192
as select * from hits_v1 where 1=0;

用 IN 代替 JOIN

当多表联查时，查询的数据仅从其中一张表出时，可考虑用 IN 操作而不是 JOIN。

insert into hits_v2 select a.* from hits_v1 a where a.CounterID in (select CounterID from visits_v1);

-- 反例：使用join
insert into hits_v2 select a.* from hits_v1 a left join visits_v1 b on a.CounterID = b.CounterID;

大小表 JOIN

多表 join 时要满足小表在右的原则，右表关联时被加载到内存中与左表进行比较，ClickHouse 中无论是 Left join 、Right join 还是 Inner join 永远都是拿着右表中的每一条记录到左表中查找该记录是否存在，所以右表必须是小表。

-- 小表在右
insert into table hits_v2 select a.* from hits_v1 a left join visits_v2 b on a.CounterID = b.CounterID;

-- 大表在右
insert into table hits_v2 select a.* from visits_v2 b left join hits_v1 a on a.CounterID = b.CounterID;

注意谓词下推(版本差异)

ClickHouse 在 join 查询时不会主动发起谓词下推的操作，需要每个子查询提前完成过滤操作，需要注意的是，是否执行谓词下推，对性能影响差别很大（新版本中已经不存在此问题，但是需要注意谓词的位置的不同依然有性能的差异）

explain syntax select a.* from hits_v1 a left join visits_v2 b on a.CounterID = b.CounterID having a.EventDate = '2014-03-17';

explain syntax select a.* from hits_v1 a left join visits_v2 b on a.CounterID = b.CounterID having b.StartDate = '2014-03-17';

insert into hits_v2 select a.* from hits_v1 a left join visits_v2 b on a.CounterID=b.CounterID where a.EventDate = '2014-03-17';

insert into hits_v2 select a.* from (select * from hits_v1 where EventDate = '2014-03-17') a left join visits_v2 b on a.CounterID = b.CounterID;

分布式表使用 global

两张分布式表上的 IN 和 JOIN 之前必须加上 GLOBAL 关键字，右表只会在接收查询请求的那个节点查询一次，并将其分发到其他节点上。如果不加 GLOBAL 关键字的话，每个节点都会单独发起一次对右表的查询，而右表又是分布式表，就导致右表一共会被查询 N²次（N是该分布式表的分片数量），这就是查询放大，会带来很大开销。

使用字典表

将一些需要关联分析的业务创建成字典表进行 join 操作，前提是字典表不宜太大，因为字典表会常驻内存。

提前过滤

通过增加逻辑过滤可以减少数据扫描，达到提高执行速度及降低内存消耗的目的。

你可能感兴趣的:(数据库,大数据,ClickHouse,Explain,建表优化,语法优化规则,查询优化)

Redis Lin_Miao_09 技术架构 Redis redis 数据库缓存
目录一、Redis基础知识数据持久化高可用性和扩展性性能优化应用场景二、Redis的Java常用客户端JedislettuceRedisson三、Redis实战Jedis1.添加依赖2.基本使用例子3.使用连接池优化性能spring-boot-starter-data-redis1.添加依赖2.配置文件设置3.使用RedisTemplate或Repository使用RedisTemplate使用R
LeetCode Hot100刷题圈圈编码 leetcode 算法数据结构
560.和为k的子数组给你一个整数数组nums和一个整数k，请你统计并返回该数组中和为k的子数组的个数。子数组是数组中元素的连续非空序列。示例1：输入：nums=[1,1,1],k=2输出：2示例2：输入：nums=[1,2,3],k=3输出：2解题思路：前缀和+哈希表优化前缀和：前缀和是指从数组开头到当前位置的所有元素的和。例如，数组[1,2,3]的前缀和数组为[1,3,6]。哈希表：哈希表用于
qt 使用qss控制界面外观 yaofei2006 qt 开发语言 ui
在Qt中，QSS（QtStyleSheets）是一种基于CSS（CascadingStyleSheets）的样式表语言，用于自定义Qt应用程序的外观。通过QSS，你可以轻松地修改控件的颜色、字体、边框、背景等属性，而无需修改代码。以下是使用QSS的详细指南：1.基本语法QSS的语法与CSS类似，由选择器和声明块组成：选择器{属性:值;属性:值;}示例QPushButton{background-c
JavaScript系列（68）--运行时优化技术详解 ᅟᅠ ‌‍‎‏ 一进制 JavaScript javascript java 前端
JavaScript运行时优化技术详解今天，让我们深入探讨JavaScript的运行时优化技术。运行时优化是提升JavaScript应用性能的另一个关键环节，它关注代码在实际执行过程中的性能表现。运行时优化基础概念小知识：JavaScript运行时优化是指在代码执行过程中，通过各种技术手段来提高代码的执行效率。这包括即时编译（JIT）、内联缓存、类型特化等技术。基本优化实现//1.函数执行优化器c
如何利用缺陷项目统计表提高项目管理效率？项目管理
在软件开发过程中，缺陷管理是项目管理的关键环节之一。缺陷项目统计表作为一种有效的工具，能够帮助项目经理和团队成员更好地掌握项目质量状况，从而提高项目管理效率。本文将深入探讨如何充分利用缺陷项目统计表，以优化项目流程，提升产品质量。缺陷项目统计表不仅仅是一个简单的数据记录工具，它能够为项目管理提供全面的洞察。通过系统性地收集、分析和呈现缺陷数据，项目团队可以更快速地识别问题模式，制定有针对性的改进策
Django ORM - 聚合查询 lsx202406 开发语言
DjangoORM-聚合查询引言Django是一个强大的PythonWeb框架，它拥有一个功能丰富的对象关系映射（Object-RelationalMapping，简称ORM）。ORM允许开发者以Python类和对象的交互方式来操作数据库，而不是直接编写SQL查询。本文将深入探讨DjangoORM中的聚合查询功能，包括其基本用法、常用函数以及在实际开发中的应用场景。聚合查询简介聚合查询，顾名思义，
【kafka系列】生产者漫步者TZ kafka kafka 数据库大数据
目录发送流程1.流程逻辑分析阶段一：主线程处理阶段二：Sender线程异步发送核心设计思想2.流程关键点总结重要参数一、核心必填参数二、可靠性相关参数三、性能优化参数四、高级配置五、安全性配置（可选）六、错误处理与监控典型配置示例关键注意事项发送流程序列化与分区：消息通过Partitioner选择目标分区（默认轮询或哈希），序列化后加入RecordAccumulator缓冲区。批次合并：Sende
使用 Canal 实时从 MySql 向其它库同步数据 m0_74823239 面试学习路线阿里巴巴 mysql 数据库
目前绝大多数项目还是采用mysql作为数据存储，对于用户访问量较高的网站来说，mysql读写性能有限，我们通常会把mysql中的数据实时同步到Redis、mongodb、elasticsearch等中间件中，应对高并发访问场景，减轻mysql压力，防止数据库宕机。在项目开发中，为了不会原有代码进行侵入，采用canal中间件实现mysql向其它库的实时同步，是一种很不错的方案。canal译意为水道/
《Python与C#：虚拟机与元宇宙的次元战争》虫洞没有虫科技资讯\好文分享 c#开发语言
一、运行时拓扑的「克莱因瓶」C#的CLR是三维环面结构的完美体现，IL代码在JIT编译时经历时空折叠。Unity引擎中，值类型在栈内存构建莫比乌斯环，使得800万顶点模型渲染保持16ms的帧同步。但当尝试将ECS架构推至理论极限时，发现GC的标记-清除算法会破坏拓扑结构，必须切换到UnityDOTS的Burst编译器实现量子退火优化。Python的PyPy则是四维超球面，JIT编译器在跟踪热点时创
《AI对话秘籍：5个Prompt Engineering核心技巧让DeepSeek输出质量翻倍》 Athena-H Prompt Engineering 人工智能 prompt chatgpt gpt ai
引言随着自然语言处理技术的飞速发展，像ChatGPT这样的AI对话系统已经广泛应用于客服、教育、创作等多个领域。然而，如何高效地与这些语言模型进行交互，获得准确、相关且高质量的回复，成为了应用中的一个关键挑战。这时，PromptEngineering（提示词工程）便成为了一项必不可少的技能。PromptEngineering的核心目标是通过优化与模型的输入互动方式，让模型生成更加符合预期的输出。在
C# ASP.NET的应用场景来恩1003 C#从入门到精通 c#asp.net 数据库
.NET学习资料.NET学习资料.NET学习资料C#ASP.NET作为一种强大的Web开发框架，在众多领域都有着广泛的应用，为各类Web应用的开发提供了高效、可靠的解决方案。以下是其主要的应用场景：企业级Web应用在企业级应用开发中，C#ASP.NET凭借其卓越的性能和强大的功能，成为众多企业的首选。它能够与企业现有的系统和数据库进行无缝集成，例如与MicrosoftSQLServer数据库紧密结
Python说课内容介绍 laocooon523857886 算法算法
一、明确课程目标1.课程目标的确定面向整个专业：Python课程作为计算机专业或相关专业中的一部分，需要对学生的编程能力、问题解决能力以及软件开发的基础技能进行培养。通过本课程，学生能够掌握Python编程的基本语法、面向对象编程、常见数据结构和算法。面向岗位：课程目标还需要结合市场需求和岗位要求。例如，数据分析、人工智能、Web开发等方向都需要具备Python编程能力。学生通过学习Python，
前端框架Vue内容回顾 GISer_Jinger Javascript Vue 前端框架 vue.js 前端
前端面试Vue必备内容详解如果你正在准备Vue相关的前端面试，这份详细指南将帮助你掌握Vue核心知识，助你高效备战面试。1.Vue基础知识1.1Vue的核心概念声明式渲染：Vue采用数据驱动视图的方式，通过{{}}语法或v-bind绑定数据，无需手动操作DOM。组件化开发：Vue提供了单文件组件（SFC），支持HTML、CSS、JS组合在.vue文件中，提高代码复用性和可维护性。数据驱动：Vue采
Redis高级特性解析——Redis核心技术与最佳实践 AI天才研究院 Python实战 DeepSeek R1 &大数据AI人工智能大模型 Java实战大数据人工智能语言模型 Java Python 架构设计
作者：禅与计算机程序设计艺术1.简介Redis是开源的高性能键值对存储数据库，它支持数据持久化、LRU淘汰策略、发布订阅系统、事务、流水线等丰富的数据结构和功能，并且提供多种客户端编程接口，可以满足用户各种应用场景的需求。但是，作为一个高性能数据库，Redis还存在一些不足之处，比如内存管理、网络模型、集群架构、客户端连接、监控、持久化、主从复制等方面。因此，作者希望通过本文分析Redis高级特性
python基础知识介绍 tqs_12345 python 开发语言
Python基础知识主要包括以下几个方面：语法基础：Python采用简洁易懂的语法，使用缩进来表示代码块。它支持多种数据类型，如整数、浮点数、字符串、列表、元组、字典和集合等。变量和数据类型：在Python中，变量不需要事先声明类型，可以根据赋值自动推断类型。Python支持多种内置数据类型，并允许用户自定义数据类型。控制流语句：Python提供了条件语句（如if-elif-else）、循环语句（
Tomcat 8.5 优化指南最爱で毛毛熊 tomcat
Tomcat8.5优化指南Tomcat8.5是一个广泛使用的JavaWeb应用服务器，但在高并发或资源受限的环境中，默认配置可能无法满足性能需求。以下是一些常见的优化措施，帮助你提升Tomcat8.5的性能和稳定性。1.JVM优化Tomcat运行在JVM上，优化JVM参数可以显著提升性能。1.1内存设置调整JVM的堆内存大小，避免内存不足或频繁的垃圾回收。在catalina.sh（Linux）或c
大数据专业毕业设计选题118例：数据挖掘数据分析可视化 HaiLang_IT 毕设选题教程毕业设计大数据数据挖掘
目录前言毕设选题开题指导建议更多精选选题选题帮助最后前言大家好,这里是海浪学长毕设专题!大四是整个大学期间最忙碌的时光，一边要忙着准备考研、考公、考教资或者实习为毕业后面临的升学就业做准备,一边要为毕业设计耗费大量精力。学长给大家整理了大数据专业最新精选选题，如遇选题困难或选题有任何疑问，都可以问学长哦(见文末)!对毕设有任何疑问都可以问学长哦!更多选题指导:最新最全计算机专业毕设选题精选推荐汇总
做其他的不好吗？别写代码了(4) chalmers_15 ai文章人工智能
AI技术在IT领域的应用确实已经成为一个趋势,这对IT从业者来说既是机遇也是挑战。我们需要客观地看待AI对IT行业的影响:AI可以自动化和优化很多IT工作,如系统监控、故障诊断、代码编写等,这可能会替代一些传统的IT工作岗位。但同时AI也会创造新的IT工作机会,如AI系统的开发、部署和维护,以及利用AI技术进行创新和优化等。未来IT从业者需要更多掌握AI相关的技能,如机器学习、数据分析等,以适应A
【MySQL】mysqldump使用方法 m0_74825152 面试学习路线阿里巴巴 mysql oracle 数据库
本文介绍MySQL数据库mysqldump常用方法。MySQL数据库mysqldump常用方法导出整个数据库（包括数据库中的数据）。mysqldump-uusername-pdbname>dbname.sql导出数据库结构（不含数据）。mysqldump-uusername-p-ddbname>dbname.sql导出数据库中的某张数据表（包含数据）。mysqldump-uusername-pdb
Python测试框架：pytest 入门互联网杂货铺职场和发展 python 自动化测试测试工具软件测试 pytest 测试用例
点击文末小卡片，免费获取软件测试全套资料，资料在手，涨薪更快pytest是一个功能强大而易于使用的Python测试框架。它提供了简单的语法和灵活的功能，用于编写和组织测试代码。1、简单易用：pytest的语法简洁明了，使得编写测试用例更加直观和易于理解。它使用assert语句来验证预期结果，让测试代码更加简洁易读。2、自动发现测试：pytest能够自动发现并执行测试文件和测试函数。它遵循命名规则（
任务1 将单表中的单个rfid增加为多个rfid 王天华帅哥数据库 java sql
方案使用连表查询解决单独创建一个rfid的表让tool_id对应多个rfid需要优化的表1：tool_materials_stock库存管理已完成数据迁移完成原库rfid字段未删除2：tool_borrow_return借出借还管理已完成3：tool_materials_inspection质检管理已完成4：tool_materials_maintain维修信息已完成5：tool_material
景联文科技：以全面数据处理服务推动AI创新与产业智能化转型景联文科技人工智能
数据标注公司在人工智能领域扮演着重要角色，通过提供高质量的数据标注服务，帮助企业和组织训练和优化机器学习模型。从需求分析到数据交付，每一个步骤都需要严格把控，确保数据的质量和安全性。景联文科技是一家专业的数据采集与标注公司，致力于为客户提供高质量的数据处理服务，助力企业在人工智能（AI）领域的创新与发展。数据标注的四项基本流程：数据采集、数据清洗、数据标注、数据质检。数据采集数据采集是数据处理的第
活动集锦 | 英码科技积极参与行业盛会，AI赋能城市数字化转型英码科技人工智能科技大数据
在当今数字经济时代，城市全域数字化转型已经成为提升城市管理效能、优化资源配置、推动经济发展的重要手段。英码科技始终致力于为企业打造高效、低成本的行业应用方案，助力企业实现数字化转型。近日，英码科技受邀参加了多场行业展示活动，展示了其在数字化转型方面的成果和技术。▎2024新型智慧城市建设成果展览会6月5日至6月7日，以“数字经济赋能，洞见未来城市”为主题的2024新型智慧城市建设成果博览会在广州琶
Spark 性能优化（四）：Cache LevenBigData spark 性能调优 spark 性能优化大数据
在Spark中，缓存是一种将计算结果存储在内存中的方式，目的是加速后续操作。当你执行迭代算法或查询时，如果多次重复使用相同的数据集，缓存可以避免每次都重新计算相同的转换操作。通过缓存，Spark可以将数据存储在内存中，这样在后续的处理阶段就能更快地访问。1.Spark缓存的关键点：缓存基本概念：通过调用.cache()对DataFrame或RDD进行缓存。默认情况下，数据会存储在内存中（RAM），
Amazon RDS Performance Insights优化SQL性能 ivwdcwso 运维开发 sql 数据库 aws Performance rds
1.关键SQL性能指标分析1.1执行时间总执行时间:衡量SQL语句消耗的总时间。平均执行时间:单次执行的平均耗时。最大执行时间:最长的单次执行时间,用于识别异常情况。1.2执行频率调用次数:SQL语句被执行的总次数。每秒执行次数:反映SQL的执行频率。1.3资源消耗CPU使用率:SQL执行消耗的CPU资源。I/O使用:包括读取和写入的I/O操作数。内存使用:SQL执行过程中的内存消耗。1.4等待事
阿里云RDS到亚马逊云RDS的实时数据同步方案详解 ivwdcwso 运维阿里云云计算 aws kda 数据同步
1.需求背景在当今的多云环境中,企业经常需要在不同云平台之间同步数据。本文将详细介绍如何实现从阿里云RDSMySQL数据库到亚马逊云RDSMySQL数据库的实时数据同步。这种同步对于数据备份、跨区域数据访问、数据分析等场景都非常有用。2.方案概述我们将使用AWSKinesisDataAnalytics(KDA)作为核心组件来实现这个实时同步方案。KDA基于ApacheFlink,支持使用SQL或J
轻量级的注意力网络（LANMSFF）模型详解及代码复现清风AI 深度学习算法详解及代码复现深度学习人工智能神经网络 python 计算机视觉
定义与特点在深度学习领域，轻量化网络设计已成为一个重要的研究方向。LANMSFF模型作为一种新型的轻量级网络架构，在保持高性能的同时，显著降低了模型的复杂度。LANMSFF模型的核心特点可以概括为以下几个方面：轻量级设计：通过精心设计的网络结构和参数优化，在保持较高性能的同时，显著降低了模型的复杂度。注意力机制：引入了一种新的注意力机制，能够有效地捕捉图像中的关键特征，提高模型的表达能力。多尺度特
实战探析：云数据库 RDS SQL Server 版的优点与应用案例步入烟尘 python 数据库 oracle 性能优化
实战探析：云数据库RDSSQLServer版的优点与应用案例背景：随着云计算技术的不断发展，越来越多的企业开始将数据库迁移到云端，以降低成本、提高可用性和灵活性。而在云数据库的选择上，AmazonRDS（RelationalDatabaseService）SQLServer版本成为了众多企业的首选之一。本文将深入探讨在实际应用中，利用云数据库RDSSQLServer版所带来的优点及其实战应用。云数
python介绍&pycharm使用技巧倩倩倩倩千千*- python自动化测试 python pycharm 开发语言
一、python简单介绍python===>跨平台、面想对象，解释型（边运行边翻译）计算机程序设计语言被称为"胶水语言"ps：java是编译型语言学习编程要领（3+1）：编程语法编程规范编程技巧+带着工作任务多练、多实战，从小需求、小工具开始二、python优缺点优点：1、简单易学；2、免费开源；3、面向对象；4、丰富的库；5、可扩展性缺点：1、运行速度慢；2、好的中文资料匮乏三、python应用
MongoDB入门与实践风中凌乱的猿笔记 mongodb 数据库
MongoDB是一个NoSQL数据库，它采用文档模型来存储数据，具有高性能、易扩展、灵活的特点。以下是MongoDB的入门指南和一些基本的实践示例，帮助你开始使用MongoDB。1.安装和基本配置安装MongoDB具体安装方法取决于你的操作系统。以Ubuntu为例，可以通过以下命令安装MongoDB：sudoaptupdatesudoaptinstall-ymongodb启动MongoDB安装完成
iOS http封装 374016526 ios 服务器交互 http 网络请求
程序开发避免不了与服务器的交互，这里打包了一个自己写的http交互库。希望可以帮到大家。内置一个basehttp，当我们创建自己的service可以继承实现。 KuroAppBaseHttp *baseHttp = [[KuroAppBaseHttp alloc] init]; [baseHttp setDelegate:self]; [baseHttp
lolcat ：一个在 Linux 终端中输出彩虹特效的命令行工具 brotherlamp linux linux教程 linux视频 linux自学 linux资料
那些相信 Linux 命令行是单调无聊且没有任何乐趣的人们，你们错了，这里有一些有关 Linux 的文章，它们展示着 Linux 是如何的有趣和“淘气” 。在本文中，我将讨论一个名为“lolcat”的小工具 – 它可以在终端中生成彩虹般的颜色。何为 lolcat ? Lolcat 是一个针对 Linux，BSD 和 OSX 平台的工具，它类似于 cat 命令，并为 cat
MongoDB索引管理（1）——[九] eksliang mongodb MongoDB管理索引
转载请出自出处：http://eksliang.iteye.com/blog/2178427 一、概述数据库的索引与书籍的索引类似，有了索引就不需要翻转整本书。数据库的索引跟这个原理一样，首先在索引中找，在索引中找到条目以后，就可以直接跳转到目标文档的位置，从而使查询速度提高几个数据量级。不使用索引的查询称
Informatica参数及变量 18289753290 Informatica 参数变量
下面是本人通俗的理解，如有不对之处，希望指正 info参数的设置：在info中用到的参数都在server的专门的配置文件中（最好以parma）结尾下面的GLOBAl就是全局的，$开头的是系统级变量，$$开头的变量是自定义变量。如果是在session中或者mapping中用到的变量就是局部变量，那就把global换成对应的session或者mapping名字。 [GLOBAL] $Par
python 解析unicode字符串为utf8编码字符串酷的飞上天空 unicode
php返回的json字符串如果包含中文，则会被转换成\uxx格式的unicode编码字符串返回。在浏览器中能正常识别这种编码，但是后台程序却不能识别，直接输出显示的是\uxx的字符，并未进行转码。转换方式如下 >>> import json >>> q = '{"text":"\u4
Hibernate的总结永夜-极光 Hibernate
1.hibernate的作用,简化对数据库的编码,使开发人员不必再与复杂的sql语句打交道做项目大部分都需要用JAVA来链接数据库，比如你要做一个会员注册的页面，那么获取到用户填写的基本信后，你要把这些基本信息存入数据库对应的表中，不用hibernate还有mybatis之类的框架，都不用的话就得用JDBC，也就是JAVA自己的，用这个东西你要写很多的代码，比如保存注册信
SyntaxError: Non-UTF-8 code starting with '\xc4' 随便小屋 python
刚开始看一下Python语言，传说听强大的，但我感觉还是没Java强吧！写Hello World的时候就遇到一个问题，在Eclipse中写的，代码如下 ''' Created on 2014年10月27日 @author: Logic ''' print("Hello World!"); 运行结果 SyntaxError: Non-UTF-8
学会敬酒礼仪不做酒席菜鸟 aijuans 菜鸟
俗话说，酒是越喝越厚，但在酒桌上也有很多学问讲究，以下总结了一些酒桌上的你不得不注意的小细节。细节一：领导相互喝完才轮到自己敬酒。敬酒一定要站起来，双手举杯。细节二：可以多人敬一人，决不可一人敬多人，除非你是领导。细节三：自己敬别人，如果不碰杯，自己喝多少可视乎情况而定，比如对方酒量，对方喝酒态度，切不可比对方喝得少，要知道是自己敬人。细节四：自己敬别人，如果碰杯，一
《创新者的基因》读书笔记 aoyouzi 读书笔记《创新者的基因》
创新者的基因创新者的“基因”，即最具创意的企业家具备的五种“发现技能”：联想，观察，实验，发问，建立人脉。第一部分破坏性创新，从你开始第一章破坏性创新者的基因如何获得启示：发现以下的因素起到了催化剂的作用：(1) -个挑战现状的问题；(2)对某项技术、某个公司或顾客的观察；(3) -次尝试新鲜事物的经验或实验；(4)与某人进行了一次交谈，为他点醒
表单验证技术百合不是茶 JavaScript DOM对象 String对象事件
js最主要的功能就是验证表单,下面是我对表单验证的一些理解,贴出来与大家交流交流 ,数显我们要知道表单验证需要的技术点, String对象,事件,函数一:String对象;通常是对字符串的操作; 1,String的属性; 字符串.length;表示该字符串的长度; var str= "java"
web.xml配置详解之context-param bijian1013 java servlet web.xml context-param
一.格式定义： <context-param> <param-name>contextConfigLocation</param-name> <param-value>contextConfigLocationValue></param-value> </context-param> 作用：该元
Web系统常见编码漏洞（开发工程师知晓） Bill_chen sql PHP Web fckeditor 脚本
1.头号大敌：SQL Injection 原因：程序中对用户输入检查不严格，用户可以提交一段数据库查询代码，根据程序返回的结果，获得某些他想得知的数据，这就是所谓的SQL Injection，即SQL注入。本质: 对于输入检查不充分，导致SQL语句将用户提交的非法数据当作语句的一部分来执行。示例： String query = "SELECT id FROM users
【MongoDB学习笔记六】MongoDB修改器 bit1129 mongodb
本文首先介绍下MongoDB的基本的增删改查操作，然后，详细介绍MongoDB提供的修改器，以完成各种各样的文档更新操作 MongoDB的主要操作 show dbs 显示当前用户能看到哪些数据库 use foobar 将数据库切换到foobar show collections 显示当前数据库有哪些集合 db.people.update，update不带参数，可
提高职业素养，做好人生规划白糖_ 人生
培训讲师是成都著名的企业培训讲师，他在讲课中提出的一些观点很新颖，在此我收录了一些分享一下。注：讲师的观点不代表本人的观点，这些东西大家自己揣摩。 1、什么是职业规划：职业规划并不完全代表你到什么阶段要当什么官要拿多少钱，这些都只是梦想。职业规划是清楚的认识自己现在缺什么，这个阶段该学习什么，下个阶段缺什么，又应该怎么去规划学习，这样才算是规划。
国外的网站你都到哪边看？ bozch 技术网站国外
学习软件开发技术，如果没有什么英文基础，最好还是看国内的一些技术网站，例如：开源OSchina，csdn，iteye,51cto等等。个人感觉如果英语基础能力不错的话，可以浏览国外的网站来进行软件技术基础的学习，例如java开发中常用的到的网站有apache.org 里面有apache的很多Projects,springframework.org是spring相关的项目网站,还有几个感觉不错的
编程之美-光影切割问题 bylijinnan 编程之美
package a; public class DisorderCount { /**《编程之美》“光影切割问题” * 主要是两个问题： * 1.数学公式（设定没有三条以上的直线交于同一点）： * 两条直线最多一个交点，将平面分成了4个区域； * 三条直线最多三个交点，将平面分成了7个区域； * 可以推出：N条直线 M个交点，区域数为N+M+1。
关于Web跨站执行脚本概念 chenbowen00 Web 安全跨站执行脚本
跨站脚本攻击(XSS)是web应用程序中最危险和最常见的安全漏洞之一。安全研究人员发现这个漏洞在最受欢迎的网站,包括谷歌、Facebook、亚马逊、PayPal,和许多其他网站。如果你看看bug赏金计划,大多数报告的问题属于 XSS。为了防止跨站脚本攻击,浏览器也有自己的过滤器,但安全研究人员总是想方设法绕过这些过滤器。这个漏洞是通常用于执行cookie窃取、恶意软件传播,会话劫持,恶意重定向。在
[开源项目与投资]投资开源项目之前需要统计该项目已有的用户数 comsci 开源项目
现在国内和国外,特别是美国那边,突然出现很多开源项目,但是这些项目的用户有多少,有多少忠诚的粉丝,对于投资者来讲,完全是一个未知数,那么要投资开源项目,我们投资者必须准确无误的知道该项目的全部情况,包括项目发起人的情况,项目的维持时间..项目的技术水平,项目的参与者的势力,项目投入产出的效益.....
oracle alert log file（告警日志文件） daizj oracle 告警日志文件 alert log file
The alert log is a chronological log of messages and errors, and includes the following items: All internal errors (ORA-00600), block corruption errors (ORA-01578), and deadlock errors (ORA-00060)
关于 CAS SSO 文章声明 denger SSO
由于几年前写了几篇 CAS 系列的文章，之后陆续有人参照文章去实现，可都遇到了各种问题，同时经常或多或少的收到不少人的求助。现在这时特此说明几点： 1. 那些文章发表于好几年前了，CAS 已经更新几个很多版本了，由于近年已经没有做该领域方面的事情，所有文章也没有持续更新。 2. 文章只是提供思路，尽管 CAS 版本已经发生变化，但原理和流程仍然一致。最重要的是明白原理，然后
初二上学期难记单词 dcj3sjt126com english word
lesson 课 traffic 交通 matter 要紧；事物 happy 快乐的，幸福的 second 第二的 idea 主意；想法；意见 mean 意味着 important 重要的，重大的 never 从来，决不 afraid 害怕的 fifth 第五的 hometown 故乡，家乡 discuss 讨论；议论 east 东方的 agree 同意；赞成 bo
uicollectionview 纯代码布局, 添加头部视图 dcj3sjt126com Collection
#import <UIKit/UIKit.h> @interface myHeadView : UICollectionReusableView { UILabel *TitleLable; } -(void)setTextTitle; @end #import "myHeadView.h" @implementation m
N 位随机数字串的 JAVA 生成实现 FX夜归人 java Math 随机数 Random
/** * 功能描述随机数工具类<br /> * @author FengXueYeGuiRen * 创建时间 2014-7-25<br /> */ public class RandomUtil { // 随机数生成器 private static java.util.Random random = new java.util.R
Ehcache（09）——缓存Web页面 234390216 ehcache 页面缓存
页面缓存目录 1 SimplePageCachingFilter 1.1 calculateKey 1.2 可配置的初始化参数 1.2.1 cach
spring中少用的注解@primary解析 jackyrong primary
这次看下spring中少见的注解@primary注解，例子 @Component public class MetalSinger implements Singer{ @Override public String sing(String lyrics) { return "I am singing with DIO voice
Java几款性能分析工具的对比 lbwahoo java
Java几款性能分析工具的对比摘自：http://my.oschina.net/liux/blog/51800 在给客户的应用程序维护的过程中，我注意到在高负载下的一些性能问题。理论上，增加对应用程序的负载会使性能等比率的下降。然而，我认为性能下降的比率远远高于负载的增加。我也发现，性能可以通过改变应用程序的逻辑来提升，甚至达到极限。为了更详细的了解这一点，我们需要做一些性能
JVM参数配置大全 nickys jvm 应用服务器
JVM参数配置大全 /usr/local/jdk/bin/java -Dresin.home=/usr/local/resin -server -Xms1800M -Xmx1800M -Xmn300M -Xss512K -XX:PermSize=300M -XX:MaxPermSize=300M -XX:SurvivorRatio=8 -XX:MaxTenuringThreshold=5 -
搭建 CentOS 6 服务器(14) - squid、Varnish rensanning varnish
（一）squid 安装 # yum install httpd-tools -y # htpasswd -c -b /etc/squid/passwords squiduser 123456 # yum install squid -y 设置 # cp /etc/squid/squid.conf /etc/squid/squid.conf.bak # vi /etc/
Spring缓存注解@Cache使用 tom_seed spring
参考资料 http://www.ibm.com/developerworks/cn/opensource/os-cn-spring-cache/ http://swiftlet.net/archives/774 缓存注解有以下三个： @Cacheable @CacheEvict @CachePut
dom4j解析XML时出现"java.lang.noclassdeffounderror: org/jaxen/jaxenexception"错误 xp9802
java.lang.NoClassDefFoundError: org/jaxen/JaxenExc 关键字: java.lang.noclassdeffounderror: org/jaxen/jaxenexception 使用dom4j解析XML时，要快速获取某个节点的数据，使用XPath是个不错的方法，dom4j的快速手册里也建议使用这种方式执行时却抛出以下异常： Exceptio