视图这个概念大家并不陌生,在mysql中,视图(view)是一种虚拟存在的表,是一个逻辑表,本身并不包含数据。作为一个select语句保存在数据字典中的。通过视图,可以展现基表(用来创建视图的表)的部分数据,视图数据来自定义视图的查询中使用的表,使用视图动态生成。
ClickHouse 的物化视图是一种查询结果的持久化,它的存在是为了带来查询效率的提升。用户使用物化视图时跟普通的表没有太大区别,其实它就是一张逻辑表,也像是一张时刻在预计算的表,创建的过程它是用了一个特殊引擎,加上后来 as select,就是 create 一个 table as select 的写法。
“查询结果集” 范围很宽泛,可以是基础表中部分数据的一份简单拷贝,也可以是多表 join 之后产生的结果或其子集,或者原始数据的聚合指标等等。所以,物化视图不会随着基础表的变化而变化,所以它也称为快照(snapshot);
普通视图不保存数据,保存的仅是查询语句,查询的时候还是从原表读取数据,可以将普通视图理解为是个子查询。
而物化视图则是把查询的结果根据相应的引擎存入到了磁盘或内存中,对数据重新进行了组织,你可以理解物化视图是完全的一张新表。
查询速度快,要是把物化视图这些规则全部写好,它比原数据查询快了很多,总的行数少了,因为都预计算好了。
CREATE [MATERIALIZED] VIEW [IF NOT EXISTS] [db.]table_name [TO[db.]name][ENGINE = engine] [POPULATE] AS SELECT ...
使用create 创建一个物化视图,会创建一个隐藏的目标表来保存视图数据,也可以 TO 表名,保存到 一 张显式的表。没有加 TO 表名,表名默认就是 .inner.物化视图名;
CREATE TABLE hits_test
(
EventDate Date,
CounterID UInt32,
UserID UInt64,
URL String,
Income UInt8
)
ENGINE = MergeTree()
PARTITION BY toYYYYMM(EventDate)
ORDER BY (CounterID, EventDate, intHash32(UserID))
SAMPLE BY intHash32(UserID)
SETTINGS index_granularity = 8192;
这里直接从之前导入的一个测试表中导入部分数据
INSERT INTO hits_test
SELECT
EventDate,
CounterID,
UserID,
URL,
Income
FROM hits_v1
limit 10000;
物化视图建表sql如下
CREATE MATERIALIZED VIEW hits_mv
ENGINE=SummingMergeTree
PARTITION BY toYYYYMM(EventDate) ORDER BY (EventDate, intHash32(UserID))
AS SELECT
UserID,
EventDate,
count(URL) as ClickCount,
sum(Income) AS IncomeSum
FROM hits_test
WHERE EventDate >= '2014-03-20' #设置更新点,该时间点之前的数据可以另外通过
GROUP BY UserID,EventDate;
这个物化视图要做的事情就是:从hits_test表中查询几个字段,同时对其中的两个字段做了聚合计算,并且查询的数据在2014年3月20之后的;
执行完毕后,查看下当前数据库下的表,可以看到视图就以表的形式创建成功了;
或者可以用下列语法,表 A 可以是一张 mergetree 表 :CREATE MATERIALIZED VIEW 物化视图名 TO 表 AAS SELECT FROM 表 B;
即源表已经存在数据了,如果继续为源表新增数据,此时物化视图所在表的数据和源表数据保持增量同步;
从前面的描述我们知道,物化视图作为一个逻辑上存在的表,和源表是有内在的联系的,即当我们对源表做一些操作的时候,将会触发对物化视图所在表的数据变化,执行下面的sql数据导入;
INSERT INTO hits_test
SELECT
EventDate,
CounterID,
UserID,
URL,
Income
FROM hits_v1
WHERE EventDate >= '2014-03-23'
limit 10;
执行完成后,查询下物化视图的数据,可以看到数据已经存在了;
如果源表已经存在数据了,业务上如果需要物化视图所在的表的数据和源表保持一致,就需要考虑导入源表的历史数据到物化视图所在表中去;
使用下面的sql导入历史数据
INSERT INTO hits_mv
SELECT
UserID,
EventDate,
count(URL) as ClickCount,
sum(Income) AS IncomeSum
FROM hits_test
WHERE EventDate = '2014-03-20'
GROUP BY UserID,EventDate;
执行完成后,查询下物化视图表,可以看到历史表的数据也成功导入进物化视图表了;