kylin是如何上卷下钻

什么是上卷下钻?

在介绍之前,先引入3个概念

1.数据仓库

数据仓库收集了整个组织(组织可以是独立的,也可以是混合的,重点是分主题)的主题信息,因此它是组织范围的,可以看作存放商品的仓库

2.数据集市

如果把数据比作商品,集市就是来“售卖加工”数据的,数据集市是数据仓库的子集,比如一个数据仓库是金融类仓库,金融又包括现金数据,黄金数据,股票数据,证券数据等,这里就可以把金融类以上包括的数据,看作一个数据集市,这些数据集市就是对数据加工处理的。数据集市内,数据集市之间都可以实现数据的关联。

3.概念分层

概念分层比较抽象了,简单做个比喻,概念的分层可以看作是大楼分层。那么又问了。概念分层和数据又啥关系,比如,你到商场乘坐电梯,当电梯上升的时候,看到的人会越来越小,小到就是一个黑点,这时候你不会在关系他们的模样了,而是关心到多少人,男女比是多少。逆向思维,当电梯下降,我们可以清楚的看到一个人的长相,身材,在近点就可以看到鼻孔的鼻屎。

嗯,相关概念介绍完了,说说什么是上卷

上卷(汇总数据)

上卷就是乘坐电梯上升观测人的过程。

按城市汇总的人口数据上卷,观察按国家人口的数据。就是由细粒度到粗粒度观测数据的过程,应该还会记录相应变化。

下钻(明细数据)

上卷的反向操作,

可以按照城市汇总的人口数据下钻,观察按城镇人口汇总的数据。由粗粒度变为细粒度。

kylin如何做到上卷下钻

其实,这时候我们发现就是在维度上做文章了,尤其是那种层级维度,但仅仅是维度不够的,有时候还需要指标,比如消费金额,会根据消费金额的大小,划分层次,也是概念分层的一种体现。

下面说下kylin是如何做到的。

刚才说到,数据仓库是面向主题的,那么这个主题可以看作是维度的组合,或者就是看问题的角度。

个人感觉依据主题去设置聚合组。

选择具有逻辑层次的维度设置为层级维度

关于指标集划分可以设置为衍生维度

举个例子

select * from tablename groupby A

select * from tablename groupby A,B

select * from tablename groupby A,B,C

这三个自上而下看就是下钻,自下而上看就是上卷。

你可能感兴趣的:(kylin是如何上卷下钻)