本文隶属于专栏《大数据技术体系》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢!
本专栏目录结构和参考文献请见大数据技术体系
Apache Kylin 的核心思想是根据用户的数据模型和查询样式对数据进行预计算,并在查询时直接利用预计算结果返回查询结果。
Apache Kylin 具有响应时间快、查询时资源需求小、吞吐量大等特点。
在构建 Cube 之前, Cube 的优化手段提供了更多与数据模型或查询样式相关的信息,用于指导构建出体积更小、查询速度更快的 Cube。
在默认情况下, Kylin 会对每一种维度的组合进行预计算,每种维度组合的预计算结果被称为 Cuboid ,这些 Cuboid 组成了 Cube。
当 Cuboid 过多时会对存储区查询性能造成一定的压力。
所以,我们有必要对 Cuboid 进行剪枝优化。
剪枝优化的工具主要有以下两个。
衍生维度用于在有效维度内将维度表上的非主键维度排除掉,并使用维度表的主键(其实是事实表上相应的外键)来替代它们。
Kylin 会在底部记录维度表主键与维度表其他维度之问的映射关系,以便在查询时能够动态地将维度表的主键“翻译”成这些非主键维度,并进行实时聚合。
聚合组(Aggregation Group)是一种更为强大的剪枝工具。
聚合组假设一个 Cube 的所有维度均可以根据业务需求划分成若干组(当然也可以是一个组),由于同一个组内的维度更可能被同一个查询用到,因此会表现出更加紧密的内在关联。
对于每个分组内部的维度,用户可以使用三种可选方式定义它们之间的关系:强制维度( Mandatory)、层级维度( Hierarchy)、联合维度(Joint)。
当 Cube Segment 中某一个 Cuboid 的大小超出设置的阈值时,系统会将该 Cuboid 的数据分片到多个分区中,以实现 Cuboid 数据读取的并行化,从而优化 Cube 的查询速度。
Cube 的每个 Cuboid 中都包含了大量的行,每个行又分为 Rowkeys 和 Measure 部分。
每个 Cuboid 数据中的 Rowkeys 都包含当前 Cuboid 中所有维度值的组合。
编码(Encoding)代表了该维度的值应该使用何种方式进行编码,合适的编码能够减少维度对空间的占用。
目前,Kylin 支持的编码方式有 Date 编码、Time 编码、 Integer 编码、 Dict 编码和 Fixed_length 编码。
默认情况下, Cuboid 的分片策略是随机的。
按维度分片(Shard by Dimension)是一种更加高效的分片策略,即按照某个特定维度进行分片。
简单地说,如果 Cuboid 中某两行的 Shard by Dimesion 的值相同,那么无论这个 Cuboid 最终会被划分成多少个分片,这两行数据必然会被分配到同-个分片中。
Kylin 会把所有的维度按照顺宇黏合成一个完整的 Rowkeys,并且按照这个 Rowkeys 升序排列 Cuboid 中所有的行。
在调整 Rowkeys 的顺序时需要注意以下几个原则: