kylin创建cube时的步骤及一些notes

1.创建工程

2.同步hive表定义(四种)

3.创建Data Model

join多表,定义了星型模型;
join操作包括:left join和inner join;
创建的model可以被多个cube使用;
-->demensions可以来自事实表和维表;Meassues必须来自事实表;-->settings可以设置构建cube时的分割列(必须为DATE类型或者TIMESTAMP)

4.创建Cube

cube name必须为数字、字母或者_的组合;
demension的分类:Normal和Derived;
Normal:来自事实表的维度均为Normal,这些列与其他的demension组合构成cuboid;
Derived:指该dimensions与维表的primary key一一对应,可以有效减轻cuboid数量,构建HBASE的存储的rowkey时,构成rowkey的维度只能是normal的;
measure只能来自事实表,默认的是_count没有关联任何列信息,可以运用sum、max等函数自己生成measure;

refresh setting:为增量构架cube而设计的配置参数
auto merge\retention range(days)(保留范围):只保留设置天数的数据,更早的奖杯删除\partition start date(该cube的起始时间)
advanced setting:默认情况下把所有的维度放在一个聚合组中;基于对mandatory、hierarchy和joint的理解可以创建多个聚合组;
rowkey:由编译之后的维度值组成。dictionary是默认的编译算法。当维度的基数大于1亿时可以选择fixed length,并设置长度,当value的长度大于设置的值时会被截断。
可以手动拖拽维度列在调整维度列在rowkey中的顺序,把mandantory的维度放在最前面,然后放参与where筛选的维度。把基数大的维度放在基数小的维度后面;


你可能感兴趣的:(数据分析)