大数据笔试真题集锦---Azkaban,kylin面试题

第十三,十四章目录

第十三章 Azkaban

一个批量工作流任务调度器

13.1 Oozie和Azkaban的区别

工作流配置上:azkaban使用properties或yml,oozie使用xml工作流传参上:azkaban直接传参,oozie还额外支持EL表达式定时任务上:azkaban基于时间,oozie还额外基于数据资源管理上:azkaban有权限管理,oozie暂无重试机制上:azkaban支持job级别的重试,oozie支持更细粒度的重试反馈机制上:azkaban根据进程的反馈判断是否成功,oozie则根据yarn的作业判断是否成功使用难度上:azkaban开箱即用,oozie需要复杂的编译和安装才可以使用自由度上:azkaban只能通过shell执行job,oozie则可以根据情况定制jar包执行job

第十四章 kylin引擎

14.1 概念

kylin是通过预计算的方式,使用MR引擎提前聚合数据源统计多个维度组合的聚合函数值,用这些聚合结果构建一个数据立方体以支持进一步的复杂查询的查询引擎,预计算的结果存放在hbase中。

14.2 结构

kylin中任意一个维度组合称为一个Cuboid,一个Cuboid由多个维度dimensions组成,dimensions可以自由选择多个表的字段,多个Cuboid可以组成一个完整的cube。kylin对外提供restful的接口和jdbc连接方式供用户查询使用。

14.3 原理

kylin通过用户定义的规则将计算分层,逐层统计cube,然后使用这些cube又进一步统计新的cube,逐步形成一个立方体,因此用户只能定义基于上个cube的聚合函数(SUM、COUNT)等,不能定义复杂的聚合函数(AVG、方差)。用户传入的SQL语句,会被解析成以cuboid为粒度的查询语句,

具体使用方法(参考):https://www.cnblogs.com/honey01/p/8

你可能感兴趣的:(大数据)