[SQL]SparkS/Hive/HBase整合


Hive使用Spark on Yarn作为执行引擎 – lxw的大数据田地
http://lxw1234.com/archives/2016/05/673.htm
Hive从1.1之后,支持使用Spark作为执行引擎,配置使用Spark On Yarn作为Hive的执行引擎,首先需要注意以下两个问题:

Hive的版本和Spark的版本要匹配;


SparkSQL读取HBase数据 – lxw的大数据田地
http://lxw1234.com/archives/2015/07/330.htm
通过Hive和spark-sql去访问HBase表,只是为统计分析提供了一定的便捷性,个人觉得性能上的优势并不明显。
可能Spark通过API去读取HBase数据,性能更好些吧,以后再试。
另外,spark-sql有一点好处,就是可以先把HBase中的数据cache到一张内存表中,然后在这张内存表中,
通过SQL去统计分析,那就爽多了。


Spark1.4.0-SparkSQL与Hive整合-支持窗口分析函数 – lxw的大数据田地
http://lxw1234.com/archives/2015/06/294.htm
Spark1.4发布,除了重量级的SparkR,其中的SparkSQL支持了我期待已久的窗口分析函数(window functions),关于Hive中窗口分析函数的用法可参考 Hive分析函数系列 文章。
在我们的数据平台中,90%以上的离线分析任务都是使用Hive实现,其中必然会使用很多窗口分析函数,如果SparkSQL支持窗口分析函数,
那么对于后面Hive向SparkSQL中的迁移的工作量会大大降低,因此迫不及待将Spark1.4下载试用一下。

你可能感兴趣的:([SQL]SparkS/Hive/HBase整合)