当 Spark 遇上 Zeppelin

Zeppelin 是一个基于 Web 的交互式数据分析工具,里面有很多解释器,透过这些解释器便可以利用相应的引擎完成数据计算与分析,Spark 便是其中一种。实际工作中,通常会在两种情况下使用 Spark with Zeppelin:

  1. 需要对一批数据做探索性分析,所谓探索性即尚且没有明确的思路,需要不断尝试,这时你无法形成完整的方案写到代码文件、打包、正式部署等,Zeppelin 便是最好的工具。
  2. 临时有个任务需要验证一下,特别针对研发人员,你为这个任务写个正式代码文件、打包、部署显然过于繁琐,并且很多线上环境是不允许随便传代码的,而利用 Zeppelin 恰好可以快速处理这些临时任务。

本次 Chat 主要包含以下内容:

  1. Spark 与 Zeppelin 的基本概念;
  2. 如何在 Zeppelin 中使用 Spark DataFrame、SQL 进行数据分析(一个完整示例);
  3. 如何合理的为 Spark 程序分配资源;
  4. 如何在 Zeppelin 中设定 Spark 的配置信息;
  5. 背后的工作原理是什么,在 Zeppelin 中写的代码是如何分发到 Spark 中执行的;
  6. 一些常见的问题。

阅读全文: http://gitbook.cn/gitchat/activity/5c3724d20539ef4d95d1d9ac

您还可以下载 CSDN 旗下精品原创内容社区 GitChat App ,阅读更多 GitChat 专享技术内容哦。

FtooAtPSkEJwnW-9xkCLqSTRpBKX

你可能感兴趣的:(当 Spark 遇上 Zeppelin)