zeppelin 安装使用,测试spark,spark sql

最近研究学习,发现一个新的大杀器

 

 

zeppelin

zeppelin 安装使用,测试spark,spark sql_第1张图片

 

看这个图标就特别像小时候玩红警的大鲨鱼飞艇,基洛夫

zeppelin 安装使用,测试spark,spark sql_第2张图片

 

看了看官方的功能

 

A web-based notebook that enables interactive data analytics. 
You can make beautiful data-driven, interactive and collaborative documents with SQL, Scala and more

 

卧槽zeppelin 安装使用,测试spark,spark sql_第3张图片

 

web形式的笔记本,交互式数据分析

可以优雅的进行协作开发。

支持的语言以及框架

zeppelin 安装使用,测试spark,spark sql_第4张图片

你们说这是不是大杀器

 

 


 

言归正传,我们先走个安装节奏

我是下的all包

zeppelin 安装使用,测试spark,spark sql_第5张图片

 

然后找找官方有不有快速开始的文档

发现就是改几个配置就可以直接启动了。

貌似是单点的,不是分布式的

 

修改监听ip和端口

在zeppelin-site.xml文件中

 

修改zeppelin-env.sh

添加如下配置(这里我只使用了hadoop 和 spark,后续可能会有hive R 等需求,我再补个相关的文章)

export JAVA_HOME=/home/hadoop1/softs/jdk-1.8.0_92

export MASTER=spark://hadoop5:7077

export SPARK_HOME=/home/hadoop1/softs/spark-2.1.0-bin-hadoop2.6

export HADOOP_CONF_DIR=/home/hadoop1/softs/hadoop-2.6.0

 

完事就可以启动了,安全简单系数9.0

 

进去页面看看

zeppelin 安装使用,测试spark,spark sql_第6张图片

 

官方建议需要再对系统内做些配置

zeppelin 安装使用,测试spark,spark sql_第7张图片

 

我这边修改了spark 和 hdfs的配置

zeppelin 安装使用,测试spark,spark sql_第8张图片

这里面hdfs是叫file,主要是修改了hdfs地址,以及操作账户

zeppelin 安装使用,测试spark,spark sql_第9张图片

 

 


 

配置完了,我们走套代码节奏

结果出师不利,出了错误什么鬼,无法初始化

java.lang.NoClassDefFoundError: Could not initialize class org.apache.spark.rdd.RDDOperationScope$

at org.apache.spark.SparkContext.withScope(SparkContext.scala:701)

at org.apache.spark.SparkContext.textFile(SparkContext.scala:819)

... 46 elided

 

二话不说,先google吧

结果找到个解决套路,删除这3个包,然后重启下飞艇就可以起飞了

 

zeppelin 安装使用,测试spark,spark sql_第10张图片

 

发现问题不断呀

结果好不容易跑起来一次,出了另外一个错误

zeppelin 安装使用,测试spark,spark sql_第11张图片

 

集群配置问题,重启一下就好了

最后来个效果图zeppelin 安装使用,测试spark,spark sql_第12张图片

zeppelin 安装使用,测试spark,spark sql_第13张图片

 

你可能感兴趣的:(zeppelin,zeppelin,spark,sql,spark)