大数据学习(四):Livy的安装配置及pyspark的会话执行

一个基于Spark的开源REST服务,它能够通过REST的方式将代码片段或是序列化的二进制代码提交到Spark集群中去执行。它提供了以下这些基本功能:

  • 提交Scala、Python或是R代码片段到远端的Spark集群上执行;
  • 提交Java、Scala、Python所编写的Spark作业到远端的Spark集群上执行;
  • 提交批处理应用在集群中运行。
    从Livy所提供的基本功能可以看到Livy涵盖了原生Spark所提供的两种处理交互方式。与原生Spark不同的是,所有操作都是通过REST的方式提交到Livy服务端上,再由Livy服务端发送到不同的Spark集群上去执行。

安装启动

  1. 安装maven
  2. 下载livy
$ git clone [email protected]:cloudera/livy.git
$ export MAVEN_OPTS="-Xmx2g -XX:ReservedCodeCacheSize=512m -XX:MaxPermSize=512M"
$ mvn -Dmaven.test.skip clean package
  1. 修改配置文件
    注释spark.master
vim conf/spark-blacklist.conf
# spark.master
  1. 启动
./bin/livy-server

pyspark测试

查看当前存在的会话

$ curl localhost:8998/sessions
> {"from":0,"

你可能感兴趣的:(大数据,pyspark)