spark初见

spark download

下载后解压:


Paste_Image.png

由于我的hadoop集群搭建采用的是2.7.3版本,所以我选择了spark的2.0.2版本

tar -xzvf  spark-2.0.2-bin-hadoop2.7.tgz

解压后,到bin目录下,让spark以standalone的模式运行

bin/spark-shell

运行成功后如下:

spark初见_第1张图片
Paste_Image.png

如上图,spark以standalone的方式运行成功
注意红色箭头指向的方向:
spark context 初始化为变量 sc,
这是一个命令行交互窗口,可以直接在里面进行命令行编程:

Paste_Image.png

如下读取本机文件/root/ww/test文件
装入spark中,获取文件的行数:
为3

Paste_Image.png

如果让spark运行在hadoop的 yarn上:
可以采用如下命令:

bin/spark-shell --master yarn-client

执行后提示如下错误:

[root@node1 spark-2.0.2-bin-hadoop2.7]# bin/spark-shell --master yarn-client
Exception in thread "main" java.lang.Exception: When running with master 'yarn-client' either HADOOP_CONF_DIR or YARN_CONF_DIR must be set in the environment.
   at org.apache.spark.deploy.SparkSubmitArguments.validateSubmitArguments(SparkSubmitArguments.scala:256)
   at org.apache.spark.deploy.SparkSubmitArguments.validateArguments(SparkSubmitArguments.scala:233)
   at org.apache.spark.deploy.SparkSubmitArguments.(SparkSubmitArguments.scala:110)
   at org.apache.spark.deploy.SparkSubmit$.main(SparkSubmit.scala:117)
   at org.apache.spark.deploy.SparkSubmit.main(SparkSubmit.scala)

如上错误是因为: 没有指定hadoop的配置文件目录:

设置hadoop的配置文件目录,我的配置目录为:

Paste_Image.png

设置如下:

export HADOOP_CONF_DIR=/home/hadoop/etc/hadoop

设置完成后,重新启动

bin/spark-shell --master yarn-client
spark初见_第2张图片
Paste_Image.png

如上图所示,spark在hadoop yarn上启动了。

登陆yarn可以看到对应的信息:

spark初见_第3张图片
Paste_Image.png

点击进去可以看到spark的管理界面:

spark初见_第4张图片
Paste_Image.png
spark初见_第5张图片
Paste_Image.png
spark初见_第6张图片
Paste_Image.png

如上spark 在yarn上进行资源调度和管理了

可以看到有两个Executor


spark初见_第7张图片
Paste_Image.png

你可能感兴趣的:(spark初见)