spark的Spark Shell练习

定于:Spark Shell(是一个交互式的命令行,里面可以写spark程序,方便学习和测试,他也是一个客户端,用于提交spark应用程序)
启动(本地单机版-非集群):

./bin/spark-shell

上面的方式没有指定master的地址,即用的是spark的local模式运行的(模拟的spark集群用心的过程)
./bin/spark-shell --master spark://hdp02:7077,hdp01:7077 –executor-memory 512mb --total-executor-cores 5
第二个指定了master 在集群上运行
这里需要注意,集群上运行spark shell 也必须指定调度资源,不然可能会出现下图,cup0的情况spark的Spark Shell练习_第1张图片
spark的Spark Shell练习_第2张图片
启动hadoop集群:star-dfs.sh
vi一个work.txt,放到hds上,等会做workcount的基础数据

vi work.txt 
hello guowei
hello yjz
hello rzp
hello zxb
hello word
#把work.txt放到hdfs上,创建一个文件夹,把他移动到文件夹下
hadoop fs -put /home/hdp01/work.txt /
hadoop fs -mkdir /sparktest
hadoop fs -mv /work.txt /sparktest

spark的Spark Shell练习_第3张图片
执行wordcount,计算

sc.textFile("hdfs://hdp01:9000/sparktest").flatMap(_.split(" ")).map((_, 1)).reduceByKey(_+_).sortBy(_._2, false).collect

spark的Spark Shell练习_第4张图片

你可能感兴趣的:(spark,spark,shell)