大数据学习笔记(七)-运行spark脚本【原创】

阅读更多
   在启动了hadoop 和 spark之后,就可以运行spark 脚本环境,在其上可以运行scala脚本。

1. cd $SPARK_HOME/bin
2. master=spark://master.hadoop.zjportdns.gov.cn ./spark-shell
然后就可以运行脚本了
   scala> val a = sc.parallelize(1 to 9, 3)
   a: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[0] at parallelize at :24
   scala> val b = a.map(x => x*2)
   b: org.apache.spark.rdd.RDD[Int] = MapPartitionsRDD[1] at map at :26
   scala> a.collect
   res0: Array[Int] = Array(1, 2, 3, 4, 5, 6, 7, 8, 9)
   scala> b.collect
   res1: Array[Int] = Array(2, 4, 6, 8, 10, 12, 14, 16, 18)

大数据学习笔记(七)-运行spark脚本【原创】_第1张图片
3. 可以对hdfs文件进行分析
大数据学习笔记(七)-运行spark脚本【原创】_第2张图片

然后就可以愉快的进行大数据分析了。
  • 大数据学习笔记(七)-运行spark脚本【原创】_第3张图片
  • 大小: 21.8 KB
  • 大数据学习笔记(七)-运行spark脚本【原创】_第4张图片
  • 大小: 7.6 KB
  • 查看图片附件

你可能感兴趣的:(spark,shell,scala)