Spark 运行第一个Scala程序WordCount

安装

首先去官网下载Spark。注意Spark和Hadoop之间版本对应关系,我自己装的Hadoop 2.7.5版本,按照下面方式下载即可。
Spark 运行第一个Scala程序WordCount_第1张图片
下载完成后,解压安装包至路径/usr/local

tar -zxf ./spark-2.3.0-bin-hadoop2.7.tgz -C /usr/local/
cd /usr/local
sudo mv ./spark-2.3.0-bin-hadoop/ ./spark #更改文件夹名
sudo chown -R hadoop ./spark #此处的hadoop为系统用户

配置Spark的Classpath

cd /usr/local/spark
cp ./conf/spark-env.sh.template ./conf/spark-env.sh 

接着编辑该配置文件,在文件最后面加上如下一行内容

export SPARK_DIST_CLASSPATH=$(/usr/local/hadoop/bin/hadoop classpath)

保存配置文件后,就可以启动,若需要使用HDFS中的文件,则在使用Spark前需要启动Hadoop。

这里简单的单机安装就可以了,关于集群安装可以参考其他资料。

第一个Spark程序

首先在IDEA中添加Scala支持插件

依次点击File->New->Project,选择Scala->SBT,SBT是一款Spark用来对scala编写程序进行打包的工具。下一步,打开如下窗口:
Spark 运行第一个Scala程序WordCount_第2张图片
Scala的版本2.11.8,使用./bin/spark-shell进入shell时我们可以看到版本信息。
Spark 运行第一个Scala程序WordCount_第3张图片

创建完成后会进行初始化操作,自动下载jar包等。下载时常看具体网络情况。待所有进度条完成后,项目目录已经出来了,如下:
Spark 运行第一个Scala程序WordCount_第4张图片
编辑build.sbt文件

name := "SparkDemo"

version := "1.0"

scalaVersion := "2.11.8"

libraryDependencies += "org.apache.spark" %% "spark-core" % "2.3.0"

这里添加了依赖的jar包。前面,我们创建项目时已经勾选了自动导入,编辑完成后,IDEA就会自动下载导入spark-core相关的jar包。

上面配置完成后,就可以开始代码编写。src->scala右击新建一个scala的单例对象WordCount,代码如下:

object WordCount {
  def main(args: Array[String]): Unit = {
    val wordFile = "file:///usr/local/spark/mycode/wordcount/word.txt"
    val conf = new SparkConf().setAppName("wordcount");
    val sc = new SparkContext(conf)
    val input = sc.textFile(wordFile, 2).cache()
    val lines = input.flatMap(line=>line.split(" "))
    val count = lines.map(word => (word,1)).reduceByKey{case (x,y)=>x+y}
    val output = count.saveAsTextFile("/home/hadoop/hellospark")
  }
}

接着将上面代码打成jar包,打开Project Structure,选择Artifacts,点击右上角加号,配置jar打包信息。
Spark 运行第一个Scala程序WordCount_第5张图片
Spark 运行第一个Scala程序WordCount_第6张图片

这里有两个选项,第一个会打包依赖,这里不打包依赖,选下面一个。配置jar包完成后,Build->Build Artifacts,等待build完成。完成后会在项目下生成一个out目录,out目录下面会生成很多jar,我们生成的是sparkdemo.jar。

运行程序

在/usr/local/spark/mycode/wordcount目录下创建word.txt文件。

hello world
hello spark
my name is scala
This is my first Spark programm.
Spark is good

使用下面的命令

./bin/spark-submit --class "WordCount" /home/hadoop/Desktop/sparkdemo.jar

这里Spark依赖于Hadoop的分布式文件系统HDFS,到HDFS中查看执行结果
Spark 运行第一个Scala程序WordCount_第7张图片

你可能感兴趣的:(Spark)