SparkContext任务本地开发与服务器运行

正确启动spark的本地模式与standalone模式之后,我们进入spark项目的开发。

1.本地开发:

在IDEA中新建一个maven工程:

1)maven基础坐标如下:

  com.imooc.spark
  sql
  1.0

2)项目名称:

ImoocSparkSqlProject

3)在pom文件中修改scala与spark的版本信息


    
      org.scala-lang
      scala-library
      ${scala.version}
    
    
      org.apache.spark
      spark-sql_2.11
      ${spark.version}
    

第一次使用maven项目时,导入jar包的时间会非常久,请耐心等待

 

4)在原先创建的项目“ImoocSparkSqlProject”下,新建scala的object

SparkContext任务本地开发与服务器运行_第1张图片

package com.imooc.spark

import org.apache.spark.{SparkContext, SparkConf}
import org.apache.spark.sql.SQLContext


object SQLContextApp {
  def main(args: Array[String]) {
    val path = args(0)
    //path为放置json文件的地方

    //1.创建相应的Context
    val sparkconf = new SparkConf()

    //在生产环境中,appName与master均通过脚本指定
    sparkconf.setAppName("SQL").setMaster("local[2]")

    val sc = new SparkContext(sparkconf)
    val sqlcontext = new SQLContext(sc)

    //2.相关处理
    val people = sqlcontext.read.format("json").load(path)
    people.printSchema()
    people.show()

    //3.关闭资源
    sc.stop()

  }

}

5)运行项目

输入本地文件的地址:

SparkContext任务本地开发与服务器运行_第2张图片

SparkContext任务本地开发与服务器运行_第3张图片

得出结果:

SparkContext任务本地开发与服务器运行_第4张图片

6)部分报错:

在本地运行时可能会报错“ERROR Shell: Failed to locate the winutils binary in the hadoop binary path

这是因为window本身的原因,不影响使用,如果有强迫症,那么百度一下,解决方法很多~

 

 

2.服务器开发:

服务器上运行与本地的不同在于,运行的模式,任务名均可以由外部指定;故可以修改代码,同理,此处不注释,就放在本地指定也是ok的

1)本地代码修改与打包

    //在生产环境中,appName与master均通过脚本指定
    //sparkconf.setAppName("SQL").setMaster("local[2]")

然后打jar包,此处除了本地的main文件,其他的jar依赖包均可删除,不然jar包会太大

SparkContext任务本地开发与服务器运行_第5张图片

2)服务器运行(此处不需要打开spark客户端

spark-submit \
--name SQLContextApp \
--class com.imooc.spark.SQLContextApp \
--master local[2] \
/home/xxx/jar/ImoocSparkSqlProject.jar \
/home/xxx/app/spark-2.1.0-bin-2.6.0-cdh5.7.0/examples/src/main/resources/people.json



name:手动指定任务名
class:项目的class
master:运行模式
随后两个,一个是jar包的位置,一个是spark自己提供的示例文件的路径

此处运行则不会再报在本地运行的错误“ERROR Shell: Failed to locate the winutils binary in the hadoop binary path”了,同时得出结果

3)web端查看(此处地址为loacl模式的地址:4040端口,且手速要快,不然将还未看到信息网站就已关闭

 

SparkContext任务本地开发与服务器运行_第6张图片

最后,代码附件:https://download.csdn.net/download/h_hanwen/10797252

 

你可能感兴趣的:(spark)